Programming UNIX Sockets in C - Frequently Asked Questions: クライアントとサーバ(TCP/SOCK

2. クライアントとサーバ(TCP/SOCK_STREAM)両方に関する質問

2.1 相手側のソケットが閉じられたことをどうやって知ることができますか?

Andrew Gierth 氏 ( andrew@erlenstar.demon.co.uk) より:

私の知る限り…

相手側が (SO_LINGER を使ったややこしいことをしないで) close() するか終了したとすると、こちらの read() の呼び出しは 0 を返すはずです。同じ場合で、write() 呼び出しで何が起こるかは、もうちょっとわかりづらいです。直後の呼び出し時ではなく、その次の呼び出し時にEPIPE が返るでしょう。

もし相手が再起動するか l_onoff = 1, l_linger = 0 を設定してから閉じたとすると、read() からは(最終的に) ECONNRESET が返るか、write() からは EPIPE が返ることになるでしょう。

さらに、write() が EPIPE を返すときは、同時に SIGPIPE シグナルも発生することを指摘しておきます。すなわち、このシグナルをハンドルするか無視しない限り、 EPIPE エラーを受け取ることは決してありません。

相手側に到達できないままになっている場合には、他のエラーが起こるでしょう。

write() が 0 を返すことは論理的にはないと思います。 read() は、相手側から FIN を受け取ったとき、そしてそれ以後の呼び出しにおいては 0 を返すでしょう。

そうです、read() が 0 を返すことに対応 しなければなりません。

例として、TCP 路からファイルを受け取っていると仮定しましょう。 read() からの返却値はこのように取り扱ってください:


rc = read(sock,buf,sizeof(buf));
if (rc > 0)
{
    write(file,buf,rc);
    /* ファイルに対するエラーチェックは省略 */
}
else if (rc == 0)
{
    close(file);
    close(sock);
    /* ファイルの取得に成功した */
}
else /* rc < 0 */
{
    /* ファイルを閉じて削除する(完全なデータではないので)
       エラーを報告する、など */
}

2.2 bind() の二番目の引数には何を与えるのですか?

man ページには "struct sockaddr *my_addr" と示されています。しかし sockaddr struct は、実際に必要な構造体の単なるプレースホルダーに過ぎず、どの種類のソケットであるかに応じて違った構造体を渡さなくてはなりません。AF_INET ソケットに対しては、 sockaddr_in 構造体が必要です。これには三つの重要なフィールドがあります。

sin_family: これを AF_INET に設定する。
sin_port: ネットワークバイト順の 16 ビットのポート番号。
sin_addr: ホストの IP アドレス。これは struct in_addr であり、それは s_addr という一つのフィールドのみを含み、それは u_long です。

2.3 あるサービス用のポート番号を得るにはどうするのですか?

getservbyname() 関数を使ってください。これは servent 構造体へのポインタを返します。あなたの興味があるのは s_port フィールドでしょう。これにはポート番号が、正しいバイト順序で入っています(つまり htons() を呼び出す必要はない)。サンプルルーチンを以下に示します。


/* サービス名とサービス種別と取って、ポート番号を返す。もしサー
   ビス名が見つからなければ、それを十進数として使おうとする。ポー
   ト番号はネットワーク用のバイト順序で返される。*/
int atoport(char *service, char *proto) {
  int port;
  long int lport;
  struct servent *serv;
  char *errpos;

  /* 最初に /etc/services から読もうとする */
  serv = getservbyname(service, proto);
  if (serv != NULL)
    port = serv->s_port;
  else { /* services にはなかった。 数字なのかな? */
    lport = strtol(service,&errpos,0);
    if ( (errpos[0] != 0) || (lport < 1) || (lport > 5000) )
      return -1; /* 不正なポート番号 */
    port = htons(lport);
  }
  return port;
}

2.4 もし bind() に失敗したら、そのソケットディスクリプタはどうすれば良いのでしょうか?

もし終了しようとしているのであれば、全ての UNIX では開いたファイルディスクリプタを終了時に閉じてくれる、ということを Andrew が保証してくれました。終了するのでなければ、通常のclose() 呼び出しによって閉じることができます。

2.5 ソケットを正しく閉じるにはどうすればよいのですか?

この質問はよく、close() しようとしている人達から尋ねられます。なぜなら、その人達はそれがするべきことだと思っていて、そして netstat を実行してそのソケットがまだ生きていることを見つけるからです。そう、close() は正しい方法です。TIME_WAIT 状態について、そしてなぜそれが重要であるかを読みたければ、 2.7 TIME_WAIT 状態について説明してください。を参照してください。

2.6 shutdown() はどういうときに使うべきなのですか?

Michael Hunter ( mphunter@qnx.com) 氏より:

shutdown() は、TCP を使ってサーバへ要求を送ることをいつ終了したのか、の線引きをするのに便利です。典型的な使い方は、サーバに要求を送り、続けて shutdown() を行なうことです。サーバはあなたの要求を受け取り、続けて EOF (ほとんどの UNIX の実装では 0 バイトの read)を受け取るでしょう。これは、それであなたの要求が全てである、ということをサーバに伝えます。そしてあなたはそのソケットの読み出しでブロックします。サーバはあなたの要求を処理し、必要なデータをあなたに送り返し、続けて close します。あなたがその要求に対する応答を全て読み出した後は、あなたは全ての応答を受け取ったということを示す EOF を読み出すことになるでしょう。 TTCP (TCP for Transactions -- R.Stevens 氏のホームページを参照) は TCP トランザクションの管理のより良い方法を提供しているということは憶えておくべきです。

S.Degtyarev ( deg@sunsr.inp.nsk.su) 氏はこれについて、とても良い徹底的なメッセージを書いてきてくれました。彼は、一方が「読み出し」プロセス、もう一方が「書き込み」プロセスであるときのクライアントプロセスの同期を手助けする shutdown() の使い方の実用的な例を示してくれました。彼のメッセージの一部を以下に示します。

ソケットは、データ転送とクライアント、サーバ間のトランザクションに使われるという点でパイプと非常に似ていますが、双方向であるところがパイプと異なっています。ソケットを使うプログラムはよく fork() し、各プロセスはソケットディスクリプタを継承します。パイプベースのプログラムでは、データの喪失とデッドロックを避けるために、パイプの使用されていない側の終端を全て閉じて、そのパイプラインを一方向にすることが強く推奨されています。ソケットでは、一方のプロセスに送信だけを許し他方を受信だけを許す、という方法はないので、常に順序関係を心に留めておく必要があります。

一般的に close() と shutdown() との違いは以下のような点です。close() はそのプロセスのソケット ID は閉じますが、他方のプロセスがそのソケット ID を共有しているならば、このコネクションは開いたままです。このコネクションは読み出し、書き込みの両方に対して開いたままであり、そしてこれが非常に重要になる時があるのです。shutdown() はそのソケット ID を共有している全てのプロセスのコネクションを破棄します。read しようとしたものは EOF を検出し、write しようとしたものは SIGPIPE を受け取るでしょう。これはおそらくカーネルのソケットバッファが一杯になってから遅れて発生します。それに加えて、shutdown() にはどのようにコネクションを閉じるかを示す二番目の引数があります: 0 はそれ以降の読み出しを無効にする意味であり、1 は書き込みを無効にし、2 は両方を無効にします。

以下の簡単な例は、非常に単純なクライアントプロセスの一部です。これはサーバとのコネクションを確立した後に fork します。そして子は EOF を受け取るまでキーボード入力をサーバに送り、親はサーバからの返事を受け取ります。


/*
 *      サンプルクライアントの断片
 *      変数宣言とエラー処理は省略
 */
        s=connect(...);

        if( fork() ){   /*      子は、標準入力を
                                ソケットにコピーする            */
                while( gets(buffer) >0)
                        write(s,buf,strlen(buffer));

                close(s);
                exit(0);
                }

        else {          /* 親は、返事を受け取る */
                while( (l=read(s,buffer,sizeof(buffer)){
                        do_something(l,buffer);

                /* サーバからのコネクション切断を期待している   */
                /* 注意: ここでデッドロックする                 */
                wait(0); /* 子の終了を待つ                      */
                exit(0);
                }

これは何を期待しているのでしょうか? 子は標準入力から EOF を検出し、そのソケットを close し(コネクションが破棄されると仮定する)、そして終了します。一方サーバは EOF を検出し、コネクションを closeして終了します。しかしその代わりに何を見ることになるでしょうか? 親プロセスのソケットインスタンスは、その親が書き込むことは無いにも関わらず、書き込み、読み出しに対して開いたままになってしまいます。サーバは EOF を検出することは決して無く、クライアントからのさらなるデータを永遠に待ち続け、サーバもハングします。なんと予想外のデッドロック! (まあ、どんなデッドロックも予想外のものだけど :-)

このクライアントの一部は以下のように変更すべきです。


                if( fork() ) {  /* 子                            */
                        while( gets(buffer) }
                                write(s,buffer,strlen(buffer));

                                shutdown(s,1); /* 書き込み用のコ
        ネクションを切断する。ここでサーバは EOF を検出する。注: 
        ソケットからの読み出しはまだできる。サーバは EOF 受信後
        にももっと何かデータを送ってくるかもしれない、でしょ? */
                        exit(0);
                        }

この大まかな例で、クライアント、サーバの同期について起こりうるトラブルの説明になっていることを願っています。一般に、ソケットを共有する全てのプロセスにおいて、ある特定のソケットのインスタンス全てを常に憶えておいて、close() を使いたいときは全部同時に閉じるか、あるいはコネクションを破棄するためにあるプロセスの中でshutdown() を使わなければなりません。

2.7 TIME_WAIT 状態について説明してください

TCP は、全ての転送データを可能な限り配送することが保証されている、ということを思い出してください。ソケットを閉じたとき、サーバは、全てのデータが届いたことを本当に本当に間違いなく確認するために、 TIME_WAIT 状態に入ります。ソケットが閉じられると、両側からお互いにメッセージを送りあうことによって、これ以上はもう送るデータが無いということを合意します。私にはそれで十分だと思えたのですが、このハンドシェイクが終わった後にソケットが閉じられなければならないのです。問題は二つにまとめられます。第一に、最後の ACK が通信に成功したことを確認する方法がないこと、第二に、「漂流中の重複パケット」がネットワーク上に残っているかも知れないことで、これが配送されたときに対処しなければならないのです。

Andrew Gierth 氏 ( andrew@erlenstar.demon.co.uk) から以下に示す usenet 投稿で、クローズ手順の説明を補足していただきました:

コネクションが ESTABLISHED 状態で、クライアントが通常の開放を行なおうとしていると仮定しましょう。クライアントのシーケンス番号は Sc で、サーバのシーケンス番号は Ss です。パイプはどちらの向きも空です。


   Client                                                   Server
   ======                                                   ======
   ESTABLISHED                                              ESTABLISHED
   (client が close する)
   ESTABLISHED                                              ESTABLISHED
                <CTL=FIN+ACK><SEQ=Sc><ACK=Ss> ------->>
   FIN_WAIT_1
                <<-------- <CTL=ACK><SEQ=Ss><ACK=Sc+1>
   FIN_WAIT_2                                               CLOSE_WAIT
                <<-------- <CTL=FIN+ACK><SEQ=Ss><ACK=Sc+1>  (server が close する)
                                                            LAST_ACK
                <CTL=ACK>,<SEQ=Sc+1><ACK=Ss+1> ------->>
   TIME_WAIT                                                CLOSED
   (2*msl 時間経過...)
   CLOSED

注: シーケンス番号の +1 は FIN が 1 バイトのデータであると数えられるため(上記の図は RFC 793 の図13 と同一のものです)。

さてここで、この中の最後のパケットがネットワーク中で落ちてしまったときに何が起こるかを考えてみましょう。クライアントはコネクションを終了しています。すなわちこれ以上送るべきデータも制御情報もなく、受け取ることもありません。しかしサーバは、クライアントが全てのデータを正しく受け取ったかどうかを知らないのです。最後の ACKセグメントはそのためのものです。さて、サーバにとっては、クライアントがデータを受け取ったかどうかは 気にしない かも知れませんが、それは TCP の関知するところではありません。TCP は信頼性のあるプロトコルですから、全てのデータが転送された通常のコネクション クローズ と、データが失われたかもしれないコネクション中断 は区別 しなければなりません。

ですから、最後のパケットが落ちてしまうと、サーバはそれを再送し (つまりそれが確認されていないセグメントだから)、正しい ACKセグメントの応答がくることを期待します。もしクライアントがCLOSED 状態に直行していたとすると、その再送セグメントに対するただ一つの可能な応答は RST であり、これは実際にはデータが失われていないのに、データが失われたとサーバに示してしまうのです。

(サーバからの FIN セグメントには、データが付加されているかも知れないということを思い出してください。)

免責: これは RFC (私が見つけた TCP 関連のもの全て) に対する私の解釈で、これを確認するために実装のソースコードを調べたり、実際のコネクションをトレースしたりしたことはありません。ですが、私はこのロジックが正しいことで満足しています。

さらに Vic からの注釈:

二番目の問題について Richard Stevens 氏( rstevens@noao.edu "Unix Network Programming" の著者。 1.6 [ある本の題名] という本のソースコードはどこから取得できますか? を参照) からお話を頂いています。これについて説明している彼の投稿とメールからの引用を一緒に掲載しておきます。別々の投稿記事からの段落を一緒にしてますが、できる限り原文のままにしてあります。

Richard Stevens 氏 ( rstevens@noao.edu) より:

TIME_WAIT 状態の期間が単に TCP の全二重クローズを扱うためだけであったのなら、その時間はもっと短くなるでしょう。それは MSL(パケット生存時間) ではなく、現在の RTO (再送タイムアウト) の機能になります。

TIME_WAIT 状態についていくつか論点を述べます。

最初に FIN を送った方の端が TIME_WAIT 状態に入ります。それはそっちの端が最後の ACK を送る方の端になるからです。もし他方の端からの FIN が失われた場合、あるいは最後の ACK が失われた場合は、最初の FIN を送った側の端にコネクションの状態を管理させ、最後の ACK を再送させるために必要な情報を持っていることを保証します。
TCP のシーケンス番号は、 2**32 バイトが転送されると一周してしまうことを十分理解してください。例えば A.1500 (ホスト A、ポートが 1500) と B.2000 の間にコネクションがあるとします。このコネクションの途中で、あるセグメントが失われて再送されました。しかしそのセグメントは本当に失われたのではなく、どこか途中のルータで保留され、そしてネットワークに再注入されるのです(これは「漂流中の重複」 "wandering duplicate" と呼ばれます)。しかしパケットが失われているときと再送したときの間の時間に、再びそれが現れてコネクションが(何の問題もなく)クローズされ、そして別のコネクションが同じホスト、同じポートの間で確立してしまいます(つまり A.1500 と B.2000 の間。これはそのコネクションの「生まれ変わり」と呼ばれます)。しかし、その新しい生まれ変わりのコネクション用のシーケンス番号に、まさに再登場しようとしている漂流中の重複パケットのシーケンス番号と重なるものが選ばれてしまいました(これは実際に、TCP コネクションにシーケンス番号を与えるある方法では起こり得ます)。その通り、あなたは今、漂流中の重複(そのコネクションの前世)から、新しいコネクションにデータを受け渡そうとしているのです。これを避けるには、同じコネクションの生まれ変わりの再確立を、TIME_WAIT 状態が終わるまで許してはいけません。 TIME_WAIT 状態はこの二番目の問題を完全には解決してくれないけれども、TIME_WAIT 抹殺と呼ばれるものを与えてくれます。RFC 1337 に詳細があります。
TIME_WAIT 状態の期間が 2*MSL である理由は、パケットがネットワーク中を漂っている最大時間が MSL 秒であると仮定されているからです。2 という係数は往復時間のためです。MSL の推奨値は 120 秒ですが、Berkeley 派生の実装では通常 30 秒が使われています。これはつまり TIME_WAIT 遅延は 1 分から 4 分の間ということです。 Solaris 2.x では実際、120 秒の推奨 MSL を使用しています。

漂流中の重複パケットは、喪失したと思われて再送されたパケットです。しかしそれは本当に喪失したのではなく…どこかのルータに問題が起きて、そのパケットをしばらくの間(秒のオーダ、TTL が十分大きければ一分も有り得る)保留して、そしてそのパケットをネットワークに再注入します。しかしそれが再登場した時にはすでに、元のパケットを送信したアプリケーションは、そのパケットに含まれているデータを再送しているのです。

TIME_WAIT 抹殺に関するこれらの潜在的な問題のために、TIME_WAIT 状態を避けようとしては いけません 。つまり、通常の TCP コネクション終了 (FIN/ACK/FIN/ACK) の代わりに SO_LINGER オプションを設定して RST を送ってはいけません。TIME_WAIT 状態があるのには理由があるのです。それはあなたのお友達であって、あなたを助けるためにあるのです :-)。

私はこの話題だけのために、出版されたばかりの私の "TCP/IP Illustrated, Volume 3" の中で長い議論を行なっています。TIME_WAIT 状態は実際、TCP の機能の中で最も誤解されているものの一つです。

私は現在 "Unix Network Programming" ( 1.6 [ある本の題名] という本のソースコードはどこから取得できますか? を参照) を書き直しています。そして、しばしば混乱し誤解されるこの話題についてさらに多く触れるつもりです。

Andrew による追記:

ソケットのクローズについて: もし SO_LINGER がソケットに対して呼び出されていなければ、close() はデータを捨てることはないはずです。これは SVR4.2 では(そしておそらく、SVR4 以外の全てのシステムでも)真実ですが、SVR4 ではおそらくそうではないようです。すなわち、全てのデータの配送を保証するためには、 shutdown() か SO_LINGER のどちらかを使用する必要があるようです。

2.8 相手側が死んだことを検出するのにどうしてこんなに時間がかかるのですか?

Andrew Gierth 氏 ( andrew@erlenstar.demon.co.uk) より:

それはデフォルトでは、送るべきデータや確認がない限り、TCP コネクションに送られるパケットはないからです。

つまり、もしあなたが相手からのデータを単純に待っているとすると、相手側が黙ってどこかに行ってしまったのか、単に次のデータを送る準備がまだできていないのかを知る方法はないのです(特に相手側が PC で、ユーザがあの「でっかいスイッチ」にぶつかってしまったりすると…)。

一つの解決法は SO_KEEPALIVE オプションを使うことです。このオプションはコネクションの定期的な診断を有効にし、相手側が存在することを保証します。警告: このオプションのデフォルトのタイムアウトは 最低 2 時間 です。このタイムアウトは(システム依存の方法で)変更できることもよくありますが、しかしそれは通常コネクション毎ではありません(私の知る限り)。

RFC1122 は、このタイムアウトを(もし存在すれば)変更可能とすべきだと規定しています。メジャーな UNIX の種類においては、この変更は大域的にしか行なうことできず、keepalive が有効になっている全ての TCP コネクションに影響があります。さらに、この値を変更する方法は、たいてい難しく、文書化もあまりされておらず、とにかく存在するバージョン毎に対してさえも異なっているのです。

もしあなたがこの値を変更しなければならないのなら、カーネルコンフィグレーションかネットワークオプションコンフィグレーションの中から、 tcp_keepidle かそれに似たようなものを探してみてください。

しかし、もしあなたが相手側に 送信して いるのであれば、もっとよい保証があります。それは、データを送るということは相手側からの ACK を受け取るということを意味しているので、相手側がまだ生きているかどうかは、再送タイムアウトが過ぎた後に知ることができるでしょう。しかし再送タイムアウトはさまざまな不測の事態があることを想定して設計されているので、ちょっとしたネットワークの混乱だけでは単純に TCP コネクションが落ちないようになっています。ですから送信失敗の通知を受け取るには、それでも数分の遅延があると思ってください。

現在 Internet 上で使用されている多くのアプリケーションプロトコル (例えば FTPや SMTP など)で取られている方法は、サーバ側で読み出しタイムアウトを実装することです。つまりサーバは、ある与えられた時間(しばしば 15分の単位で)クライアントからの要求を受け取らなかった場合には、単純にそのクライアントに見切りをつけます。長い期間のアイドル時間を維持するコネクションをもつプロトコルであっても、二つの選択があります:

SO_KEEPALIVE を使う
上位レベルでの keepalive 機構を使う(時折サーバに空要求を送るなど)

2.9 select()、非ブロック I/O、SIGIO の利点、欠点は何ですか?

非ブロック I/O を使うということは、ソケットから読み出すべきデータがあるかどうかを見るために、ソケットをポーリングしなければならないということです。

SIGIO を使うことで、あなたのアプリケーションにするべきことをさせ、オペレーティングシステムにソケットに待っているデータがあるということを(シグナルによって)教えさせることができます。この解決法の唯一の欠点は、混乱するするかもしれないことと、複数のソケットを扱っている場合は、どのソケットからの読み出し準備ができているかを探すためにいずれにせよ select() を使わなければならない、ということです。

select() を使う方法は、アプリケーションが複数のソケットからのデータを同時に受付けなければならない場合には最良の方法です。これは複数ソケットのうちどれか一つのデータの準備ができるまでブロックするからです。select() を使うもう一つの利点は、いずれかのソケットにデータがあるかどうかに関わらず、あなたに制御が戻ってくるまでのタイムアウト値を設定することができる、という点です。

2.10 どうして read() から EPROTO が返ってくるのでしょうか?

Steve Rago 氏 ( sar@plc.com) より:

EPROTO はその終端において、そのプロトコルが回復不可能なエラーに出会ったことを意味しています。EPROTO は、STREAMS ベースのドライバにおいて、他に良いコードがない場合に返される「何でもあり」のエラーコードの一つです。

Andrew ( andrew@erlenstar.demon.co.uk) からの追記:

read() からの EPROTO に対してできることはほとんどありませんが、ある STREAMS ベースの実装において、accept 処理完了前にコネクションがリセットされたときに、 accept() から EPROTO が返されるというものを見つけたことがあります。

別のある実装においては、もしそれが起こった場合には accept がブロックする可能性があるようでした。これは重要なことです。なぜなら、もし select() が listen 中のソケットが読み出し可能であると返してきたのなら、あなたは普通 accept() 呼び出しの中でブロックするとは予期 しない でしょうから。この修正はもちろん、 listen 中のソケットに対して select() を使おうとしている場合には、そのソケットを非ブロックモードに設定することです。

2.11 ソケット内のバッファにあるデータを強制的に送るにはどうすればよいのですか?

Richard Stevens ( rstevens@noao.edu) 氏より:

強制的に送ることはできません。以上。TCP がいつデータを送ることができるかは、TCP 自身が決めることです。さて、通常 TCP ソケットに対して write() を呼び出したときは、TCP は実際にそのセグメントを送信するでしょう。しかし、それは保証されてはいませんし、強制する方法もありません。なぜ TCP がセグメントを送信しないかは たくさんの 理由があります。すぐ思い付くことは、ウインドウが一杯のときと Nagle アルゴリズムの二つです。

(TCP_NODELAY を使用するという Andrew Gierth の提案から一部引用)

これを設定することは、多くのテストのうちの Nagle アルゴリズムを無効にするだけです。ですが、元記事を書いた人の問題がこれであれば、このソケットオプションを設定することが役に立ちます。

tcp_output() をちょっと眺めたところでは、セグメントを送るか否かを決めるために TCP が行なわなければならないテストは 11 くらいありました。

次は Dr. Charles E. Campbell Jr. ( cec@gryphon.gsfc.nasa.gov) 氏より:

ご推察の通り、私は Nagle アルゴリズムを無効にしても何の問題もありませんでした。これは基本的にはバッファリングの方法です。どんなに小さなパケットであっても、全てのパケットに対して一定のオーバーヘッドがあります。これのために Nagle アルゴリズムは、小さいパケットを(0.2 秒以上の遅延はないように)一緒に集めることによって、転送されるバイト数のオーバーヘッドを減らしているのです。この方法は rcp に対しては良く働きます。例えば、0.2 秒の遅延は人間にとっては気がつかないし、複数のユーザからの小さいパケットはより効率よく転送されます。ほとんどのネットワーク利用者たちが、rcp や ftpといった標準のツールや、 telnet などのプログラムを使っているような、大学での環境の従業員は使うかもしれませんね。

しかしながら、Nagle アルゴリズムは実時間制御に対しては完全にぶち壊しであり、キー入力対話型アプリケーション(コントロール C とか、他にもある?) に対しては良くありません。私には、人々が通常ソケットを使って新しく書く類のプログラムでは、この小パケット遅延は問題であるように思えます。Nagle アルゴリズムを選択的に無視する一つの方法は「帯域外」メッセージを使うことです。しかし、これはその内容に制限があるし、他にも(順序が失われるといったような)影響があります(なお、ctrl-C に対しては帯域外メッセージもよく使われます)。

さらに Vic より:

というわけで全てをまとめると、何か問題があってソケットをフラッシュする必要があるときは、通常 TCP_NODELAY オプションを設定することで問題は解決するでしょう。これで解決しない場合には帯域外メッセージを使用する必要があります。しかし Andrew は次のように述べています:「帯域外データはそれ独自の問題があり、バッファリング遅延を解決するのにあまりうまく働くとは思えません(まあ、試したことはないけど)。これは他のプロトコルに存在するような意味での「速効データ」では ありません。これは通常の流れの中で転送されていて、それがある場所をポインタによって示されているだけなんです。」

私は Andrew に「TCP はいつネットワークにデータを書き出すのかについて、どんな約束があるのか? 」という趣旨の質問をしました。この質問に対する彼の返事を書きます。

約束事はたくさんはありませんが、でもいくつかあります。

これに関する章と一節を引用していきます。

参考文献:

RFC 1122, "Requirements for Internet Hosts" (also STD 3)
RFC 793, "Transmission Control Protocol" (also STD 7)

ソケットインターフェースは TCP PUSH フラグへのアクセスは提供しません。
RFC1122 (4.2.2.2)にはこうあります: TCP は SEND 呼び出し時の PUSH フラグを実装している「かもしれません」。PUSH フラグが実装されていなければ、TCP の送信は (1) 無期限にデータをバッファリングしてはならない。そして (2) 最後のバッファリングされたセグメント中の PSH ビットを設定「しなければならない」 (すなわち、もうそれ以上送られるべきデータがキューにない場合)。
RFC793 (2.8) にはこうあります: 受信側の TCP が PUSH フラグを見つけたならば、そのデータを受信プロセスに渡す前に、それ以上送信側 TCP からのデータを待ってはならない。 [RFC1122 ではこの文章を支持しています。]
従って、write() 呼び出しに渡されたデータは、プロトコル上の理由で妨げられない限り、有限時間内に相手側に必ず配送されます。
データの送信時には、遅延を引き起こすことがある約 11 のテストが行われます(FAQ で引用されている Stevens の投稿による [ この答えの前の方にあります - Vic])。しかし私が見たところ、重要なものは二つだけです。それは再送時間の引き延ばしのようなものは a) プログラマから制御できない b) 有限時間内に解決するかコネクションが落ちるかのどちらかしかない、からです。

一つ目の興味深い場合は「ウインドウが一杯」の場合です(すなわち、受信側にバッファスペースがない場合。これは無期限のデータ遅延が有り得ます。しかしこれは、受信側のプロセスが到着したデータを本当に読んでいない場合だけです)。

Vic の質問:

なるほど、クライアントが読み出ししていなければ、データがコネクションを渡っていかないということはよくわかります。これは受信側のキューが一杯になった後には送信側がブロックしてしまう、という意味だと私は受け取りましたが?

送信側は、ソケットの送信バッファが一杯になった時にブロックします。つまり両端においてバッファは一杯になります。

ウインドウが閉じている間、送信側の TCP はウインドウ探索パケットを送ります。これで、ウインドウがいつか再び開いた時に、送信側がその事実を検出することが保証されます。[RFC1122, ss 4.2.2.17]

二つ目の興味深い場合は「Nagle アルゴリズム」です(相手側からのACK が予想される時は、キー入力のような短いセグメントは遅延されてより大きなセグメントを作ります。これが TCP_NODELAY で無効にできることです)。

Vic が質問します:

それはつまり、私の tcpclient のサンプルプログラムでは、送信時に改行コードを間違いなくネットワークに送り出すことを保証するために TCP_NODELAY を設定すべきだ、という意味でしょうか?

いいえ。tcpclient.c は今のままで正しいことを行なっています。つまり、できる限り少ない write() の呼び出しで可能な限りたくさんのデータを書き込もうとしているということです。データの量はソケットの送信バッファに比べて小さくなりそうなのだから、(コネクションはこの時点ではアイドル中なのだから)全要求はただ一度の write() の呼び出しだけしか必要としないでしょうし、TCP 層はその要求を一個のセグメントとして(PSH フラグによって。上記の 2.2 の点を参照)即座に発送するでしょう。

Nagle アルゴリズムはデータの到着確認がまだされていないうちに二番目の write() 呼び出しが行われた時にのみ影響があります。通常の場合このデータは、a) 到着未確認のデータがなくなった、あるいは b) 満タンの大きさのセグメントを発送するために十分なだけのデータが用意された、のいずれかになるまでバッファに留められます。条件 (a) は再送タイムアウト内に必ず真になるか、そうでなければコネクションが死ぬので、この遅延が無期限となることは有り得ません。

この遅延はある種のアプリケーション、一般には例えばマウス動作のように、応答の無い短い要求が送られているストリームがあるアプリケーションにとっては嬉しくない結果をもたらすので、規格ではこれを無効にするオプションが存在しなければならないと規定しています。 [RFC1122, ss 4.2.3.4]

追記: RFC1122 ではこうも書いてあります:

[議論]:: SEND 呼び出しにおける PUSH フラグが実装されていない時、すなわちアプリケーション/TCP インターフェースが純粋なストリーミングモデルを使っている時は、小さなデータの断片を適当に集めて手頃な大きさのセグメントを作り上げる責任の一部は、アプリケーション層に負ってもらいます。

というわけで、プログラムは、小さな長さのデータ(つまり、MSS に比べて小さな、ということですが)で write() を呼び出すのは避けるべきです。つまり、バッファの中で要求を組み立てて、そして sock_write() かそれと同様のものを一回呼び出す方が良い、ということです。

他に有り得る TCP の遅延の源はプログラムによって制御することは全くできず、一時的にデータを遅延させるしかありません。

Vic が質問します:

一時的に、とは、データはできる限り早く届けられるということで、一方が応答を待っていて他方がその要求を受信していないという時点で止まってしまうことは決してない、という意味でしょうか? (あるいは、少なくとも永遠に止まってしまうことはない?)

もしあなたが何とかして両方の向きのバッファを全て一杯にすればデッドロックすることができますが... 簡単じゃないです。

もしそうすることが可能であるなら(いい例を思いつけないんだけど)、解決法は、特に書き込みのために非ブロックモードを使うことです。そうすれば必要に応じて超過データをプログラム中でバッファできます。

2.12 ソケットプログラミングのためのライブラリはどこから入手できますか?

Charles E. Campbell, Jr. PhD. 氏と Terry McRoberts 氏による簡単なソケットライブラリがあります。それは ssl.tar.gz というファイル名で、この FAQ のホームページからダウンロードできます。C++ 用にはSocket++ というライブラリがあり、 ftp://ftp.virginia.edu/pub/socket++-1.10.tar.gz にあります。また C++ Wrapper というのもあります。これは ftp://ftp.huji.ac.il/pub/languages/C++/C++_wrappers.tar.gz というファイルです。Bill McKinnon 氏へ、これを見つけてくれてありがとう! http://www.cs.wustl.edu/~schmidt からは、ACE ツールキットを見つけることができるでしょう。PING Software Group はその他のものの中にソケットインタフェースを含むライブラリを持っています。この Web サイトへの私のリンクは古くなっていて、新しいサイトがどこにあるかわかりません。もし見つけたら私にメールを送ってください。

Philippe Jounin 氏は、http とftp その他のプロトコルのための上位レベルサポートを含んでいるクロスプラットフォームライブラリを開発しています。これは http://perso.magic.fr/jounin-ph/P_tcp4u.htm で見つけることができます。これの評価は http://www6.zdnet.com/cgi-bin/texis/swlib/hotfiles/info.html?fcode=000H4F で見ることができます。

私はこれらのライブラリのどれも使った経験はないので、どれかを推薦することはできません。

2.13 select はデータがあると言っているのに read が 0 を返すのはどうしてでしょうか?

select から戻ってくるのは、相手側がコネクションを閉じたことによっる EOF というデータがあるからです。このとき read は 0 を返します。さらなる情報は 2.1 相手側のソケットが閉じられたことをどうやって知ることができますか? を参照してください。

2.14 select() と poll() の違いは何ですか?

Richard Stevens 氏 ( rstevens@noao.edu)より:

基本的な違いは、select() の fd_set はビットマスクであって、それゆえに固定サイズであるということです。カーネルのコンパイル時にこのサイズの制限を外し、アプリケーションに必要なだけ FD_SETSIZE で定義できるようにすることは可能ですが、たくさんの作業が必要になります。4.4BSD のカーネルと Solaris のライブラリ関数の両方にはこの制限があります。しかし、BSD/OS 2.1 にはこの制限を避けるようにコードされているのを見つけました。ですからそれはできます。小さなプログラミング上の問題です :-)。誰か Solaris のバグレポートにこれを登録してみて、それが修正されるかどうかを見てみるといいですね。

しかし poll() では、ユーザは pollfd 構造体の配列を割り当ててなければなりません。そしてこの配列のエントリの数を渡すので、根元的には上限はありません。Casper が言及しているように、 poll() を持つシステムは select よりも少ないので、後者の方が移植性は高いです。また、オリジナルの実装(SVR3)では、ディスクリプタに -1 を設定することでカーネルに pollfd 構造体の中のエントリを無視させることができませんでした。これは配列の中からエントリを削除するのが面倒になります。SVR4 ではこれは回避されました。個人的には、私はいつも select() を使い、poll()は滅多に使いません。それは私のコードを BSD 環境にも移植するからです。誰かが select() を使った poll() の実装を書いているかもしれませんが、私は見たことがありません。select() と poll() は両方とも POSIX 1003.1g によって標準化されています。

2.15 ソケットを通して [あるデータ型] を送るにはどうするのですか?

単純バイト列のデータ以外はおそらく、あなたが面倒を見てあげない限りめちゃくちゃにされてしまいます。整数値には htons() かその仲間を使うことができますし、文字列は実際正に単純バイト列の集まりなので、これらは OK のはずです。ですが文字列のポインタを送らないように注意してください。それはポインタは別のマシンでは意味を持たないからです。もし構造体を送る必要があるのなら、一方でその構造体を分解し、他方でそれを元通りに戻すための全ての作業を行なう send何とかstruct() と read何とかstruct() 関数を書くべきです。浮動小数点数を送る必要があるのなら、さらにたくさんの仕事が待ち構えています。一方のマシンから他方にデータを持っていくための移植性のある方法について述べている RFC 1014 を読むべきでしょう (これを指摘してくれた Andrew Gabriel 氏に感謝します)。

2.16 TCP_NODELAY はどうやって使うのですか?

まず第一に、そもそも本当にそれを使いたいのかを考えてください。これは Nagle アルゴリズム ( 2.11 ソケット内のバッファにあるデータを強制的に送るにはどうすればよいのですか? 参照) を無効にします。これは不必要に小さなパケットで帯域を消費し、ネットワークトラフィックを増加させてしまいます。さらに、私から言える限りでは、速度はごく僅かしか向上しないので、まず TCP_NODELAY 無しで行なって、それで問題があった時にのみオンにするべきでしょう。

以下がコードの例と、Andrew Gierth 氏による使用上の注意です:


  int flag = 1;
  int result = setsockopt(sock,            /* 影響するソケット */
                          IPPROTO_TCP,     /* TCP レベルのオプション設定 */
                          TCP_NODELAY,     /* オプションの名前 */
                          (char *) &flag,  /* このキャストは歴史的な
                                                  汚点 */
                          sizeof(int));    /* オプション値の長さ */
  if (result < 0)
     ... エラーの処理 ...

TCP_NODELAY は、Nagle バッファリングアルゴリズムを無効にするという、特定の 目的のためのものです。これは、タイムリーなデータ配送が要求される場面で、頻繁に発生する小さな情報を即座の応答を得ること無しに送信するアプリケーションにおいてのみ設定するべきです(模範的な例はマウスの移動)。

2.17 Nagle アルゴリズムとは正確には何をやっているのですか?

これはコネクションの相手側からの ACK データをできる限りたくさん一緒にまとめるものです。これは Andrew Gierth 氏 ( andrew@erlenstar.demon.co.uk) が以下に示す図を書いて説明してくれるまでは、非常に混乱させられるものだと悟っていました:

この図は完全を目指したものではなく、より分かりやすく説明するためのものです...

場合 1: クライアントは一回の write() 呼び出しで 1 バイト書き込む場合。ホスト B 側のプログラムはこの FAQ の例にある tcpserver.c です。


      CLIENT                                  SERVER
APP             TCP                     TCP             APP
                [コネクション設定は省略]

 "h" --------->          [1 byte]
                    ------------------>
                                           -----------> "h"
                                   [ack の遅延]
 "e" ---------> [Nagle アルゴ            .
                 リズム実施中]           .
 "l" ---------> [同上]                   .
 "l" ---------> [同上]                   .
 "o" ---------> [同上]                   .
 "\n"---------> [同上]                   .
                                         .
                                         .
                       [ack 1 byte]
                    <------------------
                [キューのデータを
                送信]
                        [5 bytes]
                    ------------------>
                                          ------------> "ello\n"
                                          <------------ "HELLO\n"
                   [6 bytes, ack 5 bytes]
                    <------------------
 "HELLO\n" <----
              [ack の遅延]
                 .
                 .
                 .   [ack 6 bytes]
                    ------------------>

全セグメント数: 5 (もし TCP_NODELAY が設定されていたら、最大 10 までになることがある)。応答の時間: 2*RTT に加えて ack の遅れ分。

場合 2: クライアントは全部のデータを一回の write() 呼び出しで書き込む場合。


      CLIENT                                  SERVER
APP             TCP                     TCP             APP
                [コネクション設定は省略]

 "hello\n" --->          [6 bytes]
                    ------------------>
                                          ------------> "hello\n"
                                          <------------ "HELLO\n"
                   [6 bytes, ack 6 bytes]
                    <------------------
 "HELLO\n" <----
            [ack の遅延]
                 .
                 .
                 .   [ack 6 bytes]
                    ------------------>

全セグメント数: 3。

応答時間 = RTT (つまり最小限)。

これで多少分かりやすくなれば良いのですが...

場合 2 においては、実装が勝手にデータの送信を遅延させて欲しくないということに注意してください。それは応答時間にそのまま追加されてしまうからです。

2.18 read() と recv() の違いは何ですか?

Andrew Gierth 氏 ( andrew@erlenstar.demon.co.uk)より:

read() は recv() の flags パラメータに 0 を与えたものと同一です。flags パラメータに他の値を与えると recv() の振る舞いが変わります。同様に、write() は flags == 0 のときの send() と同一です。

send()/recv() が消えて無くなることはないでしょう。どなたか、ソケット呼び出しに関する POSIX のドラフトのコピーを持ってるならおそらく確認できると思いますが...

移植性上の注意: UNIX 以外のシステムでは、ソケットに対する read()/write() は許されていないものがあるかもしれませんが、recv()/send() は普通 OK です。これは例えば、Windows と OS/2 において成り立ちます。

2.19 send()/write() が SIGPIPE を発生することがあるのは分かりました。これを無視して EPIPE エラーをチェックする方法ではなく、シグナルによって取り扱うのには何か利点があるのですか? シグナルを捕捉する関数には何か便利なパラメータが渡されるのですか?

Andrew Gierth 氏 ( andrew@erlenstar.demon.co.uk) より:

一般的に、シグナルハンドラに渡されるパラメータは、それが呼び出される原因となったシグナル番号だけです。システムによっては付加的なオプションパラメータを持っていますが、この場合においてはあなたの役には立ちません。

私のアドバイスは、あなたがおっしゃるように SIGPIPE を単に無視することです。それが、私のほとんど全てのソケットのコードでやっていることです。errno の値はシグナルを取り扱うよりも簡単なのです (実際、この FAQ の最初の版においては、この文脈での SIGPIPE について言及するのを忘れていました。私はそれを無視するのに慣れすぎてしまってたので...)。

SIGPIPE を無視するべき ではない 状況が一つあります。 stdout をソケットにリダイレクトして他のプログラムを exec() しようとしている場合です。この場合はおそらく exec() する前に SIGPIPE を SIG_DFL に設定する方が賢いです。

2.20 chroot() した後の socket() の呼び出しが失敗します。どうして?

Andrew Gierth 氏 ( andrew@erlenstar.demon.co.uk) より:

ソケットが STREAMS 上で実装されているシステム(例えば SysV ベースのシステム全て、たぶん Solaris を含む)では、socket() 関数は実は /dev 内のある特殊ファイルをオープンします。擬似 root ディレクトリの下に /dev を作成して、必要なデバイスノード(のみ)を移住させる必要があるでしょう。

あなたのシステムの文書は、どのデバイスノードが必要であるかを正確に規定しているかも知れませんし、していないかも知れません。私はお助けできません(ごめんね)。 (編集者注: Adrian Hall 氏( adrian@hottub.org)) は ftpd の man ページを確認することを提案しています。これには chroot された環境にコピーする必要のあるファイルと作成する必要のあるデバイスがリストされているはずです。)

chroot() の目立たない問題は、多くのデーモンが行なうように syslog() を呼び出す場合、syslog() は (システムによって) UDP ソケットか FIFO か UNIX ドメインソケットのどれかをオープンします。ですから chroot() 呼び出しの後にそれを使うには、 chroot の *前に* openlog() を呼び出すことを忘れないでください。

2.21 どうしてソケット呼び出しから EINTR が返されてしまうのでしょうか?

これは終了状態のような本当のエラーではありません。これはつまり、この呼び出しがシグナルによって割り込まれたという意味です。ブロックする可能性のある呼び出しは全て、コード例 ( 7. Sample Source Code参照)で行なっているように EINTR をチェックするループで包み込むべきです。

2.22 アプリケーションには、いつ SIGPIPE が発生するんですか?

Richard Stevens 氏 ( rstevens@noao.edu) より:

とても簡単です: TCP では、コネクションのあなた側の端が、他端からの RST を受信した時に SIGPIPE が発生します。これはまた、 write の代わりに select を使っているのなら、select はそのソケットが読み出し可能であることを示す、ということも意味しています。それは RST があなたに読み出されるためにそこにあるからです (read は errno に ECONNRESET を設定してエラーを返すでしょう)。

RST は基本的に、予期されていない、他に取り扱いようがないパケットに対する TCP の応答です。よくある場合は、相手が(あなたに FIN を送って)コネクションをクローズしたのに、あなたが読み出し中ではなく書き込み中であったためにそれを無視してしまった時です。(あなたは select を使っているべきです。) というわけで、あなたは相手側の端によってクローズされてしまったコネクションに書き込んでしまい、相手側端の TCP は RST の応答を返すのです。

2.23 ソケット例外とは何ですか? 帯域外データとは何でしょうか?

C++ の例外とは異なり、ソケット例外はエラーが起こったということを示しているのではありません。ソケット例外は通常、帯域外データが到着しているということの通知を意味しています。帯域外データ(TCP では「緊急データ」"urgent data" と呼ばれる)はアプリケーションにとっては、メインのデータストリームとは別のストリームであるように見えます。これは二つの違った種類のデータを分離するために便利なことがあります。ただそれが「緊急データ」と呼ばれていても、それが通常の帯域のデータストリームのデータより早く、あるいは高い優先度で配送されるわけではない、ということに注意してください。また、メインデータストリームとは違って、帯域外データはアプリケーションが追いつかないと失われる可能性があるということにも注意してください。

2.24 実行されているシステムのホストのフルネーム (FQDN) はどうすればわかるのでしょうか？

Richard Stevens 氏 ( rstevens@noao.edu) より:

システムによってはホスト名は FQDN に設定されているし、別のシステムではただの未修飾のホスト名が設定されます。現在の BIND FAQ は FQDN を推奨しているということは知っているのですが、例えば多くの Solaris システムでは未修飾のホスト名のみを使う傾向があります。

とにかくこれを回避する方法は、まずホストの名前(FQDN かも知れないし、未修飾名かも知れない)を取得します。多くのシステムではこれを行なうのに、 uname() を使うという POSIX 流の方法をサポートしていますが、古い BSD システムでは gethostname() しか提供していません。次に gethostbyname() を呼び出してあなたの IP アドレスを見つけます。そしてその IP アドレスを取って gethostbyaddr() を呼び出します。すると hostent{} の h_name メンバーは FQDN であるはずです。

Previous Next Table of Contents