移動先先頭, 前, 次, 末尾セクション, 目次.

Getting Started with `awk`

awk の基本的な機能は、テキストファイルからあるパターンを含む行、もしくは別の単位のテキストを検索するということである。パターンの一つに行がマッチしたとき、 awk はその行に対して特別な動作をする。 awk は入力が入力ファイルの終端に達するまで、この動作をすべての入力行に対して行う。

awk を実行したときにawk がどのように動作するかをawk プログラムで指定できる。プログラムはルールの集まりからなる(関数定義も含まれるが、高度な機能なので今のところは無視するセクションユーザー定義関数を参照.)。

個々のルールはある特定のパターンを探し、見つかったパターンで定義されたアクションを実行する。

文法的には、ルールはパターンとそれに続くアクションから構成される。アクションはカーリーブレースによってアクションと区切られる。ルールは一般的には改行によって区切られる。その結果、 awk プログラムは以下のような形式となる。

pattern { action }
pattern { action }
...

非常に単純な例

次のプログラムは`BBS-list'という入力ファイルから`foo'というキャラクタの並びを探し出す。（キャラクタの並びは通常、文字列と呼ばれる）

awk '/foo/ { print $0 }' BBS-list

行の中に`foo'が見つかると、その行が出力される。これは、 `print $0'がカレント行の出力を意味するからである。(代わりに `print'と書いても同じ結果が得られる)

`foo'を囲むスラッシュは検索するパターンを表している。こういったパターンは正規表現と呼ばれる。正規表現については後の方で詳しく述べられる (セクションパターンとしての正規表現を参照)。 awkプログラムを引用符で囲んでいるのは、シェルのスペシャルキャラクタがあっても、それをシェルに解釈させないようにするためである。

プログラムの出力は次のようになる

fooey        555-1234     2400/1200/300     B
foot         555-6699     1200/300          B
macfoo       555-6480     1200/300          A
sabafoo      555-2127     1200/300          C

awkのルールでは、パターンかアクションのどちらかを省略することができるが、両方とも省略することはできない。パターンが省略されると、(そのパターンに対応する)アクションはすべての入力行に対して実行される。アクションが省略されていると、デフォルトのアクションとして(パターンにマッチした)その行を出力する。

したがって、先の例ではアクション(print文とそれを囲むカーリーブレース)を省略でき、同じ結果、つまり`foo'とマッチする行を出力する。を得る事ができる。しかし、カーリーブレースは省略せずにprint を省略した場合には何も行わず、行も出力されない。

二つのルールを持った例

awkは、一度のファイル入力で一行だけ入力する。入力された個々の行に対して、awkプログラムで記述されている各ルールのパターンと照合する。パターンとマッチすればアクションが実行される。マッチするパターンがなければ何も実行されない。

ある入力行に対して、すべてのルールを（という事はあまりないだろうが）適用した後でawkは次の入力行の読み込みを行う(しかし例外はある。セクション next文を参照)。この動作はファイルの終端に達するまで繰り返される。

例えば次のawkプログラム、

/12/  { print $0 }
/21/  { print $0 }

この例は二つのルールから構成される。最初のルールはパターンとして文字列`12'を、アクションとして `print $0'を持つ。二番目のルールは、パターンとして文字列 `21'を、アクションとして一番目のルールと同じ `print $0'を持つ。各ルールはペアとなっているブレースによって囲まれている。

この awk プログラムは、文字列12か文字列21を含むすべての行を出力する。もし、行の中に両方ともあれば、その行はそれぞれのルール毎に、結果として二回出力される。

もし、このプログラムを先程の `BBS-list' と`inventory-shipped' の二つのサンプルデータファイルを使って実行させるには次のようにする。

awk '/12/ { print $0 }
     /21/ { print $0 }' BBS-list inventory-shipped

出力として得られるのは以下の内容である。

aardvark     555-5553     1200/300          B
alpo-net     555-3412     2400/1200/300     A
barfly       555-7685     1200/300          A
bites        555-1675     2400/1200/300     A
core         555-2912     1200/300          C
fooey        555-1234     2400/1200/300     B
foot         555-6699     1200/300          B
macfoo       555-6480     1200/300          A
sdace        555-3430     2400/1200/300     A
sabafoo      555-2127     1200/300          C
sabafoo      555-2127     1200/300          C
Jan  21  36  64 620
Apr  21  70  74 514

ノート: `BBS-list' 中の`sabafoo'で始まる行が二回出力されているのは各ルールで一回ずつ出力されたからである。

より複雑な例

この節では、あなたが awkプログラムを書こうとするときになんらかのヒントになるようなことが記述されている。この例では、 awkを他のユーティリティーの出力を要約したり、選択したり、ならべ直すのに使えることを示している。ここまでで説明されていない機能が使われているが、全体のディティールを理解できなくとも、気にすることはない。

ls -l | awk '$5 == "Nov" { sum += $4 }
             END { print sum }'

このコマンドはカレントディレクトリにある11月（年は何年でもよい）に最後の修正がなされたファイルの大きさの合計バイト数を出力する。 (あなたがCシェルを使っていた場合、このサンプルを実行するには最初の行の最後にセミコロンとバックスラッシュを付け加える必要がある。 POSIX に従ったシェル、例えばBシェルであるとか、BASHを使っている場合にはサンプルをそのまま打ってみてかまわない)

例の`ls -l' の部分は、ディレクトリ中のファイルをそのサイズと修正日付とともにリストアウトするためのコマンドであり、その出力は以下のような形である。

-rw-r--r--  1 close        1933 Nov  7 13:05 Makefile
-rw-r--r--  1 close       10809 Nov  7 13:03 gawk.h
-rw-r--r--  1 close         983 Apr 13 12:14 gawk.tab.h
-rw-r--r--  1 close       31869 Jun 15 12:20 gawk.y
-rw-r--r--  1 close       22414 Nov  7 13:03 gawk1.c
-rw-r--r--  1 close       37455 Nov  7 13:03 gawk2.c
-rw-r--r--  1 close       27511 Dec  9 13:07 gawk3.c
-rw-r--r--  1 close        7989 Nov  7 13:03 gawk4.c

最初のフィールドは読み書きの許可フラグ、二番目のフィールドはそのファイルへリンクしているリンクの数、三番目のフィールドはそのファイルのオーナーのID、四番目がそのファイルの大きさをバイトで表したもの、5,6,7番目のフィールドは最後にそのファイルが修正された月、日、時間である。最後の8番目のフィールドはファイルの名前である。

このawkプログラムの$5 == "Nov"という式は、 `ls -l'の出力の五番目のフィールドが`Nov'という文字列とマッチするかどうかをテストしている。 `Nov'という文字列を五番目のフィールドに持つ行が読み込まれるたびに `{ sum += $4 }'というアクションが実行される。このアクションでは、四番目のフィールド（ファイルサイズ）をsum という変数に足し込んでいる。結果として、sumはパターンにマッチした行のファイルの大きさの合計を表す（awkの変数は、自動的に 0で初期化されている）。

ls の出力から渡される最後の行が処理された後で、ENDルールが実行され、 sumの値が出力される。この例では、 sumの値は80600になるだろう。

こういった類の高度なawkの使い方は、後の方のセクションで述べられている (セクションアクションの概観を参照)。けれども、その様な使い方を覚える前にどのように入力が解釈され、どのように出力が表示されるかを知るべきだろう。フィールドを操作し、print文を使うことによって、有用なそして華やかな見栄えのするレポートを作成することができる。

awkプログラムの実行の仕方

ここではawkプログラムの実行のしかたを説明する。プログラムが短ければ、次のようにawkを実行するコマンドに含めてしまうのが簡単である。

awk 'program' input-file1 input-file2 ...

前にも述べたように、programはパターンとアクションの並びから構成されている。

プログラムが長くなったときには、(そのプログラムを)ファイルにして次のようにコマンド指定して実行させるのが便利だろう。

awk -f program-file input-file1 input-file2 ...

使い捨ての`awk`プログラム

一度awkに慣れれば、必要とするときに単純なプログラムをタイプすることもしばしばあるだろう。そういったとき、次のようにawkコマンドの最初の引数としてプログラムを書くこともできる。

awk 'program' input-file1 input-file2 ...

以前に述べたように、programはパターンとアクションの並びから構成されている。

この様なコマンド指定はシェルに対して、awkを起動してその入力ファイルに program を適用する様に指定している。このプログラムを囲む引用符は、 awkのキャラクターを（シェルの）スペシャルキャラクタとして不用意に解釈されるのを防ぐためにある。また、シェルが引用符に囲まれたprogram全体を一つの引数として扱うようにもして、プログラムが一行以上の長さを取れるようにしている。

この書式は短かったり、あるいは少し大きいという程度のawkプログラムをシェルスクリプトから実行させるのに便利である。なぜなら、そうすることによって awk プログラムを独立したファイルとしておかなくてすむからである。こういったシェルスクリプトは、プログラムファイルを間違った場所に置くようなことがありえないので便利である。

入力ファイルなしでの`awk`を実行

入力ファイルなしに、awk を実行する事もできる。コマンドラインで次のように打ち込んでみてほしい。

awk 'program'

それからawkはprogramをstandard inputに対して適用する。つまり、あなたがターミナルから何かタイプするものすべてを入力として扱う。この動作は、あなたがControl-d、つまりファイルの終端を示すコードを入力するまで続けられる(訳注: MS-DOSではControl-zを使う)。

例えば、次のコマンドを実行すると、

awk '/th/'

その後で入力したテキストはawkプログラムに対するデータとして読み込まれる。たとえば、次のようなデータを続けて入力したとすると、

Kathy
Ben
Tom
Beth
Seth
Karen
Thomas
Control-d

awkは次のような出力をするだろう。

Kathy
Beth
Seth

`th'がマッチするパターンであるが、`Thomas'はマッチするパターンとして認識されない。それは、awkは大小文字を区別してパターンのマッチングを厳密に行うからである(しかし、組み込み変数IGNORECASEを使って動作を変更することができる)。セクション大小文字を意識した照合を参照.

長いプログラムの実行

ときとして、あなたの作るawkプログラムは非常に長いものになるかもしれない。このようなときには分割したファイルにプログラムを入れるのがよいだろう。そのようにしたプログラムのファイルを使うためには次のようにすればよい。

awk -f source-file input-file1 input-file2 ...

`-f'はawkユーティリティにawkプログラムをファイル source-fileから得る様にしろ、という指示を行う。 source-fileとして、どのようなファイル名も使うことができる。たとえば、

/th/

これをファイル`th-prog'に記述して、次のようなコマンドをタイプする。

awk -f th-prog

これは次のようにするのと同じである

awk '/th/'

これは以前に説明されている。 (セクション入力ファイルなしでのawkを実行を参照) ほとんどのファイル名はシェルのスペシャルキャラクタを含む様なことはないから、通常はファイル名を引用符で囲む必要はない。また、`th-prog'中のawkプログラムも引用符で囲まれていない。引用符はコマンドラインにプログラムを置くようなときにだけ必要なのだ。

awkプログラムのファイルであることを明確にわかるようにファイルの拡張子として`.awk'をファイル名に付け加えるとよいだろう。この拡張子はawk プログラムの実行に関しては何の影響もないが、 "housekeeping" を簡単にするのだ。

実行可能な `awk` プログラム

一度awkを学べば、シェルの`#!' 構文を使って、独立した awk スクリプトを書いてみたくなるだろう。多くのUNIXシステム (1) でこの機構を使う事ができる（もちろんいつの日にか完成するだろうGNUも含まれる）。

例えば、次のような構造のプログラムファイル(`hello'というファイル名で呼ぼう)を作成する事ができる(BEGINという機能はまだ説明されていない)。

#! /bin/awk -f

# a sample awk program
BEGIN    { print "hello, world" }

ファイルを作ったらそれを実行してみよう(もちろんchmodコマンドを実行してから、だが)。実行するには単にこうタイプすれば良い。

hello

シェルやシステムによってはawkの実行のしかたに多少の違いがあるだろう。 (2)

awk -f hello

独立したawkスクリプトは、ユーザーにそれがawkで記述されたかどうかを気にさせないようなプログラムを記述するのに便利である。

もしあなたの使っているシステムが`#!'機構のサポートをしていないものであっても、普段使用しているシェルスクリプトを使って同様の効果を得る事ができる。そのためには次のようにすればよい。

: The colon makes sure this script is executed by the Bourne shell.
awk 'program' "$@"

このテクニックを使うとき、引用符でprogramを括ることは非常に重要である。それは、引用符で括ることによってシェルが解釈してしまうことを防いでいるからである。引用符を忘れると、シェルに詳しい人だけが実行結果を予測できるような事態になるだろう。

`"$@"'は、シェルにコマンドライン引数をそのまま(シェルが解釈する事なしに)awk プログラムに引き渡す。コロンで始まっている最初の行は、このシェルスクリプトを(Cシェルを使っている人が起動しても)、ちゃんとスクリプトが動作するようにするためである。

awkプログラム中のコメント

コメントとはプログラム中で、人が（プログラムを）読みやすくするために含められるテキストであり、プログラムにとって必要不可欠というものではない。コメントはプログラムが書けるところならどこでも置けるが、何の働きもしない。身近な全てのプログラミング言語はその様な目的のためにコメントを使える様になっているが、それは典型的なプログラムというものは何らかの助けなしに理解するのが非常に難しいからである。

awk言語のコメントは`#'で始まり、その行の終わりまで続く。 awkは`#'に続く部分を無視する。次のプログラムを`th-prog'に記述してみよう。

# このプログラムは `th'が含まれるレコードを探し出す。
# これはコメント行の付けかたである
/th/

awkプログラムをキーボードから直接入力しているような場合でもコメント行を入力することは可能であるけれども、これはあまり有効なことではないだろう。なぜならコメントを使う目的が、後日に他の人がそのプログラムを読んだときに理解するのを助けるためだからだ。

awkの文と行

多くの場合、awk programの各行は次の例にみられるように独立した文、あるいは独立したルールである。

awk '/12/  { print $0 }
     /21/  { print $0 }' BBS-list inventory-shipped

それでも時として、一つの文が複数行にわたるようなことがあるかもしれないが、その様なときは、次に挙げるものの後に改行を入れることで、あるステートメントを複数行に分割して記述することができる。

,    {    ?    :    ||    &&    do    else

その他の場所にある改行は文の終端として認識される。 (`?'と`:' の後の行の分割はgawk特有の拡張である `?' と `:'三つのオペランドを取る条件式であり、詳しい説明はセクション条件式を参照.)

一つの文を二つの行に改行で分けたいときに、行末にバックスラッシュ`\'を置くことによって行を継続することができる。このバックスラッシュによる行の継続はどこにでも置く事ができる。たとえ、文字列や正規表現の途中であっても可能である。例えば

awk '/This program is too long, so continue it\
 on the next line/ { print $1 }'

このマニュアルのサンプルプログラムでは、バックスラッシュによる行の継続をその行の長さが限界を超えてしまうような厳しい理由がない限りは使用しない。それによってプログラムが見やすくなるからである。つまり、一つの文を短く保つことによって、見やすさを確保しているのである。バックスラッシュによる継続はあなたの作成する awkプログラムがコマンドライン上にタイプされたものではなく、独立したファイルに収まっているのであれば非常に使い易いものだろう。作成するawkプログラムに最大限の移植性を求めるのならば、正規表現や文字列の途中での行の分割を行わないことが最良の手段だろう。

警告:バックスラッシュによる行の継続はCシェルではこのマニュアルに書かれている通りには動作しない。 バックスラッシュによる行継続はファイルに記述されたawkプログラムや Bシェル、BASH等の POSIX に従ったシェルでの one-shot programsでは働くが、 Berkeley Unixで使われているCシェルではそうはならず、バックスラッシュを改行の前に二つ続けて書かなければならない。

一つのルールの中にあるawkの文が短いとき、複数の行を一つの行でまとめて書きたいと思うかもしれない。そのようなときは文をセミコロン`;'で区切ればよい。このことはルールそれ自体にも使うことができるので、先のプログラムは次のようにも書ける。

/12/ { print $0 } ; /21/ { print $0 }

ノート: 同一行に置かれたルールはセミコロンによって分割せねばならない。ということを要求している。これはawk言語における最近の変更であり、これはまた、アクション中の文についても同じ様に適用される。

awkを使うとき

あなたはawkが非常に便利であるのに戸惑いを感じるかもしれない。他のユーティリティプログラムや、より高度なパターン、フィールドセパレータ、算術式、さらに他の選択基準を使ってより複雑な出力を作り出すことができる。 awk 言語はlsなどの他のユーティリティプログラムの出力の様な大きなデータの羅列からレポートを作成するのに非常に便利である (セクションより複雑な例を参照.)。

awkでプログラムを書くと通常は他の言語で記述したときよりも小さなサイズで書けるだろう。このことは、awkプログラムを作ったり、使ったりするのが簡単だという事だ。awkプログラムはしばしば、さっとターミナルからタイプして一回だけ使って使い捨てにできる。 awkプログラムはインタプリタで実行されるので通常のエディット－コンパイル－テスト－デバッグという開発のサイクルを経ずにすむのである。

8bitマイクロコンピュータ用のアセンブラ(セクション用語集を参照, formore information) や特殊な目的のPrologコンピュータ用のマイクロコードアセンブラのような複雑なawkプログラムも書かれたこともあるが、awkの能力からいえばそのいった複雑な仕事をさせるのは少々酷使にすぎるだろう。

2、300行以上のawkスクリプトを書くようになったとき、違ったプログラミング言語の使用を考えていることに気がつくだろう。 Emacs Lisp は、文字列やパターンマッチングを扱う高度な能力を必要とするときにはよい選択といえる。シェルもまた文字列やパターンマッチングを扱う能力があり、それに加えて強力で便利なシステムユーティリティを使う事ができる。より伝統的な言語、CやC++、Lispといったものは、システムプログラミングや大きなプログラムの複雑さを管理するのに便利であるだろう。これらの言語で記述したプログラムは、同じ作業をする awk プログラムよりも多くの行数を必要とするかも知れないが、より有効に実行したり、簡単にメンテナンスできる。

移動先先頭, 前, 次, 末尾セクション, 目次.