移動先先頭, 前, 次, 末尾セクション, 目次.

パターン

awkでのパターンはルールの実行を制御している。ルールは現在の入力レコードがその（ルールの持つ）パターンにマッチしたときに実行される。この章では、パターンの書き方について述べる。

パターンの種類

ここでは、awkがサポートしているパターンについて述べる。

/regular expression/: 正規表現はパターンのようなものであり、入力レコードのテキストに一致したときマッチする。 (セクションパターンとしての正規表現を参照.)
expression: 一つの式。数値に変換して0でない、もしくは空でない文字列のときにマッチする (セクションパターンとしての式を参照.)
pat1, pat2: カンマで区切られた二つのパターンはレコードの範囲を指定する (セクションパターンを使ったレコード範囲の特定を参照.)
BEGIN
END: 前処理、もしくは後処理をするための特別なパターン。 (セクションスペシャルパターンBEGINとENDを参照.)
null: 空のパターンはすべての入力レコードにマッチする (セクション空パターンを参照.)

パターンとしての正規表現

正規表現は文字列のクラスを記述する手段である。正規表現はスラッシュ (`/')に囲まれていて属するクラスが、入力レコードと比較されるawk のパターンである。

最も単純な正規表現は文字、数字の並びである。そのような正規表現はその文字の並びそのものにマッチする。例えば`foo'という正規表現は`foo'という部分がある文字列にマッチする。従って、/foo/というパターンは`foo'という部分がある入力レコードにマッチする。ほかの正規表現は、文字列のより複雑なクラスを特定する。

正規表現の使い方

正規表現はスラッシュに囲まれたパターンとして使う事ができる。さらに正規表現は各レコードのテキスト全体とマッチする (通常は、マッチするテキストの一部分だけが必要である)。例えば次の例は、レコードのどこでもいいから`foo'という並びがあればそのレコードの二番目のフィールドを出力する。

awk '/foo/ { print $2 }' BBS-list

正規表現は比較式の中で使う事ができる。文字列をマッチするかどうかテストすることができるが、そのとき入力レコード全体が必要というわけではない。そのような比較式はパターンとして、あるいは if文, while文, for文, do文で使う事ができる。

exp ~ /regexp/

これはexpという式（文字列である）が、regexpとマッチすると真の値をとる。次の例は、すべての入力レコードの中で大文字の`J'を最初のフィールドに含むものにマッチし、そういうレコードを選択する。

awk '$1 ~ /J/' inventory-shipped

この動作は次のものと同じである。

awk '{ if ($1 ~ /J/) print }' inventory-shipped

exp !~ /regexp/

これはexpという式（文字列である）が、regexpとマッチしないと真の値をとる。次の例は、すべての入力レコードの中で大文字の`J'を最初のフィールドに含まないものにマッチし、そういうレコードを選択する。

awk '$1 !~ /J/' inventory-shipped

`~' 演算子や `!~' 演算子の右辺には固定正規表現(例えばスラッシュの間にあるキャラクタの並び)が必須というわけではなく、なんらかの式であってもよい。そういった式は評価されて、必要があれば文字列に変換される。その結果の文字列は正規表現として扱われる。このように計算された正規表現は動的正規表現と呼ばれる。例を挙げよう。

identifier_regexp = "[A-Za-z_][A-Za-z_0-9]+"
$0 ~ identifier_regexp

identifier_regexpにawkの変数名を表すような正規表現をセットし、入力レコードに対してこの正規表現がマッチするかどうかテストを行う。

正規表現演算子

以下に挙げる正規表現演算子、あるいはメタキャラクタと呼ばれるキャラクタを使って、正規表現を繋げることができ、それによって正規表現の記述力を向上させ、融通性を増す。

以下はメタキャラクタの一覧である。ここに挙げられていないキャラクタはそれ自身を表現するキャラクタである。

^

文字列の先頭、もしくは行の先頭にマッチする。たとえば、

^@chapter

これは文字列の先頭にある`@chapter'とマッチする。（Texinfoのソースファイル中の章の始まりの印としてよく使われる）

$

`^'と似ているが、文字列あるいは行の末尾にマッチする。たとえば、

p$

これは`p'で終わるレコードにマッチする。

.

改行を除くある一文字にマッチする。たとえば、

.P

これは文字列中で、`P'が続くキャラクタにマッチする。連結を使うことにより、間に任意のキャラクタを挟む`U'で始まり`A'で終わる文字の並びにマッチする`U.A'の様な正規表現を作ることができる。

[...]

これはキャラクタセットと呼ばれ、ブラケットに挟まれた中にあるキャラクタのどれか一つとマッチする。たとえば、

[MVX]

これは文字列中の`M', `V', `X'のいずれかとマッチする。キャラクタの範囲は、範囲の始まりと終わりの間にあるハイフンを用いて示される。これはブラケットの中になければならない。例を挙げると、

[0-9]

これは数字のどれかとマッチする。キャラクタセットの中で、`\', `]', `-', `^'はその前に `\'を置く。例を挙げよう。

[d\]]

これは`d'か `]'とマッチする。この`\'の意味は他のawk処理系と同じであり、 POSIX のコマンド言語、標準ユーティリティとも一致する。 awkでの正規表現はPOSIX の規定した拡張正規表現(EREs)のスーパーセットである。 POSIX EREsは伝統的なegrep ユーティリティで使用できる正規表現がベースになっている。 egrepのシンタクスでは、バックスラッシュはブラケットに囲まれた中では文法的に特別なものではない。このことは、キャラクタセットのメンバとして `]', `-', `^'といったキャラクタを使うときには、特殊なトリックを使わなければならないということを意味している。 egrepのシンタクスでは、`-'を範囲指定のキャラクタではなく、単なる `-'にマッチさせる為には`---'と書かなければならない。あるいは `-'をキャラクタセットの先頭か末尾に置いてもよい。 `^'にマッチさせる為には、それをキャラクタセットの先頭以外に置かなければならない。 `]' にマッチさせる為にはキャラクタセットの先頭にそれを置かなければならない。例を挙げよう。

[]d^]

これは`]'か `d' か `^'にマッチする。

[^ ...]

これはキャラクタセットの補集合である。 `['に続く最初のキャラクタは `^'でなければならない。これはブラケットの中にあるキャラクタではないキャラクタ(もしくは改行)にマッチする。例えば、

[^0-9]

これは数字以外のキャラクタにマッチする。

|

これは選択演算子であり、選択を特定する為に使われる。例えば、

^P|[0-9]

これは`^P'か`[0-9]'のどちらかにマッチする文字列にマッチする。言い換えるとこのパターンは、`P'で始まるか数字が含まれている文字列にマッチする。この選択は演算子の左右のそれぞれで可能な限り大きな正規表現に適用される。

(...)

括弧は正規表現を(算術式のときと同じ様にグループとする為に使用される。これは選択演算子`|'を含んだ正規表現を連結する為に使う事ができる。

*

このシンボルはその前に置かれている正規表現の0回以上のくり返しにマッチする。例えば

ph*

ここで`*'はその前にある`h'に適用され、一文字の`p'に続いて任意の数の`h'がある文字列にマッチする。これは`p'だけで`h'が一個もないようなパターンにもマッチする。 `*'のくり返しは、可能なかぎり最も小さな式が採用される。 (もしより大きな式を繰り返したいのならば括弧を使えばよい) そしてその式は可能な限り大きなくり返しを見つけだす。例えば、

awk '/\(c[ad][ad]*r x\)/ { print }' sample

これは入力レコードの中で `(car x)', `(cdr x)', `(cadr x)'などの文字列があるレコードを全て出力する。

+

このシンボルは`*'と似てはいるが、前に置かれている式が少なくとも一つはなければならない。

wh+y

これは`wh*y'にマッチするすべての文字列の中で `why' や `whhy' にはマッチするが、`wy'にはマッチしない。この演算子を使って、先程の `*' を使った例を単純に書き直せる。

awk '/\(c[ad]+r x\)/ { print }' sample

?

このシンボルは`*'と似ているが、式の高々一回のくり返しにしかマッチしない。例えば

fe?d

これは`fed' や `fd'にはマッチするがそれ以外にはマッチしない。

\

これはキャラクタの特別な意味を打ち消すのに使われる。例えば

\$

これは`$'というキャラクタにマッチする。文字列定数 (セクション定数式を参照) で使われたエスケープシーケンスは正規表現として正当であり、それらは`\'が前に置かれる。

正規表現中では`*', `+', `?'といった演算子は最も高い優先順位を持ち、続いて連結、最後が`|'である。算術式と同じ様に、括弧は演算子同士の結びつきをどのようにするのかを変更できる。

大小文字を意識した照合

大小文字は通常正規表現の中では通常のキャラクタマッチのとき(メタキャラクタを除く)でも、キャラクタセットの内側のときでも区別される。したがって、正規表現中の`w'は小文字の`w'とだけマッチして大文字の`W'とはマッチしない。

大小文字を無視してマッチを行う最も単純な方法はキャラクタセットを使って `[Ww]'の様にすることである。しかし、これは正規表現を読みにくいものとしてしまう。他に取るべき手段としては二つある。

プログラム中の任意の点で大小文字に関係なくマッチングを行うための手段の一つは、データをtolower か toupperという組み込みの文字列処理関数(まだこれらの関数の説明はされていない)を使用して、大文字、小文字どちらかに揃えてしまうというものである。(tolower 及びtoupperの詳しい説明は、セクション組込みの文字列操作関数を参照). たとえば

tolower($1) ~ /foo/  { ... }

この例ではマッチングを行なう前に、最初のフィールドを小文字に変換している。

別の手段として、変数IGNORECASEにゼロでない値をセットする。というものがある。IGNORECASEがゼロでないとき、全ての正規表現演算は大小文字を無視する。 IGNORECASEの値を変更すると、あなたの書いたプログラムの大小文字の扱い方を実行時に動的にコントロールできる。デフォルトでは IGNORECASEは(他のほとんどの変数と同じように) ゼロに初期化されているので、大小文字は区別される。

x = "aB"
if (x ~ /ab/) ...   # これは失敗する

IGNORECASE = 1
if (x ~ /ab/) ...   # これは成功する

通常は、IGNORECASEを使ってあるルールでは大小文字を無視するようにし、別のルールでは大小文字を区別するようにするということはできない。なぜなら、 IGNORECASEを特定のパターンのためにセットすることができないからである。このような動作を行なうためには、キャラクタセットかtolowerを使わなければならない。しかし、全てのルールにおいて、大小文字の区別をする、しないを動的に変更するというのであれば、そのためにIGNORECASEのオン・オフを切り替えて行なうことはできる。

IGNORECASEをコマンドラインやBEGINルール中でセットすることができる。 IGNORECASEをコマンドラインでセットすることによってプログラムを修正することなしに、そのプログラムを大小文字を無視するように動作させることができる。

gawk が互換モードで動作している場合、IGNORECASE の値は効果を持たない(セクション awkの起動を参照). 互換モードでは、大小文字は常に区別される。

パターンとしての比較式

比較パターンは二つの文字列あるいは数値の間の、等しさのような関係をテストする。これは式パターンの特殊なケースである (セクションパターンとしての式を参照)。比較パターンはCのスーパーセットとなっている関係演算子を使って記述される。関係演算子は次に挙げるものがある。

x < y: x が y未満のときに真。
x <= y: x が y以下のときに真。
x > y: x が yより大きいときに真。
x >= y: x が y以上のときに真。
x == y: x と yが等しいときに真。
x != y: x と yが等しくないときに真。
x ~ y: xがyで表わされる正規表現にマッチするときに真。
x !~ y: xがyで表わされる正規表現にマッチしないときに真。

関係演算子のオペランドはその両方ともが数値であれば、数値として比較が行なわれる。そうでない場合には (文字列に)変換されてから文字列として比較が行なわれる (セクション文字列と数値の変換を参照). 文字列は初めに最初のキャラクタ同士を比較し、次に二番目のキャラクタを、というように違いがあるまで比較を続ける。したがって、"10" は "9"よりも小さいということになる。もし、短い文字列が終了するまでが等しい（長さの違う）二つの文字列があった場合、短い方の文字列は長い方の文字列よりも小さい。とみなされる。したがって "abc"は "abcd"よりも小さい、ということになる。

演算子`~' と `!~'の左に位置するオペランドは、文字列である。右に位置するオペランドはスラッシュでくくられた (/regexp/のような)正規表現か、動的正規表現のように文字列としての値をもつなんらかの式である (セクション正規表現の使い方を参照).

以下に挙げる例は入力レコードの中から、第一フィールドが `foo'であるレコードの第二フィールドを出力する。

awk '$1 == "foo" { print $2 }' BBS-list

次に挙げる例では正規表現のマッチングを使って、第一フィールドに `foo'が含まれるレコードの第二フィールドを出力する。

awk '$1 ~ "foo" { print $2 }' BBS-list

これはまた、次のようにも記述できる。

awk '$1 ~ /foo/ { print $2 }' BBS-list

論理式とパターン

論理式は異なったパターンを "or" (`||'), "and"(`&&'), "not" (`!') のような論理演算子を使って繋げた式である。入力レコードに対する論理式全体のパターンマッチは、各部分の式のマッチングの結果による。

例えば次のコマンドは入力ファイル`BBS-list'中のレコードのうち、 `2400' と `foo'の両方を含むものを出力する。

awk '/2400/ && /foo/' BBS-list

次のコマンドは入力ファイル`BBS-list'中のレコードのうち、`2400' と `foo'のどちらか、あるいは両方を含むものを出力する。

awk '/2400/ || /foo/' BBS-list

`BBS-list'中のレコードのうち、`foo'を 含まないものを出力する。

awk '! /foo/' BBS-list

論理パターンは式パターンの特殊なケースであり、 (セクションパターンとしての式を参照) 論理演算子を使った式である。セクション論理式を参照.に論理演算子の詳しい記述がある。

論理パターンの部分式は固定正規表現や、比較式、あるいはほかの awkの式であってもかまわない。範囲パターンは式ではないので論理パターンに含めることはできない。同様に、特殊パターンのBEGIN と ENDもまた、入力レコードのいずれともマッチせず、式や論理パターンの中に記述することはできない。

パターンとしての式

awkでは、式はawkのパターンとしての値を持っている。式の値が0以外(数値の場合)か、空文字列(文字列の場合)でない場合パターンがマッチしたことになる。

式は新しく入力レコードに対してルールが検査されるごとに再評価される。もし式が $1のようなフィールドを使っていたならばその値は新たな入力レコードのテキストによって決定する。そうでない場合、式はawkプログラムの実行とは関係ないところに依存する形となるが、それでも便利であろう。

パターンの比較はこのような場合の特殊な形である。たとえば、$5 == "foo" という式は $5 の値が "foo"と等しいときに1という値を持ち、等しくなければ0という値を持つ。したがって、この式は二つの値が等しいときにパターンがマッチしたということになる。

論理式は式の特殊なケースである。

パターンとしての正規表現もまた式の特殊なケースである。 /foo/はカレント入力レコード中に`foo'があれば 1という値を持つ式である。したがって、 /foo/は `foo'を含むレコードにマッチするパターンである。

他のawk処理系ははgawkほどにはPOSIXに準拠していない。具体的には、比較式や論理式は許されるが、そのほかの種類の式は使えない。

パターンを使ったレコード範囲の特定

範囲パターンはbegpat, endpatのように、カンマで区切られた二つのパターンからなる。これは連続した範囲の入力レコードにマッチする。最初のパターンbegpatは範囲の始まりを制御し、二番目のパターン endpatは範囲の終わりを制御する。たとえば、

awk '$1 == "on", $1 == "off"'

これは`on'/`off'のあるレコードの間にあるレコードを `on'/`off'のあるレコードも含めて出力する。

範囲パターンは入力レコードと比較しbegpatとマッチすることで始まる。レコードがbegpatとマッチした時、範囲パターンは真となる。 endpatとマッチする入力レコードがみつかるまですべての入力レコードはパターンにマッチしたと扱われる。 endpatとマッチする入力レコードが見付かったとき、範囲パターンはそれ以降の入力レコードのマッチングの際には偽となる。そして今度はまた入力レコードとbegpatがマッチするかどうかを検査するのである。

範囲パターンを真にしたり、偽にしたりしたレコードそのものも範囲パターンにマッチしたと扱われる。もしここでそのようなレコードは扱いたくないというのであれば if文を使って、ルールのアクション部分でそのようなレコードを区別すれば良い。

範囲の始まりと終わりを同じパターンにすることも可能である。そのような場合、アクションはマッチしたレコードに対してのみ実行される。

スペシャルパターン`BEGIN`と`END`

BEGIN とENDは特殊なパターンである。これらのパターンは入力レコードとのマッチングには使用されず、 awkスクリプトのスタートアップやクリーンアップに使われる。 BEGINルールは一度だけ、最初の入力レコードが読み込まれる前に実行され、ENDもやはり一度だけ、すべての入力が行なわれた後で実行される。例を挙げよう。

awk 'BEGIN { print "Analysis of `foo'" }
     /foo/ { ++foobar }
     END   { print "`foo' appears " foobar " times." }' BBS-list

このプログラムは入力ファイル`BBS-list'中のレコードのうち、 `foo'という文字列を含むレコードの数を出力する。 BEGINルールでレポートのタイトルを出力する。ここで、BEGINルールの中で、カウンタに使用する変数 foobarを 0に初期化する必要はない。awkが自動的にそれを行なうからである (セクション変数を参照).

二番目のルールで、`foo'を含むレコードを読むたびに変数foobarをインクリメントしている。 ENDルールでは実行終了時のfoobarの値を出力している。

BEGIN と ENDは範囲を示すためには使えないし、論理演算子と一緒に使うこともできない(それどころかそれらは他の演算子と一緒に使うこともできない)。

awkプログラムではBEGIN ルールや ENDルールを複数記述することもできる。そのような複数のルールは、プログラムの先頭から見付かった順に全てのBEGINルールはスタートアップ時に、全てのENDルールは終了時に実行される。

複数のBEGIN や ENDはライブラリを記述するのに便利である。ライブラリはそれぞれ自分のBEGIN ルールや ENDルールを自分のスタートアップやクリーンアップのために持つことができる。気を付けなければならないのは、コマンドラインに記述されるライブラリの名前の順番によって、（ライブラリ中の） BEGIN ルールや ENDルールの実行される順番が左右されるということである。したがって、ライブラリファイルで実行される順番に依存するような記述をしないように注意しなければならない。より詳しいライブラリ関数の使い方はセクション awkの起動を参照,を参照のこと

awkプログラムがBEGINルールだけで他のルールを持っていない場合、 BEGINルールの実行をした後でプログラムを終了する(古いバージョンの awkでは入力を続け、ファイルの終端にくるまで入力を無視し続ける)。しかし、同様にENDルールだけがプログラム中にあった場合、入力は行なわれる。これは ENDルールでNR変数をチェックするようなケースに必要であるからである。

BEGIN ルールおよび、 ENDルールはアクション部を持っていなければならない。これらのルールにはデフォルトアクションはなく、実行時にカレントレコードも存在しないからである。

空パターン

空のパターンは全ての入力レコードにマッチするとみなされる。たとえば次のプログラムは

awk '{ print $1 }' BBS-list

全てのレコードの第一フィールドを出力する。

移動先先頭, 前, 次, 末尾セクション, 目次.