Python reモジュールで使える正規表現演算子

本ドキュメントは Pythonのライブラリマニュアルlibre.texの内容を元にして作成されています。

正規表現の構文

正規表現(RE)は、それにマッチする文字列の集合を特定します。本モジュール中の関数は、特定の文字列が与えられた正規表現にマッチするかどうか(あるいは与えられた正規表現が特定の文字列にマッチするかどうか)を検査します。

新しい正規表現を構築するために、正規表現を連結することができます。A と Bの両方が正規表現であるとき、AB もまた正規表現です。ある文字列 pがAにマッチし、別の文字列 qがBにマッチするのであれば、文字列 pqはABにマッチします。したがってここで説明したように、複雑な正規表現は単純な正規表現から簡単に構築することができるのです。正規表現の理論と実装に関する詳細は、後述するFriedl の本を参照するか、コンパイラー作成に関する教科書を参照するかしてください。

正規表現の書式に関する簡単な説明を本ドキュメントで行います。

正規表現は、特殊なキャラクター(special character)と通常のキャラクター (ordinary character)の両方を含むことができます。'A', 'a', '0'のようなほとんどの通常キャラクターは、それ自身にマッチするという最も単純な正規表現です。通常キャラクターは連結できるので、'last' は 'last'というキャラクター並びにマッチします(このセクションの残りの部分では、正規表現をthis special font のようなフォントを使ってクォートはつけず、マッチする文字列は'in single quotes'のように記述します)。

| や (など幾つかのキャラクターは特殊です。特殊なキャラクターは通常のキャラクターのクラスを表すか、それを囲む正規表現がどのように解釈されるかに影響を及ぼしたりします。

特殊キャラクターは以下の通りです:

.

デフォルトモードでは、これは改行以外の任意のキャラクターにマッチします。 ¥code{DOTALL}フラグが指定されていれば、これは改行を含む任意のキャラクターにマッチします。^ (Caret) 文字列の先頭にマッチします。 MULTILINE モードの場合には、各改行の直後にもマッチします。

$

文字列の終端にマッチします。MULTILINE モードの場合には、各改行の直前にもマッチしますfoo は 'foo' にも 'foobar'にもマッチしますが、foo$という正規表現は 'foo' にのみマッチします。

*

先行する正規表現要素の0回以上の、可能な限りの回数のくり返しの正規表現となります。ab*は、'a', 'ab', そして'a'の後に任意の個数の'b'が続いたものにマッチします。

+

直前の正規表現要素の1回以上のくり返しの正規表現となります。ab+は、 0ではない個数の'b'が続いたものにマッチします。これは単なる'a'にはマッチしません。

?

先行する正規表現の、0または一回の繰り返しの正規表現となります。 ab?は、'a' または 'ab'にマッチします。

*?, +?, ??

*, +, ?は、全て greedy(貪欲)な修飾子 (qualifiers)です。これらは可能な限り長いテキストにマッチします。これは望んだ動作とはならない場合があります。<.*> という正規表現は <H1>title</H1>にマッチしますが、それは <H1>だけではなく文字列全体にマッチしてしまうのです。修飾子に?を付加することによってnon-greedyもしくは minimal (最小一致)でマッチングを行うようになります。つまり、可能な限り短いキャラクター列にマッチします。先の正規表現で.*?を使うと、<H1>のみにマッチします。

{m,n}

先行する正規表現の、m 回以上 n 回以下の繰り返しの正規表現となります。この繰り返しは、可能な限り大きな回数になるようにされます。たとえば、, a{3,5}は三個から五個の'a'の並びにマッチします。

{m,n}?

先行する正規表現の、m 回以上 n 回以下の繰り返しの正規表現となります。この繰り返しは、可能な限り小さな回数が採用されます。これは一つ前の修飾子のnon-greedyバージョンです。たとえば 'aaaaaa'という六文字の文字列に対して、a{3,5}?は三文字しかマッチしません。

¥

特殊キャラクター('*?+¥&¥$'のようなキャラクター)をエスケープするか、特殊なシーケンスを示します。特殊なシーケンスには以下に挙げるものがあります。

パターンを表現するのにraw stringを使わない場合には、Pythonは文字列リテラル中のエスケープシーケンスとしてもバックスラッシュを使ってしまうということを思い出してください。Pythonの構文解析器がエスケープシーケンスを認識しなければ、バックスラッシュとそれに続くキャラクターは処理後の文字列にも含まれます。しかし、Pythonが処理後のシーケンスを認識するためには、バックスラッシュを二回繰り返すようにしたほうが良いでしょう。これはややこしくて理解しづらいことなので、raw stingを使うことを強くお奨めします。

[]

キャラクターの集合を示すのに使われます。キャラクターは個々に列挙することも、始点と終点を表す二つのキャラクターを'-'で繋いだ範囲によって指定することもできます。特殊キャラクターは集合の中ではアクティブにはなりません。たとえば [akm$]は、 'a', 'k', 'm', '$' のいずれかにマッチします。[a-z]は任意の小文字にマッチし、[a-zA-Z0-9] は任意の文字、数字にマッチします。 ¥w や ¥Sのようなキャラクタークラス(後述)も使うことができます。集合に ] や -を含めたいのならば、その前にバックスラッシュを前置します。

先頭のキャラクターが ^である集合は、そのリストに含まれない キャラクターにマッチします。先頭以外にある ^は単に '^' というキャラクターにマッチします。

|

A|Bとすると、AかBのいずれかにマッチする正規表現を作り出します。これはグループ(後述)の中でも使うことができます。リテラルとしての '|'にマッチさせるためには、¥|を使うか [|]のようにキャラクタークラスの中に押し込めます。

(...)

かっこの中に含まれる正規表現にマッチし、同時にグループの始まりと終わりとを示します。グループの内容はマッチングが行われた後で取り出すことができ、また、特殊シーケンス ¥number によってグループが登場した後の文字列の部分にマッチできます。リテラルとしての '(' や ')'にマッチさせるためには、¥( や ¥) とするか、 [(] [)]のようにキャラクタークラスの中に押し込めます。

以下に挙げるのは拡張記法です( '?'が後続する'('はこれ以外の場合には意味がありません)。'?'の直後のキャラクターがその構造全体が意味する構文を決定します。以下に現在サポートしている拡張構文を挙げます。

(?iLmsx)

( 'i', 'L', 'm', 's', 'x' の一文字以上の組み合わせ) このグループは空文字列にマッチします。それぞれの文字は、正規表現全体に対するフラグをそれぞれの文字に応じて(re.I, re.L, re.M, re.S, re.X)設定します。これは、 compile関数に flag 引数を渡すのではなく正規表現の一部としてフラグを含めたいようなときに便利です。

(?:...)

通常のかっこの、グルーピングを行わないバージョンです。これはかっこの内側にある正規表現にマッチしますが、このグループにマッチしたテキストは以後のパターンにおいて参照したり取り出したりすることはできません。

(?P`<name>`...)

通常のかっこと同じ様なものですが、このグループはシンボリックグループ名 nameを通してアクセス可能です。グループ名はPythonにおける正しい識別子でなければなりません。シンボリックグループは、名前づけされていないグループと同様番号づけされたグループでもあります。ですから、先の例で 'id'と名前がつけられたグループは一番目のグループとして参照することもできます。

例を挙げましょう。(?P<id>[a-zA-Z_]¥w*)というパターンが
あったとすると、グループはm.group('id')や m.end('id') のように、マッチオブジェクトのメソッドに対する引数にある名前によって参照することができます。そして、パターンテキストにある名前(例 (?P=id))や置換テキスト(例 ¥g<id>)で参照することもできます。

(?P=`name`)

あらかじめnameと命名していたグループにマッチしたテキストにマッチします。

(?¥#...)

コメントです。括弧の中にある内容は無視されます。

(?=...)

後続が...にマッチすればマッチしますが、これは文字列を消費しません。これは先読み表明(lookahead assertion)と呼ばれます。例えば Isaac (?=Asimov) は'Asimov'が続いている 'Isaac‾' にマッチします。

(?!...)

後続が¥code{...}にマッチすればマッチしますが、これは文字列を消費しません。これは否定先読み表明(negative lookahead assertion)と呼ばれます。例えば Isaac (?!Asimov) は'Asimov'が続いていない 'Isaac‾' にマッチします。

'¥'を含む特殊なシーケンスとキャラクターを以下に列挙します。通常のキャラクターが以下のリストになければ、それは二番目のキャラクターにマッチする正規表現となります。例を挙げると、 ¥$は'$'にマッチします。

¥`number`

同じ番号を持つグループの内容にマッチします。グループは1から番号がつけられます。たとえば、(.+) ¥1は'the the' や '55 55'にマッチしますが、'the end'にはマッチしません(グループの後にある空白に注意)。この特殊なシーケンスは最初の99個のグループに対してしか使うことができません。 numberの最初の数字が0であるか、numberが三桁の八進数字であった場合にはグループのマッチングとは解釈されずにその八進数字の値が表すキャラクターとして解釈されます。

¥A

文字列の先頭にのみマッチします。

¥b

単語の始まりや末尾にある空文字列にマッチします。単語とは、アルファベットと数字のキャラクターの並びと定義されていますので、単語の終わりは、空白だとか非アルファベット、あるいは数字以外のキャラクターで示されます。キャラクター範囲の内側では、¥bはバックスペースキャラクターを表します。これはPythonの文字列リテラルとの互換性のためです。

¥B

空文字列にマッチししますが、それが単語の始まりや末尾にある場合にはマッチしません。

¥d

数字にマッチします。これは [0-9]と等価です。

¥D

数字でないキャラクターにマッチします。これは [¥^0-9]と等価です。

¥s

空白(whitespace)キャラクターにマッチします。これは [ ¥t¥n¥r¥f¥v]の集合と等価です。

¥S

非空白(non-wihtespace)キャラクターにマッチします。これは [^ ¥t¥n¥r¥f¥v]と等価です。

¥w

LOCALEフラグが指定されていない場合には、任意のアルファベットおよび数字にマッチします。これは[a-zA-Z0-9_]と等価になります。LOCALE指定がある場合には[0-9_]と、カレントのロカールで文字と定義されているキャラクターにマッチします。

¥W

LOCALEフラグが指定されていない場合には、アルファベットでも数字でもないキャラクタにマッチします。これは[^a-zA-Z0-9_]と等価です。LOCALE 指定がある場合には[0-9_]でもなくカレントロカールで文字と定義されているものでもないキャラクターにマッチします。

¥Z

文字列の終端にのみマッチします。

¥¥

バックスラッシュそのものにマッチします。