正規表現(基礎編1)

Perl初心者のためのPerlノートです!

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

◆ はじめに

本ページは、私がPerlを習得した時(いや習得中)のノートです。

ごく普通の言語(COBOL,C,Java,VB等)を知っている人が、Perlをやり始めるといろいろと悩むことがあります。

それは、

です。

本ページは、そのようなハードルを一つ一つクリアにしていけたらと思います。

そして、本ページが何かのお役に立てれば幸いです。では、ごゆっくりご覧ください。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

◆ サイト最新情報

◆ コンテンツ

■ 正規表現(基礎編1)

UNIXをやり始めて10年、ついに正規表現と対峙する時がきました。 はじめに苦手意識を持ってしまって、ここまで来てしまいましたが、Perlをやる以上避けて通れません。 例を用いて、やさしいいのから徐々やっていきましょう。

まず、サンプルプログラムのテストデータ、family.txt を用意します。

family.txtファイルの内容
macha koike
yachu koike
chaichan koike
hiro koike
mama koike
papa koike
koike 6
ni-bo- horie yasashii
nee-nee horie chottokowai
60 horie
ma-kun murai
sachi murai
kazumasa murai
hisa
1、苗字が koike の人を検索
サンプル01 sample01.pl
  #!/usr/local/bin/perl
  while(<STDIN>){
       if(/koike/){
          print;
       }
  }

復習:上記は本来以下のロジックの横着版です。しかし、上記の方が普通の書き方みたいです。

ポイント:$_はwhile文の()の中に単独で<STDIN>と書くと、<STDIN>を評価するたびに$_に<STDIN>からの読み込み値がセットされる。 printで出力するものを省略すると、$_を出力する。また、ファイルハンドルを省略すると STDOUT になる。

#!/usr/local/bin/perl
while($_ = <STDIN>){
    if($_ =~ m/koike/){
       print STDOUT $_;
    }
}

さて、サンプル01を実行すると以下が標準出力されます。 実行はコマンドプロンプトで以下の様に入力します。

% test01.pl < family.txt
macha koike
yachu koike
chaichan koike
hiro koike
mama koike
papa koike
koike 6

まずいことに、名前以外の koike 6 もマッチてしまいました。 そこで、koikeという文字列がデータの末尾に一致する場合のみに限定します。

サンプル02 sample02.pl
  #!/usr/local/bin/perl
  while(<STDIN>){
       if(/koike$/){
          print;
       }
  }

「$」は文字列の末尾にマッチする記号です。

% test02.pl < family.txt
macha koike
yachu koike
chaichan koike
hiro koike
mama koike
papa koike

今度は上手く行きました。

2、k で始まる人を検索
(サンプル03 sample03.pl)
  #!/usr/local/bin/perl
  while(<STDIN>){
       if(/^k/){
          print;
       }
  }

「^」は文字列の先頭にマッチする記号です。

% test03.pl < family.txt
koike 6
kazumasa murai

また、よけいな koike 6 がマッチしてしまいました。 そこで、koike 6 には数字が入っていますので、数字があるとNGにすればいいわけです。 ですが、発想を変えて、数字以外の文字が連続するとしても同じです。

サンプル04 sample04.pl
  #!/usr/local/bin/perl
  while(<STDIN>){
       if(/^k[^0-9]+$/){
          print;
       }
  }
% test04.pl < family.txt
kazumasa murai

今度は上手く行きました。

説明いたします。 まず、[〜]は文字クラスといって、[0-9]の場合は 0から 9までの文字コード1文字にマッチします。 [^0-9]は文字クラスの中に ^が付くことによって文字クラスの否定を意味します。文字列の先頭にマッチの^とは別物です。 [^0-9]+の+は一回以上の繰り返しという意味です。つまり、0-9以外の一文字の繰り返しになります。 [^0-9]+$はもうわかりますね。 $は末尾にマッチの$です。

3、1語の名前を検索
サンプル05 sample05.pl
  #!/usr/local/bin/perl
  while(<STDIN>){
       if(/^\S+$/){
          print;
       }
  }
% test05.pl < family.txt
hisa

\Sも文字クラスで、空白文字以外を表します。 つまり、^\S+$ は先頭が空白文字以外で、これがかつ一回以上の繰り返しで、末尾までになります。

4、3語の名前を検索
(サンプル06 sample06.pl)
  #!/usr/local/bin/perl
  while(<STDIN>){
       if(/^\S+\s+\S+\s+\S+$/){
          print;
       }
  }
% test06.pl < family.txt
ni-bo- horie yasashii
nee-nee horie chottokowai

\sも文字クラスで、空白文字を表します。\Sの反対です。 つまり、^\S+\s+\S+\s+\S+$ は先頭が空白文字以外で、これがかつ一回以上の繰り返した後、 空白文字を一回以上の繰り返し、空白文字以外一回以上の繰り返し、空白文字を一回以上の繰り返し、 空白文字以外一回以上の繰り返しで、末尾までになります。

4、その他の正規表現
文字クラス
    [ABC]           A,B,Cのいずれか1文字    
    [A-Z]           A〜Zまでのいずれか1文字
    [A-Za-z0-9]     A〜Z, a〜z, 0-9までのいずれか1文字    
    [^ABC]          A,B.C以外の文字
    [^A-Z]          A〜Z以外の文字  
    \w              英数文字。[a-zA-Z0-9]と同様    
    \W              \w以外の文字
    \d              数値文字。[0-9]と同等    
    \D              \d以外の文字
    \s              空白文字    
    \S              \s以外の文字
    \b              単語の区切り
    .               任意の一文字

    補足説明、 /koike/ だと koikesでもマッチしてしまいますが、/\bkoike\b/だと回避できます。
繰り返し
    A+              1個以上連続したA(A, AA, AAA, ...)
    A*              0個以上連続したA(  , A, AA, AAA, ...)
    A?              0または1つの任意文字(  , A, B, C, ...)
    A{5}            5回繰り返し。 AAAAAと同じ
    A{3,}           3回以上繰り返し。 AAA+と同じ
    A{3,5}          3回以上5回以下繰り返し。 AAAA?A?と同じ
グループと選択
    文字列を繰り返すときは()を使ってグループ化します。
   
    koi(ke)+        koike, koikeke, koikekekeなどにマッチします。
     
    いくつかのパターンのどれかにマッチさせるときは | を使います。

    macha|yachu     machaかyachuにマッチします。
    koike(X|Y)      koikeXかkoikeYにマッチします。
位置指定
    ^              先頭
    $              末尾
エスケープ
    ^\^            ^という文字で始まる行にマッチ
    \\             \自体にマッチ

    \は、特殊記号(\,/,^,$,*,+,?,{,|,},[,]など)の前では特殊記号の本来の作用をエスケープし、
    特殊記号以外では書かないのと同じになります。

    また、\Qと\Eの間に挿入された文字列は全部の文字の前に \ が挿入されたものと同じです。
    /\o\)\+\>/   と  /\Qo)+<\E/ は同じ。

◆ おすすめ Perl本

■ 続・初めてのPerl 改訂版

『初めてのPerl』の次ぎに読むと吉です。

結構いいですが・・・、初心者にはちょっと難しいかもです。

■ 結城浩のPerlクイズ

この本には、ちゃいちゃんパパの小話しが載っています(謎)。

ある程度、Perlを理解している人には、たまらない内容になっています。さすが結城先生だな!

結城浩のPerlクイズ

■ 新版Perl言語プログラミングレッスン入門編

実は、私はまだ読んでいませんが、結城先生の本なので良くないはずがありません。

新版Perl言語プログラミングレッスン入門編

■ CGI&Perlポケットリファレンス (Pocket reference)

この本は、非常に役に立ちます。ちょっと調べるのに最適です。サンプルも説明も的を射ています。

CGI&Perlポケットリファレンス (Pocket reference)

■ Perlベストプラクティス

一読の価値有りだと思います。

Perlベストプラクティス

■ プログラミングPerl〈VOLUME1〉

ご存知、Perl本の聖書、ラクダ本(上)です。

■ プログラミングPerl〈VOLUME2〉

ご存知、Perl本の聖書、ラクダ本(下)です。

◆ おわりに

最後に、本ページが、何かのお役に立てれば幸いです。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

人のよいところをどんどん見つけよう