シフトJIS漢字のファイル名にマッチしてみる

Perl初心者のためのPerlノートです!

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

◆ はじめに

本ページは、私がPerlを習得した時(いや習得中)のノートです。

ごく普通の言語(COBOL,C,Java,VB等)を知っている人が、Perlをやり始めるといろいろと悩むことがあります。

それは、

です。

本ページは、そのようなハードルを一つ一つクリアにしていけたらと思います。

そして、本ページが何かのお役に立てれば幸いです。では、ごゆっくりご覧ください。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

◆ サイト最新情報

◆ コンテンツ

2008-08-02 シフトJIS漢字のファイル名にマッチしてみる

Perlベストプラクティス

たとえば、./hoge配下に『テストソース.txt』というファイルがあったとします。

検索文字列『ソース』で、./hoge配下を検索して、このファイルにマッチさせるには、以下の感じです。


◆その1:コードはshiftjis、処理はshiftjis、標準入出力はshiftjis
#!/usr/bin/perl
use strict;
use warnings;

while (my $fileName = glob("./hoge/*")) {
    if ($fileName =~ /ソース/) {
        print "Match\n";
    }
    else {
        print "Unmatch\n";
    }
    print $fileName, "\n";
}
実行結果
C:\test>perl kanji00.pl
Unmatched [ in regex; marked by <-- HERE in m/メ[ <-- HERE ス/ at kanji00.pl line 6.

しかし、上記ではマッチしません。

というか、正規表現エラーになります。

これは、『ソース』の『ー』の第2バイトが『[』のコードになっているからです。

そして、閉じの『]』がないために正規表現エラーになるのです。

なので、『[』を普通の文字扱いするために、『ソース』を\Qと\Eで囲んでみます。


◆その2:コードはshiftjis、処理はshiftjis、標準入出力はshiftjis
#!/usr/bin/perl
use strict;
use warnings;

while (my $fileName = glob("./hoge/*")) {
    if ($fileName =~ /\Qソース\E/) {
        print "Match\n";
    }
    else {
        print "Unmatch\n";
    }
    print $fileName, "\n";
}
実行結果
C:\test>perl kanji01.pl
Unmatch
./hoge/テストソース.txt

しかし、上記ではマッチしません。

なぜかというと、 /\Qソース\E/は、\Qより先に『ソース』文字列が評価されるので、基本的に『[』をエスケープしたに過ぎません。

なので、一度『ソース』文字列を変数に格納してみます。


◆その3:コードはshiftjis、処理はshiftjis、標準入出力はshiftjis
#!/usr/bin/perl
use strict;
use warnings;

while (my $fileName = glob("./hoge/*")) {
    my $wk = "ソース";
    if ($fileName =~ /\Q$wk\E/) {
        print "Match\n";
    }
    else {
        print "Unmatch\n";
    }
    print $fileName, "\n";
}
実行結果
C:\test>perl kanji02x.pl
Unmatch
./hoge/テストソース.txt

しかし、上記ではマッチしません。

これは、『my $wk = "ソース";』で『ソ』の第2バイトがエスケープ文字『\』のコードになっているからです。

そして、『ソ』の第1バイトと『ー』の第1バイトがくっ付いてしまうのです。たぶん。

なので、変数展開しないようにシングルクォート『my $wk = 'ソース';』にしてみます。


◆その4:コードはshiftjis、処理はshiftjis、標準入出力はshiftjis
#!/usr/bin/perl
use strict;
use warnings;

while (my $fileName = glob("./hoge/*")) {
    my $wk = 'ソース';
    if ($fileName =~ /\Q$wk\E/) {
        print "Match\n";
    }
    else {
        print "Unmatch\n";
    }
    print $fileName, "\n";
}
実行結果
C:\test>perl kanji02.pl
Match
./hoge/テストソース.txt

今度は、上手く行きました。

ということで、シフトJIS漢字を扱うには大変なわけです。

なので、処理はUTF-8にして、コードと標準入出力をshiftjisにしてみます。


◆その5:コードはshiftjis、処理はUTF-8、標準入出力はshiftjis
#!/usr/bin/perl
use strict;
use warnings;
use Encode;

# 標準入出力をutf-8からshiftjisへエンコーディングする
use encoding 'shiftjis';

while (my $fileName = glob("./hoge/*")) {

    # $fileNameをshiftjisからutf-8へデコード
    $fileName = decode('shiftjis', $fileName);

    if ($fileName =~ /ソース/) {
        print "Match\n";
    }
    else {
        print "Unmatch\n";
    }
    print $fileName, "\n";
}
実行結果
C:\test>perl kanji03.pl
Match
./hoge/テストソース.txt

今度も、上手く行きました。

しかし、WINDOWSでの漢字処理は、コードも処理もUTF-8にして、標準入出力をshiftjisが推奨らしい。

なので、スクリプトコードをUTF-8にして・・・。


◆その6:コードはUTF-8、処理はUTF-8、標準入出力はshiftjis
#!/usr/bin/perl
use strict;
use warnings;
use Encode;

# スクリプトの文字コードがutf-8であることの明示
use utf8;

# 標準出力をshiftjisでエンコーディング
binmode STDOUT, ':encoding(shiftjis)'; 

while (my $fileName = glob("./hoge/*")) {

    # $fileNameをshiftjisからutf-8へデコード
    $fileName = decode('shiftjis', $fileName);
    if ($fileName =~ /ソース/) {
        print "Match\n";
    }
    else {
        print "Unmatch\n";
    }
    print $fileName, "\n";
}
実行結果
C:\test>perl kanji04.pl
Match
./hoge/テストソース.txt

そう、これが正解みたいですね・・・。

詳説 正規表現 第3版

詳説 正規表現 第3版

◆ おすすめ Perl本

■ 続・初めてのPerl 改訂版

『初めてのPerl』の次ぎに読むと吉です。

結構いいですが・・・、初心者にはちょっと難しいかもです。

■ 結城浩のPerlクイズ

この本には、ちゃいちゃんパパの小話しが載っています(謎)。

ある程度、Perlを理解している人には、たまらない内容になっています。さすが結城先生だな!

結城浩のPerlクイズ

■ 新版Perl言語プログラミングレッスン入門編

実は、私はまだ読んでいませんが、結城先生の本なので良くないはずがありません。

新版Perl言語プログラミングレッスン入門編

■ CGI&Perlポケットリファレンス (Pocket reference)

この本は、非常に役に立ちます。ちょっと調べるのに最適です。サンプルも説明も的を射ています。

CGI&Perlポケットリファレンス (Pocket reference)

■ Perlベストプラクティス

一読の価値有りだと思います。

Perlベストプラクティス

■ プログラミングPerl〈VOLUME1〉

ご存知、Perl本の聖書、ラクダ本(上)です。

■ プログラミングPerl〈VOLUME2〉

ご存知、Perl本の聖書、ラクダ本(下)です。

◆ おわりに

最後に、本ページが、何かのお役に立てれば幸いです。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

人のよいところをどんどん見つけよう