WINDOWSでのPerl漢字処理について考えました

Perl初心者のためのPerlノートです!

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

◆ はじめに

本ページは、私がPerlを習得した時(いや習得中)のノートです。

ごく普通の言語(COBOL,C,Java,VB等)を知っている人が、Perlをやり始めるといろいろと悩むことがあります。

それは、

です。

本ページは、そのようなハードルを一つ一つクリアにしていけたらと思います。

そして、本ページが何かのお役に立てれば幸いです。では、ごゆっくりご覧ください。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

◆ サイト最新情報

◆ コンテンツ

2008-05-01 WINDOWSでのPerl漢字処理について考えました

ここのところ、漢字処理について考えていました。

以下は、間違えやツッコミ所が満載かもしれませんが、書いてみます。


結論としては、漢字コードが1バイト文字や制御文字とダブルことがあるshiftjisは、まずNGです。

また、漢字が連続した場合に2文字の境界で下位バイトと上位バイトで、たまたま意味のある漢字になってしまうeuc-jpもNGです。


というか、shiftjisもeuc-jpもバイト列で処理を考えているからで、バイト列ではもともと漢字処理が不可能に近いのですね。たぶん。

そこで、バイト列でなく、文字列として処理を行い、かつ、1バイト文字や制御文字とダブらないということで、Unicode(utf8)の出番になるわけです。


一方、WINDOWSでは、まだshiftjisの世界です。

なので内部コードはUnicode(utf8)で文字列として処理を行い、WINDOWSの世界へはencodingしてshiftjisにするというのが、いいのではないでしょうか・・・。


ということで、内部的にはutf8フラグを付加することによりバイト列でなく文字列として認識させ、コードは1バイト文字や制御文字とダブらないUnicode(utf8)を使う。


以下のサンプルは、ソースコードをshiftjisとして書き、『use encoding 'shiftjis';』として、内部的にすべてのリテラルにutf8フラグを付加することによりバイト列でなく文字列として認識させ、内部コードをutf8とする。


そして、『use encoding 'shiftjis';』は、また、標準入出力を内部のutf8と外部のshiftjisでのencodingを行います。

標準入出力以外の標準エラーやファイルハンドルは、binmode関数を使って内部のutf8と外部のshiftjisでのencodingを行います。


とにかく、ポイントは2つ。

  1. 漢字は、バイト列でなく文字列として処理させる。
  2. 漢字コードは、1バイト文字や制御文字とダブらないコード系(Unicode(utf8))を使う。
サンプルソース
use strict;
use warnings;
use encoding 'shiftjis';
binmode STDERR, ':encoding(shiftjis)';

open(FH_IN, 'sjis_in.txt');
open(FH_OUT, '>sjis_out.txt');
binmode FH_IN, ":encoding(shiftjis)";
binmode FH_OUT, ":encoding(shiftjis)";
while (<FH_IN>) {
    print FH_OUT $_;
    print unpack('H*', $_), "\n";
    print $_;
}
close(FH_OUT);
close(FH_IN);
print "----------------------\n";
while (<STDIN>) {
    print $_;
}
print "表示 充分 ス 十分";

上記をすすめて、アレなんですが、ソースコードはutf8で書き、utf8プラグマを指定するのが、Perlの方向性としては、一番いいらしいです。

◆ おすすめ Perl本

■ 続・初めてのPerl 改訂版

『初めてのPerl』の次ぎに読むと吉です。

結構いいですが・・・、初心者にはちょっと難しいかもです。

■ 結城浩のPerlクイズ

この本には、ちゃいちゃんパパの小話しが載っています(謎)。

ある程度、Perlを理解している人には、たまらない内容になっています。さすが結城先生だな!

結城浩のPerlクイズ

■ 新版Perl言語プログラミングレッスン入門編

実は、私はまだ読んでいませんが、結城先生の本なので良くないはずがありません。

新版Perl言語プログラミングレッスン入門編

■ CGI&Perlポケットリファレンス (Pocket reference)

この本は、非常に役に立ちます。ちょっと調べるのに最適です。サンプルも説明も的を射ています。

CGI&Perlポケットリファレンス (Pocket reference)

■ Perlベストプラクティス

一読の価値有りだと思います。

Perlベストプラクティス

■ プログラミングPerl〈VOLUME1〉

ご存知、Perl本の聖書、ラクダ本(上)です。

■ プログラミングPerl〈VOLUME2〉

ご存知、Perl本の聖書、ラクダ本(下)です。

◆ おわりに

最後に、本ページが、何かのお役に立てれば幸いです。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

人のよいところをどんどん見つけよう