PerlでのシフトJIS漢字問題

Perl初心者のためのPerlノートです!

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

◆ はじめに

本ページは、私がPerlを習得した時(いや習得中)のノートです。

ごく普通の言語(COBOL,C,Java,VB等)を知っている人が、Perlをやり始めるといろいろと悩むことがあります。

それは、

です。

本ページは、そのようなハードルを一つ一つクリアにしていけたらと思います。

そして、本ページが何かのお役に立てれば幸いです。では、ごゆっくりご覧ください。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

◆ サイト最新情報

◆ コンテンツ

2008-07-24 PerlでのシフトJIS漢字問題

WINDOWSでPerlスクリプトを組む時の漢字コードは、一番自然なのが、コードも入出力もシフトJISです。

しかし、シフトJIS漢字コードでスクリプトを組むと、不可解な世界に陥るのです。

そして、その不可解は、大きく分けて以下の2つの問題が原因なのです。


シフトJISの第2バイトコード問題

シフトJIS漢字は、第1バイトと第2バイトの2バイトで表現されています。

そして、第2バイトには、ASCII 1バイト文字『@-~(10進で64-126)』と、かぶるコードが割りついているのです。

この1バイト文字には、以下の問題発生が潜在的に含んでいるのです。

  1. 第2バイトの『\』0x5c問題 - \でその後に続く文字をエスケープしてしまう。
  2. 第2バイトの『\\』連続問題 - エスケープを入れた前の漢字が1の場合だった時、\が連続してエスケープにならない。
  3. 第2バイトの『\n』連続改行問題 - 1の場合で、後に続く文字がたまたま『n』だったら改行になってしまう。
  4. 第2バイトの『@』問題 - 漢字スペースの第2バイトは『@』と同じコードで、Perlでの配列変数と区別がつかなくなる。
  5. 第2バイトの『アルファベット』問題 - 漢字なのにアルファベットだと誤認識。また、アルファベットの大文字小文字で誤認識(lc関数)
  6. その他の第2バイト問題 - 明らかに問題がありそうなコード『{,},|,^,[,]』、他にもあるかも。

バイト列による漢字コード境界問題

漢字コードは普通2バイト以上で、これが連続した場合に漢字毎の境界を挟んで、たまたま別の漢字に認識されることがあるのです。

たとえば、シフトJISの場合、全角『c』の文字コードは 0x82 0x83 で、全角『d』は 0x82 0x84 で、全角『モ』は 0x83 0x82 です。

『cd』の場合、0x82 0x83 0x82 0x84 となり、2つの漢字コードの境界を挟んで、0x83 0x82となり、『モ』と同じになってしまうのです。


結論として、シフトJIS漢字コードでPerlスクリプトを組むには、相当な覚悟が必要なのです。

現象さえ見抜けば、回避する方法も、Perlでは、ほぼ用意されていますが・・・。

また、回避したコードは、他のOS上に移植した時に、例えばUNIX系とかでは動かなくなる可能性が大です。

ということで、漢字処理に関しては、以下のページがお奨めです。


尚、本記事は、以下のページを参考にさせていただきました。

しかし、このページは、Perlと文字コードに相当詳しくないと読みこなせないですね。

◆ おすすめ Perl本

■ 続・初めてのPerl 改訂版

『初めてのPerl』の次ぎに読むと吉です。

結構いいですが・・・、初心者にはちょっと難しいかもです。

■ 結城浩のPerlクイズ

この本には、ちゃいちゃんパパの小話しが載っています(謎)。

ある程度、Perlを理解している人には、たまらない内容になっています。さすが結城先生だな!

結城浩のPerlクイズ

■ 新版Perl言語プログラミングレッスン入門編

実は、私はまだ読んでいませんが、結城先生の本なので良くないはずがありません。

新版Perl言語プログラミングレッスン入門編

■ CGI&Perlポケットリファレンス (Pocket reference)

この本は、非常に役に立ちます。ちょっと調べるのに最適です。サンプルも説明も的を射ています。

CGI&Perlポケットリファレンス (Pocket reference)

■ Perlベストプラクティス

一読の価値有りだと思います。

Perlベストプラクティス

■ プログラミングPerl〈VOLUME1〉

ご存知、Perl本の聖書、ラクダ本(上)です。

■ プログラミングPerl〈VOLUME2〉

ご存知、Perl本の聖書、ラクダ本(下)です。

◆ おわりに

最後に、本ページが、何かのお役に立てれば幸いです。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo