Win上で漢字変換し、それをLinuxに持っていく

Perl初心者のためのPerlノートです!

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

◆ はじめに

本ページは、私がPerlを習得した時(いや習得中)のノートです。

ごく普通の言語(COBOL,C,Java,VB等)を知っている人が、Perlをやり始めるといろいろと悩むことがあります。

それは、

です。

本ページは、そのようなハードルを一つ一つクリアにしていけたらと思います。

そして、本ページが何かのお役に立てれば幸いです。では、ごゆっくりご覧ください。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

◆ サイト最新情報

◆ コンテンツ

2009-08-06 Win上で漢字変換し、それをLinuxに持っていく

◆ プロローグ

えーと、まずはじめに、Perlで漢字処理をするには、ソースコードを utf8 で書くのが基本です。

しかし、Windowsだと、なかなかそうできないケースがあったりします・・・。

以下は、ソースコードを shiftjis で書いています。


◆ 本題

Linuxでの漢字コードは、昔は euc ですが、今は utf8 です。

また、改行コードは、昔から FL です。


たとえば、データをWin上で処理した後に、Linuxに持っていく場合があるとします。

その時は、Win上で漢字コードを utf8 か、または euc にして、改行コードを FL にしないとなりません。

以下は、そんな時のためのサンプルです。ソースコードは shiftjis で書いています。

use strict;
use warnings;
use encoding 'shiftjis';

my $fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n";

open my $fh, '>', 'test_euc.txt' or die "Error ($!)";
binmode $fh;
binmode $fh, ':encoding(euc-jp)';
print $fh $fileBody;
close $fh;

open  $fh, '>', 'test_utf8.txt' or die "Error ($!)";
binmode $fh;
binmode $fh, ':encoding(utf8)';
print $fh $fileBody;
close $fh;

open  $fh, '>', 'test_sjis.txt' or die "Error ($!)";
binmode $fh, ':encoding(shiftjis)';
print $fh $fileBody;
close $fh;

補足1

test_euc.txtとtest_utf8.txtでbinmodeを2回呼んでいるのは、1回目が改行をLF出力指定にし、2回目が漢字変換指定です。


補足2

尚、上記サンプルでの『encoding 'shiftjis'』指定は、ファイル出力系のデフォルト漢字コードを utf8 にしてしまいます。

なので、今まで shiftjis で出力していた思いがけないところが、いきなり utf8 になって、あせったりします。

他に影響がないようにするには、以下のように文字列だけを変換すると吉かもしれません。

use strict;
use warnings;
use Encode qw(from_to);

my $fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n";
open my $fh, '>', 'test_euc.txt' or die "Error ($!)";
binmode $fh;
from_to $fileBody, 'shiftjis', 'euc-jp';
print $fh $fileBody;
close $fh;

$fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n";
open  $fh, '>', 'test_utf8.txt' or die "Error ($!)";
binmode $fh;
from_to $fileBody, 'shiftjis', 'utf8';
print $fh $fileBody;
close $fh;

$fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n";
open  $fh, '>', 'test_sjis.txt' or die "Error ($!)";
print $fh $fileBody;
close $fh;

補足3

euc-jp と utf8 と shiftjisは、少なくとも英数字は、各々と同じコードです。

漢字コードのところが、各々で定められて違うのです。ちなみにUTF-16は、英数字のコードも異なります。

また、改行コードは、Linux系が FL(\x0a) で、Windows系は CRLF(\x0d\x0a) です。ちなみにMac系は CR(\x0d) とのことです。


◆ エピローグ

ただし、あくまでも、漢字を扱う時の基本は、ソースコードを utf8 で書くことですよ!

ではなぜ、ソースコードを utf8 で書くことが推奨なのでしょうか・・・。

それは、正規表現での漢字のパターンマッチが、ちゃんとできるようになるからです。

ソースコードを utf8 で書いて、『use encoding 'utf8';』指定することにより、漢字をバイト列でなく、文字列とみなしてくれるのです。

euc-jp や shiftjisは、漢字をバイト列とみなしているので、漢字同士の境界で誤認識したり、shiftjisなどは、漢字コードがアスキーコードとかぶっていたりするのです。


以下は、ソースコードを utf8 にしてみました。

use strict;
use warnings;
use encoding 'utf8';

my $fileBody = "aaaちゃいちゃん\nbbb\nヒロ\nccc\n";

open my $fh, '>', 'test_euc.txt' or die "Error ($!)";
binmode $fh;
binmode $fh, ':encoding(euc-jp)';
print $fh $fileBody;
close $fh;

open  $fh, '>', 'test_utf8.txt' or die "Error ($!)";
binmode $fh;
binmode $fh, ':encoding(utf8)';
print $fh $fileBody;
close $fh;

open  $fh, '>', 'test_sjis.txt' or die "Error ($!)";
binmode $fh, ':encoding(shiftjis)';
print $fh $fileBody;
close $fh;

◆ おすすめ Perl本

■ 続・初めてのPerl 改訂版

『初めてのPerl』の次ぎに読むと吉です。

結構いいですが・・・、初心者にはちょっと難しいかもです。

■ 結城浩のPerlクイズ

この本には、ちゃいちゃんパパの小話しが載っています(謎)。

ある程度、Perlを理解している人には、たまらない内容になっています。さすが結城先生だな!

結城浩のPerlクイズ

■ 新版Perl言語プログラミングレッスン入門編

実は、私はまだ読んでいませんが、結城先生の本なので良くないはずがありません。

新版Perl言語プログラミングレッスン入門編

■ CGI&Perlポケットリファレンス (Pocket reference)

この本は、非常に役に立ちます。ちょっと調べるのに最適です。サンプルも説明も的を射ています。

CGI&Perlポケットリファレンス (Pocket reference)

■ Perlベストプラクティス

一読の価値有りだと思います。

Perlベストプラクティス

■ プログラミングPerl〈VOLUME1〉

ご存知、Perl本の聖書、ラクダ本(上)です。

■ プログラミングPerl〈VOLUME2〉

ご存知、Perl本の聖書、ラクダ本(下)です。

◆ おわりに

最後に、本ページが、何かのお役に立てれば幸いです。

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくPerlノート掲示板へご指摘ください。

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ WEBリーダー/ 燈明日記/ yahoo

人のよいところをどんどん見つけよう