UTF-16は、実は5種類ある!

VB6,VBA,VBS,EXCEL,DOS,BAT,WSH,WORDの小技メモ

HTML/ CSS/ CGI-Perl/ JavaScript/ JavaApplet/ AccessUp/ Internet/ EnglishLearn/ ちゃいちゃん天使/ 天使メッセージ/ 飯田ワールド/ 結城ワールド/ プロフィール/ WEB相談室/ WEBアンテナ/ 燈明日記/ Perlノート/ 漢字起源/ yahoo

はじめに

本ページは、ウインドウズ系全般のティプスメモです。

そう、はじめはVB系のティプスメモだったのですが…いつの間にか、ウインドウズ系全般のティプスメモになってしまいました。

ちなみに、ティプス(Tips)とは、マニュアルに書かれていない技法や裏わざのことですが、本ページでは、私が経験してこれはと思ったノウハウのメモになっています。

尚、以下は本サイトの最新情報(ブログ)です。

それでは、本ページが何かのお役に立てれば幸いです。ごゆっくりご覧ください。

2008-11-24 UTF-16は、実は5種類ある!

ユニコードは、コード自体は一つ(ユニーク)なのだけど、そのエンコードの方法には沢山があります。

よく使われるエンコードは、UTF-8とUTF-16です。

UTF-8は、Web系やPerlでよく使われていて、1バイト文字はアスキーコードと互換性があり、漢字は3バイトでエンコードします。


一方、UTF-16は、なんとUTF-16だけでも5種類のエンコード方法があるのです。知っていましたか?

基本的に文字を2バイトのコードで表現するエンコードです(今回サロゲートペアについての説明はパス)。


バイトの並び方の違いでビックエンディアンとリトルエンディアンあり、なおかつ、各々にBOM(Byte Order Mark)が付くエンコードがあります。

まず、BOMの付かない、以下の2通りのエンコードがあります。

そして、単にUTF-16と言った場合、以下の3通りが許されるとのことです。

と言うことで、UTF-16は、以上の5種類があるのです。


◆サンプル:『A』をUTF-16で表現したときの5つのエンコード

エンコード名エンコード
UTF-16BE00 41
UTF-16LE41 00
UTF-16 FE FF 00 41
UTF-16 FF FE 41 00
UTF-16 00 41

おわりに

以下のページには、すべてのTIPSがあります。もしよろしければ、どうぞ!

尚、ご感想、ご意見、誤字、脱字、間違い等がありましたら遠慮なくVB-TIPS掲示板へご指摘ください。

人のよいところをどんどん見つけよう