読者です 読者をやめる 読者になる 読者になる

無知を晒す

ふだんの出来事はこっちに書いてます: http://tana.hatenablog.com

「プログラマのための文字コード技術入門」読んだ

プログラマのための文字コード技術入門」読んだ.

前半は文字コードの基礎知識が書かれていて,後半は文字コードを使うことに焦点を当てた話が書いてある.具体的な例が多くて良かった.日本語を扱う情報技術者なら絶対読んでおいた方がいい気がする.

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

読んだ理由

ある日,UTF-8Unicodeの違いってをちゃんと説明できないことに気がついて,恥ずかしくなり,文字コードに関わる知識を体系的に身につけたくなったのが読んだ理由.*1

読んでみて

文字コード,とにかく人類文明と情報技術の戦いだし,前の戦いの影響があとの戦いに響いていて(後方互換性というやつ)ほんとうに厳しいな,という思いを新たにした.本で言うと2, 3, 4章にあたる.1章はそのための前提知識を整理するために割かれている.

後半は実際にソフトウェアで文字コードを扱うことに焦点をあてた話が書かれている.

文字コード技術,結構ガチガチで重いのだけれど,この本ではところどころに面白エピソードが添えられている.そのうちお気に入りの二つを軽く紹介する.

一つ目は1978年に制定されたJIS X 208に存在する幽霊漢字のエピソード.幽霊漢字って言うのは大修館書店大漢和辞典*2 にも載っていないのにナゼかJIS X 208には定義されている漢字のこと.1998年の改正でどうしてそんな漢字が含まれたかほぼ解明されているのだけれど,「彁」っていう字だけは不明のまま.

二つ目は付録の3節にある北朝鮮文字コードの話で,「金日成」「金正日」に相当するハングル6文字が,この順番で別の句点位置に用意されていると言う話.金正日の直後は空き領域になっているとのことだけれど,もう金正恩氏の名前は追加されてるのだろうか…….

まとめ

漢字,単純に異常な字数があって,それだけでもやっかいなのに,ほとんど同じ字だけど違うとかあって本当に厳しいと思う.幽霊漢字の例があるように,単純にコンピュータ上で扱えるようにする文字を決めるだけで一仕事という感じがある.

文字コードにまつわる問題に悩まされるたびに,7bitで表現できない文字捨てて世界平和目指した方が良いって思ってたけど,実際そういうわけにはいかないし,この複雑な問題に対して正面から向き合った人たちに敬意を払わずにはいられない.

以上です.

*1:ちなみに116ページのコラムがどんぴしゃでこの話を扱ってる

*2:数十年に及ぶ歳月を費やし完成された漢和辞典,全15巻構成で5万字が収録されている http://ja.wikipedia.org/wiki/%E5%A4%A7%E6%BC%A2%E5%92%8C%E8%BE%9E%E5%85%B8