「功罪」とは書いたが、Unicodeに「罪」はない。今振り返って見れば、それまでのいろいろな文字コード(「エンコーディング」というのかも知れないが、ここではどっちでもいい)に比べてずっと便利だ。とにかく、ほとんど何も考えずに、さまざまな言語の文字を混ぜて処理・表示できるようになった。その功績は大きい。

が、その実態は「ゴミ溜め」になってしまっている。

Unicodeの最初の思想・指向は、「同じ形(見た目)の文字は統合しよう」というものではなかったか。"Uni"はその証拠だと思う。だから、最初は、文字の統合に妙に反発する(例: 同じように見えても、実は微妙に形が違う)、頭の硬い人が日本には多かったように思う。今は彼らはどう思っているのだろうか。いまだにEUCとかShift_JISとかJISを使っているのか?w

ところが、今は統合なんてどこへやらで、文字コード表を眺めれば、重複なんてすぐに見つかる。例えば、以下の2文字の違いを見分けられる人は居るだろうか?

A, Α

最初のは普通のアルファベットのA (U+0041, LATIN CAPITAL LETTER A)、2番目はギリシャ語のΑ (大文字のアルファ、U+0391, GREEK CAPITAL LETTER ALPHA)である。ちなみに、それぞれをweb検索すると、本当に違うことが分かる。

もう、Aからして駄目なのだ。「全角」・「半角」(これだって統合してほしかったのに、日本人のわがまま(正確には「実情」なのだろうが)が受け入れられてしまったようだ)以前の問題だ。それから、文字コード表には、山ほどの"Miscellaneous-"や"Supplemental-"や"Extended-"といった追加・補助的なカテゴリがあり、一体、全部で何文字あるのか考えたくもない。節操ないにも程があって、「一体何やってんだ!」と言いたい。

ただ、全く統合されていない訳ではなく、中国・日本・韓国語の漢字は"CJK"と呼ばれて統合されており、文字コード表を見ると、3か国の文字が(仲良く?)混ざっている。そのために、上に書いたように、当初は反発されていた。

上の"A"とCJKの例を見ると、「東アジアで使われている『漢字』とかいうのは、訳分からないうえに数が多くて面倒だから、見た目で一緒にしちゃおう。でも、僕らのラテン文字は、国や地域ごとに歴史も言語も違うんだから、(仮に同じに見えたって)別扱いして当然だよね!」(僕の想像)とかいう、西洋人のエゴが透けて見える。

西洋人のエゴは嫌いだが、日本人のアホさにも参る。例えば、全角のアルファベット・数字は通常(半角)のそれらとは別だし、片仮名だって全角と半角は別だ。それどころか、「全角の空白」すらあるのだ。そんなの良く却下されなかったものだ。「JISにあるから、なくなると困る」とでも主張したのだろうか。そんなつまらないことを文化とか主張しているから、いつまで経っても世界に追い着けないのではないだろうか。

でも、おもしろいのは、今は、Unicodeが出た当時に比べてコンピュータの能力がとてつもなく向上したおかげで、全部で何文字になるのか分からないほど文字数が多くなっても全く問題なく処理できるようになったことだ。そもそも、Unicodeの1文字は2バイトや4バイト(ただし、例外はある。また、UTF-8は可変長)なので、32ビットや64ビットCPUなら全然問題ない。記憶容量にしたって、TBオーダーのストレージが普通になった今、フォントなんてホントに何セットでも保存できる。

だから、いくら「ゴミ溜め」でも許せる。既に書いたように、そのメリットが絶大(超便利)だからだ。文字の統合はテキトーではあるが、「いろんな言語を区別せずにー緒に扱おう」という最初の発想が良かったのかも知れない。どこかの四季のある国のように、重箱の隅を突つきまくってガラパゴス化させるのがすごいと思っている人たちには、決してできないことだろう。

 

PS. 文字コード表で🐱や🐭のような可愛い文字を見つけると、にやっとしてしまうw しかも、これを書いていて、色すら付いているのに気付いた。この投稿だって、上の文字を見つけたから書く気になったほどだ。 (でも、技術者としては、やっぱりなんかおかしい気がするので、複雑な気分だ)

  •  0
  •  0

コメントを書く / Write a comment

名前 / Name    

メール / Mail 

URL