パソコンやスマートフォンで漢字変換をしているとき、ふと「これ、なんて読むんだ?」という見たこともない、不気味な造形の漢字に遭遇したことはありませんか? 辞書を引いても載っていない。漢字に詳しい人に聞いても首を傾げられる。しかし、変換候補には確かに存在し、画面に入力することもできる。
「はい正解言いますね。はい、こんな字ないです」
ゆるコンピュータ科学ラジオでそう断言される通り、実はコンピュータの世界には、この世のどこにも実在しない「謎の漢字」がいくつも登録されています。なぜ、実在しない文字が世界共通の厳格な規格に紛れ込んでしまったのか。そして、間違いだと判明してもなお、なぜ消されることなく鎮座し続けているのか。
その裏側には、紙の継ぎ目を文字の線だと見間違えたアナログな失態と、エンジニアたちが最も恐れる「技術的負債」という名の、一度決めたら死ぬまで、いや、文明が続く限り二度と修正できない絶望の物語が隠されています。今回は、日常のタイピングが少し怖くなるような、文字コードの闇をじっくりと紐解いていきましょう。
今回の配信内容🎧
- ユニコードに堂々と登録された、実在しない「幽霊文字」の滑稽で恐ろしい正体。
- 物理的な「紙の切れ目」が漢字の構成要素になった? 規格誕生時の知られざるミス。
- 「間違いなのに直せない」の絶望。互換性が生むデジタルの呪縛と、修正の不可能性。
- 現代のエンジニアが今も利子を払い続ける、円記号(¥)とバックスラッシュ(\)の混同地獄。
存在しないのに「登録」されている漢字の謎:デジタルの森に住まう幽霊たち
想像してみてください。「山」の下に数字の「1」、さらにその下に「女」と書く一文字。
一見すると、何か由緒正しい地名や人名に使われていそうな雰囲気を持っていますが、漢字の歴史をどれほど遡っても、このような構成の文字は見当たりません。しかし驚くべきことに、この字はコンピュータの国際規格である「ユニコード(Unicode)」にしっかりと割り当てられており、今日、この瞬間も世界中のコンピュータが「文字」として認識しています。
このように、規格には存在するのに、実際の文献や日常生活では使用例が一切見当たらない文字のことを、専門用語で「幽霊文字(幽霊漢字)」と呼びます。
なぜ、こんな奇妙な事態が起きたのか。それは、今から数十年前、まだコンピュータが今ほど普及していなかった時代に行われた、あまりにアナログな規格作成作業に原因がありました。
当時の担当者たちは、日本全国の地名や人名を網羅するために膨大な資料をかき集め、一つひとつ文字を整理していました。その過程で、ある珍しい漢字を収録しようとした際、資料にその文字の活字がなかったため、担当者は「山」と「女」のパーツを切り貼りして、手作りで一文字の資料を作成したのです。
「この紙の切れ目のところを線だと誤認して1本線入れちゃったっていうのが、この幽霊文字のきっかけらしいですね」
そう、資料を読み取った別の担当者が、あろうことか「紙の継ぎ目の段差」を漢字の構成要素である「一」という横線だと勘違いしてしまったのです。こうして、物理的な工作の跡が「新しい漢字」として歴史に刻まれることになりました。文字通り、デジタルの森に「幽霊」が迷い込んだ瞬間です。実はこうした幽霊文字は、私たちが気づかないだけでJIS規格の中に数十個単位で潜んでいると言われています。
「ま、いいか」が100年残る。修正不能なデジタルの呪い「技術的負債」
「間違いだと分かっているなら、今すぐ消せばいいじゃないか」
普通はそう思いますよね。ゴミが混じっているなら掃除すればいい。しかし、文字コードの世界では、その当たり前の正論が通用しません。
「一回決めちゃったらもう二度と軌道修正できないっていうのが、文字コードの非常に困るところですね」
もし「この字は間違いだから削除します」とコードを消去したり、別の正しい字に書き換えたりするとどうなるでしょうか。その瞬間に、過去数十年の間にそのコードを使って作成された膨大な公文書、銀行の取引データ、歴史的なテキストファイルがすべて「読み取れないゴミ」に変わってしまいます。あるいは、修正したことで「この字は間違いである」と記した文書そのものが矛盾を抱えてしまう。
このように、過去のデータとの「互換性」を維持するために、明らかに間違っている設計や非効率な仕組みを使い続けなければならない状態を、エンジニアの世界では「技術的負債」と呼びます。100%技術的負債です!と断言される通り、文字コードは一度決まると、その文明が滅びない限り修正できない、極めて重い呪いのようなものなのです。
これはITの世界だけの話ではありません。例えば、前任者が適当に作ったExcelの管理表を、誰も仕組みを直せないまま10年使い続けている……そんな「組織の負債」に心当たりはありませんか? 文字コードは、その「ま、いいか」という妥協が、人類規模のスケールで永続化されてしまった究極の形なのです。
正直、当時の担当者を責める気にはなれません。だって、紙を切り貼りして資料を作っていた、熱意あふれる時代だったのですから。でも、その一瞬の勘違いが、後の世の数億人のエンジニアとコンピュータを縛り続けることになるなんて、当時は誰も想像できなかったでしょう。
日本人エンジニアの宿敵「円記号 vs バックスラッシュ」という不治の病
技術的負債がもたらす、最も身近で、かつ最も厄介な実例が、日本人なら誰もが一度は混乱したことがある「円記号(¥)とバックスラッシュ(\)」の混同問題です。
本来、プログラミングやコンピュータの深層において、バックスラッシュは改行や特殊な命令を表す「特権階級」の非常に重要な記号です。一方、円記号はただの通貨単位に過ぎません。世界標準では、これらは全く別のコード(番号)を割り振られています。
ところが、日本の初期の文字コードを定めた際、「バックスラッシュなんてあんま使わないだろ。何に使うのって思ったから、ここ使っちゃっていいじゃん、円記号に」という、今思えば驚くほど軽やかな、そして致命的な決断が下されました。
「バックスラッシュと円、同じ記号に割り当てた人アホだよねって言ってたんですけど」
その結果、現代でも「Notionでバックスラッシュを打とうとすると円記号に強制変換される」「WindowsとMacでデータのやり取りをすると、パスの表示がバックスラッシュだらけになる」といった地獄のような状況が続いています。私たちは、プログラミング画面でバックスラッシュが円マークに化けるたび、数十年前の「安易な決断」という名の負債の利子を、今なお払いわされているわけです。
正直、負債は厄介です。でも、裏を返せば、30年前のデジタル文書が今も読めるのは、この「意地でも変えない」という負債を受け入れた互換性の賜物でもあります。それは呪いであると同時に、デジタル文明が過去から未来へと繋いできた「絆」のようなものなのかもしれません。
まとめ:デジタルの深淵に刻まれた「人間の足跡」
この記事をまとめると…
- 幽霊文字とは、アナログな写し間違いや資料の「紙の継ぎ目」を誤認したことで、実在しないのに規格に登録されてしまった漢字のこと。
- デジタル世界は「互換性」が最優先されるため、一度決まった間違いは修正できず、未来永劫残り続ける「技術的負債」となる。
- 円記号とバックスラッシュの混同は、数十年前に下された「ま、いいか」という決断が、現代まで牙を剥き続けている最大の負債の実例である。
- 文字コードの歴史を知ることは、コンピュータがいかに「人間の不完全さ」を内包したまま進化してきたかを知ることに他ならない。

私たちが普段、何気なく変換している漢字の中には、数十年前の誰かの「見間違い」や「妥協」が、幽霊のようにひっそりと息を潜めています。次に変換候補の中で不思議な漢字を見つけたり、円記号の表示に悩まされたりしたときは、それをエラーとして嫌うのではなく、デジタル文明が背負った「人間味あふれる歴史の重み」として、少しだけ面白がってみてはいかがでしょうか。
配信元情報
番組名:ゆるコンピュータ科学ラジオ
タイトル:存在しない漢字を、なぜ入力できるのか? 世にも恐ろしい技術的負債の話。【文字コード3】#94
配信日:2023-10-15


