四つの悪夢



加藤弘一
iモード絵文字という悪夢 new
文字化けの嵐という悪夢
フォント切替という悪夢
JIS乱立という悪夢

 本ページは「四つの悪夢」という表題ながら、三項目だけで「仮公開」をつづけてきました。エディトリアルに書いたように、『電脳社会の日本語』を機にサイトの方針を転換し、本来の文学コンテンツに集中する予定ですが、その前に、このページに第四の項目を書いて、一応の区切としたいと思います。
 他の三項目については、直すとしたらゼロから書き直すしかないので、手をくわえていません。事態の推移でずれている点が多々ありますし、用語の不一致など、お見苦しい点があると思いますが、1996年後半〜1998年初頭の頃は、こういうことを考えていたのだという参考ということで、なにとぞ御容赦ください。

iモード絵文字という悪夢

 NTT DoCoMoのiモードは、昨年2月22日のサービス開始以来、利用者が倍、倍で増えつづけ、一年間で四百万契約を越える勢いだそうです。来年の二月には1500万台に達しているという予測もあり、パソコンに代わるインターネット接続手段になる という見方も、現実味をおびてきました。

 iモード用のページはCompact HTMLというHTMLのサブセットで記述するので、一般のページも分量が小さければ(5Kバイト以内)、ほぼそのまま閲覧できますし、大きくても、iモード用に分割して読めるようにするサイトがあります。iモード用のページをパソコンのWWWブラウザで閲覧することも可能です。

 通常のWWWページをiモード風に表示させるためのスタイルシートまであるくらいで、iモード向けページと一般のWWWページの境目は曖昧なのです。もちろん、iモード向けに公開するなら、iモード用に作り直した方が読みやすいのは言うまでもありません。iモード用のページを併設するサイトが、ここにきて急激に増えていますが、Compact HTMLがHTMLのサブセットなので、従来のページをiモード用に作り直す作業はきわめて簡単で、sedやawkといったツールで一遍に変換することもできます。これでは普及するのは当り前ですね。今後の展開としては、TVのセットトップボックスが考えられるでしょう。TVによるインターネット接続は、画面解像度の低さがネックになって、今一つ進んでいませんが、iモード向けページ閲覧を主眼にした売方をすれば、解像度の問題はクリアできます。

 いいことずくめのようですが、南堂久史氏も指摘されたように、一つだけ、iモードは困ったことをやっています。iモード用の日本語ページはシフトJISを使うことになっていますが、シフトJIS用の外字領域の一番後ろに166字の絵文字をマッピングしているのです。


 絵文字入力用ツールと外字ファイルを公開している方がおられたので、常用のマシンにいれてみたところ、ちゃんとiモード外字が表示されました。四角で囲んだ数字はメニュー選択用で、iモード向けページで多用されています。こういうツールの影響もあってか、iモード絵文字を使ったページは意外に多く、一割を越えているのではないかという印象をもちました。

 iモード絵文字は実体参照形式でも利用できますが(パソコンのブラウザでは「?」になる)、実体参照形式で絵文字を利用したページはあまりありません。

 絵文字が存在するのはシフトJIS外字領域の一番後ろで、IBM外字の直前で終っていますから、外字を目いっぱい使っている人以外は影響がないといえますが、問題は2000JISです。2000JISの第四水準はiモード絵文字ともろに重なるのです。

 2000JIS用のフォントを公開されている方がおられますが、2000JISで作ったページをiモードで閲覧すると、どういう結果になるかは言うまでもないでしょう。逆も同じです。

 97JISの後であるのに、シフトJISの外字領域を使った点に問題の根があるのですが、iモードの怒濤の進撃を考えると、iモード絵文字はデファクト・スタンダードとしてそのまま受けいれるしかないのではないでしょうか。いずれにせよ、iモードでは2000JISは使えませんが。

(なお、この問題については「シフトJISをいかに軟着陸させるか」を併読ください)




以下の文章は内容が古く、あくまで参考として公開をつづけます


文字化けの嵐という悪夢

 現在、JCS委員会と日本規格協会フォント開発・普及センターは、JIS X 0213という新しい文字セットの開発を進めており、98年中の公開レビュー、99年施行を目指しています。規格番号ではわかりにくいので、ここでは JIS第1水準、JIS第2水準をさだめた従来の JIS漢字コード(JIS X 0208)を「JIS基本漢字」、1999年に施行される JIS X 0213を「新拡張JIS」と仮に呼んでおきます。

 「文字コード問題早わかり」続・漢字編に書きましたが、新拡張JISは、JIS基本漢字のあいている場所と隣接する場所を使って、5000字余の文字を JIS第3水準、JIS第4水準として増やすというものです。Dos/Vマシンや Macintoshのように、フォント(字形データ)をソフト的に提供するコンピュータなら、公開レビューと同時に、日本規格協会フォント開発・普及センターが無料で配布するフォントをインストールすることで、OSに一切手をくわえることなしに、新拡張JISで増える 4000字余が使えるようになります。

 1990年に施行された JIS補助漢字(JIS X 0212)はほとんど使われないまま消え去ろうとしていますし、Unicodeの普及もあまり進んでいませんが(Windows98の登場で、この状況は一変しようとしています)、新拡張JISは無料のフォントをインストールするだけでいいのですから、インターネットや雑誌のおまけのCD-ROMなどを通じて、急速に普及することが予想されます。おそらく、半年足らずで、半数以上のパソコンに組みこまれるかもしれません。ただし、それ以降は、普及のペースがガタンと落ちるでしょうが。

 今さら 4000字余の拡張では中途半端ではないかという問題もありますが、それはおくとしても、この計画には深刻な欠陥があります。

 第3水準、第4水準の文字のはいる場所は、ついこの間(1997年3月)まで、自由領域として外字の登録が認められていた場所だからです。第3水準文字がマッピングされる領域は MS-Dosやワープロ専用機で使われていた外字領域と重なりますし、第4水準は Windowsの外字領域に重なります(Macintoshの外字領域は Windowsとほぼ重なっていましたが(というより、Windowsが真似をした)、漢字TALK 7.0以降は使用が停止されています。もっとも、漢字TALK 7.0以降でも外字を使えるようにするユーティリティが市販されており、かなりの数が使われているようですが)。

 JIS基本漢字の 1997年改正では、すべてが予約領域となり、外字を自由に登録できた自由領域がなくなりました。本格的なネットワーク時代の到来をひかえて、この措置はやむをえないことですし、空いた外字の場所に正式に文字をわりあてようという発想それ自体は悪くはないと思います(文字コードヲタクの考えそうな裏技という見方もありますが)。

 しかし、自由領域廃止のたった二年後に、そこに新しい文字をマッピングした文字コードを施行するのはどうでしょうか。電気店のワープロ売場をごらんになればわかりますが、「外字」と刻印されたキーを持つマシンが、外字使用禁止後も、現役製品として、堂々と売られています。Win98にも、第四水準漢字に予定されている領域(F040〜F9FC)に登録可能な外字エディタがつきます(β版で確認)。

 JIS不適合の製品を売るのは工業標準化法違反だといっても、工業標準化法には強制力はありません。そもそも、ほとんどのパソコン(MS-Dos、Windows、MacOSで動くもの)は、1997年3月の JIS X 0208改正でシフトJISが公認されるまでは、工業標準化法違反でした。官庁でも、教育現場でも、JIS不適合のパソコンが15年近くも、堂々と使われてきたという現実に JISの方が折れ、泥縄的に現状追認をおこなったわけです。

 Win3.1や Win95、Win98のままでも、無料で公開されるフォントをいれることで新拡張JISに対応できますが、新拡張JISに切り替えるなら、ネットワークにつながっているマシンすべてを一斉に新拡張JISに移行させる必要があります。

 というのは、外字の使えるマシンで新拡張JISのマシンで作成したデータを読むと、文字が化けまくりますが、逆も言えるからです。ネットワークに旧来のマシンと新拡張JIS対応のマシンが混在していると、旧来のマシンはもちろん、新拡張JIS対応のマシンまでが文字化けの嵐に見舞われるのです

 最近流行の WindowsCEを搭載したPDAや、多くのワープロ専用機、9801シリーズなど、フォントを ROMに焼きこんでいるマシンはさらに深刻です。こうしたマシンを新拡張JISに対応させるためには、新拡張JIS対応のフォントROMが必要ですし、WindowsCEマシンの場合なら、システムのはいったROMにフォントがはいっているので、システムROMそのものの交換が必要となります。メーカー側がフォントROMを用意したとしても(すべての機種で用意するかどうかはわかりません)、筐体をあけて、マザーボードに半田づけされているフォントROMを交換しなければなりません。フォントROMはゲジゲジのようなたくさんの足の生えた半導体ですから、交換には熟練が必要です。公的規格の変更によるROM交換ですから、ROMは無料で提供されるにしても、サービスセンターにもちこまなければ、交換は無理でしょう。

 携帯性が売りの WindowsCEの PDA(高級電子手帳)の場合は、1997年秋に登場する一部の新製品から、システムROMが直付けからソケット装着にかわるので、機械に強い人なら、自力で差し替えられるようになると予想されますが、サービスセンターにお願いしなければならないユーザーも多いでしょう。

 公的規格の変更によるROM交換ですから、メーカーは無料で新版を提供しなければいけないのですが、システムROMにはフォント以外にも、さまざまなプログラムが入っているので、ごまかしの余地があります。プログラムのささいなアップデートとこみにして、料金をとろうとするところが出てくるかもしれません。そういう悪質な企業に対しては、プログラムのアップデートなしで、フォントを更新しただけのシステムROMの無料提供をもとめるべきですし、このような事態を招いた全責任のある工業技術院は、ROMを無料提供するようにメーカーを指導しなければなりません。

 社内で新拡張JISを禁止するという対処法もありますが、その場合、インターネット接続も禁止しなくてはなりません。 「JIS基本漢字」だけなのか、「JIS基本漢字+新拡張JIS」なのかは、原理的にも、実際的にも、判別不可能だからです(判別不可能だから、OSに一切手をくわえることなしに、新拡張JISが使えるのです)。

 致命的なのは、下図のように、新拡張JISはJIS基本漢字の隙間にはいりこんでしまい、つなぎ目なしの一つの文字セットになってしまうということです。新拡張JISはJIS基本漢字に寄生し、別個の文字セットに変貌させてしまうのです。

XKP_CharSet

 ハードウェアが使えなくなるのも困りますが、CD-ROMで提供されている辞書・事典類が使えなくなる可能性もあります。

 辞書・事典類は大量に外字を使っていますが、外字領域に外字をマッピングしている通常外字方式と、異体字を中心にした外字を表内文字にマッピングした独自のフォントを作り、外字を表示する場合はフォント切り換えで対処するEPWING規約にもとづく外字方式(ボイジャー方式を大がかりにしたもの)の二つがあります。

 通常外字方式は文字化けの嵐になり、使いものになりません。EPWING外字をつかっているものは、比較的影響はすくないものの、外字の中には新拡張JISで増える文字がかなり含まれているはずなので、外字と新拡張JISと二重にマッピングされる文字が出てきて、検索に問題がでてくるでしょう。

 いくつかの出版社にうかがったところ、JIS基本漢字版と新拡張JIS版を平行して出すなどということは、商品流通上、不可能なので、新拡張JISがある程度広まった時点で切り替えるということでしたが、これでは高い辞書・事典はうっかり買えませんね。

 新拡張JISの開発が既定事実として取り消せないというのなら、せめて公開レビューを5年間凍結し、十分な移行期間をおくべきだと考えます。83年改悪は、300字の字形変更であれだけの混乱をまねきました。新拡張JISは83年をもしのぐ 5000字の拡張をおこないます。「桧」と「檜」が入れ替わるだけならともかく、予想もつかない別の文字に化けてしまうのです。ネットワークの普及も 83年当時の比ではありません。オンライン取引のトラブルも当然おこるでしょう。

 新拡張JISの1999年施行を強行したら、国民生活に深刻な影響が出るのは火を見るより明らかです。薬害エイズに匹敵する犯罪行為と言ってもいいかもしれません。わたしたちは、このような性急な施行を黙認した工業技術院をはじめとする行政の責任を追求していくつもりです。




フォント切替という悪夢

 文字には書体と呼ばれるさまざまなデザインがあります。年賀状印刷ソフトなどを買うと、隷書体、清朝体、勘亭流、細字明朝、丸ゴチ等々、十種類前後の書体の日本語フォントがおまけでついてきますし、サードパーティから出ているフォント集を買えば、一万円前後で、数十種類の書体のフォントを入手することができます。一書体あたり約6500字として、十万字近い字形データをもっているのが普通になってしまいました。ちょっと前まで、日本語フォントは一書体あたり数万円したことを思うと、隔世の感があります。

 使い勝手も Dos時代からくらべるとずいぶん良くなりました。フォント切り替えという仕組で、簡単に書体を指定することができますし、一字ごとに書体を切り替えることも可能です。

 文字コードの規格では、規格票に掲載された字形はあくまで「例示」であって、その通りの字形を実装する必要はないとしています。「例」と「例」の違いのような書体のバリエーションを認め、同一のコードポイントに包みこんでいるのです。

 書体ごとに異なるコードポイントを割り当てていったら、天文学的な数のコードポイントが必要になり、いくらフォントとハードウェアが安くなったといっても、実装しきれないでしょう。コードポイントの割当を受けなければ、新しいフォントが作れないのでは、新しいフォントの開発が阻害され、ユーザーにとっても、ソフト会社にとっても不利益になります。自由競争で、さまざまなデザインのフォントが出まわることで、書体のバリエーションが増え、値段が下がっていきます。そういう意味でも、書体の違いを統合・包摂することは必要です。

 文字コードの規格で Unificationの規準を明文化したことは評価できますが、Unicodeと97年改正のJIS基本漢字(JIS X 0208)で問題なのは、「藤」と「」、「」、「吉」と「」のような異体字まで、書体差と同じ次元のデザインのバリエーションとわりきり、一つのコードポイントに統合・包摂してしまった点です。

 異体字が必要なら、フォント切り替えで対応すればいいというのが Unicode側と 97年改正JCS委員会側の主張です。異体字にいちいちコードポイントをわりあてていったら日本語だけで十万字近くをコード化しなけらばならないので、コードポイント+フォント名で、異体字を特定しようというわけです。しかし、デザインの差と字体の差を同じようにあつかえるのでしょうか?

 現時点では、異体字フォント集はどこからも出ていませんが(外字ライブラリは数社から出ていますが、異体字フォント集とは別ものです)、将来、そうしたものが出たとして、住所録に「原義」という名前を登録する場合を考えてみましょう。

 まず「藤原義高」と入力し、フォント切り替えで、「藤」をサワモリ異体字フォント集の中の旧明朝Bというフォントの「」、「高」を旧明朝Aというフォントの」と指定すれば、「原義」となります。

 しかし、封筒の宛名を丸ゴチ書体で印字するなら、「藤原義高」にもどってしまいますから、もう一度「藤」をサワモリ異体字フォント集の旧丸ゴチBフォント、「高」を旧丸ゴチAフォントと指定し直さなくてはなりません。

 今年は年賀状の宛名を勘亭流で印字しようなどと考えたら、またまたフォント指定のやりなおしです。何百枚も年賀状を出す人にとっては悪夢です。

 結局、書体の違いと、異体字を同一視する考え方がおかしいのです。異体字は単なるデザインのバリエーションなどといったものではありません。そういう考え方で作られた文字コードが普及してしまうと、一般ユーザーが泣かされます。

 これからオンライン・ショッピングや、オンライン・バンキングなど、インターネットを介した取引が盛んになっていくと思われますが、異体字をフォント切り替えにまかせてしまうと、個人の特定ができなくなるという事態がうまれかねません。

 「」という「藤」の異体字は、サワモリ異体字フォント集なら旧明朝Aフォントですが、ケンシャの異体字フォント集なら正明朝1号フォントかもしれませんし、コリーなら異明朝乙フォントかもしれません。私企業が自由に作った異体字フォント集では、同一の字形をもったフォントに同一のフォント名をつけるわけにはいきません(フォント名は商標なのです)。もし、フォント切り替えで異体字をカバーしようというなら、JISで異体字フォント集を規格化し、各字形について共通のフォント名を規定する必要があります(JCS委員会側では、人名異体字はロゴにすぎないという見解で、異体字フォント集の規格をつくるつもりはないようです)。

 仮にJIS異体字フォント集規格が出来たとしても、字によって異体字の数が異なるという問題が出てきます。しかも、始末の悪いことに、JIS基本漢字(JIS X 0208)に異体字関係にある漢字が収録されているものまであるのです。たとえば、「渡辺」の「辺」という字には、一説には 37の異体字が存在するということですが、JIS基本漢字(JIS X 0208)には「辺」、「邊」、「邉」と三つはいっています。

 「辺」の異体字をフォント切り替えでカバーするには、どれか一つにぶら下げるとして 35、三つのコードポイントに等しくぶら下げても 13種類の異体字フォントが必要になります(字形のアイデンティティを保証するには、こうすることが必要です)。

 「辺」に35の異体字をぶら下げる場合、ワタナベを検索するには「渡辺」「渡邊」「渡邉」を三つ同時に検索しなければなりません。これはシソーラス検索といいますが、異体字の包摂をやった上にシソーラス検索用が必要というのは奇怪な話です。

 異体字フォントを 13ですませようとすると、もっと大変です。「渡辺」と確定してから、「辺」に割り当てられている 13種類の異体字を調べ、そこになかったら、「辺」を削除して「邊」と入力して「邊」の 13種類の異体字を調べます。そこにもなかったら、「邊」を削除して「邉」と入力し、またまた「邉」の 11種類の異体字を調べます。さらにその上、検索の場合は上記のシソーラス検索が必要になります。うっかりワタナベという姓の知人をもったら、こういう悪夢がまっているのです。

 このあたりは、AdobeのCIDフォントという技術を応用すれば、もうちょっとスマートにいくようですが、Adobeという特定の会社のアーキテクチャに依存することになり、インターネットでは使えません。

 こんなことなら最初から異体字に別々のコードポイントをわりあてて、検索はシソーラスで対応した方がすっきりします。入力の場合も 37種類のワタナベが変換候補として出てきた方が楽ですし、辞書の学習で、次回から手間が省けます。仕掛としても単純ですから、トラブルも少ないでしょう。

 フォント切り替えによる異体字対応は机上の空論ではないかと思います。実際に広まってみれば、使い物にならないどうしようもない方式だということがわかるでしょうが、それでは遅いのです。




JIS乱立という悪夢

 反トラスト法がらみでリリースが遅れるといわれていた Windows98ですが、司法省は IE4との統合などという端城ではなく、いきなり本丸を攻める方針を固めたらしく、Windows98そのものは予定通り出るようです。

 Windows95のようなブームは再来しないだろうと言われていますが、日本の場合、ある程度普及した時点でブレイクするかもしれません。Windows98ではユニコードが標準になり、出荷時の状態でも使用可能漢字数が二倍に増えるからです。ユニコードを使った文書やスプレッドシートがネットワークを飛びかうようになれば、いやでも Windows98にアップデートせざるをえなくなるでしょう(後で述べるように、Windows98日本版のユニコードをインターネット上で送る方式はすでに確定しています)。

 「使用可能漢字数が二倍に増える」とあるのを見て、???と思った人もいるかもしれません。ユニコードは 3万 5千字くらいあったんじゃないか、と。

 ユニコード全体では3万4168字(そのうち漢字は2万902字)ですが、XKP協議会(マイクロソフトKKを中心とした業界団体)の決めたWindows98の標準フォント(ここではWin98文字セットと呼んでおきます)には、そのすべてがはいっているわけではないのです。JIS基本漢字(JIS X 0208)に、JIS補助漢字(JIS X 0212)の5801字をくわえた1万2156字、さらにユニコードにはいっている記号類などの非漢字1913字だけです。中国漢字や韓国漢字、ポーランド語、デンマーク語、アラビア語等々を表記するには、オプションのユニコード・フォントをいれる必要があります。(なお、XKP協議会ではユニコードではなく、JIS X 0221などと称していますが、Windowsがサロゲート・ペアによる拡張をとることは明白なので、ここではユニコードで通します)。

 漢字についていうと、現行の 6355字から 1万2156字に増えますが、ここで重要なのは、増えた分の漢字は JIS補助漢字(JIS X 0212)に由来しているということです。1990年施行以来、ずっと有名無実の存在だった JIS補助漢字は、Windows98によって、文字セットとしては甦るのです。JIS補助漢字をインターネット上で伝送する方式としては、ISO 2022-JP2(RFC1554)という合意がすでに存在しているので、対応メーラーを入れれば、すぐに伝送可能になります。

 JIS補助漢字(JIS X 0212)は、古典中心に文字が選ばれているので、異体字の問題を別にすれば、近代文学を表記する上で欠字の問題はかなり解決されますし、明治以前の文学でも大きく改善されるでしょう。(現在のほら貝には欠字が四字ありますが、そのうち Win98文字セットで表記できないのは「雨郭」一字だけです)。

 1999年に施行される JIS X 0213(ここでは例によって新拡張JISと呼んでおきます)は、JIS補助漢字(JIS X 0212)は有名無実の存在だったという状況を前提に、別の基準にもとづく約5000字の新しい文字セットを選定しています。JIS補助漢字は古典中心がわざわいして国字に弱いといわれており、人名漢字・地名漢字に遺漏がすくなくないようです。現代日本語を満足に表記できないという批判のでる所以です。

 しかし、それならば JIS補助漢字をさらに補完する文字セット(JIS補助補助漢字?)を作るべきです。JIS補助漢字を増補する形にすれば、Win98文字セットの上位互換となり、混乱は最小限ですむでしょう。

 ところが、現JCS委員会は JIS補助漢字(JIS X 0212)とはまったく異なる新しい文字セットを作ろうとしています。ユニコードと新拡張JIS(JIS X 0213)は小文字セットという点では共通していますが、互いにライバル関係にあります。1999年に新拡張JISが施行されると、どちらの方向にも変換不能な JISコードが乱立することになるのです。

 新拡張JIS(JIS X 0213)の文字セットは約5000字といわれ、JIS補助漢字(JIS X 0212)より 800字以上すくないですが、各種記号類や人名漢字・地名漢字、アイヌ語表記の特殊仮名などがはいるので、JIS補助漢字にあって 新拡張JISにない漢字は一千字から二千字は出るでしょう。逆に、新拡張JISにあるが JIS補助漢字にない漢字は数百字から千数百字にのぼると思われます。もちろん、「JIS 漢字の拡張計画」に「7.JIS X0212 及び JIS X0221に含まれる文字であっても,あえて重複符号化を行う」とあるように、JIS補助漢字と重複する文字もかなり含まれることが予想されます。

 新拡張JIS(JIS X 0213)にあって JIS補助漢字(JIS X 0212)にない漢字は、新拡張JISを ISOに登録後、CJK統合漢字に追加申請がおこなわれ、最終的にはユニコードにもはいることになるでしょうが、それには何年もかかるはずです(はいったらはいったで、重複符号化が生じます)。それまでの間、新拡張JIS独自追加文字は、シフトJISアプリケーションでしか使えないことになります。

 始末の悪いことに、JIS補助漢字(JIS X 0212)にあるが 新拡張JIS(JIS X 0213)にない漢字にいたっては、新拡張JISに追加されることは将来的にもありえないので、永遠に宙に浮くでしょう。

0212_vs_0213

 Windows98ではユニコード対応アプリケーションと、シフトJIS対応アプリケーションが共存しますが、新拡張JIS(JIS X 0213)の施行が強行されると、ウィンドウごとに表示できる文字にズレが生ずるという事態が生まれかねません。

 JCS委員会の芝野委員長は「補助漢字は,最初のJIS漢字を完全に誤解して開発されたため,実際に必要とする漢字が保持漢字に存在する確率はかなり低いと思います」と批判されていますが、どんなに問題があろうと、Windows98によって普及させられてしまうという現実があるのですから、JIS文字セットの拡張は JIS補助漢字(JIS X 0212)の増補という形をとるべきです。

 新拡張JIS(JIS X 0213)は、「文字化けの嵐という悪夢」でも指摘したように、いまだに多くのユーザーによって使われている外字領域を性急に転用するという無理なコーディング法をとっており、もともと無茶な設計だったのですが、補助漢字の復活が確定的となった以上、新拡張JISは文字セットとしてもトラブルメーカーになるといっていいでしょう。新拡張JISは、ゼロから仕切り直しをすべきだと考えます。




Copyright 2000 Kato Koiti
This page was created on ???? 1996; Last updated on Feb28 2000.



文字コード

ほら貝目次