文字コード問題Q&A



加藤弘一

JISコードは誰が決める?
ISO 2022JPってなに?
補助漢字はなくなるの?
ISO 8859-1ってなに?


謹 告 
 本ページは本ページは古い情報にもとづくもので、間違いがあります。引きつづき参考として公開をつづけますが、文字コードに興味のある方は拙著『電脳社会の日本語』(文春新書)をお読みください。(2000年 4月 7日)


JISコードは誰が決める?

JISの文字コードは、誰がどのように決めるのでしょうか?

 文字コードに限らず、JIS(日本工業規格)を決める権限を持っているのは、国民から職務を依託された当該分野の主務大臣ですが、大臣がすべてを自分でやるわけにはいかないので、工業技術院にゆだねます。工業技術院は通産省管轄の機関で、内部に諮問機関である日本工業標準調査会をもち、JIS原案を審議します。工業技術院は15の研究機関を傘下にもち、規格制定の基礎になる標準基盤研究もおこなっています。

 JISを担当するのは工業技術院標準部で、文字コードの場合は情報電気規格課という部署ですが、実際の開発業務は、財団法人日本規格協会などの民間団体に依託されます。

 なぜ民間団体が出てくるのか、不思議に思う方がいるかもしれませんが、これを説明するには日本の工業規格の歴史をさかのぼらなくてはなりません。

 戦前の工業規格(Japan Engineering Standards=JES)は軍需品の規格が主で、お上が民間業者に課した官製規格でしたが、戦後の憲法改正で主権が国民に移ったので、規格も民間の建議により制定されることになったのです。民間団体による、こういう規格を作ったらどうかという提案や規格原案を日本工業標準調査会が審議し、承認されたら、管轄の大臣が日本工業規格(JIS)として制定するというわけです。

 日本規格協会の場合、産・学・官から30人前後の委員を選んでJIS原案委員会というワーキング・グループを組織し、実際の開発にあたらせます。原案委員会の委員は、悪口を言われることはあっても感謝されることはなく、報酬もきわめて安いので(会議のあった日に6500円の日当が出るだけだそうです)、あまりなり手がいないのが実情のようです。

 文字コードを開発するJIS原案委員会はJCS委員会(符号化文字集合調査研究委員会)といいますが、産業界の委員の大半はコンピュータ・メーカーから出ていて、中にはソフトハウス、印刷会社、新聞社や出版社の校閲部の人もいます。官界からの委員は文部省と文化庁の国語関係の部署から一名づつ出ます。学界からはコンピュータの専門家と国語学の専門家が選ばれますが、日本の代表的文字コードであるJIS X 0208の場合、国語学者についてはちょっと異例で、1978年の制定時から1990年の第三次規格まで、国立国語研究所在籍の国語学者が一人だけ選ばれてきました。国立国語研究所は幹部に漢字制限論者が多いことで知られる研究機関で、方言など話し言葉の調査では目覚ましい成果をあげていますが、書き言葉に関しては、新聞の用字調査程度しかやっていません。

 なぜ、国語学者が一人しか委員にならなかったかというと、JIS X 0208の原形となった情報処理学会の「漢字コード標準化委員会標準コード用漢字表試案」の開発にあたり、立場を異にする複数の国語学者が延々と論争をくりひろげ、まったく作業が進まなかったからだといわれています。

 1990年制定の補助漢字(JIS X 0212)では、国立国語研究所系の国語学者だけではなく、国立国文学研究資料館系の国文学者も委員になりましたが、委員長辞任という騒動を引き起こしています。文字にかかわる議論は深刻な感情的対立に発展しやすいようです。

 予算が乏しいので必要経費もろくに出ず、JIS X 0208の今回の改正で地名を担当したある委員は、自費で京都の京大人文研にゆき、典拠不明の漢字を調査したそうですし、開発に必要なソフトウェアを自費で購入することすらまれではないということです。ほとんどボランティアに近いかもしれませんね。工業技術院の関係には、日本規格協会のフォント開発センターくらいしか国語に関する研究機関がないということもあるでしょうが、今回のJCS委員会のみなさんの献身的な努力には本当に頭が下がります。

 さて、JIS原案委員会で作成されたJIS原案は工業技術院の案として主務大臣に答申されます。主務大臣はこの案を日本工業標準調査会に審議させます。調査会は専門委員会(1011もあります)、部会(26あります)の二段階で原案を検討します。調査会が承認すると、主務大臣はJIS規格として制定し、官報に掲載します。正式の規格票は日本規格協会から発売され、JIS原案委員会は規格制定とともに解散します。





ISO 2022JPってなに?

インターネット経由の日本語メールには、「Content-Type: text/plain; charset=ISO-2022-JP」とありますが、ISO 2022JPは RFC1468とも呼ばれているようです。ISO 2022JPはどこが決めたものなのでしょうか?

 ISO 2022JPは、頭に「ISO」とあるので、ISOが決めた規格のように思うかもしれませんが、実は ISOの規格ではありません

 ISO 2022JPは、日本のインターネットの前身というべきJUNET(Japanese University/Unix NETwork)で使われていたJUNETコード(ISO 2022を日本語用に簡略化したもの)を改良したもので、1993年に、村井純氏により、RFC1468として提案されています。

 RFCは Request For Comment(「コメントを求む」)の略で、インターネット・ドラフトとともに、インターネット上の合意を形成する仕組で、ネットワーク関係の規格からネチケットとよばれるインターネット利用者の心構えまで、さまざまな約束がRFCとして規定され、あちこちのFTPで公開されています。

 ISO 2022JPは次の四つの文字セットをあつかうことが出来ます。

ASCII
JIS X 0201 (ローマ字・数字のみ)
1978年版 JIS X 0208-
1983年版 JIS X 0208

 インターネットのメールで俗に言う「半角カタカナ」が使えないのは、ISO 2022JPが JIS X 0201のカタカナ部分(GR集合)を除外しているからです。もちろん、Windowsの外字領域(シフトJISの高位アドレス)も除外されています。

 どこかの公的機関が議決したというわけではなく、あくまでインターネット・コミュニティの中での合意ですが、インターネット上の日本語情報交換の事実上の標準となっているので、JIS X 0208の 97年改正では、附属書2により公式に認知されました。

 なお、ISO 2022JP 2(RFC1554)という、多言語(正確には多スクリプト)伝送を規定した規格もあります。こちらは、上記の ISO 2022JPの四つの文字セットに

GB 2312-1980(中国文字セット)
KSC 5601-1987(韓国文字セット)
JIS X 0212-1990(JIS補助漢字)
ISO 8859-1(西欧圏文字セット)
ISO 8859-7(ギリシャ文字セット)

をくわえ、合計九つの文字セットをあつかえるように拡張したものです。

 1999年に施行が予定されている JIS X 0213のうち、第4水準部分は Windowsの外字領域であるシフトJISの高位アドレスを使いますから、ISO 2022JPでも ISO 2022JP 2でも符号化できません(第3水準はできます)。第4水準文字部分を表示するには、ISO 2022JP 3と呼ばれるであろう新しい規格が必要になります(ISO 2022JP対応の現行のメーラーで受信すると、文字化けの嵐になるはずです)。





補助漢字はなくなるの?

補助漢字がなくなるという噂は本当ですか?

 補助漢字と呼ばれるJIS X 0212は、第1水準漢字・第2水準漢字(JIS X 0208)を補うために1990年に制定された文字集合で、5801字を収録しています。「文字コード問題早わかり」続・漢字編で述べたように、現在、主流となっているシフトJIS系のパソコンでは使えませんが、BTRONや UNIX上の Muleからなら使えます。また、Unicodeにも、補助漢字に相当する文字はすべてふくまれています。細々とですが、使われていることは使われているわけです。

 しかし、JCS委員会は現在、JIS X 0213という、第1水準漢字・第2水準漢字(JIS X 0208)を補う新たな文字集合を開発中です。JIS X 0213は補助漢字に代わるもので、補助漢字にはいっている文字も、使用頻度が高いものを収録していくということです。JIS X 0208の1997年改正には「 なお、補助漢字規格自体を廃止する意見もあったが、実装例もあり今回は見送った」とありますから、現在のJCS委員会としては JIS X 0208:1997の包摂規準と矛盾する補助漢字は廃止したいのでしょう。

 なぜ、補助漢字があるのに、補助漢字にとって代わる新しい文字集合を作ることにしたのでしょうか?

 JCS委員会の芝野耕司委員長は、あるインタビューで次のように補助漢字批判をされています。

 補助漢字は,最初のJIS漢字を完全に誤解して開発されたため,実際に必要とする漢字が保持漢字に存在する確率はかなり低いと思います。実際的には,補助漢字を探しても無駄ではないでしょうか。
 補助漢字では,78年に最初のJIS規格を制定して当時の実際の作業を厳密に検討することなしに,間違った表層的な解釈で,JIS漢字を捉え,この間違った認識をもとに開発を行っています。
 すなわち,開発の初年度は,主要な四つの印刷機器メーカの漢字表を調査し,2年度はこれを九つに増やし,最終的には,78JISに匹敵する30の漢字表を調査し,この母集団の大きさを無視した最終的な調査と諸橋大漢和をもとに,漢字集合を決定しています。結果として,諸橋にしかない多くの漢字を収録する一方,実際に使われている多くの漢字を無視することとなっています。実際に,主要な四つの印刷機器メーカのすべてがもっていた字母のうちで,補助漢字で採用されていない字形があります。
 この意味では,補助漢字は,間違った理解から生まれた間違った漢字表だと思います。

 しかし、XKP協議会の決めた Windows98の標準文字セットに補助漢字がはいることが確定のようですから、ずっと継子あつかいだった補助漢字JIS X 0212は、制定 8年目にして、やっと日の目ることになりそうです。補助漢字は Windowws98の普及にともない、今後、広く使われるようになると思われます。

 こうなると JIS X 0213との関係がいよいよ微妙になります。JIS X 0213と補助漢字は、かなりの数の漢字が重複してはいるようですから、併存するようなことになると、相当な混乱が起こるでしょう。サーチエンジンが使い物にならなくなるなんていう事態もありえないことではないですね。





ISO 8859-1ってなに?

フランス語やドイツ語のメールには「Content-Type: text/plain; charset=iso-8859-1」とありますが、ISO 8859-1というのは複数の言語に対応しているのでしょうか?

 ISO 8859-1は1バイトの国際共通文字コード ISO 8859の Part1にあたり、1987年に制定されました。英語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、アイルランド語、オランダ語、スウェーデン語、デンマーク語、ノルウェー語、フィンランド語、アイスランド語、フェロー語という西欧圏の主要言語が表記できます。

 8ビットですから最大 256種の文字がはいりますが、制御文字の場所をはずした33番から128番(GL領域)は ASCIIコードと同じにして、161番から256番(GR領域)に、「c」や「o」など、各言語固有の文字をいれています。この設計は日本の JIS X 0201と似ていますが、ISO 8859は内部コードとして作られたものなので、8bit系のみで、7bit系はありません(制御文字領域を空けてあるので、ISO 2022系でも使えます)。

ISO 8859

 ポーランド語、ハンガリー語、チェコ語、スロベニア語、ルーマニア語など、東欧圏の諸言語に対応した Part2、イタリア語、スペイン語、カタロニア語、マルタ語など地中海沿岸諸言語に対応した Part3、エストニア語、ラトビア語、リトアニア語、デンマーク語など、バルト海沿岸諸言語に対応した Part4、ロシア語、ウクライナ語、ブルガリア語など、黒海沿岸諸言語に対応した Part5等々、現在までに10のパートが作られています。いずれのパートもGL領域はASCIIのままで、固有文字をおさめたGR領域が異なるだけですから、英語は共通して使えます(各パートの収録文字は、安岡孝一氏のページで、画像として見ることができます)。

 こうした言語の多くは、すでに個別の文字セットとして ISOに登録されており、ISO 2022で切り替えることができます。しかし、1980年代の PCは能力が低く、言語が代わるたびに ISO 2022による指示と呼び出しをやっていては処理が重すぎると考えられたので、歴史的・社会的に結びつきの強い地域の言語を一括してあつかえる内部処理用文字コード(内部コード)がもとめられていました。

 ISO 8859-1は、もともとは IBM-PCの内部コードだったのですが、1バイトの国際共通内部コードを制定するにあたり、VAXというミニコンで一世を風靡したDEC社の内部コードと争い、ISOの投票に勝ち残って国際規格になったという経緯があります。文字コードには政治や利権がからみやすいのです。

 ISO 8859-1はひじょうに普及したので、外部コードとしても使われるようになりました(どこかで聞いたような話ですね)。インターネットでも普通に使われていて、Netscape Navigatorのオプション→言語指定にある「Western(Latin1)」は ISO 8859-1にあたります。

 もっとも、フランスをはじめとするヨーロッパ諸国では、自動翻訳がらみで、ISO 8859に対する不満の声が高まっているそうです。ISO 8859でコード化してしまうと、なんという言語かという情報が消えてしまうので、「chat」という単語が「お喋りする」なのか、「猫」なのかがわからなくなるというのです(これはユニコードや ISO 10646-1でも同じです)。文脈を見ればわかるじゃないかという人がいるかもしれませんが、ネットワークでは文脈なしで単語だけがぽんと送られてくる場合も多いのです。文脈なしにどの言語かを特定するには、コード自体で言語が判別できなければなりません。ユニコード批判がもちあがっているのは、漢字文化圏だけではないようです。




Copyright 1997 Kato Koiti

This page was created on Feb25 1997; Updated on Feb17 1998.




文字コード

ほら貝目次