ICMTP'98レポート

加藤弘一

 12月17〜19日に、早稲田大学国際会議場と理工学部で、「マルチリンガルテキスト処理国際シンポジュウム」が主催早稲田大学、協賛情報処理学会で開かれた。チベット語、雲南少数民族諸語、ウイグル語、タイ語、ラオスのラオ語の文字コードの国家規格に関与している政府機関の研究者が来日し、日本側からは大谷大と早大の研究者が報告をおこなった。これだけ多彩な顔ぶれが一堂に会したのは、世界的にも例がないという。

Waseda Univ.

多言語テキスト処理の課題

 文字コード問題というと、難しい漢字が表示できるかできないかの問題だと受けとられているが、実はもっと深刻な問題がひかえている。

 文章に語句を挿入したり、削除したり、移動したり、検索したり、整列(ソート)させたりすることを、コンピュータでは「テキスト編集」と呼ぶが、インドの諸言語が使っているデーヴァナーガリー文字や、その影響を受けたタイ文字、ラオ文字、チベット文字などの結合音節文字では編集がひじょうに難しく、インドの国家規格のIS 13194のような、特別な工夫をした文字コードが必要になる。また、アラビア文字は、ウィグル語など系統を異にする多くの言語で使われているが、こうした異系統言語をアラビア語文字コードで入力すると、表示はできても、編集で破綻してしまうという。

 デーヴァナーガリー文字やタイ文字、ラオ文字では、文字を部品の組み合せで表す文字コードが使用され、単純に一図形が一文字とはならない。さらに、右から左に書くアラビア系文字も、言語が異なると、同じ図形が違った方法で結合される。アラビア文字の文字コードを単純に拡張しただけでは文字を正しく表記できないのである。この問題は、母国語筆記者にとっては致命的問題であるが、非母国語筆記者には認識されていない。

 世界中の文字コードから字形を寄せ集めて作ったユニコードの最大の欠陥はここにある。字形さえそろえればいいだろうというのは、アルファベット圏や漢字圏の発想で、東南アジアから南アジア、中央アジア、中近東にかけての地域の言語は表示はできても、編集ができない。一文字挿入しただけで、表示ががたがたになってしまうし、検索も何を検索しているのだかわからない。表記体系を理解しないと、本当の国際化は不可能である。

濃密な三日間

ICMTP'98

 シンポジュウム初日の17日は、早大の小原啓義氏の開会の辞と、大谷大の片岡裕氏の問題提起につづいて、中国社会科学院の江荻氏がチベット語とチベット文字で表記する諸言語について発表した。チベット文字は、部品を組み合わせる典型的な結合音節文字であるが、組み合わせの限界が分からないと、文字処理の一単位を特定するルールを制定できない。氏は、チベット文字を使用する諸言語を広範に調査して音韻構造と表記の関係を論じた。

 新疆ウイグル自治区言語工作委員会のヤスン・イミン氏は、ウィグル語・中国語などがあつかえる多言語新聞組版システムの開発者で、氏のシステムはウィグル語をあつかう写植システムの事実上の標準になっている。ウィグル語は膠着語族に属するトルコ系の言語だが、アラビア文字をもとにした文字で表記する。氏はウイグル語文字コードの改良の研究もしており、アラビア語の表記体系とウイグル語の表記体系の差異をあきらかにし、文字数が増加しているだけでなく、同じ文字であっても、使用法が異なる実例を枚挙した。

 セム語族を前提に作られたアラビア文字は、もともと母音を表記しないし、表記する場合も、語中にあらわれる時は子音と合体して、リガチャー(合字)化する。ウィグル語の表記体系は母音をしめす独立した記号を持っており、既存のアラビア文字コード(いくつもある)やユニコードのような拡張方式ではでは使いものにならないという。

 新疆ウイグル自治区では、ウイグル語以外にモンゴル語(トド・モンゴル文字使用)、シボ語(シボ文字使用)など、多数の少数民族が、それぞれの文字で新聞を発行している。こうした新聞の組版には、いずれもヤスン・イミン氏が開発した多言語写植システムが使われていると聞く。

 雲南省少数民族語文指導委員会の和麗峰氏は雲南少数民族(「少数」といっても、スペインやイタリアくらいの人口がある)の諸言語の文字を紹介し、譚玉女亭氏は特にダイ文字(正確には、ダイ文字群の中のシーサンパンナー・ダイ文字)にしぼって解説した。ダイ文字は、仏典の翻訳のために作られた千年近い伝統をもつ文字で、国境を越えて使用されているという。彜文字も紹介されたが、同じ名称でまったく異なる文字が四川省でも使用されており、単に言語名や文字名だけでは特定できないので、注意が必要である。

Ms. Tan Yuting

 もちろん、こうした文字は新疆同様、日常的に使用されており、各民族ごとに新聞や教科書が発行されている。目下、これらの文字は文字改革が進行しているが、その実情は国外では知ることができないし、民族問題がからんでいるために、現地調査の許可をうるのはひじょうに難しいという。ICMTP'98の運営にあたった早大小原研究室は、これまで中国政府の正式な許可のもとに新疆ウイグル自治区、四川省、雲南省で現地調査をおこなっており、その実績の上に今回の招聘が実現したという。

 二日目はまず、タイ国家電子計算機技術センターのスラパント・メクナビン氏がタイ語をコンピュータで編集する上での問題点と歴史を解説した。タイ文字は部品を結合して一文字を決定するため、一つの文字が行末と行頭に分断されてしまうケースが紹介された(極端なケースではなく、日常的に起こっているそうである)。日本語でいうと「記」の真ん中に改行がはいり、「言」と「己」に分断されてしまうようなもので、こうした事態をさけるためには、どうしても目に見えない区切り記号が必要になる。この見えない区切り記号は、タイ国家規格にもユニコードにもない。

 ラオス科学技術環境委員会・計算機センター所長のポンパシット・ピッサマイ氏がラオ語の文字体系とコンピュータ処理の問題点を解説した。素人目にはタイの文字とどこが違うのかわからないのであるが、ラオ文字が日本でまとまって紹介されたのは、今回が初めてだそうである。ラオ文字もタイ文字と同じ区切り記号問題をかかえている。

 午後は大谷大の宮下晴輝氏が、大谷大で開発したマッキントッシュのチベット文字システムを紹介しながら、チベット文字の構造と文字コードの決定方法を解説した。字形が同じで音価が異なる文字があること、マッキントッシュのOS構造の問題から実装する上で困難があることを実例をまじえて語った。

 チベット文字の音写には、文字名方式と発音方式の二種類あるそうであるが、発音されない文字があり、言語学でよく使用される発音方式では、文字の字形情報がまったく欠落してしまう。また、ツェックという記号は、区切り記号ということになっているが、実は区切りとしてのみの使用されるのではないこと、ツェックを区切り記号として使用できないケースもあることが紹介された。ユニコードおよび ISO 10646には、Amendment7としてチベット文字の字形が追補されているが、音価が異なる文字が同一文字となってしまい、区別できなくなることもしめされた。ユニコードによるチベット文字のコード化が役にたちそうもないことがよくわかる。

 つづいて大谷大の箕浦暁雄氏が、インドの国家規格であるIS13194にもとづくデーヴァナーガリー文字の処理方法を解説した。IS13194は文字を部品にわけてコード化し、部品を組みあわせることで一文字を特定する。会場ではIS 13194の英語版が配布されたが、英語版の部品の結合規約は一部にすぎないそうである。もちろん、結合規約がわからなければ、文字を正しく表示することも、検索・置換することもできない。

 同じデーヴァナーガリー文字を使用していても、ヒンディー語とサンスクリット語では単語末尾の音価が異なるため、サンスクリット語では音節数が増えてしまい、発音上の音価を基準にしては文字の単位が決まらないという、まさにマルチリンガルでなければ知りえない話があった。そのため、IS13194では、文字の内部でのテキスト処理単位を決めている。

Reception

 二日目のプログラムの終了後、大隈庭園でレセプションが開かれた。もともと60人ほどのこぢんまりとしたシンポジュウムであったが、レセプションにまで参加したのは30人ほどだった。その代わり、ひじょうに中味の濃い交流をもつことができた。

 タイや新疆のコンピュータ事情を知ることができたのも収穫で、こんなに進んでいたのかと蒙を開かれた。アメリカのコンピュータ企業がインドに開発拠点を設けていることは知っていたが、タイでも日米からの受注をうけて、ソフト産業が急成長をとげているという。インド、タイ、マレーシア、シンガポールにかけての南アジア地域は、パソコン部品の世界的な供給地であるが、ソフトウエアの分野でも、下請けとはいえ、急速に力をつけている。この地域は、現在はアジア・バブルの崩壊で経済危機にあえいでいるが、近い将来、シリコンバレーとならぶコンピュータ産業のもう一つの中心になるかもしれない。

 三日目は、10時から ISO 2022にもとづいて多言語テキスト処理を実現する早稲田大学小原研究室のSystem1という環境ソフトのデモがおこなわれるはずだったが、マイクロソフト社の申し入れで、急遽、開会が30分早まり、Office2000のユニコードによる多言語処理の実演がおこなわれた。

 Office2000に実装されているユニコードは、結合文字をあつかわない実装レベル1であるから、多言語といっても漢字と欧米言語の共存にとどまり、タイ文字やデーヴァナーガリー文字との混在はできないようである。当然、右から左へ表記する文字群に対しては、言語依存扱いになってしまい、左から右へ書く文字群との混在も完全には実現できないらしい。また、さまざまな改行方向や表記方向の混在したテキスト処理は、従来の Windowsでは考えもしなかった機能が必要となるので、実装していないそうである。

System1

 さて、いよいよ小原研究室の System1のデモである。System1は、Solaris版とFreeBSD版があるが、デモに使用されたのは FreeBSD版だった。資料によると、実行速度は X11R5や X11R6の1.2倍程度遅いだけで、メモリ効率もはるかによく、ウインドウの生成速度は逆に向上しているという。実際、軽快に動いていて、普通の X Window Systemと変わらなかった。国際化を意識して書かれたプログラムなら、大体、動くそうである。

 デモでは、System1上で動く多言語エディタが使用された。このエディタは、縦書き(上下方向両方)、横書き(右書きと左書き)が混在できるだけでなく、書き出しの基点をウインドウの四隅に設定でき、改行方向すら異なるものを混在させていた。また、入力者の便をはかる、表記方向をしめすカーソルやキーボードのキー配置表示(不鮮明だが、右上の写真参照)など、マイクロソフトの Office2000の発表で問題となっていた部分がすでに実現されていた。

 午後は大谷大の片岡裕氏によってまとめがおこなわれた。グリフ=文字ではないこと、テキスト処理は決して言語依存ではないことを示すとともに、System1が依拠する概念モデルを提示した。

 テキスト処理では、処理内容によって、文字の単位が変更されること、あらゆる文字を統一的にあつかうには、従来の一グリフ=一文字のモデルでは不可能であることなど、現状のテキスト処理の欠点をあきらかにした点はきわめて意義が大きい。さらに、多言語処理に必要となる新たな機能も具体的にあげ、単なる現状のソフトのモディファイだけでは多言語化どころか、種々の文字の混在すらできないことをあきらかにした。

 片岡氏はX11R5の設計にかかわっており、X11R5の国際化について、ACM Transactions on Information Systems, Vol. 10. 4, Oct., 1992 PP. 438-451に論文を発表している。X11の国際化に関しては構造もふくめて、もっとも熟知した人といえる。片岡氏は早大時代に System1の開発の中心にいたが、System1は X Windowのもっとも自然な拡張だという。

 最後に早大の筧捷彦氏が閉会の辞をのべ、再会を約して三日間の日程を終えた。

文字コード問題のひろがり

 なじみがない上に、なんとも複雑怪奇な文字の話がつづいたために、さっさとアルファベットを使えばいいのにという考えが脳裏をよぎった瞬間もあったが、複雑怪奇というなら、日本語の表記体系も相当なものである。

 アルファベット文化圏で生まれた近代言語学は、文字は音声の不完全な模写にすぎないという音声中心主義を前提としている。音声言語がオリジナルで、文字言語が二次的な模写だとしたら、別の表記体系に変えてもかまわないことになる。だが、言語はそんな単純なものではない。日本語の歴史をちょっとふりかえっただけでも、漢字仮名まじり文という表記体系が、音声言語としての日本語に影響をあたえていることがわかる。今日の日本語は、漢字仮名まじり文という表記体系と骨がらみになって成立しているのであって、もしカナ表記だけにしてしまったり、ローマ字表記にしてしまったなら、音声言語としての日本語も大きな変容をこうむらざるをえない。ヒンディー語やタミル語、チベット語、タイ語、ラオ語、ダイ語、彜語などでも、似たような事情があるであろう。

 わたしはこれまで、文字コード問題とは「あっちのコンピュータとこっちのコンピュータで同じ文字が表示できるかどうか」の問題だと言ってきたが、ICMTP'98に参加して、この問題意識がいかに偏頗なものであったかに気がついた。もちろん、同じ文字が表示できることは必要条件であるが、それだけでは十分ではないのだ。

 会場にはモンゴルから早大にコンピュータの勉強に来ている留学生や欧米の研究者がいたし、多言語環境の開発の第一線にいる錚々たる技術者もいて、ずいぶん耳学問ができたが、「常識」のズレにしばしば唖然とした。文字コード問題については、一応、勉強してきたつもりだったが、まだまだ知らないことがたくさんあった。オフレコの話が多いので、ここには書けないが、これまでのユニコード批判はピントがぼけていたと思う。その意味でも、教えられることの多い三日間であった。

この点について、片岡裕氏にうかがったところ、次のように御教示いただいた。

 正確に言えば、ラテン・アルファベット、即ち音素文字(Phonemic Script)は、音節の区切りを表記できません。例えば、金曜日をローマ字化すると、kinyoubiとなり、音節文字(Syllabic)である平仮名に直すと、「きんようび」と「きにょうび」の2種類が可能です。これも、タイ・ラオ・インディック(インドの文字)で、どうしてもラテン・アルファベットにできない多数の理由なの一つです。UNICODEに記載されている簡略化IPAでも、音節を表記できません。タイ文字などでは、多数の同音異字(声調が違う場合もあるが、ラテン・アルファベットには、声調記号として統一的に解釈されている記号がない)がありますので、ローマ字化したら、それらの区別ができなくなり困ります。異字を使用するので、単語の区別ができるのです。また、リガチャーも、それが文法構造上の情報を持ち得るため、勝手にリガチャーを使用しないで書けないのです。

Copyright 1999 Kato Koiti
This page was created on Jan11 1999.

文字コード
ほら貝目次