「アジアの漢字と文献処理」レポート

拡張CJK

　1999年3月19日、湯島聖堂の斯文会館講堂で、日本学術会議50周年記念公開シンポジュウム「アジアの漢字と文献処理(1)」が開かれた（協賛：漢字文化振興会）。

　日本学術会議語学・文学研究連絡委員会の石川忠久委員長の開会の辞につづいて、司会をかねた松岡榮志氏から「国際文字コードの動向と漢字処理について」という発表があった。「国際文字コード」とは ISO 10646のことである。松岡氏は CJK-JRG（中日韓合同研究会）、後の IRG（絵文字連絡会）の創立時からの委員で、CJK統合漢字のとりまとめで中心的な役割をはたし、現在は BUCS（Basic Unified Charcter Set）という康煕字典をベースにした異体字文字セットの開発にとりくんでいる。

　松岡氏は文字コードの概略を説明した後、IRGで準備中の ISO 10646の漢字パートの拡張と、年内に出てくるという Unicode3.0について進捗状況を報告した。BMP内に ExtensionAとして 6837字、サロゲートペア第二面にあたる ISO 10646-3に ExtensionBとして 40726字が増補される予定で、従来の 20902字と合わせると 68465字となる。

字喃

　ベトナム言語学会副会長で、IRGの委員でもある阮光紅（Nguyen Quanghong）氏は、ベトナム語を表記するための漢字である字喃（チューノム）の歴史と、ベトナム社会において占める位置を、多くの資料を示しながら解説した。

　フランスによって植民地化されて以来、ベトナム語はアルファベットで表記されるようになったが、「ホーチミン」が「胡志明」であるように、ベトナムはもともと漢字文化圏に属す国である。字喃（チューノム）は「儒の字」（チュニョ）から来ているといわれているが、長らく俗字のあつかいだったらしい。歴代王朝の公文書や文学作品の多くは中国語（漢文）で書かれたが、歌謡や韻を踏んだ口承文芸（「歴史演歌」という）、詩篇は字喃の独壇場だった。また民間で作られた地誌、神譜、族譜、簿冊、嘆願書、契約書では漢文と字喃が混淆して用いられた。儒教経典や西欧文献の字喃訳もある。

　字喃はフランス統治時代はもちろん、現在でも初等中等教育では字喃は教えられず、大学教育の一部で教えられているにすぎないが、ハイテク時代をむかえて、漢字の造語力が見直されており（"Computer"では知識人しかわからないが、「電脳」なら一般人もわかる）、中等教育に取りいれようという動きがあるという。

　発表後の質疑では、字喃は何字あるか、日本の国字のようなものかという質問が出たが、字喃はベトナム語を表記するのに使われる漢字であるから、どこからどこまでが字喃かという線引きが難しいということである。ベトナムで創作された狭義の字喃ということなら、四千字くらいらしい。

　なお、字喃のフォントは、日本の『今昔文字鏡』研究会が、阮氏の監修のもとに、無償で製作しているということである。

四庫全書

　休憩をはさんで、4KQS（『四庫全書』電子化プロジェクト）の技術総監で、IRGの委員長である張軸材氏が今年、完成するという4KQSの概略と、プロジェクトの過程で開発された新しい文献処理技術について発表した。

　張軸材氏の紹介を聞いて驚いた。ISO 10646策定時に SC2委員長として活躍された和田英一氏に当時の状況をお尋ねしたことがあるが、各国の国内規格をそのまま32bit空間におさめるという最初の原案の段階では、中国側委員はほとんど発言しなかったのに対し、ユニコード・コンソーシアムが漢字を統合して 16bit空間におさめるという提案をした前後、中国の委員が「張という人」に代り、積極的に議事を主導するようになり、ユニコードとのマージの流れを作ったということだった。張軸材氏が、和田氏のいう「張という人」のようである。

　『四庫全書』は清の乾隆8年に集書にとりかかり、同37年に本格的な編纂のはじまった中国文明を総括する網羅的な叢書である。3800人の秀才が10年がかりで書写校訂をつづけ、3461種、7万9337巻の書物が経、史、子、集の四部に分類されておさめられた。総文字数は 9億7700万字におよぶという。異民族王朝である清朝の思想統制という面はあるものの（満洲族・女真族に関する記述の多くは削除されたり、改竄され、二千を越える典籍が禁書とされた）、世界史上類を見ない文化事業であることは間違いない。

　『四庫全書』の電子化はすでに画像版（「標題版」もしくは「図形版」という）が完成し、168枚のCD-ROMとなって発売されているが、画像としての電子化であるから、全文検索ができないなど、難点がある。4KQSは『四庫全書』全文を電子テキスト化するプロジェクトで、1997年から1999年の三年間で完成させるという。発表時点ですでに七億字のテキスト化が完了しているそうだから、年内の完成は間違いあるまい。

　いくら中国でも、人海戦術だけでは三年間で九億字の電子テキスト化は無理で、4KQSではOCRを活用している。「四庫全書」は 31.5x20cmの頁に八行の朱罫を引き、一行二一文字を楷書で書き写しているが、手書文字であるために、文字の区切りがコンピュータに判別できない箇所が点在するという。4KQSでは、明確に区切れた部分は水色枠で、区切りの怪しい部分は赤枠で示して、怪しい部分は人間が区切り直すようにしている。この前処理の結果、手書文字でありながら、90%を越えるヒット率（「命中率」というそうだ）を達成しているという。

　問題はヒットしなかった一割で、人間による校正を待たなければならないが、校正作業を支援するさまざまなツールを開発し、「砲兵と歩兵の連携」による電子テキスト化システムをつくりあげている（OCRが砲兵、人間による校正が歩兵）。第一次校正では、OCRが割りだした第二候補の漢字が表示され、クリックするだけで第一候補と入れ替わるようになっているそうだ。第三次校正では、同じ文字と判定された文字画像を画面に一覧表示し、怪しい文字については、当該箇所を呼びだして確認するという。こうした OCR関連技術の蓄積をもとに、360人のスタッフが昼夜交代で作業した結果、たった三年で全文テキストかを完了する目途がついたわけである。

　4KQSの過程で、もう一つ、重要なテキスト処理技術が生まれている。異体字の平行検索である（4KQSでは「強化検索機制」と呼んでいる）。

　4KQSの電子テキスト化は、当初は GBコードでおこなわれたが、ある程度、外字の洗いだしが進んだ時点で、CJK+という ISO 10646の拡張版CJK統合漢字（ExtensionAの6837字を含む 2万7739字）に移行した。GBコードの段階では、外字の出現率は一万字あたり 9.7字だったが、CJK+では 4.1字に減ったという（外字は、現在、約 4400字）。判定のつかない文字は「□」で代替し、マウスポインタをもっていくと、底本である文淵閣本の書影が画像で表示されるようになっている。

追記：ここで「CJK+」と呼んでいるのはGBKコードのことである。今にして思えば、GB18030を予感させるような発言もあったような気がする。

　GBコードでも、ISO 10646でも、繁体字と簡体字は別コードポイントにマッピングされているし、多くの異体字も含まれている。4KQSの「ユニフィケーション――代替及び異体字、外字処理規則」では、ISO 10646のユニフィケーション・ルール AnnexTにしたがい、同ルールで微小と見なされる字体差はユニフィケーション（包摂）し、注記は加えないことになっているが、CJK+に異体字が別コードポイントで収録されている場合は、「書中の筆跡に最も近いものを選択する」と定めている。このユニフィケーション・ルール（包摂規準）にしたがうと、『四庫全書』の総文字種数は三万以内におさまるそうである。

　昨年公開された映画『始皇帝暗殺』の主人公の荊軻についていうと、「荊軻」と「荆軻」という表記がありうる。異体字平行検索機能なしに「荊軻」を検索すると、「荆軻」はヒットしないのだ。

　4KQSでは「代換類型」といって、以下の七つの異体字関係から選択して、平行検索することが出来る。

**代換類型**
簡体字-繁体字	简 / 簡
正体字-異体字	刃 / 刄
正字-訛字	久 / 乆
通假-被通假	詳 / 佯
古今字	镸 / 長
中国漢字-日本漢字	单 / 単
新字-旧字	青 / 靑

検索所要時間も示されたが、異体字の数よりも、ヒット数が大きく影響するようである。「荊軻」では四通りの表記がありうるが、1億400万字の資料を対象とした検索では、「荊軻」のみの単純検索はヒット数 1、所要時間 0.13秒。平行検索はヒット数 42、所要時間 0.316秒。「養廉」では「養」と「廉」に四つづつの異体字があるので16通りの表記がありうるが、単純検索はヒット数 20、所要時間 0.25秒。異体字平行検索はヒット数 45、所要時間 0.29秒である。おそらく、正規表現の検索と似たアルゴリズムを使っていると思われる。

　わたしは異体字検索の必要性をつねづね強調してきたが、意外にも ISO 10646を基盤としたシステムで、最初のデモを見ることになった。異体字のレベルを切り替えるという機構も、考えていたとおりの形で実現されていた。JIS X 0208の段階でも「龍」と「竜」、「檜」と「桧」という異体字がはいっていたが、JIS X 0213では人名関係の104字の正字が別コードポイントではいり、批判の的になっていた「髙」と「」もついにはいる方向のようである（追記:実際ははいらなかった）。JISの範囲でも異体字検索機能は不可欠になっているのだ。OS提供メーカーは、早急に異体字検索APIを整備しなくてはならないが、4KQSの「強化検索機制」は重要な手がかりとなろう。

　4KQSは、来年、画像版とともに CD-ROM 180枚で発売されるという（文淵閣本の影印が画像として同梱されているわけだから、ユニフィケーション・ルールの問題は回避されると思われる）。フォントは、現行のCJK統合漢字と ExtensionAについては北大方正集団が、外字部分については北京書同文電脳技術開発公司が開発した楷書体フォントが使われるという。価格は一万ドル程度を予定しているそうで、会場では「安い！」という声があがった。個人で買うものではないが、中国三千年の文化遺産が百万円そこそこで入手できるのだから、確かに安いといえよう。日本も『群書類従』や『廣文庫』の電子化をそろそろ考えるべきではないか。

最上段へ

文字コードほら貝目次