ほら貝：文字コード

斎藤秀紀　1940年生れ。東京電機大学工学部（二部）電気通信工学科卒。在学中の1965年10月、国立国語研究所に入所し、コンピュータを使った新聞の語彙調査に従事。1975年からは日本語データベースと漢字符号の研究にかかわる他、コンピュータ、高速漢字プリンタ、漢字入力装置の導入を担当。現在、独立行政法人国立国語研究所名誉所員。

漢字処理事始

――斎藤先生は国立国語研究所がコンピュータを導入した1965年から一貫して漢字処理にとりくんでこられたとうかがっております。情報処理学会の漢字コード委員会の発足したのが1969年ですから、1965年というと神代の昔で、漢字処理は五里霧中の状態だったと思うのですが、どういう経緯で国立国語研究所のプロジェクトに参加されたのか、そのあたりからお話願えませんか。

斎藤　漢字処理の研究は国立国語研究所だけが着手していたわけではありません。当時は機械翻訳の研究が盛んでして、漢字処理はその一環として研究されていました。機械翻訳をやっている関東の大学と研究所が連絡会を作り、私が在学しておりました東京電機大が幹事校をつとめていました。この連絡会に林大先生が参加されていまして、国立国語研究所で新聞の語彙調査のためにコンピュータをいれるにあたり、連絡会を通じてコンピュータがわかる人間を探したようです。たまたま私に白羽の矢が立って、国研にはいることになりました。
　1965年時点ではまだ学部の4年生だったのですが、10月1日付で辞令が出て、学生のまま所員になり、翌年の3月までに芥川龍之介の「蜘蛛の糸」の語彙総索引をつくるプログラムと新聞記事をサンプリングするプログラムを作りました。このテスト版を動かして問題点を洗いだし、新聞の語彙調査になだれこんでいきます。

――学部の4年生で漢字処理技術の最先端に立たれたわけですね。

斎藤　最先端というか、当時はツールなんてまったくありませんでしたので。漢字処理の研究者も数えるほどでした。
　国研にコンピュータを入れるということ自体が大変だったようです。国研では用字用語の経年調査を人手でやっていたのですが、作業量が膨大ですから、用例をサンプリングしてから集計が終わるまでに数年かかりました。そこでコンピュータを使おうということになったのですが、理系の研究所にすらろくにはいっていないコンピュータを、文系の国語の研究所に入れようというのですから、大蔵省の理解がなかなかえられず、当時の岩淵所長と、担当の林部長が奔走されたそうです。
　コンピュータをいざ動かすとなると、漢字処理のノウハウはほとんどありませんでしたし、最初のデータの入力から苦労しました。

――初期の漢字の入出力には漢字テレックスが流用されたといわれていますが、国研も漢字テレックスだったのですか？

斎藤　そうです。入出力には沖電気の漢字テレタイプライタというものを使っていたのですが、600のキーのある巨大なキーボードで、一つのキーに四つの漢字が割りあててありました。ペダルが左右にありまして、ペダルを踏まない状態でキーを押すと、四つの内、一番使用頻度の高い字、右のペダルだと二番目に使用頻度の高い字、左のペダルだと三番目に使用頻度の高い字、両足のペダルを踏むと使用頻度の一番低い字が入力されました。つまり、600×4で2400字が入力できたわけです。数字や記号、かななど非漢字がありましたから、漢字は2111字だったと思います。
　最盛期にはそれを10台くらい使っていましたが、誤入力が多くて大変でした。

――ペダル方式ですか。シフトキーがずらっと並んだキーボードもあったそうですが、それから較べると合理的なのでしょう。
　出力はどうされたのですか？

斎藤　漢字テレタイプライタに附属のものを使いました。活字印字機というか、電動和文タイプライターのような機械です。出力が遅くて、一分間に120字程度でしたか。

斎藤　ええ。すごい音が出ました。本体はもちろん防音してあるのですが、あまりにもうるさいので、専用の防音室を作り、そこに並べて動かしました。

――それは貴重です。日本のITの文化遺産ですよ。先日、東芝の日本最初のワープロが科学博物館にはいったという報道がありましたが、ぜひ博物館で保存してほしいと思います。保存の話はあるんですか？

40年間維持してきた理論コード

――2400字しか字がないシステムで語彙調査をするとなると、大量の外字が発生すると思うのですが。

斎藤　それは最初から織りこみ済みです。理論的には20万字の表外字を管理できる仕組をシステムに組みこんでありますので。

斎藤　そうではありません。これは、所員の松本が考えたものですが、『大漢和辞典』の検字番号を表外字として使うものです。表外字の符号化には『大漢和辞典』そのものをコードブックに使ってしまったのです。

斎藤　そうです。「◇」を表外字であることを示す識別符号にし、その後ろに漢字二字をつづけることによって、表外字一字をあらわします。
　大漢和辞典で部首「人」をもつ漢字の検字番号は、344番からはじまりますが、部首の基準番号450単位に、300番、750番、1250番と決め、これに9番目、10番目、11番目の盤面漢字、「月」、「建」、「見」を当てます。同様に、表外字の2文字目にも、基準番号を引いた値に対応する盤面漢字を当てます。
　例えば、「倆」の検字番号は751ですが、基準番号750に対応する漢字「建」と差「1」に対応する盤面漢字「計」を当て、「建＋計」となります。

倆＝ ◇建計
│　　││└── 部首内の番号を示す符号
│　　│└─── 部首を示す符号
│　　└──── 外字であることを示す符号
└─────── 外字

――SGMLやHTML、XMLでは「鷗」のようなユニコードにしかない文字を「鷗」のように表記し、シフトJISやASCIIのテキスト内で使うことができますが、「◇建計」という符号列も文字参照のようなものと考えていいわけですか。

斎藤　そうです。沖電気の漢字テレタイプライタの文字セットは2400字にすぎませんでしたが、理論コードによって『大漢和』の五万字の文字セットを使うことができました。シフトJISの中でユニコード文字を使うようなものでしょう。

――「◇建計」を「倆」と印字することはできたのですか？

斎藤　印字できるようになったのは、NECと国研が共同開発した高速漢字プリンタが1975年に完成してからで、それまでは符号列の形でしか出力できませんでした。外字活字を自分で鋳造するなんていうことは不可能でした。しかし、字と符号列の関係をきちっと定義したコードブックさえあれば、最終的に字の確認はできますし、統計をとることも可能です。すぐに字の形で見えるかどうかという問題だけで、理論コードの上では内字も外字もないのです。

――NECのプリンタを導入した際、それまでに蓄積したデータをコード変換したのですか？

斎藤　印字する際にはNECのコードに変換しましたが、理論コードは維持しました。めんどくさいからやめるべきだとおっしゃる先生も所内にいらっしゃいましたが、しかし、結果的に廃止しなくて正解でした。高速漢字プリンタの後でJIS X 0208ができましたし、0208は1983年に例の改正をやっています。国研では『大漢和』をもとにした理論コードを絶対規範にしていたおかげで、コード系の変化に影響されずにすみました。
　最初のコードを考えてから40年近くたちましたが、理論コードはずっと維持してきています。どんなハードウェアが来ても、どんなコードが来ても、JISの非互換な改訂があっても、理論コードにもどせばいいわけですから、将来的にも大丈夫です。
　過去の失敗から、コードは無闇に変更するべきでないということを多くの先生方がおっしゃっていますが、それは生の文字コードを使っているからです。データを長期保存するには、理論コードという形でワンクッション置くのが確実だと思います。

「構造化4バイトコード」と漢字データベース

――理論コードは今でも沖電気の配列をもとにしているのですか？

斎藤　現在は「構造化4バイトコード」という形に進化しています。最初の3バイトで『大漢和』の検字番号をあらわし、表外字の見出しに使っています。また、1バイトは枝番として、新たに追加された異体字をあらわします。字体のバリエーションを最後のバイトに局所化することによって、見出し字とコードの関係を安定させることができます。
　これまでの文字コードはコードポイントを文字の識別にしか使っていません。しかし、漢字には特有の特性があるわけで、その特性をコード構造によってあらわすことが可能なのです。それが「構造化4バイトコード」です。
　実際はこれだけではなく、既存の2バイト漢字コードを識別符号で統合したコードと、内部処理用コードという三種類のコードを同一構造にかさねています。

――斎藤先生の「構造化4バイトコード」は文字コード体系検討専門委員会第二ステージの報告書に四つの案の一つとして入りましたが、そういう背景があったとは知りませんでした。

斎藤　一部にCCCIIの真似だという誤解があるようですが、CCCIIは異体字を別の面に登録するわけで、枝番とは異なる方法です。CCCIIと似ているのは、むしろ、最近のユニコードの異体字の扱い方の方でしょう。

――CCCIIの用語の問題かもしれませんね。実際はブロック構造なのに「層」という呼び方をしているので、ケン・ランディのCJKVをきちんと読まないと、枝番構造のような誤解をすると思います。

斎藤　Muleの真似だという誤解もあるんですよ。ISO 2022にしたがっているからだというんですが、過去を継承するには下位構造に置くコードはISO 2022にしたがわざるをえないじゃないですか。

斎藤　漢字データベースに発展し、すこしづつ進歩しています。最初は三文字の漢字列と『大漢和』の見出し字の二項目だけでコードブックを作りましたが、『新字源』や『大字源』などの漢和辞典の情報を付加する形で拡張していき、現在、41項目の情報がはいっています。部首や画数はもちろんですが、常用漢字であるか人名用漢字であるか、過去の用字用語調査でえられた出現度数、JISの区点番号、JISの改訂履歴などもはいっています。さらに、用字用語調査の用例を呼びだせます。こうしたデータは私だけが作ったのではなく、国研の各セクションで蓄積したデータを集約したものです。
　ちょっとお見せしましょう。

ノート型パソコンでデータベースを呼びだした。用例の項目をクリックすると、用例のテキストと、新聞切り抜きのスキャン画像が表示される。

斎藤　辞書の原形というところですか。用例はテキストにもしてありますが、テキストにする際に人間の主観が入りますから、記事で使われた表記と異なる場合があります。実際の表記の確認をするためには、スキャン画像が必要です。幸い、過去の用字用語調査の用例はサンプリング台帳という形ですべてスクラップしてありますから、それをスキャンしてとりこみました。
　用例の読みもわかります。実は地名で読みに疑問のある字は全部現地に問い合わせました。いい加減な読みを入れるわけにはいきませんので。

――読みはマークアップのような形ではいっているのですか？

斎藤　生の読みをいれているのではなく、漢字データベースに登録されている何番目の読みかという情報を埋めこんであります。あくまで漢字データベースにリンクするというのが基本です。

――文学作品には、作者が勝手な読みをルビでつけている場合がありますが、その場合はどうなりますか？

斎藤　データを追加できるようになっていますから、その読みを漢字データベースに追加し、テキストには読みの位置番号を埋めこみます。漢字データベースの方から見れば、新たな読みを用例と一緒に登録したことになりますから、この作業をつづけていけば、自然に用例つきの辞書が出来上がります。
　これまでの漢和辞典は『大漢和』にしても、『新字源』にしても、漢文を読むための辞書にすぎず、用例も漢籍からとってきました。しかし、日本語としての漢字辞書も必要なわけで、これはその基礎になると思います。

――漢字データベースには何字分のデータがはいっているのですか？

斎藤　今の段階ではJIS X 0208の範囲ですから6千字ちょっとです。

――生の新聞記事がそのまま出てくるというのはコロンブスの卵です。狭義のコンテキストだけでなく、時代の雰囲気までわかりますから、文学の研究者にとってはありがたいですよ。このデータベースは外部から閲覧できるのですか？

斎藤　残念ながら、著作権の問題があるので、公開できないのです。

――もったいないですね。用例のテキストが出てくることも重要ですが、雑誌の記事なんかも、当時のレイアウトがそのまま出てくるとおもしろいと思います。

斎藤　そうですね。文字コード体系検討専門委員会で異体字を審議をしていますが、こういう形で原本のイメージをデータベース化しておけば、字形、書体、それがどういう場面で使われたかがすべてわかりますから、議論が前に進むでしょう。

――まったくその通りです。なんとかして、このデータベースは公開して欲しいです。今日は貴重なお話をありがとうございました。

漢字処理40年の提案 ──斎藤秀紀氏に聞く

漢字処理事始

40年間維持してきた理論コード

「構造化4バイトコード」と漢字データベース

漢字処理40年の提案
　　　　　──斎藤秀紀氏に聞く