電子テキストの海へ
     ――大蔵経テキストデータベース研究会
                  石井公成氏&師茂樹氏に聞く

加藤弘一

CD-ROM版大蔵経からSATへ

石井公成氏

――大蔵経テキストデータベース研究会(以下、SAT)は『大正新脩大蔵経』(以下、『大正大蔵経』)を電子テキスト化し、インターネット上で無償公開するという大変なお仕事を進められていますが、まず、沿革を教えてください。

石井 コンピュータ大蔵経を作ろうという試みは15年くらい前からはじまっているのですが、それについては、後ほどお話しします。
 SATが電子テキスト公開をはじめる直接のきっかけとなったのは、『大正大蔵経』の版元である大蔵出版社が、1995年の10月に発売を開始したCD-ROM版大蔵経が頓挫したことです。『大正大蔵経』の一巻をそれぞれ一枚のCD-ROMにおさめているのですが、まず、実物を見ていただきましょう。

 用意してあったパソコンの液晶ディスプレイに『大正大蔵経』のウィンドウが開いた。告Fの背景に『華厳経』の経文が黒字の縦書で、しかも返り点付きで表示されている。「訓点」というボタンの部分をクリックすると、返り点や句点が消えて白文になる。「目次」のボタンをクリックすると、白い背景の別ウィンドウに章節単位の目次が表示され、目当ての節をクリックすると、主ウィンドウに、その箇所の経文が表示される。

――すごいものができていたのですね。何巻まで出たのですか?

石井 『大智度論』をふくむ第25巻がまず出て、あと『法華経』『華厳経』などの第9巻、『瑜伽論』などの第30巻、『般若経』類の第8巻まで刊行したところで、売れ行き不振で中止になりました。この企画は、東大の江島惠教先生と大蔵出版社とで話し合ってスタートし、江島先生とその学生さんたちが入力・校正などの面で協力した関係で、学生にも買えるよう、安価にしてほしいと要望しておいたのですが、いろいろあった結果、二万五千円という価格になってしまいました。本の方は普及版は一巻が一万一千円ですから、一万円以内くらいで出してくれていれば、そこそこ売れたと思うのですが。ただ、大蔵経1冊を1枚のCD-ROMにしてゆくということ自体、書物の形態に引きずられすぎた発想ですね。

 電子テキストは便利ですけど、一枚で二万五千円もして、何枚も買わないといけないとなると、学生にはちょっと買い切れません。

――『マルクス・エンゲルス全集』など、大著のCD-ROM出版が話題になったのが1996年だったと思いますが、本の見開きを画像で収録しているだけでした。電子テキストにする意義がわかっていないというか、所詮、左翼は頭が古いなと思いました。
 しかし、量的に厖大なだけでなく、多数の外字をふくみ、マルクスより電子化が桁違いに難しい仏典を、それ以前に電子テキストにしていたとは驚きです。

石井 漢字の古典を元の書物の通りの形で縦書き表示し、外字部分も含めて柔軟な検索ができて、検索結果の印刷も、また書物の通りの形での頁印刷や段ごとの拡大印刷などもできるようにしたのは、これが世界で最初だと思います。

 目次ウィンドウで、この章からこの章まで指定して検索したり、何巻から何巻までと指定して検索することもできるんですよ。

――そういう機能は必要なんですか?

石井 大きな経典の場合は、必要な箇所だけ検索したい場合が多いですからね。なお、画面では、JIS にある範囲で旧字で表示してありますが、検索の際は、新字で入力しても自動的に旧字に変換して検索してくれますし、限定付きながら曖昧検索や簡単な正規表現も使えます。私はこの企画については、最初にOCRについて助言しただけで、関わるようになったのは、仕様がほとんど固まってしまった後になってからのことですが、検索の機能については、私の意見が多少入ってます。

――今年(1999年)の暮あたりに登場するという香港・中国合作の『四庫全書』のコンセプトを、かなり先取りしていたんですね。

 あと、研究上重要なのは、句点を考慮した検索と、句点を無視した検索ができることでしょう。大正大蔵経の場合、句点の間違いがかなりありますので、句点を無視した検索も必要なんです。

――入力時の間違いということですか?

石井 元のテキストに付された句点の間違いだったり、『大正大蔵経』編集の際の間違いだったりで、いろいろです。ただ、学派による解釈の違いを反映している場合もありますので、単なる間違いとは言えない場合も多いのが実状です。

――『大正大蔵経』が完成してから半世紀以上たっていますが、その間に新しい写本が発見されるなどして、本文批評が進んでいると思います。電子化にあたって、そうした成果は盛りこんでいるのでしょうか?

石井 校訂すると別のテキストになってしまいますので、新たな校訂はやっていません。『大正大蔵経』は世界の仏教学者の共通基盤ですから、CD-ROM版大蔵経では、とにかく『大正大蔵経』をそのまま電子化し、提供するという方針にしたわけです。SAT もこの点は同じです。SATでは、明らかな誤植や元のテキストの間違いなどについては、気がついた分は別データにしてあり、いずれ公開する予定ですが、よりよいテキスト作りは、個々の研究者にまかせる方針です。新しく校訂したテキストが公開されたら、SATのウェブページからリンクするといったこともあるかもしれませんが、それは将来の話です。

――『大正大蔵経』の学問的な位置づけについて、門外漢にもわかるように、解説していただけませんか?

石井 『大正大蔵経』は高楠順次郎と渡辺海旭が監修して、大正13年から十年がかりで刊行された全百巻の大蔵経で、漢訳された経論と、中国・朝鮮・日本で書かれた主な仏教文献、約三千五百部一万三千五百巻が収録されています。SATが入力の対象とするのは、テキスト部分の85巻だけで、図像部は考えていません。『大正大蔵経』は、高麗大蔵経を底本としていますが、中国の諸大蔵経も参照したうえ、中国・朝鮮・日本で撰述された文献を多数追加しています。これは、諸本の対校の面でも、資金面でも、当時の日本仏教界の総力を結集した大事業でした。

師茂樹氏

――諸本の対校の面でも、というのは?

 日本では早い時代の写経や版本が大量に残されており、中国や韓国にもない古い善本が多数あるのですが、そうした写本は各地の寺に秘蔵されていて、研究者でもなかなか見ることができなかったのです。大正大蔵経刊行会では、諸宗・諸寺に広く協力を依頼し、それらの善本を集めて比較・校訂したわけです。当時、発見されたばかりの敦煌写本も、一部ですが、収録されています。

――『大正大蔵経』が出たことで、仏教学の研究は画期的に進んだわけですね。

石井 それはもう格段に進みました。『大正大蔵経』は、海外でも最も便利で信頼できるテキストとして使われており、経典などを引用する際は、どの国の研究者も大正大蔵経の頁や段を明記するのが習慣になっています。

――CD-ROMとして販売しようとしたテキストを無料公開しているとなると、 版権はどうなっているんですか?

石井 この問題は微妙な点もあるのですが、SAT は学術用途に限るということで、版元の大蔵出版社から電子テキスト無償公開の許可をいただいています。

――コンピュータの不得意な人には、いろいろな機能のついた閲覧ソフトと一緒に、CD-ROMでパッケージされていた方が、使いやすいのではないですか?

石井 将来、大蔵出版社がSATのデータに付加価値を付けた形で販売する可能性もゼロとはいえませんが、現在の情勢では難しいでしょう。研究者にとっては、SATで公開しているマークアップした電子テキストの方が、いろいろ加工ができて、便利なはずです。

 そうした閲覧ソフトやツール類についても、フリーのものやシェアウェアなどが出てくる可能性がありますし。

仏教は昔からハイテク志向

――大蔵経の電子化は15年以上前にさかのぼるということですが、その話を聞かせてください。

石井 1980年頃のことでしたが、早稲田の東洋哲学研究室で私の後輩だった清水光幸さんが、コンピュータ大蔵経を提唱されて、日本印度学仏教学会(以下、印仏学会)の理事長だった平川彰先生に熱心に説いたのです。当時はまだNECのPC9801が普及する前でしたから、東洋学術コンピュータセンターみたいなものを作って、大型計算機で諸国語の大蔵経を入れようという夢のような構想です。しかし、平川先生は清水提案の重要性を理解され、1983年に予備研究として論文データベース作成のための科研費を申請し、翌年、おりたので、研究室にIBM 5550を導入しました。そして、84、85年の二年間の予定で、印仏学会の学会誌である『印度学仏教学研究』の論文情報のデータベース化にとりくみました。

――なぜIBM 5550だったのでしょう。1984年だったら、9801が出ていたと思いますが。

石井 63字くらいしか外字が使えなかった最初期の9801よりは、やや多くの外字が登録できたことが、主な理由だったと思います。しかし、5550では、出るはずの第二水準漢字が使えず、清水さんがIBMに文句を言って直してもらうなど、苦労の連続でした。最初は外字を作るツールもなかったので、清水さんはそうしたツールも自作していました。
 今のように変換機能がすぐれたIMEはありませんので、入力も大変でした。清水さんは自分でも9801を購入し、9801 でのFEPは、当時出たばかりのVJEを使って入力していました。清水さんはVJEの開発元のVACSの近くに住んでいたので、バグ取りや使い勝手の改善などにも協力してましたね。入力については、清水さんの同級生である浜野哲敬さんも、後半になってから手伝うようになり、9801を買って単語登録の面でも協力し、皆でフリーの仏教語辞書を流したりしてました。そうした関係で、その頃、パソコンを買った仏教研究者は、VJEを使う人が多かったのです。

――そういえば、VJEはフリーの辞書や、ツールがたくさんあったんですよね。ぼくはVJE-βから使いはじめて、いまだにVJEを使っていますが、知らないうちに清水さんたちの恩恵を受けていたようです。平川先生も入力されたのですか?

用語DataBase

石井 先生が担当されたのは、バックナンバーすべてに目を通され、論文のキーワードになる言葉に赤鉛筆で線を引いてゆかれる作業です。32年分で6200本も論文があり、しかも分野はバラバラですから、これは大変な作業です。清水さんは、このキーワードに加えて著者名や論文名その他を学校と自宅のマシンで入力し、データベースとして整備したのです。私はパソコン初心者だったので、ろくに手伝えませんでした。今、電子化にあれこれ関わっているのは、その時の罪滅ぼしです。
 データベースがひとまず完成すると、清水さんは自宅でBBSを開局し、電話回線を通じてデータを検索できるようにするなど、先進的な実験をしてました。

――当時としては、画期的な試みだと思いますが、利用者はどれだけいたんでしょうか? 当時はパソコンを使っている人自体すくなかったですし、商業パソコン通信だってはじまっていなかったので、モデムはもとより、音響カプラーだってあまり普及していなかったのではないですか。

石井 アクセスしていたのは、四、五人くらいでしょう。そこで、平川先生は、もっと多くの人に利用してもらうために、これを索引にして印仏学会から刊行することにしたわけです。江島先生・清水さん・浜野さんなどが手伝って、かなり改善したうえで、『印度学仏教学研究索引』という書物にし、1987年6月に刊行しました。この本です。

――全編索引で、これだけの厚さ(551頁)があると、電子的に検索できるのはありがたいですね。コンピュータの威力が一番実感できる利用法だと思います。それから、すぐに経典の入力に着手したのですか?

石井 個々の研究者が自分に必要な文献を入力することははじまってましたが、『大正大蔵経』は膨大ですし、外字の問題もありますから、全体を入れるという計画にはそう簡単には取り組めません。論文データベースですら、外字の処理は大変でした。仏教学のコンピュータ利用は、外字との格闘の歴史なんです。
 平川先生は、予備研究である『印度学仏教学研究』の論文データベースが成果をあげたので、明治以来のインド学仏教学の論文データベースに発展させようと、学会に提案されました。そして、学会の事業として全力をあげてデータベース構築に取りくむことが決まったのです。1986年のことです。平川先生は、70才を越えておられたのですが、「若い人たちに作業をやらせる以上、どの程度、大変か知っておきたい」ということで、私が秋葉原にお供して助言し、確か9801VMだったと思いますが、パソコンを購入されました。先生はよく「これからの若い人は都市のマンションでは本を置けないだろうから、文献はコンピュータに入れないとね」とおっしゃっておられました。

――う〜む。驚きの連続です。こういうことを言っては失礼かもしれませんが、古めかしい印象の強い仏教を研究しておられる方々が、いち早く学会をあげてコンピュータ利用に取りくんでおられたとは。

 『月刊アスキー』1998年11月号に「仏典のデジタル化について」という記事を執筆させていただいたのですが、その時の担当編集者も、仏教学のパソコン利用の状況を知ってショックを受けたと言ってました。でも、仏教は昔からハイテク志向なんです。百済から日本に仏教をもたらした人たちは、難しい教理を説明してもわからないので、金色に輝く仏像を見せたり、最先端の医療で当時の人々を心服させました。最澄や空海をはじめとする入唐僧も、最新のテクノロジーと思想を日本に持ち帰りました。木版技術だって、広まったのは、仏教経典の印刷を通じてのことですからね。

石井 古代の話はともかくとして、明治以降の日本の近代仏教学はヨーロッパの仏教学の輸入からはじまったので、印仏学会の代々の理事長や主要な理事の先生がたは、欧米に留学した経験のある方が多いんです。タイプライターを使っておられる先生が多く、英語で本や論文をどしどし出してますから、平川先生のような高齢の方でも、キーボード・アレルギーやコンピュータ・アレルギーはありません。欧米の進んだ図書館システムのこともご存知の方が多かったですし。

――なるほど。では、印仏学会はいち早く、コンピュータ導入でまとまったわけですね。

石井 そうです。1986年の春には、平川先生などの連名になってますが、清水さんが中心になって書いた「東洋学におけるコンピュータ利用の一例および問題点と展望」という、多言語志向のとてつもなく先進的な論文が出ていますし、この年の印仏学会の学術大会では「インド学仏教学におけるコンピュータ利用の現状と展望」というシンポジュウムも開催され、TRONの坂村健先生にも討議に参加していただきました。

――1986年というと、BTRONがマスコミで脚光を浴びはじめた頃ですね。坂村さんは、当時から外字を一切使わないシステムを提唱していました。

石井 ええ。外字で苦労していた印仏学会では、その点に注目してお招きしたのですが、「諸橋大漢和を入れればいいんでしょ」というお答えだったので、「いや、それでは足りないんです」というやりとりになったことを覚えています。諸橋大漢和に限らず、どの国でも漢字の字典は儒教系の学者が編集するのが古くからの伝統ですので、仏教関係の語彙や文字は抜けているものがたくさんあるんです。

――その頃を境に、TRONコードのアーキテクチャが変わったようです。
 最初のTRONコードはユニコードそっくりで、CJK統合漢字の代りに諸橋大漢和の漢字をいれるものだったらしいです。ところが、1987年になって、三バイトのエスケープシーケンスで文字面を切り換えるマスター文字セットと、文字面一面だけの各国語文字セットの二本立てのTADコード体系構想が出てきます。1990年代にはいると、マスター文字セットに一本化され、エスケープシーケンスの長さの制限がなくなり、現在のようなISO 2022そっくりの形になったようです。今のお話からすると、TRONコードの設計変更には印仏学会のシンポジュウムが影響していたのではないでしょうか。

石井 その点は坂村先生にうかがってみないと、なんとも言えませんが、先の論文やシンポジュウムが、いろいろな面で影響を与えた可能性は高いと思います。
 そうした経緯で論文データベース作成のために印仏学会データベースセンターができ、浜野さんが実務担当となって活動し始めた1987年には、PC-VANやNiftyなど、全国規模の商業パソコン通信がはじまりました。Niftyでは、マイコン坊主というハンドルで知られる筑後隆誠さんが「オンライン寺院<ヴィハーラ>」を開設し、翌年、清水さんもPC-VANで「オリエント」という東洋学関係のSIGをはじめました。「ヴィハーラ」では、「ワープロ写経」と称して、漢字の経論のデータを皆がもちよって公開する試みを世界で一番早くはじめてましたし、「オリエント」も外字の扱いや索引作成その他、東洋古典のテキスト処理に関する議論が非常に活発であって、様々なツールやデータが公開されました。

――先ほどからお話に登場する清水さんとは「オリエント」のmaniさんだったのですか! 「オリエント」は一時期、よくROMしましたが、国文学関係のレスが多かったので、シスオペのmaniさんが仏教学の清水さんだったとは知りませんでした。

石井 JALLC(情報処理語学文学研究会)の中心メンバーの方々が活発に書きこんでおられたので、そういう印象があったかもしれませんね。清水さんは、現在、「OrientNet」というサイトを運営されてます。内外での東洋古典関係の電子化の状況は、ここから辿ってゆけば大体わかります。
 パソコン通信についてはこれぐらいにしますが、その少し前頃に、京大大型計算機センターのシンポジュウムで清水さんが花園大学国際禅学研究所のアップさんと知りあい、協力活動が始まったことも大きいです。アップさんはスイス人の禅宗研究者で、早くから典籍の電子化にとりくんでいたんですが、電子テキストとツールを作成するだけでなく、電子テキストの便利なフォーマットも研究されていました。アップさんの提唱する公開形式はSATでも尊重し、それを改善した形を使っています。清水さんはプレーンのテキストをアップ形式に変換するツールを作り、「オリエント」で公開しました。1991年の印仏学会の大会では、清水さんの「OCRによるコンピュータ大蔵経の構築」という発表の後で、清水さんとアップさんが様々なツールを収録したフロッピーを会場で配布したりしました。

――アップさんというと、「電子達磨」というサイトの方ですね。

石井 そうですが、「電子達磨」はもともとは花園大学国際禅学研究所の出している情報誌で、WWWサイト開設の前から有名でした。1995年に印仏学会の大会が花園大学で開かれた際は、禅関係の厖大な電子テキストとツール類、クリスティアン・ウィッテアンさんが開発した画期的な外字処理方式であるKanjiBaseなどを収録したCD-ROMを、国際禅学研究所が大会参加者全員に無償で配りました。これでコンピュータを利用する研究者が一気に増えたんです。

――そうした流れの中で、SATの計画がもちあがったわけですね。

石井 『大正大蔵経』を電子化しようという動きは、国内でも国外でも早くからありました。ただ、それは困難な仕事であるうえ、印仏学会としては論文データベースに取り組み始めたばかりでしたし、ほかにもいろいろ複雑な経緯があったため、江島先生は、印仏学会内の研究組織のような形で別に「大蔵経テキストデータベース研究会」を作り、検討を進めていたのです。この研究会が無料公開の方針で作成しているデータベースがSATなんですが、一般には作成母体である研究会もSATと呼ばれてます。
 この研究会では、1995年に科研費がおりたのを機に、いよいよ入力と校正に着手しま した。大蔵出版社のCD-ROMは、そうした動きと並行していたのですが、便利な市販品としてのCD-ROM版大蔵経の方は頓挫しましたので、現在ではSATだけが動いてます。SATでは多くの人が苦労を重ねた結果、1998年3月から『大正大蔵経』電子テキストの無料公開を始めました。私はその委員の一人で、師さんは技術・公開面の担当者です。

――江島先生が今年(1999年)の5月に急逝された後の体制はどうなりましたか?

石井 江島先生は印仏学会の理事長に就任されて多忙になられたこともあって、SATでは昨年から東大の下田正弘先生が代表になっています。江島先生が亡くなられたため、印仏学会では、前の理事長であった武蔵野女子大の前田専学先生が復帰されて理事長代行となられましたが、前田先生は、SATの重要性をよく理解されておられて、この秋の学会理事会でSAT支援を呼びかけてくださることになっています。前田先生は68歳というお年ですが、自宅と勤務先にパソコンを置き、今昔文字鏡を使い、インターネットも使いこなし、海外とのやりとりも含め、メールで事務を処理されています。前田先生も江島先生も下田先生も、印仏学会データベースセンターを創設する際、事務面で平川理事長を支えられた先生方です。

――コンピュータのわかるトップが退任されたり、亡くなると、普通はがたがたになるものなんですが、印仏学会の層はそこまで厚いのですか。他の分野で電子テキストに取りくんでいる人たちは、本当にうらやましいと思いますよ。

古典の電子テキスト化

――SATのテキストをいくつかダウンロードさせてもらったのですが、アップ形式というのでしょうか、プレーンなテキスト・ファイルでなく、独特なマークアップがほどこされていますよね。同じテキストを「マスター形式」と「公開形式」の二つの形式で用意してあるあたりを説明してくださいませんか。

 まず、「マスター形式」はアップさん以前からあるもので、原著の版組を記録しておく必要のある古典の電子化ではよく使われています。本文の頭についている数字は「典籍番号」、「巻」、「頁」、「行」をあらわしています。SATでは返り点もいれています。
 語句を分かち書きする西洋の文献ですと、これでいいんですが、漢文や漢字仮名混じり文は分かち書きをしないので、語句の真ん中に改行がはいり、分断されるケースが出て来ます。それでは熟語やまとまった語句が検索に引っかからないので、アップさんは一つの句はまとめて次の行に送り、行番号の後に前行から来た文字数を記載することを提案しました。これがアップ形式で、SATの「公開形式」はアップ形式を元にして改善しています。また、「マスター形式」では入力されている返り点記号も、「公開形式」では検索のためにはずしてあります。

――行割りまで原著の版組を記録する必要はあるのでしょうか? 引用のためにはページ数がわかればいいと思いますが。カントやヘーゲルの著作は、原著の改ページの箇所に「|」をいれ、その行の横に原著のページ数を記載するという形で出版されています。

 『大正大蔵経』の場合、三段組で活字が詰まっていて、一ページが普通の本の四〜五ページ分ありますから、行番号まであった方が便利なんです。実際、欧米の研究者は、引用する際、行数まで明記しますし。また、テキストを行単位にID化しておくと、XMLで提供されることになるXPointerやXLinkといった仕組によって、引用箇所に直接リンクをはることが可能になります。
 ウィッテアンさんが提唱している仏典のポインタ表記の統一化案では、『大正大蔵経』のテキストを「T09N0262.9a.3」(『大正大蔵経』第9巻・通し番号262・9頁上段・3行目)という具合にID化しておき、引用箇所を例えば

経曰。<QUOTE ID="T09N0262.9a.3">無一不成仏。</QUOTE>

というようにマークアップすることで、引用元のテキストに直接飛ぶことができます。

――なるほど。HTMLでは引用元の方に<A NAME="xxxx">とアンカーを埋めこんでおかなければ飛べませんし、リンク切れも起こりますが、これなら大丈夫ですね。
「&M-391980;」というのは文字鏡の実体参照ですか。

 そうです。そのままの状態では何という漢字かわからないので、実体参照から文字鏡フォントを表示するためのWordのマクロを公開しています。Wordにペーストして、マクロを動かさなければならないのは面倒なんですが、現状では実体参照が一番無難だと思います。

石井 SATは、台湾で『大正大蔵経』の入力を進めているCBETA(中華電子佛典協會)と全面的に協力しあってますが、外字表記についても協議を重ね、今後は、諸橋番号12345番ならハイフン無しの「&M012345;」という固定長6桁の形にして、双方とも共通の表記を使うことになっています。ファイルの先頭のヘッダも、基本的な部分は一緒にする予定です。他の国々の東洋学研究者も、われわれの統一形式を採用する人が増えるでしょう。

外字リスト

――外字はどれくらいあるんですか?

 今年(1999年)8月現在で、総文字数860万字のうち、約2万字がJIS外字でした。字種数でいうと、総字種数が約5800字種、JIS外字は1400字種ほどです。ちなみに、昨年9月時点では、総文字数630万字、JIS外字は1万2000字、外字の字種数は1000字ほどでした。SATでは内外の利用者のために、現在公開しているJIS版のほかにUnicode(UTF-8)版も公開する予定ですが、その版だと外字数は10分の1以下に減ります。

石井 UTF-8でXMLというのが、今後の主流になるだろうから、その場合、外字処理をどうするかということで、もろさんと二人で、かなり早い時期からXMLグループの人々と交流し、XMLでの外字処理についても研究してきましたが、外字は本当に厄介ですね。

――この一年で外字の比率が増えているようですが、ややこしい経典をやったのですか?

石井 というより、最初は外字が少ない経典を選び、そちらを先に作業してたというのが実状です。

――総字種数の5800という数字は意外にすくないという印象をもったのですが。

石井 まだ7冊分程度しか公開してませんからね。密教部や中国の史伝部とかを入れ始めれば、一気に増えるはずです。ただ、それでも最終的な字種は、一万数千字程度でおさまるものと見ています。

 『大正大蔵経』の場合、活版印刷ですから、JISとは違う形で包摂がおこなわれていますので、SATではそれを尊重し、『大正大蔵経』が区別している場合は、JISで包摂している漢字、たとえば「茲」と「茲」についても別字としてあつかっています。

石井 SATは『大正大蔵経』のテキストをそのまま電子化することにしていますから、木版や写本である元テキストの異体字にもどすようなことはしていません。その意味では、SATの外字セットがあれば、すべての仏典を表記できるというわけではありません。

 なにが正字で、なにが異体字かという区別も微妙で、康煕字典の作られた時点のヒエラルキーで決めているんですよ。仏典は千年かけて漢訳されたり、撰述されていますから、時代によって字体が変わってくるんですよね。

――漢字は青天井で増えていくんでしょうか?

石井 一般社会で使われるコードと、学術的なコードは分けるべきでしょうね。それに、学術的な用途だからといって、細かな字形を区別すればするほどよいというものでもありません。そうしたコードセットは、かえって使いづらいと思います。用途によってコードや外字セットを分ける必要がありますね。そのような様々な外字セットを呼び出して利用する方法を、できるだけ標準化しておけばいいんじゃないでしょうか。
 たとえば、韓国の『高麗大蔵経』は1996年に試作的なCD-ROM版が公開されましたが、漢字の知識のない女性オペレーターをたくさん集めて訓練し、字形による入力法によって木版本を入力させたため、ちょっとでも形が違うとすべて区別し、異体字とみなして外字フォントを作ってしまいました。極端な例だと、同じ字を何十字にも区別しており、研究者たちの間で評判が悪いため、高麗大蔵経研究所では、現在、3万数千字の異体字が入った版と、大幅に統合した標準漢字版の二つにわけて作り直しています。

――どんな規準で外字にしているのですか?

石井 『高麗大蔵経異体字典』という資料がありますから、御覧ください。「發」は59字もありますが、「發」と「發」などは、明らかに書き癖・書体の違いですし、「發」と「發」と「發」は刷り具合の違いや汚れの可能性が高いでしょう。

――う〜む。確かにこれは汚れかもしれないですね。法務省の出している『誤字俗字一覧』もびっくりというか。『高麗大蔵経』は版木が海印寺に残っているのだから、版木に遡って確認するという手がありますね。

石井 こうした木版や写本については、一番いいのは、画像ファイルと電子テキストの両方を公開することです。そして、電子テキストについては、現在の『高麗大蔵経』CD-ROMよりかなり統合した異体字入り版と、標準漢字版を出すことですね。『高麗大蔵経』の電子化については、アップさんの「『高麗大蔵経入力計画』探訪」というレポートをご覧ください。
 高麗大蔵経チームがあそこまで異体字にこだわるのは、海印寺のあの版木は、世界的に貴重な文化遺産であるにとどまらず、あの版木が国を守ったと信じられてきたからです()。韓国の仏教徒にとっては、高麗大蔵経の版木は、国宝以上の存在なんですよ。それに、書体の違いや彫り癖の違いと思われるものまで区別しておくと、版木のうち、この巻とこの巻は誰が書いて誰が彫ったらしいとか、この経典うち、序のところだけは少し後の時代の追刻らしいとかも推測できるため、高麗大蔵経そのものの成立状況の研究に役立つといった事情もあるようです。

――そういう文化的背景があるのですか。いろいろ難しそうですね。
 話題を変えますが、SATでは電子化作業の分担はどうやっているんでしょうか? 仏教系の大学の場合、宗門と関係が深いと思うんですが、天台宗系の大学には法華経や天台宗関係の文献を割りあてるなんていうことはあるんでしょうか。

石井 作業の拠点は、東大と、長崎大と、私がいる駒沢短大だけですので、大学によって文献を割り当てるといったことはしてません。それに、SATは純粋に学術的な活動なので、宗派は関係ありません。

――立ち入ったことをうかがいますが、石井さん、師さんとも、お名前からすると、お寺のご出身のような印象を受けますが。

石井 私は寺の生まれではありません。東洋の思想や歴史に興味があったので、東洋哲学を専攻したら、いつのまにか仏教研究が中心になっていたというわけです。

 ぼくもお寺とは関係ないですよ。現在は東洋大の博士課程に移って徳一を勉強していますが、徳一を撰んだのはぼくの郷里の会津で活躍した僧だからです。コンピュータは小学生の頃からやってますが、仏教研究での利用は早稲田の授業で石井さんに洗脳されました(笑)。

――失礼しました。では、その三つの拠点で無作為に分担しているのですか?

石井 協力してくれている大学や個人が必要としている分野を考慮することもあります。たとえば、長崎大学には「瑜伽行思想研究会」という仏典入力プロジェクトの事務局があり、そこはSATと提携関係にありますから、唯識関係や阿毘達磨のテキストは長崎大がかなり担当してくださいました。駒沢の場合、校正を大学院生などに頼む場合、その人の専門に関わるような文献を選んで頼むこともあります。

とりのこされる日本

――漢字圏諸国の古典電子化プロジェクトについてうかがいます。お二人は、このままでは日本は取り残されると危機感をもっていらっしゃるそうですが。

 SATでも初めの頃は、ぼくたちが世界で一番進んでいると思っていたんですよ。大規模な叢書の検索サービスを提供するところはいくつかありましたが、ダウンロードできるようにしたのは SAT が初めてでしょうし、外字閲覧ページとか、テキストを捜しやすくするための細かいサービスなども、他の国のサイトにはなかったものだと思います。ファイルのフォーマットなどについても、世界で一番進んでいるやり方を取り入れようと、いろいろ情報を集めて研究したんです。ところが、台湾に出かけたり、アメリカやその 他の国の人たちと交流してみたり、中国の最先端の状況を知ったりすると、マークアップを初め、あっちの方がはるかに進んでいて日本はかなり遅れているということを、いろいろな面で気づかされて、ショックでした。

――それはどういうことですか? XML関係ですか?

 XMLもあります。マークアップ関係についていうと、規格として公開されたものについては把握していたんですが、そういう結果の背景に隠れている厖大な試行錯誤や討議の蓄積は、それに参加していないとわかりません。XMLはぼくらも早くから勉強していたので、国際会議に出ていって、ある程度発言できたんですが、そんな案はとっくの昔に試したと言われたり、文書化されていない合意事項や言わずもがなの前提を知らなかったり、経験のギャップを痛感しました。

――公開されている規格や仕様だけでは、きちんとした実装が難しいといわれていますが、そういうノウハウにあたるものが弱いということですね。

石井 新しい規格や仕様を本当に使いこなすノウハウは、それらを皆で議論しながら作っていく作業そのものに早い時期から参加しないと、身につけるのは難しいですね。また、そうした共同作業の場に参加しないと、規格に対する要望も出せませんし、貢献もできません。

 XMLとはすこしずれますが、古典テキストのマークアップで世界をリードしているTEI(Text Encoding Initiative)のバーナードさんなどは、仏教文献のマークアップの面でも協力していて、こうした古典電子化の国際会議を台湾とか韓国でやる際、セミナーを開いていたんですよ。TEIの布教ということもあるでしょうが、仏典入力プロジェクトと交流することで、TEIをより洗練し、漢字文献でも使えるものにしようという狙いが大きいと思います。日本は決定的に出遅れましたね。

石井 コンピュータ大蔵経の場合も、内部・外部の複雑な事情や制約があって、海外に出かけて古典入力仲間と積極的に交流できるようになったのは、この2年くらいのことですので、その間に遅れてしまった面もかなりあったわけです。

――日本が出遅れたとなると、漢文の返り点はどうなるんですか?

石井 そうしたところは日本が貢献できる部分です。中国や欧米の研究者の中には、返り点なんかいらないと思っていて、無視する人もいるんですが、実はそうではないんです。仏教文献は漢字で書いてあるとはいえ、古典ですし、仏教漢文は特殊ですから、中国人でも簡単には読めないんですよ。返り点に全面的に頼るのは間違いですが、参考にすれば役にたつものなんですし、返り点自体、解釈の一つなんですから、そのテキストを研究してきた学派の解釈を知るうえでも重要な情報です。

――返り点は文法的なマークアップになっているということですか?

 そうです。一種のマークアップです。中国や朝鮮の学僧の解釈を元にして、日本の学僧たちが千年以上かけて蓄積してきたものですから、参考にすればいいのであって、それを利用しないのはもったいない話なんです。ですから、海外の研究者でも、状況を理解している人は、そうした返り点を参考にしていますし、必死に日本語を勉強して、日本の研究成果を利用しています。

――仏教畑以外との関係はどうなっているんですか?

 台湾の大掛かりな仏典関係の企画は、台湾大学のコンピュータ関係の学部とか、台湾中央研究院のコンピュータセンターとか、全部連携しています。韓国もそうなりつつあって、東国大学校では仏教学部と理工系の学部が合同でやっていますし、『高麗大蔵経』はSAMSUNG財閥のコンピュータ事業部が支援しています。中国は言わずもがなで、『四庫全書』には北京大、清華大、中国マイクロソフトと、八つくらいの機関・企業が関係しています。石井さんとぼくが入っている漢字文献情報処理研究会の仲間のあいだでは、「中国、台湾のパワーと進展ぶりはすごい。このままでは完全においてゆかれてしまう」という強い危機感があって、それがこの研究会で『電脳中国学』という本を出す動機になったわけです。

――日本と全然違いますね。トップの認識が違うということですか?

石井 たしかに違いますね。台湾は資源小国であって、コンピュータ産業で食っていくしかないと決意してますから、コンピュータによる古典処理に関する学術大会に、副総統がきて挨拶したりするんですよ。

 1月に行われたEBTI(電子仏典促進協議会)の大会の懇親会には、台北市長がわざわざやってきて、挨拶しました。日本でいったら、東京都知事ですよ。しかもその場で、今年中に台北市民全員にメールアドレスを配布すると宣言したんです。古典の電子化に国をあげて取りくんでいるんですよね。

石井 国立中央研究院の古典データ公開の勢いは凄いですからね。XMLの活用も進んでますし。それに、台湾のある大学では、「仏教情報学部」を作ろうという計画まであるんですよ。

――「仏教情報学部」ですか!日本では考えられませんね。

石井 仏教の場合は、信者が多いですから、政治家が仏教文献電子化に理解を示すと、選挙の票に結びつくといった面もあるんでしょうが、中国では、権力者は文化事業を起こすという伝統があるのが大きいですね。康煕帝は『康煕字典』を作りましたし、乾隆帝は『四庫全書』を作りました。蒋介石だって、故宮の文物を抱えて大陸を逃げまわり、台湾にまで持ってきたでしょ。文化を大切にするという姿勢を見せないと、立派な権力者として認められないんですよ。

――伝国の宝物ですね。日本の場合、二千五百年以上つづいていることになっている家系があるために、モノによって権力をオーソライズするという意識は薄いですね。しかし、それだけいろいろな分野の後押しがあるというのは、文化保存だけが目的ではないような気がしますが。

石井 もちろん、そうです。XMLやOCRを初め、テキスト関連の技術全般をレベルアップしようという狙いがあります。大蔵経とか二十四史とか『四庫全書』のような難物に挑めば、技術は確実に進歩します。しかも、海外のユーザーのことを考慮しますので、多言語志向です。

――SAMSUNGや中国マイクロソフトのような企業が協力するのは、テキスト関連の技術を研くためなんですか。

 SAMSUNGの場合は、社長夫人が熱心な仏教信者ということもあったようですが、中国でも台湾でも、最高のOCRソフトは、古典読込用の特注品です。製品版のOCRを特別に拡張して、割注なんかのはいった漢文をガガーと読んじゃうんですよ。木版本の古典に比べれば、活字で組まれた現代中国語ははるかに楽ですから、製品に技術が還流しています。

――マルチメディアだなんだといっても、社会を動かしているのはテキストなんだから、テキスト処理の技術はこれからの鍵になるんですけどね。日本のトップの勉強不足はどうしようもないですね。

石井 テキスト関連の技術が根本ですね。ただ、マルチメディアの派手な部分だけに目を奪われると困りますが、マルチメディアは重要ですので、今後はテキスト関連の技術とマルチメディアの技術とが結びつきながら発展してゆくと思います。
 それに、日本の遅れは、トップだけの問題でなく、日本の体質そのものによる面も大きいでしょう。

――どういうことでしょうか?

石井 日本ではいち早くパソコン通信が普及し、PC-VANや日経MIXやNiftyで研究者のネットワークが生まれていました。ROMしていらしたのなら御存知と思いますが、互いに「さん」づけで呼びあい、大学や企業における肩書きなどに関係なく、完全に平等な実力社会だったんです。ところが、それが一定の範囲以上には広まっていかなかった。
 もちろん、古典電子化の面でも、ネットワークを広めようと努力されていた方はいました。たとえば、e漢字で有名な京大の勝村先生などは、10年以上前から、毎年、漢字問題のセミナーを開き、日本だけでなく、台湾、中国、韓国、アメリカその他の研究者をまねいて、交流をはかっていました。ただ、こうした呼びかけにすべての大学が応じたわけではないし、海外との交流自体を歓迎しない人たちもいたんです。

――今後に尾を引きそうな問題ですね。縦割とか、学閥が絡んでくるわけですか?

石井 そうした体質もありますね。歴史の大きな流れを見ないで、先例や面子などに縛られているうちに、ネットワークで仕事を進めてゆく海外諸国にどんどん抜かれていきつつあるという感じでしょう。

 今年(1999年)3月に、東大の史料編纂所で日本で漢字のプロジェクトにかかわっている人を一堂に集めた画期的なシンポジュウムがありました。その席で、勝村先生は、海外と交流して研究を進めようとするのがいかに大変だったかを話されました。

石井 日本の研究成果をどんどん公開して貢献し、漢字圏諸国と積極的に交流してゆけばよかったのに、それが十分できなかった。というか、邪魔しようとする人もいるわけです。そのくせ、外の情報だけは集めようとするわけですよ。

――おいしいところだけつまみ食いしようとするという、例のパターンですか。

石井 そうですね。唯一の日本人委員としてXML規格作成に参加した村田真さんもおっしゃってましたが、HTMLやXMLが流行ると、いろいろな人が群がってくるものの、自分から汗を流して、皆で国際標準を作成していこうとしない。HTMLの場合など、作成関連のメーリングリストで14000通のメールが飛びかったのに、日本人の発言は57通だったそうです。村田さんは以前、あるメーリングリストで、規格化に携わりもせずに、ただ反対するばかりだったり、利用しようとするばかりでは、「インターネットで漢字や仮名が文字化けしようと、日本人は文句を言う資格などない」という趣旨の書込みをされてましたが、その通りだと思います。最近は徐々に改善されてきているようですが。

 仏教学関係でも、ぼくとか、ぼくのまわりのコンピュータ仲間は、海外の研究者と直接やりとりしたり、UnicodeやXMLのメーリングリストなどで発言を始めています。

――和田弘先生からうかがったのですが、1960年代に、日本もISOの文字コード制定活動に正式メンバーとして参加するように通産省に進言したところ、「日本は外貨がないんだから、オブザーバーになって、決定内容だけ送ってもらえばいいんだ」といわれたそうです。外貨をためこみすぎて、批判されるようになっても、同じことをやっていたんですね。

石井 私は鎖国主義+出島主義と呼んでます。鎖国する一方、出島風な形で海外の情報だけは競って取りいれようとするんですね。ただし、出島の人間は海外の情報を独占して、優位性を保持しようとします。

――なるほど。出島人間にとっては、平等なネットワークは営業妨害でしょうね。インターネットだ、なんだといっても、そういう溝は依然としてあるのですか?

石井 まだ古い体質が残っていますし、制約もあります。私自身、力不足で中途半端なままですし、反省する点は多いですね。ただ、仏教学の場合、仏教はアジア全体に広がったうえ、欧米のすぐれた研究者もたくさんいるのですから、諸国の研究者がネットワークを通じて平等の立場で交流し、一緒に仕事をしていかないと、自分たちが遅れるだけなんです。実際、日本は、急激においてゆかれつつあります。これは、仏教学そのもののレベルに関わってくる問題です。電子立国などと言っていい気になっていられる状況ではありません。

――交流は自分たちのためでもあるのですね。その意味もで、SATと漢字文献情報処理研究会の活動に注目しております。今日はお忙しいところ、お二方にお時間を割いていただきました。どうもありがとうございました。

(Sep05 1999)

高麗大蔵経についての補説

 朝鮮は古来から外国の圧迫を受けつづけ、国土を外国の軍隊に蹂躙され、占領されたことも一再ならずある。朝鮮仏教は護国仏教的な性格が濃く、塔を建立したり、経典を書写する功徳で国難に対処しようとしてきた。高麗大蔵経も契丹とモンゴルの侵略を機に開版され、大蔵経の利益によって国難をのがれたと考えられ、『護国八万大蔵経』という映画にもなっているという。

 奈良・京都に古代建築を遺す日本と異なり、韓国・朝鮮では都市部の堂塔伽藍はほとんどが戦火にあい、焼失している。大蔵経の8万枚を越える版木は、校倉造の海印寺蔵経殿に保存されて、今日に伝えられ、ユネスコの世界遺産に選ばれている。
 高麗大蔵経の電子化は高麗大蔵経研究所 によってすでに完了しており、テキスト版は無償で公開されている。

石井公成
1950年、東京生まれ。早稲田大学第一文学部卒。現在、駒澤短期大学教授。博士(文学)。日本印度学仏教学会データベースセンター幹事。大蔵経テキストデータベース研究会委員。専門は、6世紀から9世紀にかけての中国・朝鮮・日本の仏教とその周辺の思想・歴史・文化だが、現代にまで及ぶ広範な領域に関わっている。著書に『華厳思想の研究』(春秋社)がある。
師茂樹
1972年、福島県生まれ。早稲田大学第一文学部卒。現在、東洋大学大学院博士後期課程在学中。日本印度学仏教学会データベースセンター主事。大蔵経テキストデータベース研究会事務局で技術・公開面を担当。共著に『電脳中国学』(好文出版)、『パソコン悠悠漢字術』(紀伊国屋)がある。個人サイト、もろ式は漢字処理と仏典電子化の情報の宝庫。
Copyright 1999 Isii Kose
Moro Sigeki
Kato Koiti
This page was created on Nov28 1999; Updated on Dec05 1999.
文字コード
ほら貝目次