――国会図書館のホームページを拝見しますと、2002年に開館する関西館、2000年に一部開館する上野の国際子ども図書館が、いずれも電子図書館機能を重視すると予告されています。2000年、2002年といえば、もう目前ですが、なにがどこまで実現するのか、文字コードの問題はどうなるのか、電子図書館構想の推進役である田屋さんにうかがいたいと思います。
まず、日本はフランスとともに、G8電子図書館プロジェクトの共同幹事国となっていますが、国際的にリードする立場にあるということは、かなり前から取り組んでいたのではないかと推察します。国会図書館の電子図書館構想はいつごろから出てきたのでしょうか?
田屋 国会図書館に関しては、1987年に関西館を設立するという答申を受けた時から電子技術を積極的に活用した電子的文献提供を実施するということになっていました。しかし、電子図書館という用語を正式に使うようになったのは、この数年前からです。しかし、電子図書館という言葉自体は1970年代からありました。
現在、ディジタル・ライブラリという用語が多く使われていますが、当初はエレクトロニック・ライブラリーという用語が使われていました。データベースに加えて、ビデオテックスのような当時の「ニューメディア」や、Vtrのような、今でいうマルチメディアですが、当時ですから、アナログ・データも含まれていまたわけです。
もっとも、当時はインターネットが一般化する以前でしたから、FAXによる発信を主として想定していました。
――図書館の世界では、本そのものを一次情報、書誌情報や所蔵情報を二次情報というそうですが、FAXで送るということは、二次情報だけということですか?
田屋 いいえ。最初から一次情報の発信も考えていました。請求のあった本や雑誌の論文をFAXで送ることを考えていたわけです。
――郵送複写サービスのFAX版ですね。しかし、FAXでは、いろいろな意味で、無理がありそうですね。
田屋 データがアナログからデジタルに変わりましたし、インターネットの普及で、さまざまなアイデアが無理なく実現できるようになりました。
1993年には、IPA(情報処理振興事業協会)さんと共同で、「パイロット電子図書館プロジェクト」という実験プロジェクトをはじめました。その成果は、わたしどもの電子図書館機能の技術的側面を実証したということで、大変大きな意味をもっていると思います。
このプロジェクトは「総合目録ネットワークプロジェクト」と「電子図書館実証実験プロジェクト」の二本柱から構成されていました。
「総合目録」は二次情報を全国ネット化するもので、参加図書館から提供を受けた書誌データを総合目録データベースに蓄積し、参加図書館からオンラインで検索できるというものです。
それに対して、「実証実験プロジェクト」は一次情報(本そのもの)を利用者に提供します。1994年から実験的に1000万ページをデジタル画像で電子化しました。
――1000万ページというのは、本のページでですか?
田屋 電子図書館の「ページ」にはいろいろな定義があるのですが、この場合は本のページに相当するものです。ですから、1000万ページといっても、本にすれば三万冊程度で、街角の小さな図書館くらいでしょうか。でも、データ量としては、テラバイト単位です。
――1ページあたり、何バイトくらいのデータ量になるんですか?
田屋 カラーデータの場合、オリジナルデータは圧縮して数Mバイト、モノクロは1Mバイト程度です。インターネット提供用には、変換した粗いデータを使い、カラーは300Kバイト、モノクロは100Kバイト程度にしています。
――200ページほどの本を電子テキスト化するには、30万円ほどかかるといわれていますが、画像化する場合のコストはどうですか?
田屋 ページ単価が50円程度ですから、一万円くらいでしょう。国会図書館の場合、700万冊を越える蔵書がありますから、手間や予算を考えると、すべてを電子テキスト化するのは不可能です。
――今の本はコンピュータ組版ですから、最初から電子テキストになっているのではありませんか?
田屋 出版社・印刷会社がもっている組版データをSGML化したり、あるいはもっと簡単なHTML化する研究も進めています。著作権等の権利に関する問題は別に話すとして、電子図書館のコンテンツの対象データとしては、大変有力だと考えています。
――電子的な納本制度などはお考えですか?
田屋 納本制度は強制です。もちろん製作に要した費用に相当する、定価の半額程度の代償金は国庫から払いますが、正当な理由なしに納本しないと罰則規定があります。組版データは、そういう制度には、なじまないのではないでしょうか。
組版データを提供してもらう場合は、出版社・著作者と交渉して、協力事業として実施するか、契約・購入になると思います。
――実験で電子化したのは、著作権の切れたものですか?
田屋 少々微妙なところですね。詳しくはこの一覧表(表1)をご覧ください。
当館所蔵の稀覯書、図画、古地図などはもちろん切れていますが、明治期のものですと、死後50年ですから、まだ著作権が生きているものが含まれている可能性があります。
出版社から提供を受けた資料については、出版社が著作権者に許諾を許諾を求めるのが望ましいのですが、利用提供を想定したものではないため、おそらくその手間を掛けていないと思います。特に雑誌類は一冊について数百人の著作権者がいるでしょう。出版社が全員の了解をとるのは無理でしょうから、一般に公開することはできません。あくまでも電子化したものは、電子図書館構築のための技術実験の素材という位置付けになります。
国会図書館所蔵貴重書 | 江戸期の浮世絵、錦絵,古地図、奈良絵本など | 7221枚 | カラー | 写真を高解像度デジタイズ(約5000x4000) |
明治期刊行図書 | 社会科学分野図書 | 24838冊、635万頁 | モノ | マイクロフィルムから |
第二次大戦前後の刊行図書 | 保存に難のある仙花紙に印刷された図書のうち、資料的価値の高いもの | 2486冊、 75万頁 |
モノ | 印刷物をマイクロフィルム化してからデジタイズ |
国内刊行雑誌 | 中央公論、文藝春秋、世界、諸君など | 24タイトル、84万頁 | モノ | 印刷物から直接デジタイズ |
国会審議用調査資料 | 国会図書館が国会議員のためにまとめた調査報告書 | 264冊、 5千頁 |
モノ | 印刷物からデジタイズ、ないしテキスト入力 |
憲政資料 | 三島通庸関係文書 | 3433点、3433枚 | モノ | マイクロフィルムからデジタイズ |
出版社から提供を受けた資料 | 「帝国議会議事速記録」東大出版会、「朝日ジャーナル(全巻)」朝日新聞社、「マルクス・エンゲルス全集」大月書店、「少年サンデー」小学館、「ガロ」青林堂、「明治文化全集」日本評論社、「文章倶楽部」八木書店、「キネマ旬報」キネマ旬報社、「幕末明治日本国勢地域地図集成」柏書房、「萬朝報」日本図書センター、「出版年鑑」出版ニュース社、「法律新聞」不二出版、「国書総目録」岩波書店、「東京都市計画資料集成」本の友社、「田辺元全集」筑摩書房、「別冊医学のあゆみ」医歯薬出版、「昭和初期円本の内容見本」経葉社、「世界大百科事典」平凡社 | 18タイトル、160万頁 | モノ | 印刷物から直接デジタイズ |
慶応義塾大学稀覯書 | グーテンベルク印行「42行聖書」、博物誌コレクション、古版本、錦絵、浮世絵 | 20タイトル、2千頁 | カラー | 写真を高解像度デジタイズ(約2000x3000) |
――おや、どこかで見たことのあるタイトルがありますね。大月書店の「マルクス・エンゲルス全集」、日本評論社の「明治文化全集」……
田屋 それは、プロジェクトで作ったデータを商品化したものです。各出版社さんには、実験に使わせてもらう代りに、対価なしに自由に商品化してよいという条件で、資料を提供していただきました。
――「マルクス・エンゲルス全集」は国費で生き残ったわけですね(笑)。初期のCD-ROM出版は「実証実験プロジェクト」の副産物で生まれたということは、記録しておく必要があると思います。
ところで、「マルクス・エンゲルス全集」の場合、本文は画像ですが、電子テキスト化された膨大な索引が別のCD-ROMでついてきます。
田屋 索引にはわれわれは関係していません。出版社の方で、そういう付加価値をつけて、商品化したのだと思います。
――あの索引は、紙の本の段階からあったものを電子テキスト化しただけですが、6枚組のCD-ROMの中から、目当ての論文を見つけだすことができるのは、索引CD-ROMのおかげといってもいいでしょう。索引CD-ROMがなかったら、あの全集は使いものにならなかったかもしれません。
しかし、すべての本に、ああいう索引がついているわけではありません。本を画像で蓄積して、果たして使いものになるのかなと危惧しているのですが、いかがでしょうか?
田屋 問題は索引の作り方ですね。適切に付与した索引があれば、十分に画像で利用できるだろうと思います。しかし、個々の本の内容に即した索引づけというのは大変な作業になりますので、種々の資料に対応可能な共通の索引づけのルールを設けることになります。
また、学術情報センターや奈良先端技術大学の電子図書館で試みていることですが、画像データの裏に、OCRで読んだ電子テキストをおいておくという方法があります。厳密さを要求される表示は画像データでおこない、検索は電子テキストに対しておこなうわけです。これですと、現在のOCR程度の認識率でも、使いものになるかもしれません。
――あ、その手があったんですね。コスト的にもほとんどかからないでしょうから、電子図書館の本命かもしれませんね。
田屋 せっかくですから、デモをご覧に入れましょう。
――いくつの雑誌がデータ化されているんですか?
田屋 基本的には、総合目録は図書のみです。ただし、参加図書館が古い雑誌を製本して図書扱いにしている場合もあり、その場合は雑誌も含まれます。
では、どこの図書館に収蔵されているか、見てみましょう。
――これは便利ですね! ぼくは国会図書館にはなるべく来たくないので、他の図書館を使うことが多いんですが、せっかく行っても、本がなかったり、雑誌が欠号だったりして、無駄足になることがよくあります。国会図書館に行かなければならないのかと思うと、二重にがっくりするんですが、「総合目録」が自宅から使えるようになれば、無駄足しないですみます。一般公開はいつからですか?
田屋 残念ながら、一般公開はしません。「総合目録」はすでに実用的に稼働していまして、43館の参加図書館から検索することができるんですが、多くの図書館では端末は職員だけが操作することになっています。あくまで現行は蔵書の相互貸借用として、間接的に利用者にサービスするシステムですね。
――しかし、これをインターネットで公開すれば、国会図書館の来館者が減って、混雑が減ると思います。
田屋 われわれとしても、本の永久保存という使命がありますから、直接来館については、他の図書館で間に合う利用者はそちらに行っていただき、どうしても必要な利用者に限って充実したサービスを提供することとしたいのですが。しかし、電子図書館では直接アクセスしていただくことは歓迎したいところです。
――「龍」はすべて「竜」になっているんですか?
田屋 そうです。1981年から配布を開始した機械可読のJ/MARC(注)というデータベースをもとにしているんですが、1998年以前のデータについては、J/MARCでは、常用漢字表および人名漢字表に含まれる漢字については、旧字体を新字体の漢字に置き換えています。
――「梯子高」のような異体字も統合するんですか?
田屋 異体字はそのままです。
――JIS表外字や異体字はどのように記録しているんですか?
田屋 諸橋大漢和と新字源を典拠に、置きかえることのできる漢字は置きかえますが、それでもJISコードにない漢字は、「〓」マークになって表示できません。なお、国立国会図書館における文字コードの取扱いについては、当館のWWWサイトに、「漢字等の字種採用の基準(JP97以前)」と、「文字種の取り扱い基準の変更について(JP98以降)」を掲載してありますので、ご覧になって下さい。
――「梯子高」と「口高」を区別するのに、「龍」と「竜」を統合するというのは、釈然としませんね。
田屋 「龍」と「竜」の場合は、字形が違いすぎるので、わたしも抵抗がありますが、そうなっているんですよ。
――これだけ細かいと、どこに分類したらいいかわからない本が出てくると思うんですが、重複して分類されるということはあるんですか?
田屋 重複はありますよ。目当ての本にゆきつければいいんですから、不都合はありません。
――すでにブラウズして色の変わっているリンクと、未読のリンクとでは、表示速度にずいぶん差がありますが、プロキシーのせいですか?
田屋 もちろん、キャッシュしてあるかどうかの差なんですが、ちょっと説明が必要です。1000万ページのデータは、3000枚のCD-Rに記録してあるんですが、当館内のサーバーのオートチェンジャーに2000枚、神奈川県にあるIPAのサーバーに1000枚とわけて保管しています。キャッシュしていないデータは、オートチェンジャーでディスクを選んでから読みだすので、どうしても遅くなります。通信カラオケみたいなものですね。
――書誌情報の公開は誰しも諸手をあげて賛成すると思いますが、オンラインで本の中味が出てくるとなると、いろいろな意見が出てくると思います。著作権上の合意をうるのは難しいでしょう。
2002年には関西館が業務をはじめるわけですが、どんなコンテンツを公開するんですか?
田屋 まず、お断りしておきますが、現在、書店にならんでいるような本や雑誌をオンラインで無料で公開することはありません。公開するのは、著作権が切れたものや著作権上クリアになったものだけです。ただし、グレイゾーンがあると思うんですよ。
なにかというと、絶版になった単行本や雑誌のバックナンバーです。単行本の場合は、再版の可能性がありますから、著者の積極的な許諾がえられるとか、難しい問題がありますが、雑誌の場合は再版はまずありえないでしょう。しかし、新館の雑誌出納カウンターの混雑をご覧になればおわかりのように、過去の記事、特に学術雑誌の記事を閲覧したいという要望はひじょうに多いわけですよ。
一案ですが、国立国会図書館としては、発行して一定期間経過したものについては、自動的にディジタル化の対象とするとあらかじめ宣言し、周知する。
もちろん、過去に雑誌に発表した文章をまとめて本を出すという場合もあるでしょう。そういう方は、自分の書いた文章は一切電子化しないでくれと申し出ていただきさえすれば、われわれは電子化しません。しかし、そういう申し出を行なわなかった方の文章については、消極的な許諾があったと見なして、電子化してもいいという考えも成り立つのではないかな、と思っています。この場合でも、事後的に電子的提供について異議申立てがあれば、サーバからは落とします。
あくまでも一案ですので、関係者とこのようなルールが可能なのかどうか協議する必要があります。
――微妙な問題ですね。ぼく個人としては、そのお考えに共感する部分がかなりあります。過去の雑誌はすごい情報源なんですが、日本の住宅事情では、バックナンバーはとっておけないですよ。ところが、マーフィーの法則じゃないですが、捨てた雑誌に限って、なぜか必要になることが多い(笑)。
しょうがないから図書館にコピーにいくんですが、国会図書館や大宅壮一図書館だと一日仕事です。国会図書館の場合は混んでいるし、資料保存のためでしょうが、一回の入館につき三冊までしか請求できないし、コピーもできないので、午前中に入って、昼に一回出てから入館し直さなければならないとか、いろいろ頭にくる仕掛があります。調べものをすると、一日ではすまないですよ。
雑誌のバックナンバーをオンラインで見ることができるようになれば、助かる人が多いですが、合意をうるには時間がかかるでしょうね。今のお話については、懇談会とか審議会とかを作る段階まで来ているのですか?
田屋 当館に著作権の検討委員会を設けて、さまざまな観点から検討を開始していますが、このテーマについて具体的な協議に入るのはまだですね。すでに、いくつかのテーマについては、文化庁著作権課の方々や著作権関連団体と方と相談し始めてはいますが。
――「グレイゾーン」の本や雑誌ですが、電子書籍化して、ビジネスにしようという動きがありますよね。現在、二つのプロジェクトが水面下で争っていますが、これについてはどうお考えですか?
田屋 電子書籍化する予定があるということであれば、われわれは競合する必要はないですし、電子図書館で公開した後に電子書籍化することになったというのであれば、いつでも公開を取りやめます。しかし、オンラインの電子書籍でもうサービスを維持しなくなったとか、採算割れするので保存のために引取らないかなどとの申し出でもあれば、保存図書館としてそれらのものを受入れるということはあるでしょうね。
――法令や官報、白書などはどうなんでしょうか?
田屋 英文の白書については、完全にSGML化して、すでに当館のWWWサイトで実験公開しています。法令には著作権はないんですが、いろいろ調整が必要です。白書については、総務庁が現在進めている「行政の情報化の総合的・計画的推進」とのからみがあります。新しいものについては、各省庁が独自のWWWサイトで公開していくと思いますが、いろいろな見せ方があっていいと思いますし、過去のものについては当館でやるのがいいのではないかと思います。官報などについても考えたいですね。要は政府の出版物というのは国民に広く公開するのが趣旨ですので、国の図書館としてできるだけ広く国民の公表することに協力する、というのが望ましいと思います。各省庁は独自に電子的に発信しても、多くの国や自治体の機関の刊行するものを統合的に検索できたり、読めたりするのは、国会図書館の電子図書館のメリットになるのではないでしょうか。
――今日はお忙しいところ、有益な話をありがとうございました。