国会図書館とグーグルのデジタルデータは
似て非なるもの

 ここまで「本」のデジタル化という表現をしてきましたが、そのデジタル化の具体的な内容については説明していませんでしたので、今回は「デジタル化の中身」を取り上げたいと思います。グーグルでのデジタル化と、現段階における国会図書館のデジタル化とはその実態においてかなりの違いがあるからです。

 前回、国会図書館は約15万冊の蔵書のデジタル化を終え、今回の補正予算によって新たに75万冊の蔵書デジタル化を進める計画が進行中であることを説明しました。この国会図書館のデジタル化データは、現段階では全て画像となっています。「本」のページをスキャンしたイメージが画像データとして保存されている、ということです。もちろん、「本」のタイトルや著者名、発行年月日といった情報は別途デジタルデータ化され、画像データと関連付けて保存されています。国会図書館が提供している「近代デジタルライブラリー」の画面を見るとそのイメージがつかめると思いますが、利用者は、タイトルや著者名、出版社名などを入力することによって、目的の「本」にたどり着くことができるようになっています。

 一方、グーグルにおける「本」のデジタル化はどういうものなのでしょうか。グーグルが提供している「Googleブックス」を見てみましょう。日本版のサイトで見ることができるのは、出版社とグーグルとの契約(パートナープログラム)によって提供された「本」と、グーグルと図書館との提携(図書館プロジェクト)によってデジタル化された「本」です(この連載で取り上げてきた、アメリカ国内でスキャンされたデータは入っていません)。ここでのデジタル化データは、「本」のイメージの画像データと、著者名などの書誌情報に加えて、「本」の中身のテキストデータで構成されています。利用者は、おなじみの検索窓に調べたい言葉を入力すれば、デジタル化されている全書籍の本文(もちろんタイトルや著者名も含まれます)が検索され、入力した言葉が使われている全ての書籍一覧が表示されることになります。

 このように、国会図書館の「デジタル化」とグーグルによる「デジタル化」とはその中身が大きく異なります。利用者の「利便性」の点ではその優劣は明らかであると言えるでしょう。

 現状の国会図書館のデジタルライブラリーは、蔵書をカードで検索し、「本」の現物またはマイクロフィルムで中身を見る、というアナログ時代の利用方法をそのままデジタル環境に持ち込んだものです。