このような背景から、NTT絵本コーパスの作成が始まりました(注1)。売れ筋の本、図書館の推薦図書、小学校の国語教科書に掲載されている本を中心に選定した絵本の本文を、1冊ずつ手作業で書き起こすという地道な方法で進めていきました。というのも、絵本の文字は絵の上に配置されていたり、装飾文字や手書き文字が多用されていたりして、機械による文字読み取りが難しいからです。
絵本100冊の言葉の種類は
日常会話の約1.71倍と判明
2025年4月現在、NTT絵本コーパスには、日本語の絵本約8500冊、英語の絵本約3500冊が収録されており、その規模は世界でも類をみないものです。さらに現在も拡張が進められています。
NTT絵本コーパスを活用した研究の一例をご紹介します。絵本と日常会話の言葉がどのくらい違うのかを調べた結果、絵本の方が日常会話よりも多様な言葉が使われていることがわかりました(注2)。たとえば、絵本100冊分(約6万8400語)のデータを比較すると、絵本に含まれる言葉の種類が日常会話の約1.71倍もあることが明らかになりました。
NTT絵本コーパスを作成することで、絵本が持つ言葉の多様性を統計的に示すことができました。絵本の読み聞かせが言語発達に寄与する理由の1つは、日常では触れる機会が少ない言葉や知識に出会える貴重な場となっていることです。絵本の重要な役割の1つが、データによって裏付けられました。
実際、私の娘も絵本から学んだことをよく話してくれます。たとえば、ある絵本を読んだ後に「アメリカでは部屋の中で靴を履くんだって」と楽しそうに話してくれました。
また、エジソンの伝記絵本を読んだときには、「フィラメントには京都の竹がいいんだって」と教えてくれました。私は「フィラメント」という言葉を知らなかったので、「京都の竹は有名なんだね」という、すっとぼけた回答しかできませんでした。