生成AIを子どもに使わせていいのか?子育て中の言語学者が抱いた「違和感」の正体写真はイメージです Photo:PIXTA

ChatGPTをはじめとする生成AIは、まるで人間が話しているかのような文章を出力する。その自然さから、「AIは言語を理解し始めている」と感じる人も少なくないだろう。しかし本当に、人間の言語と同一視してよいのだろうか?言語学者・川原繁人が、違和感の正体を考察する。※本稿は、言語学者の川原繁人『言語学者、生成AIを危ぶむ 子どもにとって毒か薬か』(朝日新聞出版)の一部を抜粋・編集したものです。

生成AIが使う「言語」は
人間の言語と似て非なるモノ

「生成AI」と「人間言語」の違いについて考えていきましょう。生成AIの特徴の一つとして「訓練データの量を増やせば増やすほど、精度があがる」という「べき乗則」が発見されています。例えば、ChatGPTで使われているGPTでは、新しいバージョンほど訓練データの量が多く、性能があがっています。

 ChatGPTの開発に使われている訓練データの詳細は公表されていませんが、ChatGPTが公開される2年前にOpenAIが発表したGPT-3では約4000億トークンが使われており、GPT-4の訓練データは、具体的な量は未発表なものの、GPT-3の倍以上ではないかと推測されています。

 これらが、どれだけ膨大な量なのかを実感するために、概算となりますが計算してみましょう。「トークン」という単位は、コンピューターが文章を理解しやすいように、単語や文字を小さく区切ったもので、言語における「単語」とは必ずしも一致しないのですが、あくまで概算ですし、結論は変わりませんから、本節では「トークン」=「単語」と簡略化します。