生成AIを子どもに使わせていいのか？子育て中の言語学者が抱いた「違和感」の正体

　ここで、1秒に2単語読むと仮定すると、GPT-3やGPT-4の訓練データ量は、人間が24時間寝食を犠牲にして読み続けても、それぞれ約6300年、1万5000年以上かかる量です。1秒に4単語読めると仮定しても、この値は半分にしかなりませんから、やはり膨大な時間がかかることがわかります。

　表1に、GPTのそれぞれのバージョンに使われたトークン数と、それを人間が読むのに必要な推定年数をまとめました。

表1：GPT各バージョンの訓練に使われていると推定されているトークン数。またそれらを人間が読むのにかかる推定年数

同書より転載

　これだけ莫大な量の訓練データを必要とするのが、今の生成AIなのです。もちろん、人間だって、読み聞かせや語りかけをたくさん受けるほど、言語能力が豊かになることは間違いありません。

　ですが、赤ちゃんが基礎的な言語知識を獲得するプロセスは、たった数年で達成されるのです。そう考えると、生成AIが人間と同じ「言語」を扱っているように見えても、その背景にある学習の仕組みは、まったく別のものであると結論づけられます。

　人間の子どもは、母語を獲得するのに4000億単語も必要としません。ですから私も妻も、生成AIの言葉を「それっぽく見えるけれど、根っこは別物」として捉えた方が、子どもの言語環境を考える上では健全ではないか、と感じています。

なぜ生成AIの言葉は
「それっぽく」聞こえるのか？

　ひと言でまとめると、生成AIと人間言語は、その学習に使用するデータの「質」も「量」もまったく異なるのです。「じゃあ、なんで現在の生成AIは、まるで人間が話すかのように話せるの？」という疑問が飛んできそうです。ひと言で答えるとすると「なんでだかは、よくわからない」なのですが、もう少し詳しくお話ししましょう。

なぜ生成AIの言葉は 「それっぽく」聞こえるのか？

なぜ生成AIの言葉は
「それっぽく」聞こえるのか？