革命的な言語モデル、「BERT」はどのように大量のデータを学習したのか？

2023年7月11日 4:18

人工知能やクラウド技術などの進化を追い続けている小林雅一氏の新著、『生成AI―「ChatGPT」を支える技術はどのようにビジネスを変え、人間の創造性を揺るがすのか？』が発売された。同書では、ChatGPTの本質的なすごさや、それを支える大規模言語モデル（LLM）のしくみ、OpenAI・マイクロソフト・メタ・Googleといったビッグテックの思惑などがナラティブに綴られており、一般向けの解説書としては決定版とも言える情報量だ。
その一部の紹介する本連載の第6回は、大規模言語モデル（LLM）が大きく発展する端緒となった、言語モデル「BERT」について解説する。

Photo: Adobe Stock

「BERT」の誕生

　前回説明したような技術的メリットにより、トランスフォーマーは自然言語処理の分野で急速に普及していった。

　この論文が発表された翌年の2018年には、トランスフォーマーの発案者ヴァスワニらの研究チームを擁するグーグルが「BERT（バート）」と呼ばれる言語モデルを開発した。

　BERTは“Bidirectional Encoder Representations from Transformers”の略で、その名称の末尾に“Transformers”があることからも、これがトランスフォーマーに基づく言語モデルであることがわかる。

　BERTは大量のテキスト・データを機械学習することによって賢くなっていった。それが具体的にどんな学習であったかは、この種のシステムの本質を知る上で非常に興味深い。

　グーグルの研究者達はウェブ上を漁って、電子化された論文や小説をはじめ大量のテキスト・データを集めて、トランスフォーマー方式の言語モデルに入力して学習させた。

　その際、それらの文章の一部をマスク、つまり隠して入力したのである。当時、実際には英語であったはずだが、ここではわかりやすくするために日本語で例文を示そう。

「止まることを知らない（　　　　）の諸分野において、今、最大の注目と（　）を集めているフロンティアは、最近世界的な（　　　）を巻き起こしている「人工知能」と（　　）のような「遺伝子工学」だろう。その理由には、（　　）が今、爆発的な技術革新の（　　　）にあることに加え、私達を取り巻く（　　　　）の変化も挙げられる」

　一旦、このような文章を入力して、そこで隠された（　　　）の部分を言語モデルに予測させた後で、今度は正解となる次のような文章（原文）を入力してやる。

「止まることを知らない（科学技術）の諸分野において、今、最大の注目と（期待）を集めているフロンティアは、最近世界的な（ブーム）を巻き起こしている「人工知能」と（ゲノム編集）のような「遺伝子工学」だろう。その理由には、（両者）が今、爆発的な技術革新の（真っ只中）にあることに加え、私達を取り巻く（社会構造）の変化も挙げられる」

　言語モデルはこれらを比較して一種の答え合わせをすることによって、正しい言葉の予測方法を学んでいく。何十万、何百万本というような大量の文献を相手に、この種のトレーニングを繰り返すことで、さまざまな単語がどのようにしてお互いの関係性を構築しながら、意味のある文章を紡ぎ出していくかを学んでいく。

　そればかりではない。研究者達は大量の新聞記事を言語モデルに入力して、同じ事件を扱った異なる記事の内容を互いに比較させる。あるいは電子化された百科事典やウィキペディアなどの情報を入力して、さまざまな専門用語とその概念をマッチングさせたりする。

　これらの複雑な訓練によって、言語モデルに多彩な知識や社会常識、あるいは世界観なども学ばせたのである。

　この種の機械学習を完了した言語モデル「BERT」に、グーグルの研究チームは大学の英語入試問題などのテストを受けさせた。あるパラグラフのなかで（　　）の中に入る単語を予想させる穴埋め問題や、一連の文章の後に続く次の文章を予想させる問題などを解かせたのである。

　従来の言語モデルでは、それらの正解率は約60％だったが、BERTではその値が一挙に88％にまで跳ね上がった。これは人間の言語能力に匹敵すると判定された。