大統領選やビジネスの予測が外れる背景には、サンプルの古さ、少なさ、偏りなどの問題がある。その対抗策の1つとして、本記事は「転移学習」の基本概念をわかりやすく紹介する。


 ドナルド・トランプが大統領選への出馬を表明した当初、ほとんどのアナリストは、彼が共和党の指名候補になる可能性は限りなく低いと予測した。

 なかでも顕著なのは、統計関連サイト「ファイブサーティーエイト(538)」を主宰するネイト・シルバーだろう。彼はトランプが指名される確率を2%と予測した(英語サイト)。この予測で使われたのは、過去の候補者に関する複数の有意なデータポイントだ。候補者の経歴、党内の支持率、過去の成功や失敗などのデータである。

 ここでの基本前提は、予測対象(トランプ)は、過去の前例(これまでの共和党指名候補)と比較可能な同一性があるため、彼らの実績に照らして判断できる、というものだ。これは、きわめて一般的な予測アプローチである。ところが、すでに明らかなように、トランプ現象のような特異なケースでは、最近の直接的な前例からわかることは少ない。

 同様の問題は世論調査でも起こる。政治アナリストは、候補者の勝率を予測する際に世論調査を活用する。しかし、世論調査は完璧ではなく、通常さまざまな種類の偏りに影響を受ける。無回答者の存在、調査対象が固定電話か携帯電話かによる違い、投票率動向の変化などだ。

 政治統計学者はこうした障壁を克服すべく、過去の選挙データを用いて世論調査の誤りを修正するためのモデルを構築している。この手法の基本前提は、現在と過去の投票は同じ種類の誤りに影響を受ける、というものだ。たとえばアナリストは、無回答者はどの時代にも同じように分布していると仮定するかもしれない。だがその仮定が正しいかどうかは、実際にはわからない。

 一連の問題をさらに複雑にしているのは、大統領選挙は頻繁に行われる出来事ではないゆえに、参照可能な過去のデータが限られていることだ。つまり、サンプルサイズが比較的小さく、古いのである。

 民間セクターの統計学者も、想定外の出来事を予測するときや、不備・不完全なデータを使う場合、同様の問題に直面する。それは、単に予測を機械に委ねても解決しない。たいていの機械学習と統計的データマイニングの技術も、やはり前提の問題がある。機械学習モデルの訓練に使われる過去のデータと、後にそのモデルが適用されるターゲットデータは、同じように振る舞うという概念だ。

 ところが、この前提はデータが古いと成立しないことが多い。また、この前提に沿う最新データを追加で入手するのは費用がかさむ、あるいは実行が難しいという問題もよく見られる。

 したがって統計学者は、適切な分析をするためには、直接的な過去データのみに基づくモデルを使うという、純粋主義的な手法から脱却しなければならない。かつ、現在のトレンドをより的確に反映する「類似領域の最新データ」を使い、モデルの質を高める必要がある。

 これは、「転移学習(transfer learning)」といわれる。どの知識領域が対象領域に「転移可能」かを特定するアルゴリズム群を導入することで、これまで挙げてきた問題を解決するものだ。それによって、さらに広範なデータ群を用いてモデルを「訓練」できる。

 転移学習のアルゴリズムは、対象タスク、最近のタスク、過去のタスク、類似しているが同一ではないタスク、の共通項を特定する。それによって機械学習のアルゴリズムは、データの中で適切な関連性のある部分のみから学習できるようになるのだ。