2008年アメリカ大統領選挙の民主党候補について、ニューヨーク・タイムズ(NYT)が事前に正しい予測をしていたと解釈しうることを前回述べた。

 ここで、「予測」という言葉の意味について、いま一度説明しておこう。前回に述べたように、これは、候補者の名が現れる記事数の時間推移が示す方向である。「予測をしていた」という意味は、「記事数が結果的にそのような予測をしたことになった」ということである。つまり、これは、「NYTが予測として発表したこと」ではなく、「結果として明らかになった予測」である。NYT自身がそうした予測をしていたことを、自覚していなかった可能性も高い。

 事実、NYTの公式見解としては、1月25日の社説で「ヒラリー・クリントンを支持する」(The Times’s editorial board strongly recommends that they select Hillary Clinton as their nominee for the 2008 presidential election.)と明確に述べているのである(もっとも、この時点までは、記事数もクリントンが断然多かったから、記事数と公式の見解が矛盾していたわけではない)。

 「データマイニング」というのは、公式な見解や説明とは別に、データが結果として何を語っているかを探り出そうとする技法である。「利用できるデータが大量であれば、個々のデータにかかわる特殊事情は考慮しなくてもよいようになり、データを生成している主体の真の姿が見えてくる」というのが、その基本的な哲学だ。

継続的に
ブッシュ優勢だった

 過去のアメリカ大統領選について、選挙以前の時点での記事数の推移はどうだったのだろうか? 以下では、2000年の大統領選挙について調べてみよう。このときは、共和党候補でテキサス州知事のジョージ・W・ブッシュと民主党候補で現職副大統領であったアル・ゴアの間で、史上稀に見る接戦が展開された。

 2000年11月7日に行なわれた大統領選挙では、一般投票ではブッシュが47.87%、ゴアが48.38%の得票率であり、ブッシュの敗北であった。しかし、選挙人投票ではブッシュが271票、ゴアが266票であった。その結果、ブッシュの勝利となった。