統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。本連載は、その刊行を記念して『統計学が最強の学問である』の本文を公開するものです。
第4回は、コンピュータを中心とするITの発展が、いかに劇的な変化を統計学にもたらしたかを解説します。この「ITと統計学の結婚」は、その後、生成AIというさらに素晴らしい成果を生み出すことになります。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

『統計学が最強の学問である』4Photo: Adobe Stock

なぜ今、統計学が花開いたのか

 では、なぜ今、これほど統計学がさまざまな分野で重要視されるようになったのだろうか。

 データ間の関連性から因果関係を推論するという現代統計学の基本的な考え方は今世紀の前半にはほぼ確立していたし、主要な統計解析手法は1960年代頃にはほぼ出揃っていた。現代統計学の父と呼ばれるロナルド・A・フィッシャーが亡くなって2012年でちょうど50年にもなる。これだけ統計学がパワフルなものであるのならば、もっと前から社会の至るところで使われているべきじゃないか? という疑問ももっともだ。その答えは統計学自体ではなく、統計学を活用するための環境の変化にある。

 そうした変化について理解するために、フラミンガムという田舎町の住民を巻き込んだ大規模な疫学研究を紹介しよう。

 この疫学研究は一般的にフラミンガム研究と呼ばれ、戦後間もない1948年に、当時増え続けていた心臓病の原因を明らかにするために立ち上げられた。コッホらの研究はコレラ菌を含むさまざまな病気の原因となる細菌を特定し、ワクチンや抗生物質といった対処方法の発見にも繋がった。だが、細菌による感染症で亡くなる人が少なくなると、今度は相対的に細菌と無関係な病気である心臓病やがん、脳卒中といった病気がアメリカをはじめとする先進国での死因の多くをしめるようになり、医学上の大きな課題となったのである。

 そうした背景もあって、ニューディール政策で有名なフランクリン・ルーズベルト大統領の肝入りで、この人類初とも言える大規模な疫学研究プロジェクトは立ち上げられた。心臓病だろうがコレラだろうが、原因不明なのであれば、その原因を明らかにするために行なうべきことは、慎重かつ大規模なデータの収集であり、その適切な統計解析以外にはあり得ないのである。

 フラミンガムには当時2万8000人ほどの住民が住んでおり、29~69歳の住民のうち約3分の2にあたる5127人が研究チームの呼びかけに応えて研究へ参加した。当時は心臓病の原因について確かなことはほとんど何もわかっていなかったため、性別や年齢といった基本的な情報のほか、これまでにかかったことのある病気や生活習慣、血圧、心電図、血液成分の検査値、社会経済学的指標(学歴など)といった考えうる限りの多様な項目が調べられた。また採取された血液は、後に検査方法が進歩したり検査項目が追加されたりする場合に備えて凍結保存された。

 なお、フラミンガム研究は現在も継続しており、その後も他の研究で新しいことがわかるたびに調査項目が追加され、今では最初の研究参加者の子どもや孫に対しても遺伝子検査を含む調査がなされている。

フラミンガム研究の調査が2年に1回だったわけ

 フラミンガム研究は、5000余名を対象に検査と聞き取り調査を行なうというものであったが、研究スタート時はその調査間隔が2年に1回だった。

 これだけ大規模に徹底した調査を行なうのであれば、毎年調べればよいではないかと思うだろうし、実際に当時の研究者もそうしたいのは山々だったろう。だが、当時の技術的な限界として、2年に1回という調査のペースがギリギリのところだったのだ。

 何がこの限界を定めていたかというと、データの入力・管理および集計の手間である。

 フラミンガムの研究チームがスタート時にデータの取扱いのために使うことができた設備はただ1つ、大型のパンチカードシステムだけだったらしい。

 パンチカードと言われても実物を見たことのある人は限られるだろうが、厚紙に物理的な穴を開け、その位置によってデータを記録するという仕組みである。

『統計学が最強の学問である』4

 5000人分の生活習慣についての回答や血液検査の値を手書きで記録した後、パンチカードに記録し直し、ミスがないかを確認し、それぞれの調査項目の平均値や割合などを集計する。そうすると、2年に一度という調査のペースがせいぜいだったのである。

 またフラミンガム研究のゴールである、「心臓病を発症するか否か」のような二値の変数と多様な調査項目の関連性を見るといった解析には、ロジスティック回帰という分析方法が一般的に用いられる(というか、ロジスティック回帰自体がフラミンガム研究のために生み出された手法である)。ところが、これを5000名分のデータに対して行なおうとすれば、すなわち要素数5000のベクトルを使って、対数変換を含む煩雑な行列計算をしなければ答えは出ないのだ。

 フラミンガム研究が10年間にわたる調査データを分析できるようになったのは、60年代にIBMらによって大型の汎用計算機が作られ、利用可能になってからである。

退屈だった「紙とペンの統計学」

 それ以降のITの進歩が目覚しいことは言うまでもないだろう。

 パンチカードに記録されていたデータはCD-Rやハードディスクなどへ簡単に記録されるようになり、データ入力も画面を見ながら簡単にできるようになった。得られたデータを集積するにせよ誰かに渡すにせよ、インターネットを経由すればすぐにできるし、統計解析も、個人所有のノートパソコンはおろかスマートフォンでさえできるようになった。

 ひと昔前の統計学者は、いかに計算の手間を省いて近似的に精度の高い推測を行なうか、あるいはできるだけ少ないデータで精度の高い推測を行なうかといった研究を盛んにしていたが、こうした研究は現在ではほとんど実際に用いられることはなくなった。ITの進歩により、データ量の多さや計算の複雑さは、ほとんど問題にならなくなったのだ。

 また、ひと昔前の統計学の教育は黒板とチョーク、あるいは紙とペンのみを使って、数式を理解し、数十件程度のデータを手計算で分析するといったものが中心となっていた。しかし、現在では統計解析のための簡単なプログラムを書かせたり、すでにある統計解析ツールを操作して、比較的大規模なデータを実際に分析したりすることも可能になっている。

 主として実際に使われている統計学の考え方や手法自体は、数十年前に完成していたものがほとんどであったとしても、それを誰でも、あるいはいつでも簡単に使いこなすことができるようになったのは、20世紀終わりから続くITの革命的な進歩によってである。

 ひと昔前の紙とペンの統計学と現代のITによる統計学の間には大きなギャップが生まれ、現代の統計家は数理的な理解とIT的な応用の双方に精通しなければならなくなった。

 もし、本書を読んでいるみなさんが大学時代の授業などから統計学に退屈なイメージを持っているのだとすれば、「紙とペンの統計学」ばかりを教育されたために、時代の最前線で最善の答えを生み出し続けるITによる統計学のパワフルさを体感できていなかったことが1つの理由なのかもしれない。

「ビッグデータ」という言葉が流行るわけ

 そしてこうした統計学の変化はここ数年、むしろIT側を侵食するようにもなっている。

 ITはビジネスのプロセスの多くを変えた。商品の仕入れ、在庫、販売といった記録はほとんどすべて電子化され、コストや売上の把握は紙で管理していた時代よりもずいぶん簡単になった。顧客のプロフィールや購買履歴も、従業員の勤務時間や評定、健康状態、支払った給料や精算した経費なども社内システムやエクセルシートの中に電子化されて蓄えられている。製造のための機械の動作も、自社のウェブサイトに対するアクセスも、ほとんどのログは記録され、必要であれば集計して経営の参考にすることができる。主要な会社のほとんどの業務プロセスは、すべて電子化済みであるといっても過言ではない。

 だが一通りの業務がIT化されてしまうと、ITがらみのビジネスは行き詰ってしまう。いくらハードウェアやソフトウェアの処理性能が向上しても、これ以上IT化すべき業務プロセスはないし、顧客が特に性能に不満を持たなければ、商品を売り込むことはできない。だから、ハードウェアメーカーも、ソフトウェアメーカーも、それらを使ってITのサービスを提供しようとする者も、ITに関わる企業はすべて、すでに満足している顧客に、十分すぎる性能を持った新しい技術を売り込む「理由」が必要なのである。

 ポジティブな建前としては、この十分すぎる性能を使って「いかに価値を生み出すか」という考え方が必要になる。またネガティブな本音としては「価値を生み出そうがなんだろうが、大量の処理が必要になる使い道」を提案しなければならないし、それを売り込むためには「一見ビジネスの役に立ちそうなお題目」が必要にもなる。

 どんな大量のデータでも、どんな計算でもできる技術ができた今、何を計算すべきかと考えると、統計解析以外にはあり得ない。そしてもし「統計解析」という地味な言葉がお題目として魅力的でないのならば、「ビッグデータ」とか「ビジネスインテリジェンス」といった流行り言葉を生み出せばいいのだ。おそらく今、こうした流行り言葉と統計学への注目が高まっているのは、そういう理由なのではないかと私は思う。

 長年IT業界の巨人であり、フラミンガム研究をパンチカードや大型計算機の時代から支えたIBMの動きは、その中でも顕著である。彼らはビジネスインテリジェンスで有名なCognos社や、統計解析ソフトウェアのSPSS社など、この分野においてノウハウとブランド力を持った企業を時に数十億ドルといった巨額をかけて買収した。2005年から2011年にかけて統計学やビジネスインテリジェンスがらみの企業に対して投じた資金は140億ドル(約1兆円)以上だと言われている。

 IBMほどではないにせよ、マイクロソフトも、データベースで有名なオラクルも、NTTデータも、統計学やビジネスインテリジェンス関係の企業買収を積極的に進めている。

 おそらく彼らはみな、次の時代に自らのビジネス領域において価値を生み出す主流が、こうした「知恵」の中にあると戦略的に判断しているのではないだろうか。

 この推測を裏付ける1つの根拠は、マイクロソフトが自社の採用活動について言及しているMicrosoft JobsBlogに2010年8月23日付けでポストされた記事の中にある。彼らはテクノロジー分野で今後最もアツい3つの専門性として以下を挙げた。

・データマイニング、機械学習、人工知能、自然言語処理
・ビジネスインテリジェンス、競合分析
・分析、統計――特にウェブ分析、A/Bテスト、統計解析

「ITの統計学」を修めたものなら、これらすべてに統計学の匂いを感じるだろう。

 人間の認知機能を再現するためのアルゴリズムの研究として始まった機械学習や人工知能という分野は、今や統計学の基礎理論抜きで学ぶことは困難になっているし、ビジネスインテリジェンスとはすなわち統計学のビジネス領域への応用である。A/Bテストの計画において必要とされるのも、20世紀前半に現代統計学の父ロナルド・A・フィッシャーによって完成された実験計画法と呼ばれる統計学の一分野に関する知識が基礎となる。

これからの10年で最もセクシーな職業

 さらに、Googleからはマイクロソフト以上に統計家にとって名誉な言葉が発せられたことがある。Googleのチーフ・エコノミストであるハル・ヴァリアン博士は、2009年1月にマッキンゼー社の発行する論文誌においてこう語った。

 私はこれからの10年で最もセクシーな職業は統計家だろうって言い続けてるんだ。
 I keep saying the sexy job in the next ten years will be statisticians.

「sexy」というのは「イケてる」とか「とても魅力的」とかいった意味で最近よくアメリカ人に使われる表現である。たとえば「新しいiPhoneのデザインはセクシーだ」と言うのと同じようなニュアンスで、彼は統計家をセクシーだというのだ。

 私は1人の統計家としてこの発言をたいへん光栄に受けとめている。またこれを決して分不相応なリップサービスなどではないと思う。統計学は今、ITという強力なパートナーを手に入れ、すべての学問分野を横断し、世界のいたるところで、そして人生のいたる瞬間で、知りたいと望む問いに対して最善の答えを与えるようになった。

 かつての人類は、正しい(と思われる)答えを知るためには神の啓示にすがるしかなかったし、そうでなくなった後も権威ある人間の見識に従うしかない時代が長年続いた。

 だが今は違う。最善の答えはすでにみなさんの周りのデータの中に眠っている。そこにない答えを知りたければ必要なデータを生むための調査を行なうこともできる。統計学という最強の学問の力の一端を手にしさえすれば、健康になることも賢明になることも裕福になることもずいぶん簡単になる。これらはすでに述べたように、世界中の学者たちが統計学を使って実証した事実なのだ。

 そしてこの最強でセクシーな学問の力を手に入れるために必要なのは、IBMが支払った1兆円あまりの資金に比べればごくささやかな、あなたの人生のうちのいくばくかの勉強時間という投資、それだけなのである。