天才数学者たちの知性の煌めき、絵画や音楽などの背景にある芸術性、AIやビッグデータを支える有用性…。とても美しくて、あまりにも深遠で、ものすごく役に立つ学問である数学の魅力を、身近な話題を導入に、語りかけるような文章、丁寧な説明で解き明かす数学エッセイ『とてつもない数学』が6月4日に発刊。発売4日で1万部の大増刷、その後も増刷が続いている。
鎌田浩毅氏(京都大学教授)「数学“零点”を取った私のトラウマを払拭してくれた」(「プレジデント2020/9/4号」)、「人気の数学塾塾長が数学の奥深さと美しさ、社会への影響力などを数学愛たっぷりにつづる。読みやすく編集され、数学の扉が開くきっかけになるかもしれない」(朝日新聞2020/7/25掲載)、佐藤優氏「永野裕之著『とてつもない数学』は、粉飾決算を見抜く力を付ける上でも有効だ」(「週刊ダイヤモンド2020/7/18号」)、教育系YouTuberヨビノリたくみ氏「色々な角度から『数学の美しさ』を実感できる一冊!!」と絶賛されている。今回は「統計」をテーマに、著者が書き下ろした原稿を掲載。連載のバックナンバーはこちらから。

Photo: Adobe Stock

ないがしろにされてきた統計教育

 1974年生まれの私は、高校で統計について学んだ記憶が(ほとんど)ない。選択科目の中には統計に関する単元が盛り込まれてはいたが、当時、統計の内容は、大学入試には滅多に出題されなかったので、授業でも参考書でも割愛されるのが普通だった。

 改めて、過去の高等学校学習指導要領の変遷を見てみると、私も含めて1963年から2011年の間に高校に入学した人は、(少なくとも、文系も学ぶ必須科目の中では)統計に一切触れていないことがわかる。我が国は、約50年もの間、統計教育をないがしろにしてきてしまったのだ。このツケはあまりにも大きい。

 2019年、アメリカではおよそ4000人の統計学の修士が生まれたが、同年日本国内で統計学の修士課程を終了した者は0人である。そもそも日本には長らく「統計学部」がなかった。2017年に新設された滋賀大学の「データサイエンス学部」が日本における初の独立した統計学部である。

 日本は、世界のIT革命に乗り遅れてしまった。その直接の原因は統計教育の遅れにある。テクノロジーを理解し、データから価値を導き出せる人材が圧倒的に不足しているのだ。もちろん日本もこうした状況を、指をくわえてただ眺めているばかりではない。2012年から実施されている学習指導要領では、得られたデータの特徴をわかりやすくまとめる「記述統計」の内容が必須になった。

 さらに2022年から実施予定のカリキュラムでは、ランダムに拾い出したサンプルから母集団のことを推測する(例:選挙において出口調査を元に当選者を推定する)「推測統計」の内容も大きなウエイトを占めるようになる。

推測統計の主役は正規分布

 推測統計における主役を紹介しよう。それは正規分布だ。統計では、ある事柄が起きる確率を表やグラフにまとめたものを「分布」という。正規分布を表すグラフは、平均をピークとする左右対称のきれいな釣り鐘型の曲線(ベルカーブ)になる。

 また、ある事柄の起きる確率が「A」という分布から計算できるとき、「~はAに従う」という言い方をする。たとえば、人の身長はほぼ正規分布に従うことがわかっているので「17歳の日本人男子の中から無作為に選んだ人の身長が170cm以上172cm以下である確率」なども正規分布を使えば計算できる。

 一般に生物の身長や体重のほか、空から降ってくる雨粒の大きさや、センター試験などの大人数が受験するテストの結果などもほぼ正規分布に従うことがわかっている。とは言え、母集団の全体が正規分布に従うケースはそう多いわけではない。ではなぜ、正規分布は「主役」になり得るのだろうか?

 実は正規分布については次の2つのことがわかっている。これが、正規分布を応用できるケースが極めて広い理由である。
 (1)「誤差」は正規分布に従う。
 (2)「サンプルの平均」は正規分布に従う。

 (1)を発見したのはあのドイツのカール・フリードリヒ・ガウス(1777-1855)だ。ガウスが「誤差にもルールがある」と考えたのは実に画期的なことだった。

 それまでは、実験等における「誤差」は科学者のミスによって生まれるもの(悪しきもの)であり、デタラメに生じるものだと考えられていた。しかし、ガウスは天体観測における誤差について、いくつかの仮定をおくことで、微分方程式の解として正規分布を導いた(このあたりは読み飛ばしていただいても構わない)。

 ガウスのこの功績によって、正規分布は「ガウス曲線」とか「誤差曲線」と呼ばれることもある。すべての実験や観測は誤差を伴う。科学者は常に正規分布を使って誤差を評価する必要があると言っても過言ではない。

 一方の(2)は「中心極限定理」と呼ばれる。ここでいう「中心」とは「町の中心」などの「まん中」という意味ではなく、推測統計において「もっとも重要な位置にある」という意味での「中心」である。中心極限定理は、確率を定義したことでも知られるフランスのピエール=シモン・ラプラス(1749-1827)によって導かれた。

 サンプルとして多く(通常は数百以上)の値を集めれば母集団がどのような分布に従うときでも(どんなに左右非対称の偏った分布でも)中心極限定理が成り立つ(サンプルの平均は正規分布に従う)というのは、実に驚くべき事実である。たとえば、サンプルとして母集団からランダムに300個の値を拾い出し、それらの平均を計算するという作業を何度か繰り返すとする。そうすると、「サンプルの平均」は毎回同じになるわけではないがその散らばり具合は正規分布に従うのである。

 これにより母集団の分布が不明であっても「サンプルの平均」を使って真の平均がどのあたりにあるかが推測できる。数百の家庭について調べることで、関東地区全体とか、関西地区全体のテレビの視聴率が推定できたり、工場での抜き取り検査から、その工場のラインにおける不良品の割合が推定できたりするのもすべて、中心極限定理があるからである。