統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。
第6回では、ニューディール政策を支えた統計家たちが、いかにサンプリング調査が有効かを示したエピソードを紹介します。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

失業率25%!
ノーベル経済学賞受賞者であるポール・クルーグマンは、サブプライム危機から現在に至るまでの世界を覆う不況を指して「第2次世界恐慌」という表現をしたが、第1次の「世界恐慌」は1929年にニューヨーク証券取引所での株価の大暴落から始まった。
アメリカだけでなく、共産主義国であったソビエトを除くほとんどの先進国がこの株価大暴落のとばっちりを受け、GDPが激減し、結果として第2次世界大戦にすら繋がったヤバい事態だ。この時代に小津安二郎は『大学は出たけれど』という映画を制作し、大学卒業者のほとんどが就職できない中で職探しに奔走する若者を描いたらしいが、こうした状況はアメリカにおいても同じようなものだった。
大学進学率が5割を超える現代と異なり、この時代の大学卒業者はごく限られたエリートと言ってもおかしくない存在であったが、経済がまともに回らず仕事がないのであればいくらエリートだろうが就職はできない。失業率は最大25%近くまで上昇していたそうだから、今の日本における就職氷河期なんてそよ風のように感じられるレベルの地獄絵図だったのではないだろうか(2012年11月時の日本の失業率は4.1%である)。
ニューディール政策を支えた統計家たち
だが、当時の政府にとっては、ある意味でこの状況はラッキーだったとも言えた。なぜならこの大卒者の高失業率は、裏を返せば、当時最新の統計学を学んでいた若く優秀な数学者や経済学者を、政府の職員として選出し放題な状況だったとも言えたからである。
失業率がどん底の24.9%を記録したとされる1933年に誕生したフランクリン・ルーズベルト大統領の新政府は、不況に立ち向かう「ニューディール政策」と呼ばれる一連の政策を計画した。そしてその際に、行き場のない優秀な若者たちを大量に雇用し、活用することができた。なお、第4節においてフラミンガムの疫学研究はルーズベルト大統領の肝入りでスタートしたと述べたが、そこで中心的な役割を果たした統計学者も、この時期に採用された優秀な若者たちのうちの1人である。
ニューディール政策のゴールは不況を脱することであり、また失業率を低下させることであるが、そのためには正確な失業者数の把握が必要である。政治家だけでなく一般国民も、当時多くの人間が失業率の高さを問題として認識してはいただろう。しかし、失業者の数が100万人なのか1000万人なのかによって取るべき政策は根本から異なる。だが、当時は失業者数について「300万人から1500万人」という雑な推計しかできていなかったそうだ。
注意しなければいけないのは、これが、パンチカードぐらいしか存在していなかったために5000人分の調査をするのさえ苦労していたフラミンガムより、さらに昔の話だという点である。
当時のアメリカの1億2000万人~1億3000万人ほどの人口に対して調査を行なう、というのは、現代において何テラバイトのデータを取り扱う以上に非現実的なレベルの「ビッグデータ」であったに違いない。
全数調査 vs サンプリング調査
このような課題に対して当時唱えられたアプローチは2つあった。
1つは、アメリカ連邦政府議会が提案した「失業者に登録カードへの必要事項の記入と最寄りの郵便局からの郵送を義務付ける」というものである。
そしてもう1つの案は、当時最先端である統計学を学んだ若者たちから出された「無作為に選んだ約2%の郵便配達区域(約200万人が調査対象となる)に対してサンプリング調査を行なう」というものである。
先行して行なわれた調査は後者の統計学的なやり方であり、正確な失業率のほか、全国民の10%という限られた人間だけで全国民の40%もの所得を得ているという格差の存在なども示唆していたが、それを聞いた80年前のおっさんたちは「無作為に抽出するだなんてとんでもない! どうやってその正しさを証明するんだ!」と前者の全数調査を支持したらしい。
しかしながら、もしみなさんがこの時代の失業者であったとして、別にプレゼントがもらえるわけでもないのに、わざわざカードに個人情報を記入して郵便局に出かけるなどというバカ正直な手間をかけるだろうか? 少なくとも私はやらない。もし自分が当時の失業者だったとしたら、仮に商品券がもらえるとしても「めんどくさいから」と無視するか、そもそもそうした呼びかけがあったことすら気づいてないかもしれない。
実際のところ、多くの職のない若者はこの調査に非協力的であり、失業者数を過小評価する偏ったデータが得られたことが後に判明した。失業者の多くが回答をめんどくさがっており、めんどくさがって調査に協力しなかった失業者の数は把握しようもないのだから、「全失業者の合計回答」が実際よりも少なく偏ることは当たり前である。
一方で、若い統計家たちから提案されたサンプリング調査は、その後10年以上も慎重な検証を重ねられた結果、驚くほど正確なものだったということがわかった。1940年にこうした調査が制度化されてから今に至るまで、アメリカ政府はこうしたランダムサンプリングによる調査によってさまざまな政策の方針を議論している。
もし仮にこの非現実的な全数調査に、失業者はわざわざカードを送ったりしないという偏りがなかったとしても、1000万人にも及ぶかもしれない登録カードを集計する作業と、200万人ほどに対する調査結果を集計する作業の、どちらがより安価かつ高速にできるかと考えれば、後者であることは間違いない。
80年前と変わらないおっさんたち
その後アメリカがいち早く世界に先駆けて不況から脱することになったことが、果たしてルーズベルトと若き統計家たちのニューディール政策によるものなのかどうか、経済学者たちの間では未だ議論が分かれるところらしい。しかしながら、少なくともニューディール政策において大規模な公共工事が行なわれ、その後失業率が下がったことは彼らの設計した調査データが示す事実である。
そして限られた予算の調査で、実際どれほど失業率が下がったのか、という評価を下すことができるようになったのは、間違いなく当時の優秀な統計家たちのおかげである。
彼らはこの後さらに、消費者物価指数や工業統計調査といった、一国のマクロ経済を把握するうえで重要な指標についてもサンプリングを利用した定期的な調査を設計している。彼らのこうした業績がなければ、「不況に対してどういう政策をとるべきか」というその後の経済学者の議論自体、データという根拠に乏しい、ともすれば机上の空論にさえなってしまっていたかもしれない。
なお、日本がもしまだ「第2次世界恐慌」から脱しきれていないのであれば、ぜひ就職先のない優秀な大学院生たちを積極的に雇用してその力を活かしてほしいものである。
私は未だに「現代のおっさんたち」から「サンプリング調査の結果だからあてにならない」といった意見をしばしば頂戴するので、どうやら我が国の行政の場における統計リテラシーは80年前のアメリカからそう進歩しているわけでもないようだ。
もちろん全数調査よりサンプリング調査のほうが精度が低いことは間違いない。だが問題となるのは、それによってどの程度精度が低下するのか、そしてその精度が低下した結果、実際に下すべき判断や取るべき行動にどのような影響があるのかということである。逆に言えば、判断や行動に影響しないレベルの精度は無意味で、そのためにかけなければいけないコストはムダだ。
対処しきれない量のデータが存在する際に、適切なサンプリングさえすれば、必要な情報を得るためのコストが激減するのは80年前だろうが現代だろうが本質的には変わらない。にもかかわらず、ビッグデータに関心のあるビジネスマンは、しばしばビッグデータをビッグなままで扱うことにしか目が行かないのだ。