統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。第18回では、「ランダム化ができない」ときに統計学はどのように問題に対処するのかを解説します。
(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

ここまでの内容を読んでいただければランダム化比較実験の強力さと、その力を享受できない状況についてわかっていただけたと思う。
適切なランダム化さえできれば、我々はこの世のありとあらゆる因果関係を科学的に検証し、利用することができる。だが、ランダム化による制御自体が不可能な場合、仮に可能であったとしても倫理的に許されない場合、そして理論上は倫理的な問題とならない場合であっても、関係者からの感情的な反発が予想される場合にはランダム化に基づく統計学の利用があまり適さない。
だが、ランダム化ができない場面において統計学が役立たずになるなんてことはもちろんない。第15回で「科学は観察と実験からなる」という言葉を紹介したが、ランダム化に基づいて条件をコントロールする実験だけでなく、ただ何も手を加えずに調査を行なう観察においても統計学は大きな力を発揮するのだ。
タバコの箱を見てみよう
ランダム化比較実験が倫理的に許されない状況として、喫煙とがんの因果関係の例を挙げた。すでにさまざまなエビデンスが喫煙によるがんのリスクを示しているため、わざわざ「悪いとわかっていること」を、人為的に研究参加者たちに行なうのは倫理的に許されないというのがその理由だ。
もちろん最初から喫煙ががんの原因になるということがわかっていたわけではない。
18世紀にはすでに煤にまみれて働く煙突掃除夫たちが皮膚がん(当時はそうは呼ばれていなかったが)になりやすいということは知られていたし、1915年には日本人である山極勝三郎と市川厚一が、ウサギの耳にコールタールを塗ることで発がんさせられるということも報告していた。同じようにタールの含まれたタバコに発がん性があるのではないか? というのはがんに関心を持つ医学研究者であれば誰でも思いつくところだろう。
そうしたアイディアの実証を試みるデータを報告した最初期の人物に、イギリスのリチャード・ドールとA・ブラッドフォード・ヒルがいる。もしあなたの周りにタバコの箱があったら、「疫学的な推計によると、喫煙者は肺がんにより死亡する危険性が非喫煙者に比べて約2倍から4倍高くなります」といった警告表示をすぐに見つけることができるはずだ。こうした「疫学的推計」の最初のものは、彼らの手によって行なわれた。
以前紹介したスノウの疫学は、彼の死後もイギリスにおいて着実に普及し進歩を遂げた。ドールとヒルも、スノウ以後に進歩を遂げた疫学的方法論に則り、喫煙と肺がんの関係性について統計学的な分析を試みたのである。
「ケースコントロール研究」の登場
彼らは1948年から1952年にかけて、イギリス中の病院から1465名の肺がんによる入院患者を見つけ、彼らの性別・年代・社会階層や居住地域と喫煙歴の有無を調査した。そして同時に、喫煙以外の性別・年代・社会階層や居住地域について同様の条件を満たす、肺がん以外の疾患で入院している患者を同数見つけ調査した。
なお、喫煙以外にも肺炎にかかった経験の有無であるとか、住宅の暖房設備の種類であるとか、肺がんのリスク要因と考えられる項目についても調査されたが、最も大きな関連性が示唆されたのが喫煙だった。そうした彼らの研究成果は図表18に示す通りである。

当時は現在と比べ喫煙率の高い時代だったが、男性については1357名の肺がん患者のうち非喫煙者は7名(0.5%)しかおらず、その一方で非肺がん患者の非喫煙者は61名(4.5%)とその9倍もいた。女性についても肺がん患者においては非喫煙者が108名中40名(37.0%)に対し、非肺がん患者の非喫煙者は108名中59名(54.6%)とやはりこちらのほうが多い。
この結果に対してカイ二乗検定を試みると、男性についてはp値が0.1%未満、女性でもp値が1%未満となる。ともに誤差とは考えにくいレベルで肺がん患者の喫煙率が高かった。なお実際の論文においては喫煙/非喫煙という単純比較ではなく1日の喫煙量についても含めて検定を行ない、より小さなp値が示されている。
性別や年代によって喫煙率やがんのリスクが異なるのは言うまでもないし、当時は今以上に貴族などの富裕層と労働者の間の生活や健康状態の差が激しい時代である。
だからドールとヒルの行なったような「ケースコントロール研究」と呼ばれるデータの取り方が重要になるのだ。
疫学におけるケースとは症例すなわち関心のある病気となった事例(患者)のこと。そしてコントロールとはその比較対照のことである(ちなみに「比較対照」は疫学の専門用語。「比較対象」ではない)。
比較対照には「関心のある疾患とリスク要因の有無以外は条件がよく似た人」が選ばれる。「よく似た」の定義は研究によってさまざまだが、関心のあるリスク要因以外は考える限りすべての条件について同等であることが望ましい。だからドールとヒルは、喫煙というリスク要因以外の肺がんと関連しうる条件である、性別・年代・社会階層・居住地域といったものについて、調査対象とした患者と同様の人間を集めて男女別や年代別で区切ったグループごとに比較(専門用語でこれを層別解析と呼ぶ)すれば、ランダム化をしなくても「フェアな比較」ができるというのである。
天才フィッシャーからの反論
とはいうものの、じつはフィッシャーはその晩年(ドールとヒルの研究が公表されたとき彼は62歳であり、その10年後にがんによって死亡している)、こうした疫学的な考え方に対してわざわざ論文まで書いて猛反対している。彼自身が熱心な愛煙家であったため、疫学や統計学に関わる人々の間では「フィッシャーほどの天才でも自分の好きなものをくさす研究には反対したくなるのだろうか」という冗談が言われることもあるが、必ずしも偏屈な年寄りの世迷言というわけでもないようだ。
フィッシャーが問題にした点の1つは、ランダム化比較実験を行なっていない解析では、いくら「同様と考えられるグループ内で層別解析をした」としても、厳密に同様な集団間での比較なんてあり得ないじゃないか、という限界である。
ランダム化を行なえば、どんな条件についても比較したい両グループ間で平均的には同様となる。どんな条件についても、というのは、その条件を測定しようが測定しまいが変わらないということだ。
我々が今まったく想像もしないような何かが結果に影響していたとしても、ランダム化を行なう限り、知らず知らずのうちに「平均的には同様」となる。
だが、ケースコントロール研究ではどうだろうか。あくまで「同様」にできるのは、人為的に「同様」となるよう揃えた条件だけである。ドールとヒルの研究で言えば、年代、性別、社会階層と居住地域については「同様」かもしれないが、その他に結果に影響する要因があったとしても、肺がん患者と比較対照の間で同様かどうかはまったく保証されてはいないのだ。
たとえば社会階層として同じ「労働者」を選んだつもりでも、たまたま肺がん患者グループに煙突掃除夫が多数含まれており、煙突掃除夫だけが全イギリス人の中で異常に喫煙率の高い集団である、という状況では、やはり肺がん患者の喫煙率は高いという結果が得られるだろう。
これでは仮にどれだけ低いp値を示しても、何らかの要因によって結果が歪められていたのではないか、という批判は避けることができないのだ。
もちろんこれ以外にも批判はある。たとえばドールとヒルが収集してきたデータはイギリス人のみに偏った集団であり、すべての人に喫煙の害があてはまるわけではないのではないか、と疑う人もいるだろう。また、本人に聞き取り調査した結果だけでは、「肺がん患者ほど喫煙を大げさに報告する」という偏りがあった場合にどうするんだ、とかいった批判も考えられるかもしれない。
世界中のデータによる再反論
こうした批判を黙らせたのは、初期のフラミンガム研究において中心的な役割を果たした統計家であるジェローム・コーンフィールドたちによる1959年の論文だ。コーンフィールドたちはそれまでに発表された喫煙とがんに関する世界中の全研究を引用し、総合的に判断した結果、喫煙ががんのリスクであると考えて間違いはないと結論づけた。
世界中の全研究とは、たとえばイギリス以外にもアメリカやカナダ、フランス、そして日本で行なわれたドールとヒルと同様のケースコントロール研究のことだ。そして、どの国においても同様の結果が示されたのである。
なお、この日本における疫学研究とは、東北大学公衆衛生学講座の初代教授であり母子健康手帳の発明者である瀬木三雄らによる1957年の論文である。彼がこの時代に世界へインパクトを与えた疫学研究の1つを行なったことは、日本人がもっと誇るべき事実だろう。
異なる文化、異なる国民性、異なる社会構造を持っている集団においても同様に、喫煙の有無が肺がんと大きな関連性を示したのだ。少なくとも当時の日本では煙突掃除夫という職業はイギリスほど一般的なものではないはずである。
また、確かに、ケースコントロール研究のように肺がんという「結果」が出てから過去を調査するやり方では、グループ間での記憶や回答の傾向の違いが問題となるかもしれない。しかし、結果が出る前から集団を継続的に調査する、というフラミンガム研究のようなスタイルの疫学研究(なおこれをコホート研究と言う)によるエビデンスもコーンフィールドの論文では引用されている。
ドールとヒルは、その後行なった別の研究として、5万人の内科医の生活習慣とがんの発生を5年間調査し続けた結果、明らかに喫煙する者のほうが新規の肺がんの発症数が多かった、と報告している。またアメリカでは20万人近い高齢者に対するコホート研究の結果、やはり同様に喫煙者のほうが新規の肺がん発症数が多かったと結論づけられている。
少なくとも「結果」が出る前から収集された喫煙率について、肺がん患者ほど見かけ上喫煙率が高くなるといった「因果関係の逆転」が生じているという可能性は考えにくいだろう。
「揃えきれていない条件」にどこまでこだわるべきか
確かに、これらの疫学研究はすべてランダム化をしていないため、いくら条件を揃えようが「揃えきれていない条件が存在している可能性」が捨てきれるわけではない。だが逆に、ではいったい何が揃えきれていない条件として存在しているのだろうか。
科学的な厳密さにこだわれば「揃えきれていない条件」によって推定されたリスクが存在しない可能性はもちろんある。だが、厳密さに執着するために「大きな危険かもしれない」とわかっていることをあえて避けないというのも愚かな判断ではないだろうか。
動物にタバコのタールを塗ればがんになり、ありとあらゆる疫学研究が喫煙者とがんの間に誤差とは考えがたい関連性を示しているのならば、それはもう「危険だ」とするほうが現実的な判断ではないだろうか。
もし本書を読んでいるあなたが喫煙者だとして、肺がんの激痛と抗がん剤による副作用に晩年悩まされるリスクを覚悟のうえでタバコを吸うなら、それはそれで自由である。副流煙による家族や知人の健康リスクもできれば考慮していただきたいところだが、「ランダム化比較実験で証明されていないから厳密には因果関係がわかっていない」というフィッシャーの立場をとることも否定はしない。
だが、政府が科学的な厳密さにこだわるせいで喫煙の対策をしないというのであれば、それは科学性以前の問題として「無能」だろう。たとえば我が国において、医療経済研究機構が最新の疫学研究をもとに算出したところによると、喫煙によって余計にかかる医療費や失われる労働力などを合わせ、毎年7兆円以上が日本経済の損失となっている(医療経済研究機構〈1999〉の推計結果)。タバコの税収や経済効果ではこの半分も補填できないのだ。
「厳密にはそうじゃないかもしれないから」と、GDPの1%以上となる7兆円の損失を見過ごすのはバカのすることである。肩身が狭いからというだけで政府の喫煙対策を批判する人たちは、自分がそうしたバカな国に住んでいたら今頃どうなるか、と考えてみればいい。
疫学研究に反論したい人は、考えられる限り結果を歪めうる条件について指摘すればいい。そうすることによって、疫学研究が思わぬ落とし穴にはまって間違った結論を導く可能性は減らせる。だが、そうした指摘に対しても統計家がデータを揃えてきたのであれば、その結果は信頼したほうが現実的には有用である。バカのひとつ覚えのような「ランダム化ではないから~」という批判は不毛そのものだ。それは疫学以外の、政策や教育、経営などに関わる統計学的な観察研究についても同様のことが言えるだろう。
ちなみに「New England Journal of Medicine」という世界で最も影響力のある医学雑誌に、2000年に「同じ因果関係を分析しようとする医学研究において、果たして疫学研究はランダム化比較実験と比べ劣るものなのだろうか?」というテーマの研究が掲載された。その趣旨は、90年代前半の主要な医学雑誌に掲載された論文を比較検討した結果、疫学研究から示されたリスクの大きさは「ランダム化比較実験とあまり結果に差がない」である。そして、その理由としては「高度な統計手法によって、適切な条件の調整を行なうことができているから」という考察がなされていた。
ランダム化比較実験がむずかしい状況なのであれば、比較的低予算でスピーディにデータが収集できる疫学的手法を用いることが現実的には有用であるという場面は、我々の社会に数多くあるのだろう。