「データ分析」や「エビデンス」の重要性が認知されて久しい。しかし、その結論がレポートによってバラバラであることも少なくない。そんなとき、非専門家である私たちはどう判断すればいいのか?
この問題に正面から回答し、この不確実な世界でのデータ分析との付き合い方を一般向けに解説したのが、ノーベル経済学賞受賞の呼び声も高いチャールズ・マンスキー教授による『マンスキー データ分析と意思決定理論』だ。
本書では、「未知の感染症が流行したとき、有効なワクチンや治療薬をどのように選択すべきか」といったわかりやすい例を豊富に提示して、データ分析の解釈や意思決定への活かし方について、新しい考え方を紹介している。
以下、著者インタビューより、特別にハイライトを掲載したい(『Voice』2021年4月号掲載『「最適な政策」という落とし穴』より一部を編集・抜粋。取材・構成=大野和基)。

チャールズ・マンスキー

「信じられる範囲の仮定」で
コロナ感染者数を推定すると……

――あたなは「部分識別」というデータ分析の画期的なアプローチを確立しました。著書『マンスキー データ分析と意思決定理論』でも述べられていますが、その意味をあらためて教えてください。

チャールズ・マンスキー(以下、マンスキー) データ分析の伝統的な手法は、正確な推定値を必要としていました。しかしそれを測るには、信じられないほど多くの仮定を要求することがあります。一方の「部分識別」は、正確な数値はわからないけれど、信じられる範囲の仮定で識別する手法です。それは受け入れられる仮定であり、区間(範囲)を指します。

「COVID-19(新型コロナウイルス)」を例に考えてみましょう。連日、一日の新規感染者数が発表されますね。たとえば私が住むイリノイ州のある日の新規感染者が1万2000人だったとします。しかし実際の感染者数は、1万2000人よりはるかに多いはずです。なぜなら、カウントされる感染者数は検査を受けて陽性と出た人だけだからです。当然、すべての住民が検査を受けているわけではありません

 本来ならば、実際にどれだけの人が感染しているのかが重要なはずです。「部分識別」であれば、生の数値データは1万2000ですが、実際は1万2000から2万5000までの幅があるだろう、と仮定します

――COVID-19を例にとるとわかりやすいですね。

マンスキー COVID-19の例はあらゆる場面で登場します。我々が生活している社会は複雑で、何かを予測するのは非常に難しいことです。たとえば所得税率を変えることで政府が歳入をどれほど得られるようになるかは、人びとの社会行動によって変動します。だから私は、確定的な数値ではなく、人びとが信じるような数値の範囲を提供しています。

――人間の脳は必ずしも合理的ではなく、「信頼できないけど強い意見」を求める傾向にあるといわれます。断定的な数字のほうが人びとの関心を得やすい側面はありませんか。

マンスキー 不確実性をどれくらい受け入れられるかは、個人によってかなり差があります。私は人間の行動を研究しているミクロ経済学者ですが、明白なのは、個々の行動がどれほど合理的であるかは人によって異なることです。

 「人は不確実性を受け入れられない。正確な数字をほしがる」といわれますが、その人が誰と話しているかによっても変わります。不確実性に対してどれくらい対処できるか、合理的に物事を考えられるかは個人によって幅があるので、簡単に一般化はできません。