知る人ぞ知る問題解決メソッド、「問題解決の7ステップ」がついに書籍化する――。マッキンゼーで最も読まれた伝説の社内文書「完全無欠の問題解決への7つの簡単なステップ」の考案者であるチャールズ・コン氏みずから解説する話題書『完全無欠の問題解決』(チャールズ・コン、ロバート・マクリーン著、吉良直人訳)が注目を集めている。マッキンゼー名誉会長のドミニク・バートンは「誰もが知るべき、誰でも実践できる正しい問題解決ガイドがようやく完成した」と絶賛、グーグル元CEOのエリック・シュミットも「大小さまざまな問題を解決するための再現可能なアプローチ」と激賞している。本書では、「自宅の屋根にソーラーパネルを設置すべきか」「老後のためにどれだけ貯金すればいいか」といった個人の問題や「販売価格を上げるべきか」「ITの巨人に訴訟を挑んでいいか」といったビジネス上の問題から、「HIV感染者を減らすには」「肥満の流行をどう解決するか」といった極めて複雑なものまで、あらゆる問題に応用可能なアプローチを紹介している。本稿では、本書より内容の一部を特別に公開する。

マッキンゼーの元パートナーが回帰分析で肥満を分析してみたPhoto: Adobe Stock

肥満と相関する変数を見つける

 肥満の蔓延と増加には複数の説明が存在し、地域社会によって大きく異なり、複雑な行動や政策の要因が作用している。さらに、私たちが知るかぎり、どのような規模の地域社会においても、この傾向を逆転させたというサクセスストーリーは存在しない。

 この例では、回帰分析は肥満問題の根本的な要因を理解するための強力な分析ツールであることを強調したいと思う。回帰分析が肥満という難問を解決するわけではないが、解決策を示す場所を教えてくれる。

 私たちは、研究助手の1人で、ゲノム研究とビッグデータ分析の博士号を取得しているローズ奨学金受賞学者のボグダン・クネゼヴィチに、回帰分析を使って都市レベルでの肥満に関するいくつかの仮説を検証するよう依頼した。この仮説はマッキンゼー・グローバル・インスティテュート(MGI)が行った肥満に関する包括的な調査から導かれたものである[*1]。

 ボグダンは、アメリカの68都市について、肥満者比率[*2]、教育水準、世帯収入の中央値、都市の歩きやすさ[*3]、気候の快適性スコア[*4]などのデータを収集した。気候の快適性スコアは身体活動への天候の適合性を示すもので、気温と相対湿度の合計を4で割って計算される。快適性スコアは「ゴルディロックスのお粥」のようなもの、つまり熱すぎず冷たすぎず、温度と湿度がちょうど良い状態を表している。

 ボグダンの回帰分析の結果、教育、収入、街の歩きやすさ、快適性スコアのすべてが肥満と負の相関にあることを示した。また、歩きやすさを除くすべての変数が、個別に肥満と相関していることを発見した。

 おそらく驚くべきことに、快適性スコアと歩きやすさの間にはほとんど相関がなかった。他の変数、特に収入と教育の間には高い相関があり(68%)、因果関係における相対的な影響度合を判定することが難しくなる可能性を示していた[*5]。

 図表1では、各都市のボディ・マス指数(BMI)で測定した肥満者比率と世帯収入を比較したもので、快適性スコアは円のサイズとして示されている。肥満と収入の間の相関関係は大きく明確であり、都市間の肥満の分散の71%は収入で説明できる。

マッキンゼーの元パートナーが回帰分析で肥満を分析してみた図表1 収入、学歴および肥満の関係

 各点から導かれた近似直線からは以下のことが見て取れる。つまり、世帯収入が8万ドルの家計と6万ドルの家計を比べると、前者は後者よりも肥満人口比率が7%ポイント低いのである。

肥満を82%説明する4つの変数とは

 都市間の肥満度の違いを把握するのに最適なこのモデルは、世帯収入、教育水準、快適性スコア、街の歩きやすさ、そして収入と教育水準の2変数間の関係を説明する相互作用項の組み合わせによって決まる。すべての変数は統計的に有意であり、肥満と負の相関があった。4つの変数すべてを含めると、肥満の分散の約82%が説明できる

 これは、私たちの経験上比較的高い説明力の水準である。ロバート・ウッド・ジョンソン財団などの非営利団体は、アメリカにおける肥満の差を説明するうえで、収入と教育水準の要因がいかに重要であるかを指摘している

 複数の説明変数を用いる重回帰分析では、変数を組み合わせてコントロールすることで、根底にある変数間の関係を説明することができる。たとえば、歩きやすさだけを使って線形回帰分析を実行すると、都市の歩きやすさと肥満率の間には有意な相関がないと結論づけられる。しかし、重回帰分析で歩きやすさと快適性スコアの両方を組み合わせると、天候をコントロールしたうえで歩きやすさと肥満の間に有意な相関があることがわかる。

 この例は、回帰分析が問題の要因を理解するのにどのように役立つのかを示している簡単な例である。おそらく、都市レベルで積極的な政策介入をするための戦略を開発するのにも有用だろう。

 回帰分析は、理解を深めるのに役立つが、考慮すべきいくつかの落とし穴もある

回帰分析の落とし穴
相関関係と因果関係は別であることには注意が必要である。歩きやすい都市は、ほとんどの場合、歩きにくい都市よりも肥満率がはるかに低いようである。しかし、統計からだけでは、都市の歩きやすさが肥満率を下げる真の要因であるかどうかを知る方法はない。おそらく、歩きやすい都市は物価が高いので、本当の要因は社会経済的地位の高さなのかもしれない。あるいは、健康な人は、歩きやすい地域に転居しているのかもしれない
モデルでは考慮されていないが非常に重要な変数があるかもしれない場合、回帰モデルは誤解を招く可能性がある。このモデルは都市レベルで構成されているため、個人レベルの行動や文化的要因のことは認識しておらず、モデルに反映されていない
説明変数を追加すると回帰分析のパフォーマンスが向上するかもしれないが、変数を追加するとデータの過剰適合になる可能性がある。これは、回帰分析の基礎になる数学の問題である。現象を十分に説明できるモデルの中で、常に最も単純なものを使用すべきであることを忘れないでほしい

(本原稿は、チャールズ・コン、ロバート・マクリーン著『完全無欠の問題解決』を編集・抜粋したものです。この伝説の問題解決メソッドについてはこちらの記事で詳しく説明しています)


*1 MGI Obesity Study, 2013.
*2 American Fact Finder, https://factfinder.census.gov/faces/nav/jsf/pages/index.xhtml
*3 Tim Althoff, Rok Sosic, Jennifer L. Hicks, Abby C. King, Scott L. Delp, and Jure Leskovec, “Large-Scale Physical Activity Data Reveal Worldwide Activity Inequality,” Nature 547(July 20, 2017): 336-339.
*4 Sperling’s Best Places, www.bestplaces.net.
*5 多重共線性(ある独立変数が別の独立変数から線形予測できる程度)を確認したところ、所得と教育の間は正だったが、他の変数と両者の間は負の相関が示されたため、両変数を保持した。