統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。
第12回では、しばしば「センス」という言葉で語られがちな「そもそも、どんなデータを解析すべきか?」ついて解説します。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

『統計学が最強の学問である』12Photo: Adobe Stock

裏ワザを見つける3つめのポイント

「適切な比較を行なうこと」、そして「ただの集計ではなくその誤差とp値についても明らかにすること」。この2点を意識しさえすれば、経験と勘を超えて裏ワザを見つけることが容易になる。

 だがこの2点を理解したつもりで、いざデータを分析しようとしたときにしばしば問題になるのは、「適切な比較」とは何か、あるいはもう少し具体的に言えば「いったい何と何を比較すればよいのか」という点である。

 ここまで、よくある典型的な事例として、「購買金額」や「購買率」といった売上に直結する指標をさまざまな切り口で比較してみたら、という話をした。だが、ビジネスにおいて比較すべき情報は売上だけに限った話ではない。

 統計学をある程度マスターすれば「どのようにデータを解析するか」ということはわかる。だが、実際に研究や調査をしようとすれば、「どのようなデータを収集し解析するか」という点のほうが重要になる。これはしばしば統計家のセンスという言葉で片付けられることも多いが、もう少し噛み砕いて考えれば誰でもこのセンスを身につけることができるのだ。

 では、私たちはいったいどのようなデータを比較し、その違いを生み出しうる要因を探し当てればよいのだろうか?

ビジネスにおける明確なゴール

 その答えを一言で言えばごく簡単だ。「目指すゴールを達成したもの」と「そうでないもの」の違いを比較しさえすればいい。あるいはゴールを達成するという表現は「自分にとってより理想的」とか「より好都合」と言い換えてもいい。

 こういう風に説明すると、「それでは目指すゴールとは何なのか?」という質問をいただくこともあるが、その質問に対して私が返せる最も正確な答えは「知らんがな」である。あるいはもう少し紳士的に言うと、「それは人それぞれですね」ということになる。

 たとえば医学や公衆衛生学に関わるものならば、「健康に長生きしている人」と「早死にした人」「病気に苦しみ続けている人」を比べるかもしれない。教育に関わる人が「高い学習達成度を示した子ども」と「そうでない子ども」を比べることもある。「幸福感の高い人間」と「そうでない人間」を比較した心理学者もいた。

 以前私は、Jリーグのデータを統計解析するという本を書いたことがあるが、その中では「勝った試合」と「引き分けた試合」あるいは「負けた試合」を比較してどんなスタッツ(統計値)がどれほど関連しているのかを明らかにした。

 こうした例を通して考えてみると、ビジネスマンが何をゴールとすべきは明らかだろう。ビジネスのゴールは「利益をあげること」である。

それは利益につながっているのか?

 そしてその利益というゴールまでの道筋をもう少し細かく考えれば、顧客の需要が伸びるか、社内の生産性が上がるか(ムダなコストをかけずに商品が産出できるか)、といった当たり前の要素に還元できる。

 さらにそうした需要や生産性に繋がる要素として、人事やITやマーケティングといった業務の現場における個別目標があるはずだ。

 現場の個別目標が必ずしも利益に直結しないのであれば、いくらそこを頑張ったとしても儲かるわけがない。たとえば人事の仕事だけに注目していると、従業員満足度や離職率といった数字に強い関心を寄せてしまうかもしれない。しかし、満足度の高い従業員のほうが営業成績は低いだとか、勤続年数の長い従業員のほうが人件費あたりの生産性は低いといった状態であるのならば、必ずしもそうした個別目標の改善がよいこととは限らないのだ。

 研究者であれ実務家であれ、人間はデータが集まっているとしばしば「ここから何かわからないだろうか?」と考えがちである。もちろん適切な解析を行なえば何かはわかるだろうが、それはわかったからといって誰も得しないことかもしれない。大学や研究機関が学問の自由という御旗のもと、誰も得しそうもないことに研究費を支出するのはある意味勝手だが、ビジネスマンの仕事ともなるとそうも言っていられない。

 だからビジネスにおいて解析すべき指標は、直接的な利益か、あるいはそこに至る因果関係の道筋が明らかな何か、ということになる。もちろんこうした因果関係について統計学的な実証ができていれば言うことはないが、ビジネスにおいては関係者間で「これは明らかに利益に繋がる指標だろう」という合意がとれていれば、それも売上などと同様に比較するに値するものだと言えるだろう。

CPU温度の解析がコスト削減につながった

 自分たちの仕事の中で何が利益に直結することか、というのは私などよりみなさん自身のほうがよく知っているし、アイディアだって浮かぶはずだ。

 そもそも会社というものが営利活動のために作られた組織である以上、みなさんの仕事のほとんどは利益に直結するよう作られているはずである。より広い視野で柔軟に考えることができれば、思いのほか自分たちの業務が解析と改善に値する価値に繋がっているのではないだろうか。

 たとえば私自身が耳にしたものだと、サーバ内のCPU温度やメモリ使用状況などをモニタリングしたログをもとに、「サーバがダウンする状況」と「しない状況」を比較した結果、システムの増強と管理に割くコストを大幅に削減できたというケースがある。

 同様に、工場の機械から吐き出される作動ログをもとに、故障する状況としない状況の差を比較した結果、コストを削減できたという話もある。営業成績の高いセールススタッフとそれほどでもないスタッフについて各種調査データを比較し、今後に活かそうという動きもある。

 現代においては多くの企業のさまざまな部署において、大量のデータが存在している。また何らかの新しい調査を行なうことも、今では大したコストがかかることではない。ここで重要になるのは「ここから何かわからないか」という漠然とした問いではなく、そのようなデータのうち何が、どのような関係で利益と繋がっているのかなのだ。

 もしみなさんがこれから社内のデータを解析して経営に活かそうとするのであれば、まず部署の垣根を超えて一元的に「どのようなデータを持っているか」という情報を共有してみてほしい。そしてそれらを統合して、「どう利益に繋げられるか」「何が一番利益に繋がりそうなのか」という視点に立つことができれば、自ずと何を比較し、どのような差異を明らかにするのか、という点についてはクリアになるはずだ。

 きっと今もみなさんのアクセスするハードディスクの中には、何千万円あるいは何億円という利益のヒントが隠されているはずである。