統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。本連載は、その刊行を記念して『統計学が最強の学問である』の本文を公開するものです。第26回では、「心理統計学」の考え方と手法について解説します。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

心理統計家が好む手法
知能に限らず、心理統計家は「心」や「精神」といった目に見えない抽象的なものを測定することを目指す。測定することができれば行動や成果や精神疾患との関連性を分析することができるが、そうでなければたとえば「仕事へのモチベーションを左右するのは金銭よりも仕事のやりがいである」といった、単純な仮説すら実証することはできない。
そのためには自分の測定したい「抽象的な概念」が何なのかを定義する。たとえば「仕事のやりがい」を、「自分の仕事について社会に対する貢献や正統な社会評価がなされているという実感」と定義すれば、それと関連しそうな質問をいくつも考えられるだろう。
なお、心理統計家たちは質問文を自分の思いつきだけで作るようなことはしない。あらかじめ「仕事にやりがいを感じている人」と「そうでない人」にインタビューして、彼らがどのような言葉で「やりがい」のことを表現するか確認したり、先行研究でどのような理論が提唱されているかを調べたり、同様な心理学的な調査が国内外でなされたことがなかったかを調べたりしてはじめて質問紙は作られる。
そしてそうやって作られた質問紙は、ふつう本番の調査の前にプレテストにかけられる。微妙に表現を変えたいくつもの質問項目を、数十名程度の人間に回答してもらうのだ。その結果、たとえばほぼ全員「Yes」と答えるだとか、無回答者が多いといった、役立たずの質問項目は削除する。
次に因子分析の結果と照らしあわせて、事前に想定していた因子の構造になるように、複数の因子と相関を持つ項目や、どの因子とも相関しなかったような項目は削除する。さらには回答者が内容を忘れた頃にもう一度同じように調査し、答えるたびにころころ回答結果が変わるような質問項目も削除する。
こうして出来上がった質問紙は、科学的な測定を行なうための尺度と呼ばれる。因子の構造に基づき算出方法を決めた得点は、測定しようとしていた抽象概念を表しているはずである。あとはこの得点を用いて回帰分析なり何なり、興味のある他の変数とともに分析すればよいのだ。
なお心理統計学の中でも回帰分析はよく用いられるが、それ以外に心理統計家が好みがちな手法の1つにパス解析と呼ばれるものがある。心理的因子を含む変数間の関係性(とその強さ)を、楕円(別に長方形でもいいが)と矢印で示すのだ。
ちなみに開本浩矢著『研究開発の組織行動』(中央経済社)において実際にこうした実証研究が行なわれているのでその結果の一部を紹介しよう。開本らは企業の研究者のモチベーションプロセスを分析した結果、業績の高い研究者のモチベーションプロセスは図表39のような関係になっていたと報告している。

この中の矢印に付随した数値は、相関係数つまり~までの相関を示す指標と同様のものだと思ってくれていい。また、アスタリスク(*)のついている数値は、その値がp<0.05となる「誤差とは考えにくい」と考えられるレベルでの関連性が示唆されているものである。
彼らは、「やりがい」すなわち心理学的な理論において、「内発的モチベーター」と呼ばれるものについてももちろん検討した。だが「社会に対する貢献」とか「学習や成長の機会」といった「やりがい」と関係する因子の影響は、高業績な研究者にとっては誤差の範囲と考えられたという結果が得られたのである(ただし低業績な研究者では関連のある因子もあった)。
どうやら高業績な研究者は、そのほとんどがすでに十分仕事にやりがいを感じており、それ以上にモチベーションを高めたければ、給料や昇進という物質的な報酬を与えたほうがよいようだ、というのが開本らの考察である。
心理統計家は「質問紙」に命をかける
このように心血を注いで自分が作った質問紙尺度を、他の統計家が「アンケート」扱いすると、心理統計家は本気で気分を害することもある。
アンケートというのは聞きたい質問をそのまま書いて答えてもらう、というレベルのものであり、そこから抽象概念を科学的に測定しようというようなものではない。だから自分の作った尺度とそんなものを一緒にするな、というわけである。
ちなみに以前自分が見せてもらった、ある企業が新卒採用のために作った「適性検査」は、まさしく「ただのアンケート」だった。ストレスに強くて根性がある人がほしいんだろうなぁということだけはわかったが、それを直接尋ねたところで正直に「自分は根性ないです」と答える学生はいないだろう。実際にこの「適性検査」は、ほとんど採用の役には立たなかったそうだ。統計家としてはぜひ入社後の社員の業績と、この「適性検査」の相関を分析させてほしいところである。おそらくこの企業は、1人ぐらい根性がなくても心理統計学を勉強してきた学生を人事部に採用したほうがよいのではないか。
一般に、マーケティングリサーチや社会調査、疫学研究を行なう統計家たちの多くは、知りたいことをそのまま質問すればいいと楽観的に考えがちだ。彼らは得られた答えはそのまま客観的事実を反映していると考えるし、そうでなくても単純な誤差として扱えばいいと思っている。
社会調査や疫学研究の質問紙に「あなたの親しい人にタバコを吸っている人はいますか?」と書いていた場合、単純に「受動喫煙してる人って何%いるんだろうか」とか、「受動喫煙してるかどうかと健康状態って関連してるんだろうか」という興味で質問しているだけだが、心理統計家たちはそう単純には考えない。
質問に対する回答は必ず回答者の主観というフィルターと無関係ではないし、心理統計家たちは100年間、人間の主観を含む心の扱いについて議論を重ねてきたのだ。
「同じように喫煙者の友人がいる人の中にも、その存在を意識している人としていない人がいる」とか、「喫煙に嫌悪感のある人は、友人が喫煙者でも『親しい』という単語に引っかかってNoと答えるのではないか」とかいった可能性を考え、同様の質問項目を何パターンか用意し、因子分析を行ない、そこから得られた何らかの因子に対して意味を見出すべき、というのが彼らのやり方だろう。
マーケティングリサーチの中でも、「消費者行動論」という分野を学んできた者は心理統計学をバックグラウンドに持っており、社会調査系のマーケティングリサーチャーとの間で、調査方法について侃々諤々の議論が重ねられることもある。
ただしその一方で、因子分析というのはいくつの因子があると仮定するか、とか、因子間に相関があることを許容するか、とか、細かい違いによって結果が大きく異なりうる手法でもある。自分の考える因子構造になるように試行錯誤を繰り返す心理統計家たちの作業は、疫学者や生物統計家たちから見れば恣意的なズルをしているようにも見える。
さらにパス解析についても、それが最適なモデルなのかどうかはあまり確認されていない。仮に7個の因子間でパス解析を行なったとすると、そこから2つを取り出す組み合わせは21()通りあり、それぞれに「A→B」「A←B」「A←→B」「AとBの間に矢印なし」という4パターンの関係性があったとすると、84通りのモデルの妥当性を検証しなければいけない。しかし、心理統計家が全パターンを試すことはあまりない。彼らにとっては仮にデータの当てはまりがよかったとしても、心理学的な解釈不能なモデルには意味がないのだ。
このような理由から、質問紙調査の項目や分析方法の取扱いに関して、心理統計家とそれ以外の統計家の間で意見の相違が見られるのである。
IQへの結論
ただし、日本で一般的に用いられている知能テストは、ここで紹介したような注意深い心理統計学的な検討を経たものではない。
たとえば比較的日本でよく用いられる知能検査方法の1つである「田中ビネー式検査」は、もともと1905年にアルフレッド・ビネーが同年齢の子どもと一緒に勉強することについていけない子どもを探すために、自らの娘の発達過程を観察した結果をもとに作ったものである。この尺度で高得点を出したから「天才児」というのは本来の使い方ではない。
心理尺度だろうが物理的な尺度だろうが、そもそもの定義と尺度の使い道がかみ合っていなければ意味がないのは同じである。「体格のよい子どもを探したい」と思ったとき、バスケットボール選手を育てたいのか相撲取りを育てたいのかによって身長を見るべきなのか体重を見るべきなのかは違うのだ。
差別に繋がるような知能テストの使い方に意味はないが、なぜそうした差別が起こるのかというと、知能テストの中身をよくわからずに拡大解釈しているからだ。前提や限界も理解したうえで目的に合わせて用いる限り、知能テストであれ何であれ、真に知りたい何かを知る力を、心理統計学は与えてくれるのである。