クレジットカードを不正使用された
恥ずかしながら、私はクレジットカードを不正使用されたことがある。しかし、幸い大きな被害には至らなかった。なぜなら、カード会社から「○月○日にiTunes Storeで3000円のご利用がありますが、間違いありませんか?」という電話連絡があったからである。iTunes Store自体は利用経験があるが、指摘された買い物をした記憶はない。その旨を伝えると、「わかりました。それでは不正使用が発覚しましたので、こちらのカードを無効にいたします。不正利用分の請求はございませんのでご安心ください」とのことだった。
このカード会社で本当によかったと思う。それにしても、どうしてたった3000円の、しかも過去には実際に使ったことのあるサイトでの買い物なのに、不正を見つけることができたのか? 実はこれこそデータマイニングのなせる業である。
私はふだん、リアル店舗でもネットでも自由気ままに買い物をしている。初めて行くお店やサイトももちろんあるし、金額だってまちまちだ。それでも過去の利用履歴(私はこのカード会社を20年以上使っている)を分析すれば、私の買い物には(私の気づいていない)一定のルールがあることがわかり、そこから外れている買い物を拾い出せる。
カード会社には、すべての顧客の利用データが蓄積されている。それらは不正使用の発見だけでなく、企業のマーケティングのためにも非常に重要な情報である。顧客の住所、年齢、性別、職業などのプロフィールと買い物履歴をひも付けることで、たとえば「横浜市在住の40代男性、自由業」の客がどういう買い物をする傾向があるのかを割り出せるからだ。それが効率の良い宣伝や、ニッチなニーズを捉えた商品開発につながるのは言うまでもない。
相関関係と因果関係
一般に、一方が増えれば他方も増えるといった大まかな傾向があることを「相関関係がある」と言う(一方が増えれば他方も増える傾向があれば正の相関、一方が増えれば他方は減る傾向があれば負の相関があると言う)。『ウォール・ストリート・ジャーナル』の記事における紙おむつと缶ビールのように、意外な組み合わせに相関関係が見つかれば、売上の伸びが期待できるかもしれない。相関関係の発見は、データマイニングにおける1つの柱である。
ただし、相関関係を調べるときには、注意しなくてはいけないことが2つある。1つは、得られた相関関係は、あくまでもその調査対象についての結果だということ。たとえば私の塾の生徒には「英語の点数が高いほど、数学の点数も高い」という正の相関関係がある(あくまでそういう傾向があるというだけであり、例外もある)。しかし、これが全国の高校生にあてはまる傾向なのかどうかは、一概には言えない。
意外な組み合わせに相関関係が見つかったり、逆に期待通りの結果になったりすると、つい「驚くような(あるいは好ましい)法則が見つかりました!」と声高に言いたくなってしまうものだが、母集団のすべてについて調べたわけではないときは、特に慎重な判断が求められる。
それともう1つ。ある2つの量の間に相関関係が見つかったとしても、両者に因果関係(原因と結果の関係)があるとは決めつけられないことも要注意である。
XとYの間に因果関係があれば、XとYには必ず相関関係が認められる。しかし逆は必ずしも正しいとは言えないのだ。