迷惑メールフィルターはベイズ統計学を使ってゴミメールを判別している

インターネットの普及にともなって急速に広まっている「ベイズ統計学」。人工知能など最先端技術への応用が注目されがちですが、実はみなさんの身近なところにも使われています。
その１つが「迷惑メールフィルター」。どのようなしくみで通常のメールとゴミメールを選り分けているのかを、『完全独習ベイズ統計学入門』著者の小島寛之教授に解説してもらいました。

身近な技術に活かされる
ベイズ統計学

ベイズ統計学には、「情報を得て、推定をアップデートさせる」という学習機能があります。この特徴は迷惑メールフィルターのしくみに活かされています。

この連載では、ベイズ統計学の仕組みを解説している。第1回、第2回では、ベイズ統計学の考え方の基本を紹介したので、今回はベイズ統計学のスキルが身近なところで活かされている実用例を取り上げよう。それは、迷惑メールフィルターである。

迷惑メールとは、インターネットであやしげな業者から無差別的に送りつけられてくるゴミメールのことだ。そして、迷惑メールフィルターというのは、これらのゴミメールを、自動的にそれと判定し、選り分けてくれるソフトウェアのことである。

現在では、多くのウェブメール・サービスに、迷惑メールフィルターが導入されている。読者の皆さんも、ウェブメール・サービスを利用しているなら、その選り分けの正確さに感心していることと思う。この有能な機能を支えるのは、他ならぬ、ベイズ統計学なのである。

迷惑メールフィルターの仕組みをおおざっぱに説明しよう。送信されてくるメールには、迷惑メールかどうかのヒントになる特徴がいくつもある。例えば、怪しげな業者からのメールには、ＵＲＬが貼られている場合が多い。有料サイトに誘導しようとする目的を持っているからだ。また、「出会い系」や「違法ローン」に特徴的な言葉も多い。迷惑メールフィルターは、ソフトウェアがメールをスキャンし、これらの特徴を自動的に検出し、「どの程度、迷惑メールの可能性があるか」を数値評価するのである。

なぜ、数値評価なのか、と言えば、友人や同僚からのメールでもＵＲＬを貼ってあることも結構あるし、「出会い」や「ローン」に関係ある言葉を書いてある場合も稀にはあり、これらの特徴が検出されても、「絶対に迷惑メールだ」とは断定できないからである。このようにして、いくつかの検出ポイントから、「迷惑メール度」を数値化していき、それがある限界値を超えたら迷惑メールと判定して、受信ボックスからゴミ専用のボックスに移動させるのだ。

この迷惑メール度を数値ではじき出すのが、ベイズ統計の役割である。計算の仕方は、前の二回とほぼ同じであるが、念のため、簡単な解説をつけておこう。

「迷惑メール度」を
数値化するしくみ

受信したメールの迷惑メール度を、スキャンの前には、0.5と設定しておく。これを専門の言葉で「事前確率」と呼ぶ。迷惑メールである根拠も、そうでない根拠もないから、とりあえず五分五分と設定しておくわけだ（これはしばしば「理由不十分の原理」と呼ばれる）。ちなみに、こういういいかげんな数値を主観的に設定しまうのが、ベイズ統計の極意なのである。

次に、迷惑メールの場合のＵＲＬが貼り付けられている統計的頻度と、普通のメールの場合のＵＲＬが貼り付けられている統計的頻度を利用する。ここでは架空の数値として、前者を0.6、後者を0.2としておこう。すると、可能性は次の二つ。第一は、「迷惑メールであってＵＲＬを貼り付けられている」場合。第二は、「普通のメールであってＵＲＬを貼りつけられている」場合。

前者は全体の半分のうちのさらに6割にあたるので、その確率は0.5×0.6=0.3と算出される。同様に、後者の確率は0.5×0.2=0.1である。したがって、前者と後者の確率の比は、3:1になるので、「ＵＲＬ貼り付け」を検出した下での迷惑メールの確率は、3÷4=0.75と計算される。これが事後確率と呼ばれ、要するに迷惑メール度を表す数値なのである。

まとめると、最初に主観的に設定された迷惑メール度0.5は、「ＵＲＬ貼り付け」を検出したことから、迷惑メール度0.75に跳ね上がる。これが、第1回でも解説したベイズ更新と呼ばれるものだ。

もちろん、0.75程度の数値評価で迷惑メールと断定するのは危険すぎる。普通のメールを誤って迷惑メールとして葬り去ってしまうことが高頻度（確率0.25）で起きてしまう。したがって、迷惑メールの他の特徴も検出ポイントとして利用して、迷惑メール度の数値を確かにしていくのである。複数の検出ポイントを利用するベイズ改訂については、拙著『完全独習ベイズ統計学』で勉強してほしい。

迷惑メールフィルターの下す結論は、確率的なので、当然、間違いも起こす。迷惑メールのボックスを覗いてみて、友人からのメールや仕事関係のメールを発見することも稀にある。見た目には、どうして迷惑メールと判定されたのかわからなかったりして、いったいどうやって有能なソフトウェアを騙したのだろうと、思わず吹き出してしまったりもする。