月曜日, 9月 18, 2006

ベイジアンフィルタを欺くスパム

 最近、宣伝文を画像化したスパムが多い。私が受けたスパムのうちでは、2006年7月には8通のうち6通、8月には10通のうち6通が画像ファイル付きだった。本文を解析するベイジアンフィルタを欺くことを狙っているのだろう。
 今のところ、そのようなスパムはHTML形式であって、ベイジアンフィルタでもHTMLタグを解析してスパム判定することは可能だと思われる。また、ほとんどはメールヘッダに

Content-Type: multipart/related

が入っているので、これを条件としてごみ箱行きにするようメーラーでのフィルタリングを設定するという方法もある(Outlook Expressをデフォルト設定のままで使っている人から送信されるHTMLメールのヘッダは「Content-Type: multipart/alternative」になっているので、上記のフィルタリングでごみ箱行きになることはない)。
 しかし、スパムメールの中身がプレーンテキストと画像ファイルだけになって、しかもプレーンテキストの内容がまっとうに見える文章になっていたら、ベイジアンフィルタでは歯が立たなくなるのではないだろうか。あるいは、判定条件がかき乱されて、正当なメールをスパム判定することが多くなるのではないだろうか。S25R方式の恩恵を受けていないユーザーにとって、ベイジアンフィルタや、それを応用したメーラーの迷惑メール対策機能は重宝な技術である。それが無力化しては気の毒である。
 S25R方式をメーラーでのフィルタリングに応用する方法もある。メーラーBecky!なら、フィルタリング条件に正規表現を使えるので簡単に設定でき、私はそれを随筆記事「Becky!でスパムメールを自動的に90%以上捨てる方法」で紹介している。また、本庄さんは「Becky! S25R spamフィルタ」というBecky!用のプラグインを開発されている。
 ほかのメーラーのメーカーも、S25R方式を応用した迷惑メール対策機能を付けてくれないものだろうか。Receivedヘッダに記録された、送信元の逆引き名を解析すればよいので、技術的には簡単である(ただし、自サイトのメールサーバが送信元の逆引き名をReceivedヘッダに記録してくれなければならないが)。
 もっとも、S25R方式があまりにも単純すぎることが、かえって採用の阻害要因になるかもしれない。スパム対策には世界中の人々が大変な苦労をしているのに、こんな簡単な方式で、受信するスパムのうち97%(9月15日の記事「宛先の正しいスパムの阻止率」参照)もスパム判定できるとは、おそらく多くの人には信じられないことだろう。開発者本人でさえ、もし私が他人だったら耳を疑うだろうと思うくらいだから。

0 件のコメント: