Еженедельник Свет в Интернет

Главная

Новости

Статьи и обзоры
  Горожанин
  Обнинск в Internet
  Web Design
  Hardware
  Software
  Безопасность
  Серфинг
  Игродром
  Relax
  Технологии
  Web-обзор
  Интернет-ликбез
  Опросник
  УП-Технологии
  ART.net

Ссылки

Архив

О нас

Контакты

Форумы


Основатель:
К.Николаенко

Главный Редактор:
С.Коротков

Web Design:
Neutron


Наш спонсор






Порт POPULAR.RU
POPULAR.RU RegionalBanner Network.






Океан


НПП Метра - промышленные электронные автомобильные вагонные весы
Goldy Interior - салон офисной мебели: кабинеты руководителей, мебель для персонала

= Безопасность =

ФИЛЬТРАЦИЯ СПАМА ПО БАЙЕСУ

Продолжение: начало в №7 (195)
The Bat! И АНТИСПАМЕРСКИЕ ПРОГРАММЫ

Вряд ли имеет смысл рассказывать, что такое The Bat!, поэтому сразу перейдем к делу.
Начиная с версии 1.63 The Bat! предоставил пользователям возможность подключать и использовать антиспамерские фильтры. Фильтр работает во время получения почты и оценивает каждое входящее письмо по шкале от 0 до 100. "0" означает, что письмо "хорошее", "100" - что это спам. Затем уже сам The Bat! может на основании этой оценки что-нибудь сделать с письмом - например, удалить спам или поместить его в специальную папку "макулатура".
Главное достоинство этой технологии в том, что фильтр в контексте The Bat! уже не является самостоятельным сервисом, живущим где-нибудь в трее или в недрах компьютера, но представляет собой подключаемую библиотеку, которая загружается только при работе с почтой, а затем автоматически выгружается, не занимая памяти или других ресурсов. Опять же, поскольку письмо "доставляется" фильтру непосредственно средствами The Bat!, то возможна работа со всеми видами почтовых протоколов, поддерживаемых этой программой, вплоть до "локальной доставки", когда письмо доставляется из одного ящика в другой, расположенный на этом же компьютере, без задействования в этом процессе сетевого трафика.
Итак, антиспамерские фильтры The Bat! потенциально не нуждаются в том, чтобы быть постоянно запущенными как сервис, и также не нуждаются в использовании сети.
Осталось только найти подходящий фильтр.

Статистическая фильтрация Байеса

Суть метода статистической фильтрации состоит в разбиении входящих писем на условные слова (токены), составлении частотного словаря таких токенов и применении математической теоремы Байеса к полученным наборам слов. Эта теорема позволяет вычислить вероятность успешного совершения некоторого события на основании статистики совершения этого события в прошлом. Применительно к фильтрации спама: если 9 из 10 писем, содержащих пресловутое слово "корова", являются спамом, и лишь одно - "хорошим" письмом, то теорема Байеса позволяет вычислить, с какой вероятностью следующее письмо, содержащее это слово, будет являться спамом.
Метод Байеса подразумевает использование статистической оценочной базы - двух наборов ("корпусов") писем, один из которых составлен из спама, а другой - из "хороших" писем. При создании этой базы подсчитывается количество вхождений каждого отдельного слова (токена) в каждом корпусе, и на основании этого для каждого токена вычисляется оценка, или "спамность".
"Спамность" измеряется по шкале 0…1. Значение "0" означает отсутствие спама, "1" - полную уверенность в том, что это спам. Нейтральное значение "0,5" выражает отсутствие какой-либо определенности в оценке. Токены, чья "спамность" приближается к нейтральному значению, малоинтересны для оценки письма. Наоборот, те из них, чьи значения очень сильно отличаются от 0,5, являются яркими показателями письма.
Пусть письмо содержит n токенов с оценками S1……Sn. Тогда общая оценка письма S может быть легко вычислена по следующей формуле:

a = S1xS2x….xSn;
b = (1 - S1)x(1-S2)x….x(1 - Sn);
S = a/(a + b).

Полученная оценка и будет являться значением "спамности" для некоего письма на основании существующей статистической оценочной базы.

Окончание следует.

Copyright © Свет в Internet   Designed by Свет в Internet