Еженедельник Свет в Интернет

Главная

Новости

Статьи и обзоры
  Горожанин
  Обнинск в Internet
  Web Design
  Hardware
  Software
  Безопасность
  Серфинг
  Игродром
  Relax
  Технологии
  Web-обзор
  Интернет-ликбез
  Опросник
  УП-Технологии
  ART.net

Ссылки

Архив

О нас

Контакты

Форумы


Основатель:
К.Николаенко

Главный Редактор:
С.Коротков

Web Design:
Neutron


Наш спонсор






Порт POPULAR.RU
POPULAR.RU RegionalBanner Network.






Океан


НПП Метра - промышленные электронные автомобильные вагонные весы
Goldy Interior - салон офисной мебели: кабинеты руководителей, мебель для персонала

= Безопасность =

АНТИСПАМЕРСКИЙ ФИЛЬТР BayesIt!

Продолжение: начало в №14(202), №15(203)
© Алексей Виноградов

Технические ограничения модуля

Русификация интерфейса плагина

Если языком Windows по умолчанию является русский, а также если плагин был установлен автоматически или вручную из дистрибутива The Bat!, его языком интерфейса по умолчанию уже может быть русский.
Для русификации прежде всего необходим файл с переводом интерфейса и сообщений thebat.lng. Скопировав файл в нужное место, вы можете установить плагин (если он еще не установлен). При этом если вы устанавливаете плагин под Windows с русской локалью, то интерфейс плагина автоматически станет русским (конечно, при наличии файла bayesit.lng).
Если вы устанавливаете пакет локализации на уже установленный плагин, то автоматического переключения языка не произойдет, и это нужно сделать вручную. Для этого зайдите в настройки плагина и нажмите кнопку "Do you speak...". Выберите в открывшемся окне файл с переводом, а затем укажите в выпадающем списке русский язык.
Нажмите в меню выбора языка кнопку "ОК", после чего выйдите из меню настроек, нажав в нижней части диалога кнопку "Close", а затем заново зайдите в настройки, выбрав плагин в списке и нажав кнопку "Настроить". Вы увидите, что интерфейс программы стал русскоязычным.

Настройка и начальное обучение

Окно настроек фильтра

Кнопки окна имеют следующие функции:
Кнопка "правила" - вызывает диалог настройки правил для фильтрации по черным/белым спискам. Эта кнопка также дублируется в основном меню The Bat!.
Кнопка "параметры" - вызывает окно редактирования основных параметров фильтра. Рабочая папка фильтра - это место, где хранится фактическая статистическая информация, по которой фильтр ведет оценку писем. По умолчанию эта папка создается как подпапка BayesIt в папке The Bat!, которую при установке последнего вы выбрали как папку для почты по умолчанию.
Файл журнала - это текстовый файл, в который фильтр будет записывать отчет о своей работе по фильтрации писем, а также различные диагностические сообщения. В последних версиях фильтра журналирование по умолчанию включено. Журнал ведется на том же языке, который установлен как язык интерфейса, и дает исчерпывающую информацию о текущей работе фильтра. Если в процессе работы у вас возникают сомнения по поводу работоспособности фильтра - посмотрите сперва этот файл. Обратите внимание, что в пути к рабочей папке и файлу журнала допускается использование переменных окружения.
Число оценочных токенов - это число условных "слов" из письма, которые непосредственно будут участвовать в вычислении оценки писем.
Рекомендованное значение - 15, и менять его, как правило, не требуется.
Расширенная оценка - позволяет в определенных ситуациях игнорировать жестко заданное число оценочных токенов и брать для оценки столько токенов, сколько требуется.
Расширенная оценка не требует дополнительных затрат ресурсов или процессорного времени, однако позволяет несколько улучшить качество распознавания спама в спорных ситуациях.
Белый список заголовков - позволяет указать имена некоторых технических заголовков письма, которые будут полностью игнорироваться при обработке - так, как будто письмо вообще не содержало таких заголовков (например, почта Яндекса может добавлять к письмам, определенный службой Яндекса "Спамооборона" как спам собственный заголовок "X-Oborona-Spam-Flag", который содержит слово "Yes". Если вы хотите исключить влияние подобных заголовков на оценку фильтра, вы можете внести заголовок "x-oborona-spam-flag" в белый список, и таким образом избавиться от влияния данного заголовка). Помимо целых заголовков вы можете добавлять названия отдельных их частей, заменяя остаток слова троеточием (например, "x-spam..." позволит игнорировать все заголовки, названия которых начинаются с x-spam, такие как "x-spam-mark" или "x-spammer").
Опция "Показывать заставку" позволит BayesIt показывать окна с диагностическими сообщениями в случае использования функций программы, которые потенциально могут работать длительное время без взаимодействия с пользователем и тем самым создать впечатление того, что программа зависла. Опция "Вести журнал работы" позволяет настроить сообщения, которые фильтр будет записывать в журнал работы.
· "Общий отчет" включает диагностические сообщения о загрузке/выгрузке плагина, а также диагностические сообщения переобучения базы.
· "Отчет о текущем письме" записывает для каждого оцененного письма его Message-ID (по которому само письмо можно найти в The Bat!), а также оценку, которую фильтр присвоил этому письму.
· "Оценочные токены и значения" позволит фильтру записывать в журнал для каждого письма список токенов, на основании которого была вычислена фактическая оценка письма.

Количество токенов для каждого письма соответствует параметру "число оценочных токенов", или может быть большим, если включен флажок "расширенная оценка".
На вкладке "Локальный алфавит" вы можете настроить правила для декодирования частично-транслитерированных слов - т.е. таких русских слов, у которых часть букв заменена на похожие по начертанию английские, например, "paccылkи" (в этом слове реально русскими являются лишь буквы "ы" и "л" - проверьте!).
Для работы детектора частичного транслитерирования фильтру необходимо знать, во-первых, "локальный" пользовательский алфавит (в нашем случае - русский), а также то, какие из английских букв в подобных "смешанных" словах следует заменять на русские. Детектор работает следующим образом: если в слове находится хотя бы один символ из "национального" алфавита, то все слово считается национальным. Затем в слове ищутся английские буквы, похожие на национальные, и заменяются на них. (Обычно такие слова встречаются лишь в "нежелательной" почте, а также письмах из FIDO-конференций. Нормальным пользователям вряд ли придет в голову заменять русские буквы на аналогичные английские).
Прменение функции частичного транслитерирования позволяет значительно улучшить качество работы фильтр, а также уменьшить размер статистическйо базы словаря за счет хранения всех слов в их "унифицированном" национальном виде, без смеси кодировок.

Окончание следует.

Copyright © Свет в Internet   Designed by Свет в Internet