Алгоритмы принятия решения :)

#1 15.10.2018, 16:58

Stanislav Latishko написал(а) к All в Oct 06 17:52:12 по местному времени:

Нi, All!

У всех прошу прощения за злобный и злостный оффтопик. Достали уже
гениальные программисты :) Господа гении, хочу предложить вашему вниманию
элементарнейшую задачу, "отличающуюся тем" (С) что в ней требуется прини-
мать решение, и нести за него ответственность :) (Для тех, кто себя к
гениальным программистам не относит, выдаю некоторые технические подробности,
которые гениям и так известны, приношу гениям свои извинения за скучное
изложение)

Задача - фильтрация спама. Дано: имеется несколько десятков
"элементарных" признаков спама, среди них как логические "да/нет" (напр.:
письмо пришло с dialup'ного ip, в To: содержится "undisclosed recepients",
отправитель значится в нашей адресной книге), так и численные (напр. число
слов "виагра" в теле письма, число url, и т.п.) При этом ни один из
известных признаков не является надежным, позволяющим принять абсолютно
верное решение относительно того является ли письмо спамом.

Требуется: хотя бы обозначить подходы к решению этой задачи :) -
т.е., принятие верного решения на основании совокупности признаков.

"Ответственность": за зачисление в спам письма, спамом не являющимся,
админа 2.71бут больно :) Просачивание спама в "не-спам" - не так страшно, но
скажем 5% просочившегося спама при 1000 писем в день дают нам 50 штук спама
в ящике, что эквивалентно потере 10-15 минут рабочего времени, за что админа
то же самое, хотя и чуть менее больно :)

Современное состояние: наилучшие из "жестких" алгоритмов вылавливают
85-90%. (Исходя из "стоимости ошибки", сомнение толкуется в пользу обвиняемого,
то-есть "сомнительные" письма не удаляются, а оставляются в отдельном ящике
для ручной фильтрации) Недостаток жестких алгоритмов: они "устаревают" -
спамеры постоянно учатся обходить существующие фильтры, поэтому процент про-
пущенного спама со временем растет. Наиболее "успешным" на сегодня считается
т.н. "байесовский фильтр", относящийся к обучающимся . ("Обучение" состоит
в том, что человек вручную просматривает результаты фильтрации и выстваляет
признаки "правильно/неправильно") Его недостатки: 1) без "начального обучения"
его эффективность хуже чем у жесткого алгоритма 2) в процессе работы, необхо-
димо постоянно контролировать правильность фильтрации (т.е. все равно прос-
матривать ящик "спам" на предмет ошибочно туда попавших писем) 3) долго
работающий фильтр становится "слишком умным" :) и качество фильтрации падает;
поэтому рекомендуется периодически обнулять его "базу знаний" и проводить
"начальное обучение".

Вуаля - задача на сегодняшний день не решена .

Придумать более простой пример задачи с принятием решения я не могу.
Итак: кто в состоянии данную задачу решить - только тот и имеет право гово-
рить "скрипач не нужен". Иначе - звать его звиздюком по жизни ...

Агрументированные возражения есть ? ;)
--
Stanislav Latishko

@@ sl @ sl . spb . su ; 2:5030/949 @@
--- ifmail v.2.14