|
#1
|
|||
|
|||
Алгоритмы принятия решения :)
Stanislav Latishko написал(а) к All в Oct 06 17:52:12 по местному времени:
Нi, All! У всех прошу прощения за злобный и злостный оффтопик. Достали уже гениальные программисты :) Господа гении, хочу предложить вашему вниманию элементарнейшую задачу, "отличающуюся тем" (С) что в ней требуется прини- мать решение, и нести за него ответственность :) (Для тех, кто себя к гениальным программистам не относит, выдаю некоторые технические подробности, которые гениям и так известны, приношу гениям свои извинения за скучное изложение) Задача - фильтрация спама. Дано: имеется несколько десятков "элементарных" признаков спама, среди них как логические "да/нет" (напр.: письмо пришло с dialup'ного ip, в To: содержится "undisclosed recepients", отправитель значится в нашей адресной книге), так и численные (напр. число слов "виагра" в теле письма, число url, и т.п.) При этом ни один из известных признаков не является надежным, позволяющим принять абсолютно верное решение относительно того является ли письмо спамом. Требуется: хотя бы обозначить подходы к решению этой задачи :) - т.е., принятие верного решения на основании совокупности признаков. "Ответственность": за зачисление в спам письма, спамом не являющимся, админа 2.71бут больно :) Просачивание спама в "не-спам" - не так страшно, но скажем 5% просочившегося спама при 1000 писем в день дают нам 50 штук спама в ящике, что эквивалентно потере 10-15 минут рабочего времени, за что админа то же самое, хотя и чуть менее больно :) Современное состояние: наилучшие из "жестких" алгоритмов вылавливают 85-90%. (Исходя из "стоимости ошибки", сомнение толкуется в пользу обвиняемого, то-есть "сомнительные" письма не удаляются, а оставляются в отдельном ящике для ручной фильтрации) Недостаток жестких алгоритмов: они "устаревают" - спамеры постоянно учатся обходить существующие фильтры, поэтому процент про- пущенного спама со временем растет. Наиболее "успешным" на сегодня считается т.н. "байесовский фильтр", относящийся к обучающимся . ("Обучение" состоит в том, что человек вручную просматривает результаты фильтрации и выстваляет признаки "правильно/неправильно") Его недостатки: 1) без "начального обучения" его эффективность хуже чем у жесткого алгоритма 2) в процессе работы, необхо- димо постоянно контролировать правильность фильтрации (т.е. все равно прос- матривать ящик "спам" на предмет ошибочно туда попавших писем) 3) долго работающий фильтр становится "слишком умным" :) и качество фильтрации падает; поэтому рекомендуется периодически обнулять его "базу знаний" и проводить "начальное обучение". Вуаля - задача на сегодняшний день не решена . Придумать более простой пример задачи с принятием решения я не могу. Итак: кто в состоянии данную задачу решить - только тот и имеет право гово- рить "скрипач не нужен". Иначе - звать его звиздюком по жизни ... Агрументированные возражения есть ? ;) -- Stanislav Latishko @@ sl @ sl . spb . su ; 2:5030/949 @@ --- ifmail v.2.14 |