LINUX.ORG.RU

Нужен колхозный детектор спама

 


0

2

Подскажите, куды можно покопать. На форуме в паблике и личке иногда рассылают спам, хочу автоматизировать детектирование и выпиливание. Пока встречается 2 варианта:

1. Тупая рассылка копий.
2. Целевые ссылки на свои сайтеги, раздающиеся торгонавтами в ответ на посты юзеров

Интересует, как дешево и сердито детектить подобные вещи. С [1] более-менее понятно, там можно просто CRC посчитать и проверять количество повторов за период.

Насчет [2] есть нюансы - нельзя мешать обычным юзерам раздавать ссылки на популярные шопы. То есть хочется учесть:

- «распределение» доменных имен в конкретном аккаунте (выявлять явные пики)
- уникальность доменного имени (учитывать степень популярности на всем форуме)
- плотность за период (бывают тихие спамеры, бывают интенсивные, интенсивных надо банить как можно быстрее)
- распределение получателей (с другом-петей можно трепаться до опупения, и это не будет спамом)

Естественно, нужно по возможности простое частное решение, а не обобщение с прикручиванием баесов и кластеризации. Посоветуйте что почитать и «какую прогу кочать».

PS. [1] Наверное можно свести ко второму варианту. Разница в интенсивности - обычно таких сообщений рассылают сразу большую пачку, и хочется их резать немедленно.

★★★★★

С [1] более-менее понятно, там можно просто CRC посчитать и проверять количество повторов за период.

а дубли полные или например в одних а русское, в других а латинское и т.п.?

То есть хочется учесть:

посмотреть готовые и дописать своё чего не хватает, ИМХО

Посоветуйте что почитать и «какую прогу кочать».

ссылки 1 2 A B C

anonymous
()
Ответ на: комментарий от anonymous

Там где дубли - полные копии, без рандомных замесов. Там где ссылками спамят - ссылки разные, домен один.

Байес не подойдет - во-первых его надо тренировать, во-вторых тупо данных не хватит (спама почти нет, по сравнению с почтой).

Как уже говорил - хотелось бы решить задачу для частного случая, без байесов и слишком разухабистых датамайнингов.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

ну тогда модель которая «выпадающие» из среднего случаи детектить надо обучать, придется включать и контекст поста в признаки...

вообще то что хочется без нехилого «разухабистого датамайнинга» не получится сделать :) Это тянет на такую нехилую модель CRF на пару десятков мегабайт размером :) и врезультате еще, поскольку спам редкие события, AUC у такой модели должен 0.99 быть, иначе фальшепозитив зашкалит :)

psv1967 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.