Подскажите, куды можно покопать. На форуме в паблике и личке иногда рассылают спам, хочу автоматизировать детектирование и выпиливание. Пока встречается 2 варианта:
1. Тупая рассылка копий.
2. Целевые ссылки на свои сайтеги, раздающиеся торгонавтами в ответ на посты юзеров
Интересует, как дешево и сердито детектить подобные вещи. С [1] более-менее понятно, там можно просто CRC посчитать и проверять количество повторов за период.
Насчет [2] есть нюансы - нельзя мешать обычным юзерам раздавать ссылки на популярные шопы. То есть хочется учесть:
- «распределение» доменных имен в конкретном аккаунте (выявлять явные пики)
- уникальность доменного имени (учитывать степень популярности на всем форуме)
- плотность за период (бывают тихие спамеры, бывают интенсивные, интенсивных надо банить как можно быстрее)
- распределение получателей (с другом-петей можно трепаться до опупения, и это не будет спамом)
Естественно, нужно по возможности простое частное решение, а не обобщение с прикручиванием баесов и кластеризации. Посоветуйте что почитать и «какую прогу кочать».
PS. [1] Наверное можно свести ко второму варианту. Разница в интенсивности - обычно таких сообщений рассылают сразу большую пачку, и хочется их резать немедленно.