LINUX.ORG.RU

Ordb.org прекращает работу


0

0

Популярный сервер черных списков открытых релев прекращает свою работу после 5 с половиной лет службы в связи с тем, что люди, поддерживающие сервис слишком заняты другими делами. DNS и список рассылки отключены 18го Декабря, сайт будет отключен 31го.

>>> Подробности

★★★★★

Ответ на: комментарий от Sun-ch

>А вообще они говорят "many users experience results between 99.5% - 99.95%, or one error for every 200 to 2000 messages".

Значит если бы это было написано на презервативах -люди бы давно вымерли?

anonymous
()
Ответ на: комментарий от Sun-ch

Sun-ch, во первых, я видел очень много очень больших почтовых серверов. Во вторых, да, применив свои супер знания по означенным тобой вопросам, ты можешь настроить его так, что бы он ловил 99.98% и нарисовать себе эту цифру в портфолио. Но есть 1 "но" (если ты реально видел потоки, а не читал о них в учебнике в районе примеров к нейронным сетям): спам меняется. Поток сегодня и 2 недели назад может отличаться настолько сильно, что твоя "заточенность", на которую ты убил много часов труда, несколько затупится. Еще раз, то о чем я всегда говорил - статистические фильтры требуют к себе массы внимания, знаний и труда. Если тебе это надо - флаг в руки, но почтовик не настолько важная персона для _такого_ внимания. Пусть это внимание ему уделят специальные люди, а я лучше куплю у них результат.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от Shaman007

>Альтернативы - коммерческие или открытые эвристические и статистические фильтры: spamassasin, Kaspersky, spamd, Yandex Сп@мооборона, Symantec Brightmail

Antispam Post от ИНКАПа забыл

Orlangoor ★★★★★
()
Ответ на: комментарий от anonymous

Не знаю как там насчет людей, но один из разработчиков dspam - Jonathan A Zdziarski, автор книги "Ending Spam: Bayesian Content Filtering and the Art of Statistical Language Classification".

Sun-ch
()
Ответ на: комментарий от Sun-ch

И что? Приглашать его лично? Или установить дзен-ловушку: "я все равно недостойный лох, пусть спам идет"? Он ведь тебе базу не пересылает, тебе надо самому его учить, а что это такое, ты должен понимать (если слова про Байеса и Маркова не понт). Еще раз: решение хорошее но трудозатратное.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от Shaman007

А нахрена мне его учить, там эти сотни тысяч клиентов обучают его сами каждую секунду, это саморегулирующаяся система с обратной связью.

Sun-ch
()
Ответ на: комментарий от Shaman007

>И что? Приглашать его лично? Или установить дзен-ловушку: "я все равно недостойный лох, пусть спам идет"? Он ведь тебе базу не пересылает, тебе надо самому его учить, а что это такое, ты должен понимать (если слова про Байеса и Маркова не понт). Еще раз: решение хорошее но трудозатратное.

Шаман, не нужно ьак открыто пиарить Касперскоо, тем более, что в нем нет ничего революционного.

Баесовские фильтры отлично справляются с огромным потоком спама, т.к. это самообучающиеся фильтры, и если через неделю поток меняется кардинально, то в течение очень короткого промежутка времени у анализатора появляется новый "путь", по которому режется новый спам.

>Shaman007 ***** (*) (26.12.2006 14:32:13)

rtc ★★
()
Ответ на: комментарий от Sun-ch

>это саморегулирующаяся система с обратной связью.

Обратная связь подразумевает твою реакцию

dpkg ★★★★
()
Ответ на: комментарий от Sun-ch

А ты уверен, что эти сотни тысяч клиентов вообще понимают, что такое спам? Что они не занесут туда просто легитимные рассылки, которые им не нравятся? Или письма коллеги, которого они не любят? А если кто-то устроит вечер ДДОС атаки затроянив компы так, чтобы они постоянно кормили dspam всякой трудоемкой для разбора фигней? Я бы не поручился за такое. Вот тот же Экслер с гордостью говорил, что давит кнопку спам на все письма, где выражается мнение отличное от него, а он вроде не полный идиот.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от Shaman007

>А ты уверен, что эти сотни тысяч клиентов вообще понимают, что такое спам? Что они не занесут туда просто легитимные рассылки, которые им не нравятся? Или письма коллеги, которого они не любят? А если кто-то устроит вечер ДДОС атаки затроянив компы так, чтобы они постоянно кормили dspam всякой трудоемкой для разбора фигней?

И что? Из 1000 пользователей один пометил сообщение как спам, а остальные нет - вес слов этого сообщения будет мизерным.

Не нужно думать, что подобные системы придуманы идиотами, которые не продумали все варианты, которые может изобрести посетитель ЛОР.

rtc ★★
()
Ответ на: комментарий от rtc

Пиар - это когда говорят "А вот Касперскей самый лучшей!!!". Я так не говорю, не говорил и не буду.

> Баесовские фильтры отлично справляются с огромным потоком спама, т.к. это самообучающиеся фильтры, и если через неделю поток меняется кардинально, то в течение очень короткого промежутка времени у анализатора появляется новый "путь", по которому режется новый спам.

Красивые слова. Это не совсем так, точнее совсем не так. Ответь на вопросы "кто обучает?", "как обрабатываются ошибки?", "как решается проблема переобучения?" и многие другие, заданные здесь. У сигнатурного метода другие проблемы, но они решаются толпой спаманалитиков, которых этому учили.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от Shaman007

>>Что они не занесут туда просто легитимные рассылки, которые им не нравятся?

Случайный выброс (outliers). Статистика такие штуки отсекает.

>>он вроде не полный идиот.

Гм, а я всегда считал наоборот. Сегодня я в своем мнении только укрепился.

geekkoo
()
Ответ на: комментарий от rtc

также наверное думали и некоторые пользователи, вбивая во все попавшиеся поля адульт сайтов номера своих кредитных карт :)

anonymous
()
Ответ на: комментарий от Sun-ch

> Каждый имеет свою персональную базу, с которой может делать все что захочет.

А при пропадании важного письма или падении качества распознавания бежать к админу. Отличное решение. А зачем, прости, тогда это все на сервер водружать? Решай ту же задачу на уровне клиента, не будешь серверную обогревать.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от geekkoo

> Случайный выброс (outliers). Статистика такие штуки отсекает.

О! Ты не видел тех пользователей. Они же, блин, методичны в своих каверзах.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от rtc

> Из 1000 пользователей один пометил сообщение как спам, а остальные нет - вес слов этого сообщения будет мизерным.

Переобучение - это тысячи писем. Это мало даже в пределах 1го пользователя. Пол года работы - и у него страх и ненависть в почте. Да, базу мы тогда сбросим?

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от Shaman007

>Пиар - это когда говорят "А вот Касперскей самый лучшей!!!". Я так не говорю, не говорил и не буду.

Ты говоришь, что "это все плохо, а хорошо у Касперского и ..." :)

>> Баесовские фильтры отлично справляются с огромным потоком спама, т.к. это самообучающиеся фильтры, и если через неделю поток меняется кардинально, то в течение очень короткого промежутка времени у анализатора появляется новый "путь", по которому режется новый спам.

>Красивые слова. Это не совсем так, точнее совсем не так. Ответь на вопросы "кто обучает?", "как обрабатываются ошибки?", "как решается проблема переобучения?" и многие другие, заданные здесь. У сигнатурного метода другие проблемы, но они решаются толпой спаманалитиков, которых этому учили.

Не знаю как у других, но системы, которые я помогал устанавливать (около 1гб писем в сутки, спама порядка 50-80%) изначально настраивадлись на минимальный уровень. После чего им медленно скармливался спам (без автоматическгого обучения "живого" потока). Когда система запускалась на потоке, вес дополнительных слов становился очень мал по сравнению с уже введенными, поэтому проблем обработки ошибок false-positive нет, но есть (иногда немало) false-negative. Для них повторяется тоже самое.

Переобучения нет, т.к. каждое сообщение вносит лишь незначительный шум в выбранную функцию, но есть непрерывное "дообучение", которое иногда (очень редко) требует ручного вмешательства.

>Shaman007 ***** (*) (26.12.2006 14:45:29)

rtc ★★
()
Ответ на: комментарий от Shaman007

Вводить ручками рейтинги пользователей. Вот это ответственный пользователь, его выбору можно доверять с больщей вероятностью, а вот этот - долболюб, его решение учитывается с меньшим весом. В пределах небольшой компании вполне рабочее решение.

geekkoo
()
Ответ на: комментарий от rtc

Около 1гб писем в сутки - объем на котором будет работать почти что угодно, хотя через пол года или год у тебя будет не так все радужно. Мы с санычем тут вроде говорили о больших нагрузках и тысячах пользователей.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от Shaman007

Пользователй можно объединять в группы, а качество фильтрации - на совести пользователя, есть люди рекламу виагры не считают спамом.
К тому же письма не уничтожаются, а помечаются спец. образом, а дальнейшая их судьба решается другими фильтрами, типа sieve или procmail

Sun-ch
()
Ответ на: комментарий от Shaman007

>> Из 1000 пользователей один пометил сообщение как спам, а остальные нет - вес слов этого сообщения будет мизерным.

>Переобучение - это тысячи писем. Это мало даже в пределах 1го пользователя. Пол года работы - и у него страх и ненависть в почте. Да, базу мы тогда сбросим?

Не нужно вырывать фразу из контекста. Чьи были слова об _одном_ письме "от плохого сотрудника или нелюбимой рассылке"?

Повторю, что переобучения не должно быть в принципе - должно быть непрерывное дообучение на выборке, несравнимо меньшей, чем первоначальное обучение - например одновременно тысячи писем при первоначальной выборке >10 гб _спама_.

>Shaman007 ***** (*) (26.12.2006 14:50:23)

rtc ★★
()
Ответ на: комментарий от Shaman007

>Около 1гб писем в сутки - объем на котором будет работать почти что угодно, хотя через пол года или год у тебя будет не так все радужно. Мы с санычем тут вроде говорили о больших нагрузках и тысячах пользователей.

Эта система работает уже несколько лет. Я не вижу причин в невозможности десятикратного масштабирования данной системы при грамотной настройке.

>Shaman007 ***** (*) (26.12.2006 14:54:51)

rtc ★★
()
Ответ на: комментарий от Shaman007

Это не ручная работа, а мнение администратора о пользователях, выраженное в точных математических терминах.

geekkoo
()
Ответ на: комментарий от Shaman007

Вот их оценки "between 0.01s - 0.03s real time for classification and between 0.03s - 0.10s real time for training, on average hardware"

В среднем 20 миллисекунд на письмо при классификации, 180 тыс. писем в час, на среднем оборудовании.

Sun-ch
()
Ответ на: комментарий от Shaman007

С моей точки зрения неправы те, кто использует неадекватные DNSBL-и. И это - их проблема, к ним вся почта из рткомм-а не ходит. Я объяснил это клиентам, и они поняли...

illi
()
Ответ на: комментарий от rtc

To shaman007 b и rtc Вот вы такие прокачаные подскажите мне глупому как лучше посттупить. Сейчас есть около 10 тыс мэйлбоксов, есть у каждого дспам профиль. Как вы и пишите столкнулся с тем что юзеры обучают его х.. знает чем, а потом жалуються что проходит спам. Делать точ что? Ставить один глобальный фильтр и садидить девочку/мальчика что бы обучала ?

anonymous
()
Ответ на: комментарий от LifeWins

гребанный spamhaus.org захерачил сетку /19, которая состоит из некоторого количества сеток /28 и /29 в спамеры.

ss
()
Ответ на: комментарий от Shaman007

>spamassassin и spmad на более чем 100 клиентах - лажа: либо переобучается либо недообучается и медленно работают

Shaman007, либо ставь IMHO, либо прекрати дезинформацию. Могу показать сервис, от 10000 клиентов где spamassassin based решение работает эффективнее Kaspersky Anti Spam (замерялась статистика у клиентов)

>твоя "заточенность", на которую ты убил много часов труда, несколько затупится.

Нет, делаются обратные связи и система становится способной к автоподстройке в весьма широком диапазоне.

>Мы с санычем тут вроде говорили о больших нагрузках и тысячах пользователей.

Dspam по результатам тестов и реальной нагрузки протягивает 25-30 msg/sec на стандартном 2 Xeon тазике с учетом персональных юзверьских баз. Можешь пересчитать на Gb. Кол-во пользователей тут значения почти не играет.

Alter ★★
()
Ответ на: комментарий от anonymous

>To shaman007 b и rtc Вот вы такие прокачаные подскажите мне глупому как лучше посттупить. Сейчас есть около 10 тыс мэйлбоксов, есть у каждого дспам профиль. Как вы и пишите столкнулся с тем что юзеры обучают его х.. знает чем, а потом жалуються что проходит спам. Делать точ что? Ставить один глобальный фильтр и садидить девочку/мальчика что бы обучала ?

Я предпочитаю ставить один главный фильтр, после которого _по желанию_, можно ставить per-user фильтры. Главная задача настроить главный фильтр так, чтобы он не ловил правильные письма (накопить базу "чистого" спама за долгий промежуток времени), даже если процент прохождения спама достаточно большой. Потом можно ставить дополнительные фильтры "полегче", например per-user spamassasin или bmf, а можно и dspam, его уже пусть сами обучают чем хотят.

rtc ★★
()
Ответ на: комментарий от vovans

не знаю, как у шамана, у нас около 1000 пользователей, так spamd+ qmail+spamassassin+clamav+procmail(для отстрела вирусов) отстреливают 97% спама.
после того, как наша сетка оказалась в спамерах (огромное "спасибо" спамхаузу, если бы встретил -- убил бы), политика приема писем была изменена.
spamd отстреливаем все фэйки, qmail отстреливает все выполняемые сигнатуры у писем (clamav, nod, kav, symantec пропустили вирусняк), все остальное сделают spamassassin+clamav+procmail. просто надо правильно настроить spamassassin. после того, как письмо обнаружено, как потенциальный спам, его можно отдать на откуп юзерю или задействовать procmail.

ss
()
Ответ на: комментарий от Shaman007

>Вот тот же Экслер с гордостью говорил, что давит кнопку спам на все письма, где выражается мнение отличное от него, а он вроде не полный идиот.

вызывающе неверная информация (я не про "давит кнопку" :)))

AcidumIrae ★★★★★
()
Ответ на: комментарий от Alter

> Могу показать сервис, от 10000 клиентов где spamassassin based решение работает эффективнее Kaspersky Anti Spam (замерялась статистика у клиентов)

Не верю. Позволю себе поинтересоваться аппаратной составляющей решенияю

> Нет, делаются обратные связи и система становится способной к автоподстройке в весьма широком диапазоне.

Ради бога. Вопрос зачем вообще городить этот огород.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от ss

> qmail отстреливает все выполняемые сигнатуры у писем

OMG, LOL! Бедные ваши пользователи.

> (clamav, nod, kav, symantec пропустили вирусняк)

Кривые руки, вы уж меня извините. Еще очень интересует вопрос, как был прикручен симантек, у него FreeBSD решения только для OEM'a.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от Shaman007

>Не верю. Позволю себе поинтересоваться аппаратной составляющей решенияю

Два Dual Xeon, SCSI сервера.

Alter ★★
()
Ответ на: комментарий от anonymous

Насчет этой не знаю но 8100,8200 была говном.Настроек маловато невозможно отключить проверку на некоторых пользователей. По крайней мере долго так было, не знаю как сейчас. Из-за этого часть писем рубилась при невозможность проверить с сообщением мэй би денжероус - отправлен на йух.Еще одна веселость дофига может гадить на http ftp прокачках в большие архивные файлы.Проверка показала при передаче через ftp а потом sftp изменяется md5sum. Разница в несколько байт. Подумаваю что кашмарский получше этой штуки(хотя черт его знает). Так же бывает обрыв соединения через http хотя вроде все в порядке должно быть. И упаси вас бог пользоватся(если в данной модели еще осталось) фильтром web контента. Panda не имела и помоему до сих пор не имеет собственного списка адресов по категориям, а пользуется списками какой-то конторы. В один прекрасный день туда попали куча россиских сайтов(кто-то загадил базы) и встало раком пока не отрубили проверку нах. Так же кластерная возможность, которая была в 8100, 8200 по каким то причинам через некоторое время рубили всю перекачку через себя.Приходилось перезагружать и в конечном итоге отказались от кластеризации. Есть только один плюс. Они свое решение в железе выпустили раньше и обкатали чем другие. Может сейчас с новым софтом там уже все гламурно не знаю, Меня терзают смутные сомнения. К тому же отклик на новые вирусы у них бывает неоправданно долгим.Без кламава на почтовике сетка наверное раза 3 уже раком бы встала из-за почтовых вирусов.

anonymous
()
Ответ на: комментарий от anonymous

Это релей. SSL трафик скорее всего не сканирует (сервер сертификатов на таких решениях большая-большая редкость). Juniper и Bluecoat интереснее. И Astaro тоже.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от Shaman007

>Это релей. SSL трафик скорее всего не сканирует (сервер сертификатов на таких решениях большая-большая редкость). Juniper и Bluecoat интереснее. И Astaro тоже.

В смысле работает как прозрачный прокси? А спамеры по SSL могут спокойненько слать? :)

anonymous
()
Ответ на: комментарий от anonymous

Такие решения почти никогда не сканируют пакеты (сканирую пакеты как правило SOHO рутеры без диска). Они работают как transparent или нетранспарент прокси для SMTP, POP, HTTP (хорошо, если через икап, а так ведь многие через редирект с замещающей страничкой (Astaro)). Они выдирают из протокола объекты, которые можно сканировать или целые письма-файлы. Иногда умеют отдавать выдраный контент на внешний проверяльщик. Как правило дают хорошую морду к работе с VPN'aми и увязыванью их с iptables, snort и чем-еще-надо (за что их очень любят в небольших конторах). Как правило имеют ряд удивительных грабель, вроде невозможности настроить какую-то маленькую опцию.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от anonymous

> А спамеры по SSL могут спокойненько слать?

Через какой протокол? Да, как правило там можно вообще рубит HTTP/CONNECT.

Shaman007 ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Так у тебя он как smtp relay работает. SMTP не SSLпрозрачен, SSL там может быть либо до, либо после, но никак не внутри. А если соединения по 25 (да и любому) порту транслируются напрямую, это порево, тут никакой антивирус не поможет (у тебя же из корпоративной сетки клиенты не на прямую к SMTP провайдера фигачат я надеюсь?). Криптованного спама для своих или без паролей я пока не видел :-)

Shaman007 ★★★★★
() автор топика

земля пухом

W ★★★★★
()

Вставлю свои 5 копеек...

Собственно, при достаточно большой выборке спама действие всей "эвристики" сведется к банальному поиску слов типа "sex", "fuck", "viagra", "price" и их производных (типа через пробел написанные буквы, подмены на цифры, сокращения и т. п.). Все очень просто: это действительно единственная связь между всеми спамерскими письмами. :-)

Иначе (например) было бы очень просто подбирать номера кредиток/карт оплаты и т. д., просто скормив нейронной сети известные цифирки. :-)

Проблема заключается в том, что слова эти могут встретиться и в "белой" почте: например, в коммерческом предложении компании-клиента. Или в письме от любовницы о том, как она ХОЧЕТ. ;-)

В этом отношении резать именно по IPшникам одно из самых правильных решений: 100% фильтрации все-равно не добьешься, а вот ложные срабатывания крайне нежелательны ввиду того, что можно потерять клиента... или любовницу ;-)

R00T
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.