LINUX.ORG.RU
ФорумTalks

[Gmail][шрифты]Самый быстрый спам-фильтр

 ,


0

0

http://wadejolson.wordpress.com/2008/04/08/worlds-fastest-spam-filter/

<Ъ>Wade Olson в своем блоге опубликовал открытое письмо к гуглу, в котором просит отсеивать как спам все письма, которые содержат кириллицу, китайские иероглифы, и другие знаки из алфавитов в этом списке. http://en.wikipedia.org/wiki/List_of_alphabets кроме лтиницы</Ъ>

Православная кириллица опасносте?

HighwayStar ★★★★★
() автор топика

А может его самого отсеить уже?

Oceanborn
()

ну он пойдёт в лес, конечно же

overmind88 ★★★★★
()

на самом деле некоторым людям была бы полезна опция "оставить письма только с n языком" - зачем например им читать письма, язык которых они не знают?

chicane
()

Предлагаю откомментить ему, чтобы выучил албанский.

true
()

Разумное зерно в этом есть. Я-бы хотел обозначить несколько языков в которых принимаю почту, все остальное - мусор.

Мне не интересны иероглифы или муть на идише.

anonymousI
()

А что, идея вполне себе неплохая. Учитывая что 90% спама прет с кириллицей.

smh ★★★
()
Ответ на: комментарий от true

можно пропускать письма, которые содежут хоть пару слов из "моего" языка

chicane
()
Ответ на: комментарий от Ian

>Заевшийся буржуй. Он думает, что весь мир должен крутиться вокруг него?

+1

Такие же как он выступают против utf8.

HighwayStar ★★★★★
() автор топика
Ответ на: комментарий от true

Тебе на идише и китайском одновременно часто письма шлют?

Фичу можно сделать отключенной по умолчанию. Сомнительные письма прошедшие общие спамфильтры складывать в инбокс.

anonymousI
()
Ответ на: комментарий от HighwayStar

Именно. Ему не надо, значит и всем не надо.

В принципе, если из его идеи вырезать весь эгоизм, то можно сделать неплохую вещь.

1. Такой фильтр - опция;
2. При настройке выбираются языки, которые ты разрешаешь пропускать, остальные в спам;
3. В настройку добавить галочку, что если письмо мультиязыковое и в нем есть разрешенный язык - пропускать;

У меня 90 процентов спама на китайском, уже не знаю почему, и с китацами 
я не общаюсь, поэтому я бы китайский язык не пропускал. Зато есть письма
на английском, русском, немецком.

Ian ★★
()

Он не о том говорит, он просит сделать так, что бы ЛИЧНО К НЕМУ не приходило ничего кроме латинницы, потому, что он других языков просто не знает. Это логично, в нашем антиспаме (и во многих других) есть правило "считать спамом все среднеазиатские и дальневосточные языки" просто потому, то так будет отсеяно _у_данных_конкретных_пользователей_ много спама совершенно правильно. Я тоже хочу опцию "не разумею японский и китайский".

Shaman007 ★★★★★
()
Ответ на: комментарий от true

> Транслит корявый и безграмотную речь как распознавать будешь?

Нормализатором, конечно. А как ты думаешь антиспамы работают? Они и для номера телефона l,O или S вполне себе допустимыми символами считают.

Shaman007 ★★★★★
()
Ответ на: комментарий от true

А как ты вообще собираешься распознавать язык? Ответь на этот вопрос, тогда я тебе скажу как распознать транслит и безграмотную речь. Хотя ты скорее уже сам поймешь.

Ian ★★
()
Ответ на: комментарий от Ian

Че тут думать. Шаман вон все сказал. Приводишь к определенной кодировке текст, а дальше уже можно голой статистикой буквосочетаний работать. Быстро и очень эффективно. Главное вменяемые данные по языкам иметь или самим из базы текстов сделать.

anonymousI
()

А зачем вообще спамеры рассылают спам на русском если англоговорящая целевая аудитория намного больше чем русскоговорящая?

HighwayStar ★★★★★
() автор топика

А если спам содержит 1 единственную гифку? прсобачить движок ocr?

AiFiLTr0 ★★★★★
()

Как альтернатива - выучить всем лнгву и/или эсперанто и не принимать почту ни на каких языках кроме этих. Спасет пока спамеры не вразумеют сии языки.

AiFiLTr0 ★★★★★
()
Ответ на: комментарий от HighwayStar

Слышал такую версию, что антиспамы многие с русским справляются хуже или вообще не справляются. Оттого и кажущееся засилье русского спама.

anonymous
()
Ответ на: комментарий от anonymous

потому что русский текст рассылается в разных кодировках. тобишь cp1251, koi8-r и utf-8. А большинство спам фильтров перекодировку перед анализом не делают. Вот и получается, правила написаны на koi8, письмо cp1251 -- ессно 0 совпадений.

mrdeath ★★★★★
()

а неча по сайтам с лунными лолями серфить тогда и спам будет только на правильных языках приходить.

cobold ★★★★★
()

круто, но у меня весь спам на русском и английском. как его фильтр мне поможет?

generatorglukoff ★★
()
Ответ на: комментарий от true

вообще то там по-моему речь шла об алфавитах а не о языках

chicane
()
Ответ на: комментарий от mrdeath

Это потому, что у забугорных спаманалитиков мало сэмплов нашего спама (секрет: у нас мало их, особенно какого-нибудь Австралийского. Нет, это реально тяжело, влиться в австралийскую фишканет-лор-двач аналогм так, чтобы на твой ящик шел спам качественно Австралийский, надо с тамошними провайдерами кооперироваться, но я отвлекся).

Кодировки, транслит и прочее - все решаемо. В конце концов, пользовательский MUA должен это все отобразить, так что в спаме как раз указания в какой именно оно кодировке идет есть (другое дело, что коряво, особенно в subject).

Shaman007 ★★★★★
()
Ответ на: комментарий от mrdeath

А спамфильтрам, которые можно обдурить кодировкой, место в /dev/null.

Shaman007 ★★★★★
()

Нормальные спаморезки давно позволяют отметить какие языки пропускать, а какие - в спам.

Darkman ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.