Возможно ли анти-спам фильтр превратить в личного цензора?

антиспам, самообучение, спам, фильтр, цензура

0

2

Вот моё понимание работы антиспам-фильтра: Хорошие анти-спам фильтры постоянно самообучаются используя разнообразные хитроумные алгоритмы.

Так например, если спамеры часто употребляют фразу «предложение от которого невозможно отказаться», то через некоторое антиспам-фильтр начнёт с подозрением относиться к письмам с данным словосочетанием(или даже с похожими словосочетаниями), с большей вероятностью считая их спамом. А через некоторое время, если тренд сохранится, вовсе будет сразу отмечать их как спам при одном только виде данной фразы.

Впрочем, на ошибках анти-спам фильтр тоже может учиться. Если я «помилую» какое-то из писем, то в следующий раз фильтр будет уже более осторожным с подобными письмами.

Но если на то пошло, что в принципе мешает использовать антиспам-фильтр(подразумевается, что он установлен на вашем личном компьютере) как персонального карманного цензора?

Предположим, написать расширение для браузера, которое будет работать на основе алгоритмов анти-спама. После некоторой тренировки(подозреваю что её продолжительность будет зависеть от интенсивности веб-серфинга) наш карманный цензор будет в фоне подгружать страницы на которые ведут ссылки текущей страницы, анализировать их содержание, и в случае срабатывания визуально перечёркивать эти ссылки (или даже вовсе удалять, чтобы глаза не мозолили).

Для примера, если я ежедневно читаю новости и меня уже конкретно задолбали сообщения про «кровавую киевскую хунту» и «превращении США в радиоактивный пепел», то я скармливаю фильтру несколько десятков разнородных примеров новостей этой темы. Умничка-фильтр через некоторое время подсчитает, что например такие словосочетания как «радиоактивный пепел» резко повышают шансы статьи на вылет. Или например, что слова «переговоры» и «Путин» в отдельности хорошие, но вот при нахождении их в одном абзаце статья тут же отправляется на свалку.

Можно сделать фильтрацию ещё тоньше, фильтруя только отдельные абзацы или даже фразы, но думаю на данном этапе мне будет достаточноу увидеть грубый proof-of-concept.

Ну так как, существуют ли подобные реализации «карманного цензора»? Может быть вы хотя бы слышали где-то об этом или даже сами написали что-то в этом духе?

Или же даже с чисто теоретической точки зрения подобное использование антиспам-фильтра невозможно, так как их алгоритмы будут слишком тупы, чтобы использоваться в таком качестве? Или же возможно, но для эффективной работы фильтру предвратительно потребуется натаскаться на просто огромном массиве информации?

Ссылка

← С уделал Python по скорости разработки ;)

За что я не люблю питонистов. →

Я сам себе цензор. Вот уже год у меня маленький и уютный интернет. Никаких разоблачений, ломающих новостей, никаких сисек, никаких социалочек, никаких япов и фишек, никаких блох в свитере, никаких принципиально новых смартфонов. Только ЛОР (кроме него нет интернетов), пара около-линуксовых форумов и сайтов и поисковик ~~Спутник~~ DuckDuckGo. Все новости получаю в RSS-клиент и трачу на ознакомление 5-10 минут.

Только так можно встать на путь духовного очищения и всего себя посвятить всему себе.

user42 ★★
(30.11.14 13:31:31 MSK)

меня уже конкретно задолбали сообщения про «кровавую киевскую хунту»

Прячешь голову в песок?

drull ★☆☆☆
(30.11.14 13:32:34 MSK)

Ссылка

Ответ на: комментарий от user42 30.11.14 13:31:31 MSK

Я сам себе цензор

Я тоже, но мне просто интересна сама концепция.

Deleted
(30.11.14 13:33:16 MSK)

Ссылка

У меня была почти такая же задача: вытянуть RSS-фиды и рассортировать item'ы на условно хорошие и условно плохие (т.е. которые понравятся и которые не понравятся). Взял фильтр Байеса (вот эта реализация), обучается быстро, работает сносно (точность ~80%).

E ★★★
(30.11.14 13:40:50 MSK)

Ответ на: комментарий от E 30.11.14 13:40:50 MSK

Не мог бы написать подробней об своём опыте? Например, про что были RSS-фиды, какие статьи фильтровал и какие «миловал»? Думаю не только мне, но и всем остальным будет интересно.

Deleted
(30.11.14 13:43:40 MSK)

Ответ на: комментарий от Deleted 30.11.14 13:43:40 MSK

Фиды про что угодно (в основном IT-тематика, есть пару новостных сайтов), это персональный консольный фидер, качает записи и раскладывает по директориям. А дальше модуль на основе того WWTS определяет категорию текста (хорошая/плохая) и плохие выбрасывает в корзину.

Фильтрую по «общему впечатлению», без особого внимания к ключевым словам, Байес-фильтр за меня это прекрасно умеет делать.

Обучал вручную, примерно сотни файлов хватило. Сейчас успешно фильтрует, например, неинтересную мне веб-разработку и SEO, зато оставляет C++ и Linux. По каким словам фильтрует - не знаю, как-то пытался проверить, но лень было разбираться со структурой pickle-файла.

E ★★★
(30.11.14 14:05:24 MSK)

Ответ на: комментарий от E 30.11.14 14:05:24 MSK

А с русским языком он справляется? Или только с английским?

Deleted
(30.11.14 14:24:11 MSK)

Так оно уже и так есть. Достаточно читать только ЛОР, чтобы знать все на свете и в нужной интерпретации.

abraziv_whiskey ★★★★★
(30.11.14 14:36:09 MSK)

Ссылка

Ответ на: комментарий от Deleted 30.11.14 14:24:11 MSK

Язык не имеет значения, он бьёт текст по токенам, разделённым пробелами (и это настраивается), получается некоторый набор токенов, каждому присваивается число в зависимости от его «положительности» или «интересности» (число может быть и отрицательным), числа суммируются и сумма сравнивается с некоторым пороговым значением. Веса каждого токена настраиваются при обучении: если обучить как положительный текст, каждое слово получит +1, если отрицательный - -1. Это суть фильтра Байеса.

E ★★★
(30.11.14 14:44:30 MSK)