LINUX.ORG.RU
ФорумTalks

Возможно ли анти-спам фильтр превратить в личного цензора?

 , , , ,


0

2

Вот моё понимание работы антиспам-фильтра: Хорошие анти-спам фильтры постоянно самообучаются используя разнообразные хитроумные алгоритмы.

Так например, если спамеры часто употребляют фразу «предложение от которого невозможно отказаться», то через некоторое антиспам-фильтр начнёт с подозрением относиться к письмам с данным словосочетанием(или даже с похожими словосочетаниями), с большей вероятностью считая их спамом. А через некоторое время, если тренд сохранится, вовсе будет сразу отмечать их как спам при одном только виде данной фразы.

Впрочем, на ошибках анти-спам фильтр тоже может учиться. Если я «помилую» какое-то из писем, то в следующий раз фильтр будет уже более осторожным с подобными письмами.

Но если на то пошло, что в принципе мешает использовать антиспам-фильтр(подразумевается, что он установлен на вашем личном компьютере) как персонального карманного цензора?

Предположим, написать расширение для браузера, которое будет работать на основе алгоритмов анти-спама. После некоторой тренировки(подозреваю что её продолжительность будет зависеть от интенсивности веб-серфинга) наш карманный цензор будет в фоне подгружать страницы на которые ведут ссылки текущей страницы, анализировать их содержание, и в случае срабатывания визуально перечёркивать эти ссылки (или даже вовсе удалять, чтобы глаза не мозолили).

Для примера, если я ежедневно читаю новости и меня уже конкретно задолбали сообщения про «кровавую киевскую хунту» и «превращении США в радиоактивный пепел», то я скармливаю фильтру несколько десятков разнородных примеров новостей этой темы. Умничка-фильтр через некоторое время подсчитает, что например такие словосочетания как «радиоактивный пепел» резко повышают шансы статьи на вылет. Или например, что слова «переговоры» и «Путин» в отдельности хорошие, но вот при нахождении их в одном абзаце статья тут же отправляется на свалку.

Можно сделать фильтрацию ещё тоньше, фильтруя только отдельные абзацы или даже фразы, но думаю на данном этапе мне будет достаточноу увидеть грубый proof-of-concept.

Ну так как, существуют ли подобные реализации «карманного цензора»? Может быть вы хотя бы слышали где-то об этом или даже сами написали что-то в этом духе?

Или же даже с чисто теоретической точки зрения подобное использование антиспам-фильтра невозможно, так как их алгоритмы будут слишком тупы, чтобы использоваться в таком качестве? Или же возможно, но для эффективной работы фильтру предвратительно потребуется натаскаться на просто огромном массиве информации?

Deleted

Последнее исправление: Deleted (всего исправлений: 1)

Я сам себе цензор. Вот уже год у меня маленький и уютный интернет. Никаких разоблачений, ломающих новостей, никаких сисек, никаких социалочек, никаких япов и фишек, никаких блох в свитере, никаких принципиально новых смартфонов. Только ЛОР (кроме него нет интернетов), пара около-линуксовых форумов и сайтов и поисковик Спутник DuckDuckGo. Все новости получаю в RSS-клиент и трачу на ознакомление 5-10 минут.

Только так можно встать на путь духовного очищения и всего себя посвятить всему себе.

user42 ★★
()

меня уже конкретно задолбали сообщения про «кровавую киевскую хунту»

Прячешь голову в песок?

drull ★☆☆☆
()
Ответ на: комментарий от user42

Я сам себе цензор

Я тоже, но мне просто интересна сама концепция.

Deleted
()

У меня была почти такая же задача: вытянуть RSS-фиды и рассортировать item'ы на условно хорошие и условно плохие (т.е. которые понравятся и которые не понравятся). Взял фильтр Байеса (вот эта реализация), обучается быстро, работает сносно (точность ~80%).

E ★★★
()
Ответ на: комментарий от E

Не мог бы написать подробней об своём опыте? Например, про что были RSS-фиды, какие статьи фильтровал и какие «миловал»? Думаю не только мне, но и всем остальным будет интересно.

Deleted
()
Ответ на: комментарий от Deleted

Фиды про что угодно (в основном IT-тематика, есть пару новостных сайтов), это персональный консольный фидер, качает записи и раскладывает по директориям. А дальше модуль на основе того WWTS определяет категорию текста (хорошая/плохая) и плохие выбрасывает в корзину.

Фильтрую по «общему впечатлению», без особого внимания к ключевым словам, Байес-фильтр за меня это прекрасно умеет делать.

Обучал вручную, примерно сотни файлов хватило. Сейчас успешно фильтрует, например, неинтересную мне веб-разработку и SEO, зато оставляет C++ и Linux. По каким словам фильтрует - не знаю, как-то пытался проверить, но лень было разбираться со структурой pickle-файла.

E ★★★
()

Так оно уже и так есть. Достаточно читать только ЛОР, чтобы знать все на свете и в нужной интерпретации.

abraziv_whiskey ★★★★★
()
Ответ на: комментарий от Deleted

Язык не имеет значения, он бьёт текст по токенам, разделённым пробелами (и это настраивается), получается некоторый набор токенов, каждому присваивается число в зависимости от его «положительности» или «интересности» (число может быть и отрицательным), числа суммируются и сумма сравнивается с некоторым пороговым значением. Веса каждого токена настраиваются при обучении: если обучить как положительный текст, каждое слово получит +1, если отрицательный - -1. Это суть фильтра Байеса.

E ★★★
()

Подписался. Тоже задолбали новости про кровавую гебню и «русские идут!». Правда, боюсь, после такой фильтрации новостей не останется.

ViTeX ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.