LINUX.ORG.RU

Прозрачный прокси с интеллектуальным фильтром рекламы


0

0

Обычно для отфильтровывания рекламы используются чёрные списки. Решение достаточно простое, но если сравнивать его с интеллектуальными способами фильтрации рекламы, у него есть ряд недостатков:

  • При использовании чёрных списков вы всегда отстаёте на один шаг, добавляя в списки адреса уже показаной рекламы. Таким образом, эффективность чёрных списков просто не может быть высокой. Заметно уступая эвристическим методам, которые позволяют ограничивать рекламу с любых адресов, в том числе и неизвестных, определяя её по ряду признаков.
  • При достаточно большом трафике и разнообразии посещаемых сайтов чёрные списки имеют свойство занимать достаточно большие объёмы, соответственно проверка каждого адреса на принадлежность чёрному списку начинает занимать значительное время и нагрузка на прокси-сервер растёт.

Поэтому гораздо эффективнее использовать интеллектуальные фильтры, которые определяют рекламу по другим признакам. Например, по размеру изображения. Ну или попыткам скриптов открывать какие-то окна без ведома пользователя.

В Linux для организации такого фильтра удобно использовать bfilter в связке со squid.

Как можно настроить прозрачный прокси с удалением рекламы с использованием интеллектуальных методов описано в предлагаемой статье.

>>> Статья

>>Затем открываем в редакторе файл /etc/bfilter/config и правим следующим образом: меняем значение параметра "ad_border" на "none", т.е. отключаем отображение границ вырезаной рекламы (уж больно не эстетично они выглядят:)). Так же меняем значение параметра &qupt;page_cleanup" на "safe", чтобы не просто блокировать рекламу, но и по возможности вырезать её код, из кода загружаемых страниц. Здесь так же ещё возможно значение "maximum", но в этом случае возможны поломки кода, что нежелательно.

>>На этом настройка bfilter заканчивается

мда... неужели наконец-то изобрели телепатический интерфейс, который рекламу режет?

deadman ★★
()
Ответ на: комментарий от anonymous

еще бы : чтобы показало нужно приобрести ентерпрайз-версию)

grimp3ur
()

>Поэтому гораздо эффективнее использовать интеллектуальные фильтры, которые определяют рекламу по другим признакам.

Есть подозрение, что это 4.2 Ибо куда проще сравнить урл, чем применять сложные правила. И сдается мне что, при развитии рынка рекламы правил этих будет все больше и больше.

А вот что пишут о бфилтре: "Unlike the majority of similar tools, it doesn't rely on a list of blocked URLs, but instead parses HTML on the fly, and detects ads using a set of heuristic rules. BFilter has a built-in JavaScript engine which detects popups and js-generated ads."

По сему эффективностью тут и не пахло.

anonymousI
()

Подумаешь. Вот поэтому и растет рынок контекстной рекламы. Пока не появится ИИ - никуда такая реклама не исчезнет.

gaux ★★
()
Ответ на: комментарий от anonymous

Скорее всего отсекаются адреса по маскам наподобии ad.* или */ad?=*

Хотя если учесть что большинство рекламы находится на всешних относительно сайта адресах то проще не загружать картинки с левых адресов (кстати, это одна из немногих искаробочных фич ФФ которой нет в Опере)

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от anonymousI

Другое дело когда некоторые умники, покупают сжиматели интернета, платят бабки только за что им эту рекламу сжимают.
Может хоть ктото из таких задумается.
ПО мне так проще регекспов понаделать.

fMad ★★
()

>>интеллектуальные фильтры, которые определяют рекламу по другим признакам

Правительство Китая прикрутить надо из недавней темы

anonymous
()

>>интеллектуальные фильтры, которые определяют рекламу по другим признакам

Правительство Китая прикрутить надо из недавней темы

anonymous
()

Игнорируя рекламу вы способствуете скорейшей коммерциализации Интернета. Скоро уже совсем не останется бесплатных сайтов с приличным контентом.

anonymous
()

Не нравятся мне выражения в статье, как будто какой-то маркетоид писал. По пунктам:

>При использовании чёрных списков вы всегда отстаёте на один шаг, добавляя в списки адреса уже показаной рекламы.

Bullshit bingo score +1. Взять уже составленный blacklist религия не позволяет?

>Таким образом, эффективность чёрных списков просто не может быть высокой. Заметно уступая эвристическим методам, которые позволяют ограничивать рекламу с любых адресов, в том числе и неизвестных, определяя её по ряду признаков.

Заметно уступая? Weasel words. Насколько? Где исследование и статистика? Между прочим "по ряду признаков" можно и кого-нибудь невиновного прирезать, в отличие от списка известных серверов, выделенных исключительно под рекламу.

>При достаточно большом трафике и разнообразии посещаемых сайтов чёрные списки имеют свойство занимать достаточно большие объёмы, соответственно проверка каждого адреса на принадлежность чёрному списку начинает занимать значительное время и нагрузка на прокси-сервер растёт.

Проверка на вхождение адресов в массив строк это "значительное" время? А нечеткая логика фильтра типа моментально из астрала срабатывает?

Черные списки это отличный способ отсечь имхо ~95% рекламы с нулевой вероятностью false positive. По остаткам уже можно гонять эвристику.

Статья кстати вообще ни о чём, только обмусолили "как поставить и включить bfilter". Давайте еще apt-get обсудим.

anonymous
()
Ответ на: комментарий от anonymous

>Игнорируя рекламу вы способствуете скорейшей коммерциализации Интернета.

ОЛОЛОЛО, НА КОММЕРСОРГ. Флейм "баннерорезчики = воры" будем устраивать?

anonymous
()
Ответ на: комментарий от DNA_Seq

Угу. Именно так. Половина рекламы отсекается по слову banner. adimage и click - почти завершают очистку. Способ создания правил крайне простой - видишь баннер, смотришь линк и вставляешь наиболее характерное слово в правила фильтрации.

frost_ii ★★★★★
()

Я сначала прочитал ПрИзрачный прокси

vadiml ★★★★★
()
Ответ на: комментарий от anonymous

> Ребят, а где вы нормальные backlist вообще находите? ) http://rejik.ru/700/stat.html


охх, вот только там через DBL систему, которая честно сказать несколько пугает :/

galchyonok ★★
()

прикрутил. Сам посебе bfilter как прокси сервер убог. Баннеры вроде режет, хотя у меня еще и режик на баннеры работает. В отличие от автора статьи сразу запустил bfilter в chroot без проблем.

najar
()
Ответ на: комментарий от anonymous

нормальные(актуальные) блэк-листы просто так на дороге не валяются и если уж не юзать DBL, то придеться руками добавлять.

najar
()
Ответ на: комментарий от najar

> В отличие от автора статьи сразу запустил bfilter в chroot без проблем.

Какая система? У меня на Gentoo bfilter-1.1.2 в chroot упорно не резолвил имена. Т.е. по IP меня пускал, а по имени - говорил что проблема с DNS. Хотя я ему в chroot даже resolv.conf пихается init-скриптом.

MooSE ★★★★
() автор топика

люди, вопрос не в тему: прозрачный прокси с https у кого нить нормально работает?

anonymous
()

надо будет поставить посмотреть

меня пока что Adblock устраивал вообще-то, но интересно

сквид-то все равно стоит

xargs ★★★
()
Ответ на: комментарий от najar

> Gentoo net-proxy/bfilter-1.1

Хм... Надо будет мне попробовать откатиться и посмотреть что будет. Или ты попробуй обновись на ~arch и посмотри что станет:)

MooSE ★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.