LINUX.ORG.RU
ФорумTalks

Проблемы ИИ-скрапперов и можно ли подружить их с людьми

 , , ,


0

2

Почитал тут про проблему ИИ индексаторов на opennet. И подумал, что не правильно они всё ж проблему решают запрещая их работу. Мне кажется процесс надо оптимизировать.

Как вариант - сделать на сервере некий «эфир для ИИ». Т.е. каждый бот может подписаться на «эфир» где с приемлемой для сервера скоростью будет генерироваться и повторяться весь контент сервера в некотором размеченном виде.

Ручное выкачивание запросами к каждой страничке станет автоматически невыгодным - это легко обеспечить небольшой буквально секундной задержкой на каждый запрос.

По-моему это очень хорошая идея проекта, если кому-то хочется написать что-то нужное и не велосипедное.

★★★★★

Последнее исправление: unDEFER (всего исправлений: 1)

Это «дружба» с людьми которые получают миллионы от государства, и миллионы от обмана инвесторов. Тебе они ничего не дадут, ожидаемый максимум выхлопа - бредогенератор отмоет GPLv3 код и его запастит инженер Microsoft в ntoskrn.sys, после чего менеджер сообщит о повышении производительности после внедрения ИИ.

MOPKOBKA ★★★★★
()
Последнее исправление: MOPKOBKA (всего исправлений: 1)

Так дело не только в нагрузке. БОльшая проблема в том, что ресурс теряет аудиторию и рекламные доходы, так как пользователь вместо посещения ресурса общается с языковой моделью. Тема не нова. Она уже поднималась когда появились новостные агрегаторы и СМИ возбудилась на то что те воруют у них трафик. Как итог появились пэйволы

cobold ★★★★★
()
Последнее исправление: cobold (всего исправлений: 1)

Это можно сделать только похерив сетевую нейтральность полностью и введя проверку proof-of-human - то есть «вход по госуслугам», по ЕЦП, или вообще по паспорту - на любой сетевой сервис.

somemong
()

Я надеюсь это просто убьет не оригинальный контент. 99% сайтов пережевывают первоисточники, вешают рекламу и стригут деньги. Пережевывать первоисточники может и ИИ, при этом без рекламы и 2-5 сек проверки на бота при каждом заходе.

WSL_user
()
Ответ на: комментарий от cobold

общается с языковой моделью

Это сейчас.

Она уже поднималась когда появились новостные агрегаторы и СМИ возбудилась

А тогда, когда эту тему первый раз подняли - не было никаких языковых моделей. Контент воровали скриптами, потом «редакторки» редактировали украденный текст, чтобы не было явного плагиата.

Но подмечено хорошо!! Качество журналистики сейчас настолько упало, что самый тупой ИИ вполне может заменить «редакторок» - и разницы никто не заметит.

somemong
()
Ответ на: комментарий от somemong

Даже на лоре полно коней, котов и прочих nonhuman inhabitants.

ratvier ★★
()
Ответ на: комментарий от somemong

Как оно там, на ивах? Не встречались еще ботофермы, зарегистрированные на ближайшего бомжа с помойки?

Irma ★★★
()

сделать на сервере некий «эфир для ИИ». Т.е. каждый бот может подписаться на «эфир» где с приемлемой для сервера скоростью будет генерироваться и повторяться весь контент сервера в некотором размеченном виде.

«зумеры изобрели рсс»

slowpony ★★★★★
()
Ответ на: комментарий от WSL_user

Я надеюсь это просто убьет не оригинальный контент. 99% сайтов пережевывают первоисточники, вешают рекламу и стригут деньги. Пережевывать первоисточники может и ИИ, при этом без рекламы и 2-5 сек проверки на бота при каждом заходе.

В очередной раз убеждаемся, что айти в целом не знает чем себя занять. Вычмощностей немеряно, а доступной информации все меньше.

vaddd ☆☆
()

сделать на сервере некий «эфир для ИИ»

Ага, т.е. скрапер который сейчас мухлюет с User-Agent вдруг пойдет соблюдать какие-то там стандарты. Которые будут реализованы на 0.01% серверах, а корректно работать на 0.001%.

Мой вариант – Google/AWS/Azure/Alibaba реализуют свой 1 скрапер на всё облако с общим кешем, а в контракте аренды VPS прописывают бан за самостоятельный массовый скрейпинг. В итоге и провайдеру денежка, запросов меньше за счёт кеша, а реализация будет уважать user-agent и robots_txt.

snizovtsev ★★★★★
()
Последнее исправление: snizovtsev (всего исправлений: 1)

К сожалению, это предложение из разряда robots.txt ведь под капотом все тот же китайский скрапер который идет по всем ссылкам на домене без учета Dissalow директив. И только потом все это скармливается ИИ.

Методы борьбы те же что и раньше: отлов по rate-limit и загон в jail. Ничего на этом поле битвы не поменялось кроме приставки «ИИ».

Obezyan
()
Ответ на: комментарий от snizovtsev

Ага, т.е. скрапер который сейчас мухлюет с User-Agent вдруг пойдет соблюдать какие-то там стандарты. Которые будут реализованы на 0.01% серверах, а корректно работать на 0.001%.

Вот о чём я действительно не подумал, так это о том что у них действительно скорее всего один скрапер работающий сразу со всеми серверами. Моё предположение исключительно из предположения, что его приходится подстраивать под разные сервисы.

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от Obezyan

У меня на всех сайтах не только Disallow: / и отлов по rate-limit, но и fail2ban и файерволл с блэклистами.

Люди(!) из-за этого иногда ловят 403 (рефлинки — зло!), но проблемы мышей кота не волнуют. (=

mord0d ★★★★★
()
Ответ на: комментарий от unDEFER

Что значит 1 скрапер? Наоборот, проблема что сейчас запускают левый китайский говнокод в большом масштабе на публичных облаках, а не нормально задизайненый scraper as a service (такие тоже есть).

snizovtsev ★★★★★
()
Ответ на: комментарий от snizovtsev

Я в плане того что код один.

unDEFER ★★★★★
() автор топика

сделать на сервере некий «эфир для ИИ»

Зачем это вебмастеру?

Но вообще самые злостные боты это не АИ скраперы, а фейсбук. Фейсбук сканит сайты из каждого своего датацентра одновременно, сотнями тысяч запросов в день. Помогает только бан по IP.

shimshimshim
()
Последнее исправление: shimshimshim (всего исправлений: 1)

Вообще наверное скоро в лицензиях на контент пролоббируют возможность защиты от обучения генерирующих контент ИИ (будет только за отдельную плату). Добавят в html тег «контент защищен от ии», и какую-нибудь ИИ watermark (прям идея для бизнеса). Если моделька выплюнет этот watermark в своём творчестве (который был внутри тега защищенного контента) по релевантному запросу, то владельцу выкатят иск на круглую сумму.

snizovtsev ★★★★★
()
Последнее исправление: snizovtsev (всего исправлений: 1)

И подумал, что не правильно они всё ж проблему решают запрещая их работу.

Да нет, в целом правильно.

Мне кажется процесс надо оптимизировать. Как вариант - сделать на сервере некий «эфир для ИИ». Т.е. каждый бот может подписаться на «эфир» где с приемлемой для сервера скоростью будет генерироваться и повторяться весь контент сервера в некотором размеченном виде.

Может быть, но с одной оговоркой: там должен быть не настоящий контент а специально сгенерированный мусор.

firkax ★★★★★
()

Я правильно понимаю, что луддиты придумали себе очередное абсолютное зло, с которым смириться не могут так же, как и бороться, но отчаянно пытаются?

LightDiver ★★★★★
()

«Из-за наплыва ИИ-индексаторов отмечаются ... проблемы с Wiki проекта Arch Linux.»
Вангую, что это не боты.

anc ★★★★★
()
Ответ на: комментарий от anc

Зачем «Ето»? Електронная же.

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от Irma

Как оно там, на ивах?

О чем ты?

Не встречались еще ботофермы, зарегистрированные на ближайшего бомжа с помойки?

Так это элементарно в такой системе решается! Закидыванием UserID в ЧС и/или глобальный стоп-лист! Пусть радио идет слушать, если вести себя в сети не умеет.

somemong
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)