Проблемы ИИ-скрапперов и можно ли подружить их с людьми

боты, дружба, искусственный интеллект, люди

0

2

Почитал тут про проблему ИИ индексаторов на opennet. И подумал, что не правильно они всё ж проблему решают запрещая их работу. Мне кажется процесс надо оптимизировать.

Как вариант - сделать на сервере некий «эфир для ИИ». Т.е. каждый бот может подписаться на «эфир» где с приемлемой для сервера скоростью будет генерироваться и повторяться весь контент сервера в некотором размеченном виде.

Ручное выкачивание запросами к каждой страничке станет автоматически невыгодным - это легко обеспечить небольшой буквально секундной задержкой на каждый запрос.

По-моему это очень хорошая идея проекта, если кому-то хочется написать что-то нужное и не велосипедное.

Ссылка

←	Найти обои для рабочего стола

Вышел Hyprland 0.48.0

→

Это «дружба» с людьми которые получают миллионы от государства, и миллионы от обмана инвесторов. Тебе они ничего не дадут, ожидаемый максимум выхлопа - бредогенератор отмоет GPLv3 код и его запастит инженер Microsoft в ntoskrn.sys, после чего менеджер сообщит о повышении производительности после внедрения ИИ.

~~MOPKOBKA~~ ★★★★★
(24.03.25 16:05:56 MSK)
Последнее исправление: MOPKOBKA 24.03.25 16:06:13 MSK (всего исправлений: 1)

Ссылка

Так дело не только в нагрузке. БОльшая проблема в том, что ресурс теряет аудиторию и рекламные доходы, так как пользователь вместо посещения ресурса общается с языковой моделью. Тема не нова. Она уже поднималась когда появились новостные агрегаторы и СМИ возбудилась на то что те воруют у них трафик. Как итог появились пэйволы

cobold ★★★★★
(24.03.25 16:59:15 MSK)
Последнее исправление: cobold 24.03.25 17:01:04 MSK (всего исправлений: 1)

Это можно сделать только похерив сетевую нейтральность полностью и введя проверку proof-of-human - то есть «вход по госуслугам», по ЕЦП, или вообще по паспорту - на любой сетевой сервис.

somemong
(24.03.25 17:09:33 MSK)

Я надеюсь это просто убьет не оригинальный контент. 99% сайтов пережевывают первоисточники, вешают рекламу и стригут деньги. Пережевывать первоисточники может и ИИ, при этом без рекламы и 2-5 сек проверки на бота при каждом заходе.

WSL_user
(24.03.25 17:12:24 MSK)

Ответ на: комментарий от cobold 24.03.25 16:59:15 MSK

общается с языковой моделью

Это сейчас.

Она уже поднималась когда появились новостные агрегаторы и СМИ возбудилась

А тогда, когда эту тему первый раз подняли - не было никаких языковых моделей. Контент воровали скриптами, потом «редакторки» редактировали украденный текст, чтобы не было явного плагиата.

Но подмечено хорошо!! Качество журналистики сейчас настолько упало, что самый тупой ИИ вполне может заменить «редакторок» - и разницы никто не заметит.

somemong
(24.03.25 17:17:49 MSK)

Ссылка

Ответ на: комментарий от somemong 24.03.25 17:09:33 MSK

Даже на лоре полно коней, котов и прочих nonhuman inhabitants.

ratvier ★★
(24.03.25 17:26:42 MSK)

Ссылка

Ответ на: комментарий от somemong 24.03.25 17:09:33 MSK

Как оно там, на ивах? Не встречались еще ботофермы, зарегистрированные на ближайшего бомжа с помойки?

Irma ★★★
(24.03.25 17:32:23 MSK)

сделать на сервере некий «эфир для ИИ». Т.е. каждый бот может подписаться на «эфир» где с приемлемой для сервера скоростью будет генерироваться и повторяться весь контент сервера в некотором размеченном виде.

«зумеры изобрели рсс»

slowpony ★★★★★
(24.03.25 17:37:37 MSK)

Ссылка

Ответ на: комментарий от WSL_user 24.03.25 17:12:24 MSK

Я надеюсь это просто убьет не оригинальный контент. 99% сайтов пережевывают первоисточники, вешают рекламу и стригут деньги. Пережевывать первоисточники может и ИИ, при этом без рекламы и 2-5 сек проверки на бота при каждом заходе.

В очередной раз убеждаемся, что айти в целом не знает чем себя занять. Вычмощностей немеряно, а доступной информации все меньше.

vaddd ☆☆
(24.03.25 18:21:16 MSK)

Ссылка

сделать на сервере некий «эфир для ИИ»

Ага, т.е. скрапер который сейчас мухлюет с User-Agent вдруг пойдет соблюдать какие-то там стандарты. Которые будут реализованы на 0.01% серверах, а корректно работать на 0.001%.

Мой вариант – Google/AWS/Azure/Alibaba реализуют свой 1 скрапер на всё облако с общим кешем, а в контракте аренды VPS прописывают бан за самостоятельный массовый скрейпинг. В итоге и провайдеру денежка, запросов меньше за счёт кеша, а реализация будет уважать user-agent и robots_txt.

snizovtsev ★★★★★
(24.03.25 19:02:24 MSK)
Последнее исправление: snizovtsev 24.03.25 19:02:53 MSK (всего исправлений: 1)

К сожалению, это предложение из разряда robots.txt ведь под капотом все тот же китайский скрапер который идет по всем ссылкам на домене без учета Dissalow директив. И только потом все это скармливается ИИ.

Методы борьбы те же что и раньше: отлов по rate-limit и загон в jail. Ничего на этом поле битвы не поменялось кроме приставки «ИИ».

Obezyan ☆
(24.03.25 19:35:10 MSK)

Ответ на: комментарий от snizovtsev 24.03.25 19:02:24 MSK

Ага, т.е. скрапер который сейчас мухлюет с User-Agent вдруг пойдет соблюдать какие-то там стандарты. Которые будут реализованы на 0.01% серверах, а корректно работать на 0.001%.

Вот о чём я действительно не подумал, так это о том что у них действительно скорее всего один скрапер работающий сразу со всеми серверами. Моё предположение исключительно из предположения, что его приходится подстраивать под разные сервисы.

unDEFER ★★★★★
(24.03.25 19:38:41 MSK) автор топика

Ответ на: комментарий от Obezyan 24.03.25 19:35:10 MSK

У меня на всех сайтах не только Disallow: / и отлов по rate-limit, но и fail2ban и файерволл с блэклистами.

Люди(!) из-за этого иногда ловят 403 (рефлинки — зло!), но проблемы мышей кота не волнуют. (=

mord0d ★★★★★
(24.03.25 19:42:11 MSK)

Ссылка

Ответ на: комментарий от unDEFER 24.03.25 19:38:41 MSK

Что значит 1 скрапер? Наоборот, проблема что сейчас запускают левый китайский говнокод в большом масштабе на публичных облаках, а не нормально задизайненый scraper as a service (такие тоже есть).

snizovtsev ★★★★★
(24.03.25 19:46:38 MSK)

Ответ на: комментарий от snizovtsev 24.03.25 19:46:38 MSK

Я в плане того что код один.

unDEFER ★★★★★
(24.03.25 19:47:19 MSK) автор топика

Ссылка

сделать на сервере некий «эфир для ИИ»

Зачем это вебмастеру?

Но вообще самые злостные боты это не АИ скраперы, а фейсбук. Фейсбук сканит сайты из каждого своего датацентра одновременно, сотнями тысяч запросов в день. Помогает только бан по IP.

shimshimshim
(24.03.25 19:48:20 MSK)
Последнее исправление: shimshimshim 24.03.25 19:49:19 MSK (всего исправлений: 1)

Ссылка

Вообще наверное скоро в лицензиях на контент пролоббируют возможность защиты от обучения генерирующих контент ИИ (будет только за отдельную плату). Добавят в html тег «контент защищен от ии», и какую-нибудь ИИ watermark (прям идея для бизнеса). Если моделька выплюнет этот watermark в своём творчестве (который был внутри тега защищенного контента) по релевантному запросу, то владельцу выкатят иск на круглую сумму.

snizovtsev ★★★★★
(24.03.25 20:01:16 MSK)
Последнее исправление: snizovtsev 24.03.25 20:01:32 MSK (всего исправлений: 1)

Ссылка

И подумал, что не правильно они всё ж проблему решают запрещая их работу.

Да нет, в целом правильно.

Мне кажется процесс надо оптимизировать. Как вариант - сделать на сервере некий «эфир для ИИ». Т.е. каждый бот может подписаться на «эфир» где с приемлемой для сервера скоростью будет генерироваться и повторяться весь контент сервера в некотором размеченном виде.

Может быть, но с одной оговоркой: там должен быть не настоящий контент а специально сгенерированный мусор.

firkax ★★★★★
(24.03.25 23:44:49 MSK)

Ссылка

Я правильно понимаю, что луддиты придумали себе очередное абсолютное зло, с которым смириться не могут так же, как и бороться, но отчаянно пытаются?

LightDiver ★★★★★
(25.03.25 00:13:17 MSK)

Ссылка

«Из-за наплыва ИИ-индексаторов отмечаются ... проблемы с Wiki проекта Arch Linux.»
Вангую, что это не боты.

anc ★★★★★
(25.03.25 00:15:02 MSK)

Ссылка

Ответ на: комментарий от somemong 24.03.25 17:09:33 MSK

«вход по госуслугам», по ЕЦП

По «Ето Цифровая Подпись»?

anc ★★★★★
(25.03.25 00:18:08 MSK)

Ответ на: комментарий от anc 25.03.25 00:18:08 MSK

Зачем «Ето»? Електронная же.

unDEFER ★★★★★
(25.03.25 06:46:15 MSK) автор топика

Ссылка

Ответ на: комментарий от Irma 24.03.25 17:32:23 MSK

Как оно там, на ивах?

О чем ты?

Не встречались еще ботофермы, зарегистрированные на ближайшего бомжа с помойки?

Так это элементарно в такой системе решается! Закидыванием UserID в ЧС и/или глобальный стоп-лист! Пусть радио идет слушать, если вести себя в сети не умеет.

somemong
(25.03.25 09:24:28 MSK)