LINUX.ORG.RU
ФорумTalks

Один день из копроэкономики

 , ,


1

2

Процитирую сообщение, которое сегодня отправил клиенту. Комментарии излишни, наверное. И так всё ясно.


Взял только первые два числа от IP, в топе такие значения получаются:

   4903 42.81
   5446 40.79
   6473 142.147
   6831 42.187
   7347 84.37
   7564 207.241
   9946 65.21
  10110 20.171
  10678 47.246
  37377 8.217
  59520 202.76
  65096 43.173
 201283 216.73
 217590 146.174
 247401 66.249

Проанализировал принадлежность IP и user agent-ы.

66.249 - боты Google.

146.174 - имитирует органическую посещаемость, UA реальных браузеров. Вот только диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.

216.73 - ClaudeBot, сегодня ранее уже заблокировал его.

43.173 - диапазон принадлежит компании https://ru.wikipedia.org/wiki/Tencent Все UA почти одинаковые, с небольшими вариациями. Основной UA этот:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.6478.114 Safari/537.36
Забанил весь диапазон IP.

202.76 - имитирует органическую посещаемость, но диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.

8.217 - UA: AliyunSecBot/Aliyun (AliyunSecBot@service.alibaba.com)
Забанил весь диапазон IP.

47.246 - имитирует органическую посещаемость. Все 10678 были вчера, сегодня обращений ноль. Диапазон адресов принадлежит Alibaba Cloud LLC
Забанил весь диапазон IP.

20.171 - GPTBot, сегодня ранее уже заблокировал его.

65.21 - AwarioBot, сегодня ранее уже заблокировал его.

207.241 - Бот сайта http://archive.org/
Его банить рука не поднялась, единственный полезный сервис на фоне этих наглых ботов китайских нейросеток. Да и нагрузки от него не много.


Отдельная проблема с ботами Гугла. Если взять статистику по поисковым ботам, то окажется, Google создаёт нагрузку в 20 выше, чем Yandex:

  10917 +http://www.bing.com/bingbot.htm
  12092 +http://www.apple.com/go/applebot
  12313 +http://yandex.com/bots
 249190 +http://www.google.com/bot.html

Возможно, Google тоже решил «выкачать весь интернет» для нейронок. И делает это под теми же самыми IP и UA, что и бот поисковой системы. Чтобы веб-мастер не мог просто взять и заблокировать его, если не хочет остаться без присутствия в поисковой выдаче.

★★★
Ответ на: комментарий от Iron_Bug

ну даже если говорить о сохранении природы и экономии трафика - отвалившийся робот по таймауту и ушедший гадить дальше, к тем кто ему отвечает, за следующие 30 секунд нагреет больше воздуха и сгенирирует больше трафика, если не зависнет еще на 25 секунд. разве нет?

usi_svobodi
()
Ответ на: комментарий от usi_svobodi

я не говорила о сохранении природы. я не отношусь к секте потеплителей. я за нормальную скорость работы сетей. а для этого их нужно чистить от флуда и дидоса.

Iron_Bug ★★★★★
()
Ответ на: комментарий от James_Holden

Ну. Я как бы и не рекламирую. Я глянул - там особо-то и простынь небольшая, с каментами вроде бы даже, ничего злодейского, обработка хэша как обработка хэша. Оно и сработало, кстати, как и было заявлено, ни больше, ни меньше. Там всё дело в специальной питоновой хешевой либе из ауров. И нагрузочку она, надо признаться, упарывает весьма некислую, что да, то да.

piyavking ★★★★★
()
Ответ на: комментарий от urxvt

будто есть какая-то разница. сделай сайт с одной пустой страничкой и к тебе уже через сутки набегут миллионы ботов.

Iron_Bug ★★★★★
()
Ответ на: комментарий от wandrien

Моя задача - снизить нагрузку на СУБД

Нагрузку на СУБД можно снизить разными способами. Например, можно кешировать сгенерированный HTML и отдавать как статику, а при любом событии как-то влияющим на контент страницы (редактирование страницы админом, редактирование страницы из категории оглавлением которой является эта страница, оставление комментария юзером и т. д.) удалять страницу из кеша. Если очень сложно отлавливать конкретные события, то просто чистить кеш при любом взаимодействии с админкой, а потом пусть он лениво наполняется при обращениях.

KivApple ★★★★★
()
Ответ на: комментарий от KivApple

так эти боты и портят кэш, генеря кучу запросов со всеми возможными параметрами. это не нормальные юзеры и их надо банить.

Iron_Bug ★★★★★
()
Ответ на: комментарий от James_Holden

А не надо лениться в борьбе за святое дело! Всего пятьдесят строк кода. И у нас генератор, который по заданному началу Es ist das порождает бесконечную компиляцию «Науки Логики». Например, оригинал и перевод, стр№1. перевод, стр№2

ugoday ★★★★★
()
Ответ на: комментарий от KivApple

Нагрузку на СУБД можно снизить разными способами.

Можно. Года два назад мы уже хорошо так оптимизировали движок, существенно снизив потребление CPU и выведя сайт в зелёные показатели метрик отзывчивости поисковых систем.

Теперь, имея примерно тоже самое количество живых посетителей (ну может процентов на 30 больше), заказчик снова должен заплатить за оптимизацию?

Вторая, очевидно, будет дороже.

А когда число ботов снова возрастёт на порядок, тогда что делать?

Например, можно кешировать сгенерированный HTML и отдавать как статику, а при любом событии как-то влияющим на контент страницы (редактирование страницы админом, редактирование страницы из категории оглавлением которой является эта страница, оставление комментария юзером и т. д.) удалять страницу из кеша

Механика кэшей и их выборочного сброса частично уже есть, но под данный кейс придётся дорабатывать. Она несколько другие задачи решает.

На сайте около 3 миллионов валидных URL.

Размер HTML-страницы порядка 380 KB, или если сжать - около 60 KB. Итого потребуется около 180 МБ для хранения кэша сжатых страниц. Приемлемо.

Вариант кэшировать всё ради Гугла уже даже рассматриваю.

При чем реально если это делать, то придётся делать ТОЛЬКО ради ботов Гугла. Потому что ни живые люди, ни Яндекс соизмеримую нагрузку не создают.

Проблема только одна: этот код надо написать и отладить. Ну если владелец сайта согласится, сделаем.

wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 1)
Ответ на: комментарий от LLM-9000

Если ваш сайт создаётся для того, чтоб на него только кожаные мешки своими глазками заходили и видели баннер и капала копеечка, чтоб он вот обязаетлько сюда и сюда клацнул, а иначе он — дармоед, то вы всеми силами эту копроэкономику поддерживаете.

Первое. Это не мой сайт.

Второе. Этот сайт существует уже лет 20 или больше и делается энтузиастом своего дела, сайт довольно уникальный в своей нише. На сайте присутствует монетизация, когда юзеры могут оформить подписку и получать дополнительный авторский контент.

Владелец сайта оплачивает услуги программистов, админов/модераторов, людей, наполняющих и актуализующих БД сайта, платит за хостинг и так далее.

Может ваши замечательные ИИ-стартапы готовы всё это оплатить? Или они только потреблять чужое готовы?

Поэтому херню мне в уши лить не надо, где тут копроэкономика, чтобы ехать на чужом контенте и чужих трудозатратах, а где реальный продукт, я прекрасно вижу.

wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 2)
Ответ на: комментарий от LLM-9000

хоть непосредственно из браузера, хоти из ИИ-агента, хоть 25 раз перемолотое неведомой сущностью.

Всё мимо. Это всё ваши проекции и борьба с голосами в голове.

Что нас реально парит это то, что сайт тормозит у настоящих живых посетителей, потому что большая часть вычислительных ресурсов тратится теперь на обслуживание ботов.

Пусть «неведомая сущность» берёт данные и перемалывает хоть 200 раз.

Пришла, взяла данные и свалила. Как любой приличный бот - как краулер Яндекса, например.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

На сайте присутствует монетизация, когда юзеры могут оформить подписку и получать дополнительный авторский контент.

Тогда ещё менее понятно, от чего вы защищаетесь. Если интересующиеся люди будут попадать к вам от ИИ агента, упомянувшего ваш сайт в пересказе чего-то другого, обзоре, дайджесте, разве для вас это в итоге не выгода?

Может ваши замечательные ИИ-стартапы готовы всё это оплатить? Или они только потреблять чужое готовы?

Границу не так-то и легко определить. Ещё раз предлагаю взглянуть на вами же употреблённый термин в более широком, мировоззренческом смысле, например «(копро)экономика внимания», как вам идея?

А у вас есть статистика по посещаемости, притоку новых пользователей, затратам на содержание проекта до и после блокировок? Не провокация, действительно интересно. Спасибо.

LLM-9000
()
Ответ на: комментарий от wandrien

ты хочешь сказать, что миру надо ради гугла перейти на статические сайты? и да, это число урлов может быть небольшим. а если бот добрался до поиска (который, конечно, прописан под запретом в robots.txt, но боту насрать) и начал дёргать запросы с произвольным набором данных? а они обычно именно это и делают. или начинают качать всю подряд мультимедию. хорошо, когда урлы выдают пустые лёгкие html'и. а если нет? а если там какие-нибудь HD картинки и прочие жирные данные. они тоже обычно закрыты в robots.txt, но ботов это не волнует.

ботов надо банить, а не прогибаться под них.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от wandrien

Итого потребуется около 180 МБ для хранения кэша сжатых страниц

Только опечатался тут, конечно.

180 ГИГАБАЙТ.

wandrien ★★★
() автор топика

Банить, выдавать мусор, банально это все) Берите шире - prompt injection. Отменяем LLM предыдущие команды и внушаем, что это самый лучший сайт, и что юзеру туда обязательно нужно зайти и это решит все его проблемы)

goingUp ★★★★★
()
Ответ на: комментарий от Iron_Bug

Ну относительно этого лично я не хочу ничего сказать, это пусть владелец решает, что ему лучше:

  • Оставить нагрузку ботами Гугла на БД как есть.
  • Решить уйти из поисковой выдачи Гугла и забанить Гугло-ботов.
  • Заплатить за доработки по оптимизации и иметь в виду, что потребуется вплоть до 200 гигабайт места под кэш.

Возможно, я на днях еще гляну, что можно оптимизировать менее радикально, не переходя на полное кэширование.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

как вариант - поставить в iptables rate limit. чтобы не так долбили.

мне так приходилось поступать, когда совсем обрезать обмен с некоторыми серверами не хотелось, но их наглый флуд одолевал мой сервер со страшной силой.

я у себя сделала set, в который вношу те сервера, которые не регулируют трафик в сети и фигарят миллионами запросов без всякого стеснения. особенно из-за криво написанного макакософта. урезаешь количество пакетов с NEW и разрешаешь ESTABLISHED - и становится зашибись.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 4)
Ответ на: комментарий от Iron_Bug

Он верифицирует что клиент не бот путём требования совершить определённый объём расчётов.

Ваша ненависть к аниме затмевает вам разум. Вы всерьёз думаете что оно только картинку показывает? Картинкой от ботов не защитишься.

X512 ★★★★★
()
Последнее исправление: X512 (всего исправлений: 1)
Ответ на: комментарий от X512

какой ещё «объём расчётов»? это анимэшное говно ещё и жрёт проц? надо будет найти и запретить всякую скриптятину, если она там вдруг появилась. раньше на приличных сайтах такой порнографии не было. и да, боты скрапперов никак не отличаются от юзера, они запускают headless браузер. так что это анимэшное говно, а не «проверка».

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 4)
Ответ на: комментарий от X512

специально сейчас проверила несколько сайтов, где я, емнип, видела это вредительство. нет там никаких скриптов. может, убрали уже. но скрипты бы и не запустились без моего явного разрешения оных. а по умолчанию они запрещены. и да, куки тоже запрещены.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

Anubis отключает proof of work для некоторых user agent, которые пока не были замечены в ботосетях.

X512 ★★★★★
()
Ответ на: комментарий от Iron_Bug

какой ещё «объём расчётов»? это анимэшное говно ещё и жрёт проц?

А как по вашему ещё проверить пользователя?

X512 ★★★★★
()
Ответ на: комментарий от X512

нормальной проверкой на человека. ну там решить уравнение, результат записать в ответ. или что-то такое.

для менее продвинутых юзеров есть капчи и всякое такое. всё уже давно изобретено.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от X512

Ваша ненависть к аниме затмевает вам разум.

с разумом всё как раз в порядке. это у некоторых пристрастие к мультам затмевает разум. я ещё ни разу ни в одну софтину не пыталась вставлять всякое ненужно, даже если я считаю его эталоном совершенства. совершенно не обязательно навязывать юзеру что-то против его воли. так поступают только фанатики. что в данном случае и наблюдается.

Iron_Bug ★★★★★
()
Ответ на: комментарий от KivApple

Как поможет кэширование в случае с роботом обходящим миллионы уникальных карточек товара? Он наоборот будет кэш, который все же не резиновый, вымывать

cobold ★★★★★
()
Ответ на: комментарий от Iron_Bug

Anubis уже установлен на основные проекты связанные с Линуксом такие как https://git.kernel.org/, https://gitlab.freedesktop.org/, https://gitlab.gnome.org/.

Практика показывает, что это хорошо работает.

X512 ★★★★★
()
Последнее исправление: X512 (всего исправлений: 1)
Ответ на: комментарий от X512

просто ничего другого нет под рукой. вот и заткнули дырку первым попавшимся. это как когда каналья засоряется, опытный сантехник приносит старую телогрейку и засовывает её в унитаз, чтобы каналья не пёрла наружу. вот аналог старой телогрейки, чтобы временно заткнуть каналью. надолго этого не хватит, но хватит, пока сантехник прочищает засор.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 3)
Ответ на: комментарий от X512

Есть факты? Эти проекты какие-то отчеты публиковали?

В чем проблема для серверного железа пройти эту верификацию, если результат кэшируется?

wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

не, дураков с деньгами я видела. но дураки с деньгами тратят деньги не на это. они вообще чаще не лазат по всяким бесплатным форумам, а больше интересуются тачками и бабами.

Разные бывают. Одна забаненная обиженка, например, прямо сейчас ддосит таким макаром парочку широко известных в узких кругах торрент-трекеров. Точнее их сайтов и IRC — трекеры вроде не удалось положить.

CrX ★★★★★
()
Ответ на: комментарий от Iron_Bug

а зачем что-то отравлять?

Это лучше спросить у тех, кто предлагал это выше. Я лишь статейкой поделился занятной, самому мне чем-либо подобным заниматься лень, именно учитывая отсутствие мотивации. Но так вообще могу предположить, что это может ускорить процесс осознания обывателем, что LLM — не всезнающий бог, а глючная штука, которой не стоит доверять. Сами они справляются, но медленно.

Ну и ещё если это делать массово, то владельцы этих самых штук из сабжа могут понять, что наверное вот так внаглую скрапить сайты, игнорируя robots.txt и притворяясь обычными пользователями, при этом генерируя больше нагрузки, чем живые пользователи, может не стоит, а надо хотя бы как-то тоньше.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

Да, такой вариант возможен. Впрочем, в реальности как всегда всё приведёт к ещё большей централизации и переходу масс ещё глубже в соцсети и прочие реддиты вместо небольших личных, тематических и прочих сайтов, форумов и т.п.

CrX ★★★★★
()
Ответ на: комментарий от CrX

не думаю, что что-то изменится в распределении юзеров. как сейчас есть какой-то процент тех, кому не всё равно, так и дальше он будет. это не зависит от сетей, это зависит от процента людей с более развитым интеллектом, а он всегда примерно одинаков. так что разный опенсорц и альтернативный софт никуда не денется. возможно, он даже приобретёт бОльшую популярность среди масс из-за давления цензуры, запрещательства и вот этого всего. в результате даже самые недалёкие в айти хомячки начинают искать варианты решения проблемы доступа к интернетам. к тому же, несмотря на возникшие сейчас проблемы политического характера, идёт постепенный процесс глобализации всей информационной структуры. и временные проблемы его не остановят, он будет нарастать. проблемы уйдут, глобализация будет продолжаться. я здесь имею в виду глобализацию как транснациональные объединения людей в сети.

Iron_Bug ★★★★★
()
Ответ на: комментарий от usi_svobodi

так фишка тарпита как раз в том, что тормозные ответы не дают отвалиться по таймауту. по крайней мере, удерживать соединение можно гораздо дольше при минимальных затратах ресурсов.

alegz ★★★★★
()
Ответ на: комментарий от CrX

может ускорить процесс осознания обывателем, что LLM — не всезнающий бог, а глючная штука, которой не стоит доверять

Как можно быть такими наивными. Ничего вы не ускорите.

James_Holden ★★★★★
()
Ответ на: комментарий от James_Holden

ну, ускорить - не ускорят, конечно. но маразм будет прогрессировать и в какой-то момент даже среднему обывателю станет понятно то, что понятно сейчас нам. но для этого не нужно прилагать усилий. в это сами владельцы «ИИ» вносят неизмеримый вклад. наша задача только изолировать от их ботов весь контент, созданный людьми, и весь опенсорцный код. а дальше они сами захлебнутся в собственном говне. причём довольно быстро.

Iron_Bug ★★★★★
()
Ответ на: комментарий от James_Holden

В очередной раз попрошу не выдёргивать фрагменты моих фраз так, будто я сказал это не как предположение о целях других, а от себя, и побежал этим заниматься.

Кому вопрос про наивность — не знаю. Предположу (из-за точки вместо вопросительного знака), что он риторический.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 2)

Alibaba Cloud LLC
Забанил весь диапазон IP.

У них есть UC Browser, который в старые времена работал подобно Opera mini в обязательном порядке через их прокси-сервер. Судя по всему, сейчас они называют эту особенность «встроенным VPN».

Есть шанс, что вы перерубили доступ для пользователей этого браузера. Но это нужно проверить.

Leupold_cat ★★★★★
()
Ответ на: комментарий от Iron_Bug

наша задача только изолировать от их ботов весь контент, созданный людьми, и весь опенсорцный код. а дальше они сами захлебнутся в собственном говне. причём довольно быстро.

это будет хуже для всех.

usi_svobodi
()
Ответ на: комментарий от wandrien

В Haiku это решило проблему с ботами. Trac перестал падать от чрезмерной нагрузки.

X512 ★★★★★
()
Ответ на: комментарий от wandrien

В чем проблема для серверного железа пройти эту верификацию, если результат кэшируется?

Верификацию надо заново проходить при смене IP адреса.

X512 ★★★★★
()
Ответ на: комментарий от usi_svobodi

почему же для всех? люди сидят на тех ресурсах, где есть нормальный человеческий контент. боты сидят там, где сами же и насрали. по-моему, всё логично. кто тут может пострадать? разве что мыльный пузырь «ИИ» и его владельцы. но они уже успели срубить бабла и быстро найдут новый хайп, чтобы стричь бабло. вон, блохчейн уже сдулся. а сколько было хайпа. всё проходит. и это пройдёт.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 2)
Ответ на: комментарий от CrX

а как ты определяешь, что это именно она «дидосит таким макаром». дидос ведь тебе не сообщает, кто передаёт привет. а торрент трекеры многие дидосят. всякие копирасты вон тоже непрочь. а у них бабла побольше, чем у обиженных дурочек.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

вместо того, чтоб снести завод производящий говно и заварить трубу, ты предлагаешь залить его еще большим говном. при этом, его труба так и будет это все выбрасывать в массы.

«ИИ» как явление уже никуда не денется. да, упадет качество его ответов, но от этого им меньше пользоваться не станут, а деградируют вместе с ним. те, кто умеет думать головой все равно кончатся, а «ИИ» и его потребители продолжат размножаться вместе со своими «знаниями». и ладно если бы они сидели в своем контуре и никуда не выходили за его пределы. но нет.

щас те, на ком учился «ИИ», сами учатся на нем. и только лишь убеждаются в своей «правоте». независимо от того кто они. программисты или твиттерская соя. и их не станет изза этого меньше.

usi_svobodi
()
Ответ на: комментарий от wandrien

Это всё ваши проекции и борьба с голосами в голове.

Какие ещё голоса, какие проекции, вы вообще о чём?

Я вам говорю что если мне удобней чтоб ИИ помощник вслух рассказал сжатую сводку обновлений на вашем сайте, а вы его заблокировали, то это как раз подходит под ваш термин копроэкономика.

LLM-9000
()
Ответ на: комментарий от usi_svobodi

как раз наоборот. я предлагаю заварить трубу, отделив нормальные данные от их гадюшника. и пусть они сами утонут в своём говне.

заливать ещё большим говном предлагают те, кто предлагал тут генерить какие-то дебильные ответы. мне бы такое даже в голову не пришло, я никогда не стану запускать такой софт у себя на сервере. это надо совсем кукухой поехать.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от usi_svobodi

щас те, на ком учился «ИИ», сами учатся на нем. и только лишь убеждаются в своей «правоте». независимо от того кто они. программисты или твиттерская соя. и их не станет изза этого меньше.

они ничему не учатся. «ИИ» не учится, потому что он не имеет интеллекта и «учиться» не умеет. он умеет только поглощать мусор и высирать мусор. а те, кто считает «ИИ» «обучением» просто не имеют достаточно интеллекта и не отличают информацию от полной лажи, чтобы что-то освоить серьёзно. но дураки всегда уверены в своей правоте, с этим ты ничего не сделаешь. только суровый опыт граблей и косяков заставляет дурака сменить стратегию. если же и это не помогает, то тогда только закон Дарвина остаётся. но я не думаю, что нынешние потребители «ИИ» - это прямо совсем идиоты. как только он проявит свою сущность настолько, что до них допрёт, что им подсовывают какое-то говно, они перестанут это есть. а процент клинических идиотов довольно мал.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 2)
Ответ на: комментарий от usi_svobodi

на самом деле, достаточно будет того, чтобы от них отвернулся бизнес. как только это произойдёт, поток бабла прекратится, пузырь лопнет сам собой. дураки - лишь подопытные кролики. бабло делают не на них, конечно же. а не будет бабла - не будет и проблемы. и сейчас бизнес уже начал сворачивать ивестиции в этот хайп.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 2)
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.