LINUX.ORG.RU
ФорумTalks

Один день из копроэкономики

 , ,


1

2

Процитирую сообщение, которое сегодня отправил клиенту. Комментарии излишни, наверное. И так всё ясно.


Взял только первые два числа от IP, в топе такие значения получаются:

   4903 42.81
   5446 40.79
   6473 142.147
   6831 42.187
   7347 84.37
   7564 207.241
   9946 65.21
  10110 20.171
  10678 47.246
  37377 8.217
  59520 202.76
  65096 43.173
 201283 216.73
 217590 146.174
 247401 66.249

Проанализировал принадлежность IP и user agent-ы.

66.249 - боты Google.

146.174 - имитирует органическую посещаемость, UA реальных браузеров. Вот только диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.

216.73 - ClaudeBot, сегодня ранее уже заблокировал его.

43.173 - диапазон принадлежит компании https://ru.wikipedia.org/wiki/Tencent Все UA почти одинаковые, с небольшими вариациями. Основной UA этот:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.6478.114 Safari/537.36
Забанил весь диапазон IP.

202.76 - имитирует органическую посещаемость, но диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.

8.217 - UA: AliyunSecBot/Aliyun (AliyunSecBot@service.alibaba.com)
Забанил весь диапазон IP.

47.246 - имитирует органическую посещаемость. Все 10678 были вчера, сегодня обращений ноль. Диапазон адресов принадлежит Alibaba Cloud LLC
Забанил весь диапазон IP.

20.171 - GPTBot, сегодня ранее уже заблокировал его.

65.21 - AwarioBot, сегодня ранее уже заблокировал его.

207.241 - Бот сайта http://archive.org/
Его банить рука не поднялась, единственный полезный сервис на фоне этих наглых ботов китайских нейросеток. Да и нагрузки от него не много.


Отдельная проблема с ботами Гугла. Если взять статистику по поисковым ботам, то окажется, Google создаёт нагрузку в 20 выше, чем Yandex:

  10917 +http://www.bing.com/bingbot.htm
  12092 +http://www.apple.com/go/applebot
  12313 +http://yandex.com/bots
 249190 +http://www.google.com/bot.html

Возможно, Google тоже решил «выкачать весь интернет» для нейронок. И делает это под теми же самыми IP и UA, что и бот поисковой системы. Чтобы веб-мастер не мог просто взять и заблокировать его, если не хочет остаться без присутствия в поисковой выдаче.

★★★
Ответ на: комментарий от KivApple

А заказчик предупреждён и не возражает, что если забанить гуглбота и его вариации, то сайт перестанет индексироваться и прощай SEO?

Мы не банили гуглобота. Ты уже третий чел в треде, кому мерещится.

Но с ним другая проблема, щас отдельно напишу.

А ещё что сейчас много людей использует ChatGPT как поисковик и даже есть новое направление SEO, где пытаются повысить шанс, что ChatGPT выдаст именно твой сайт (так же как уже десятки лет повышали позиции в выдаче обычных поисковиков). Соответственно, бан ChatGPT бота уберёт этот канал трафика. То же касается других ИИ-помощников.

Моя задача - снизить нагрузку на СУБД, отфильтровав мусорные GET-запросы от ботов.

Потому что юзеров из «ИИ-помощников» что-то не заметно, а вот нагрузка – постоянно.

wandrien ★★★
() автор топика
Ответ на: комментарий от goingUp

а мне без разницы, что они там думали и каким местом, если я вижу конкретный дидос с десятками тысяч запросов в час. причём часто с игнорированием robots.txt. это причина для бана. а какие там у них соображения - меня вообще не колебёт. меня интересует только нагрузка на моих машинах.

у меня это делает скрипт. скрипт тоже не думает. он просто считает. и по результатам создаёт блэклисты.

и да, это всё ещё после фильтров в iptables на частоту запросов и количество коннектов с одного адреса и прочих стандартных вещей.

фактически, сети просто засраны этим поганым «ИИ».

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 2)
Ответ на: комментарий от Beewek

В моём сообщении тоже не указано, что гугль мстит за бан себя. Может он за HuaweiCloud мстит:)

Окей)

Ну это многоходовая мысль, не очевидная)

wandrien ★★★
() автор топика
Ответ на: комментарий от firkax

Вообще, если сайт ориентирован только на русскую аудиторию, можно и гугл банить, на мой взгляд.

Оттуда всё еще приходит значимое количество посетителей, так что пока оставляем.

Но с ним другая проблема, Гугл теперь официально игнорирует rel="nofollow" и ходит по всем URL, до которых дотянется.

Учитывая этот факт вместе с тем, что от гуглобота теперь идёт бешеная посещаемость, я могу предположить, что они все свои ИИ-службы под общим UA пустили. Чтобы их так просто заблокировать было нельзя. По принципу «куда вы денетесь от монополиста».

Это вообще идиотская ситуация. Гугль, помнится, не так давно выступал за быстрый интернет и обещал пессимизировать сайты с плохой отзывчивостью, а теперь ходит и третирует эти самые сайты дополнительной нагрузкой.

Т.е. логика получилась такой: «**ки, делате быстрее сайты, чтобы наши боты по ним быстро ходили!»

Часть ссылок, которые были в rel="nofollow", мы сейчас убрали в JS-обёртку. Посмотрим, поможет ли это. Если нет, то придётся отдавать для IP-шнегов гугла модифицированный вариант страницы.

Ситуация идиотская. Допустим, у тебя на сайте есть страницы вида /сущность/ид_сущности, и ты хочешь, чтобы в поисковой выдаче они фигуривали. А бот ходит по страницам вида /сущность/ид_сущности?=параметры и /сущность/ид_сущности/что-то-еще, которые вообще для него не предназначены.

wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 3)
Ответ на: комментарий от goingUp

хотя однажды я видела настоящий дидос, именно целенаправленный, очень мощный для нашего скромного сервера (он почти лёг). и мне пришлось писать скрипт, который через whois выявляет все подсети конкретного владельца VPNа, через которого шёл дидос, и банить их все. но это была редкая и крайняя мера. причём причина дидоса была совершенно непонятна, на сервере были программистские форумы, никакого криминала или политоты.

по этой же причине часто приходится банить серверы сетей тора и прочего, потому что через них тоже лезут боты. и вроде бы хорошее начинание заканчивается так бесславно. их банят не потому, что админы против даркнета, а потому, что оттуда также лезет эта зараза.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)

Да, есть такое.

Уже какое-то время есть файлик bad_ua в nginx’ах и ipset для подсетей.

Одно плохо - AWS, откуда куча AI-бототни ползает, банить надо аккуратно, оттуда Let’s Encrypt ходит.

Dimez ★★★★★
()
Ответ на: комментарий от goingUp

Ну может и будет дело, но «это ддос атака» - это ответ не по сути вопроса. Ну хз, может это просто тред эмоциональной поддержки, а я тут влез со своими объяснениями)

Это именно ответ по сути вопроса. С практической точки зрения. Не с философской, этической, юридической и прочей психо-эстетической. Есть нездоровый трафик — есть решение в виде бана диапазонов IP. Что они там у себя в этих хуайвеях думают, и какими высокими чистыми целями руководствуются «без злого умысла», не имеет значения.

CrX ★★★★★
()
Ответ на: комментарий от wandrien

мы сейчас убрали в JS-обёртку. Посмотрим, поможет ли это.

У него js-парсер есть, причём с какими-то читами чтобы расширить вариации его исполнения по сравнению с тем что юзер может накликать.

firkax ★★★★★
()
Ответ на: комментарий от wandrien

Если нет, то придётся отдавать для IP-шнегов гугла модифицированный вариант страницы.

кстати, да. редко, но приходилось и таким заниматься и отдавать всяким особо назойливым ботам какую-то заглушку из кэша, чисто по фильтру адресов. потому что реально достали.

Iron_Bug ★★★★★
()
Ответ на: комментарий от Iron_Bug

хотя однажды я видела настоящий дидос, именно целенаправленный, очень мощный для нашего скромного сервера (он почти лёг). и мне пришлось писать скрипт, который через whois выявляет все подсети конкретного владельца VPNа, через которого шёл дидос, и банить их все

Эм, «очень мощный настоящий ддос» тебе ты входящий канал наглухо сожрал и никакие скрипты бы не помогли.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

для LE и прочих немногих полезных сервисов есть уайт-листы.

LE не анонсирует свои IP-адреса (точнее, IP-адреса AWS), в отличие от google/telegram/bing/yandex. Мало того, они их меняют, это даже фича, а не баг.

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 2)
Ответ на: комментарий от firkax

я знаю, что такое дидос, я с ними работала. но то, что мы там наблюдали, был настоящий дидос, хотя и не самый мощный, конечно, но очень неприятный и проблему решали от локального админа. у меня была связь с человеком, который хостил сервер. и уже через другую сеть мы анализировали логи и я писала эти скрипты для блэклистов. и это помогло в том конкретном случае.

и да, дидосы бывают разные, в том числе амплификационные. так что засирать канал вовсе не обязательно. но это уже технические детали.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 2)

Это хорошо, но вы защищаетесь, а надо атаковать. Нужен свой бредогенератор на основе цепей Маркова и текстов Гегеля и пусть ИИ-боты жрут его выхлоп, чтоб у них мозги все поплавились и стухли, разложились на плесень и ещё раз на плесень.

ugoday ★★★★★
()
Ответ на: комментарий от ugoday

зачем? ты с дебилами собрался воевать, сам став дебилом? чтобы окончательно похоронить сети или что?

пока в сети есть нормальный человеческий разум в виде админов, он уделает всякие «ИИ» без вопросов. а если все превратятся в ИИ-дебилов, то интернет можно будет похоронить.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от Dimez

я помню, что раньше я прямо вот выделяла в iptables уайтлист, куда заносила серверы, с которых шла авторизация LE. и вроде оно работало. но может, что-то изменилось. сейчас я вручную генерю сертификаты, потому что хука на запись в домен у меня нет, а мне нужен вайлдкард. но вроде всё работает. может, у меня просто aws не так массово заблэклищен пока :)

Iron_Bug ★★★★★
()
Ответ на: комментарий от Dimez

вот это вот, кстати, уродство. ладно бы оно просто тормозило, но оно ещё и мерзкую анимэшную картинку кажет. и вот за это прямо руки отрывать надо.

я сначала даже подумала, что сервер gcc хакнули, увидев там эту мерзость.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

зачем?

  1. Это не военное преступление, если тебе было весело.

  2. Это будет перформанс (а может и хэппенинг). Айти воплощение знаменитой цитаты:

«Ублюдок, мать твою, а ну, иди сюда, говно собачье, а? Что, сдуру решил ко мне лезть? Ты, засранец вонючий, мать твою, а? Ну, иди сюда, попробуй меня трахнуть – я тебя сам трахну, ублюдок, онанист чертов, будь ты проклят! Иди, идиот, трахать тебя и всю твою семью! Говно собачье, жлоб вонючий, дерьмо, сука, падла! Иди сюда, мерзавец, негодяй, гад! Иди сюда, ты, говно, жопа!»
  1. Должны же труда Гегеля хоть на что-то сгодиться.

  2. ?????

  3. ВЫГОДА!

ugoday ★★★★★
()
Ответ на: комментарий от Dimez

zip-бомба как фугасный снаряд, способна попортить наружность вражеского броненосца. Ядовитый же ввод, слововно снаряд бронебойный, проникнет в самую сердцевину вражеской посудины и отправит её на встречу с Ктулху.

ugoday ★★★★★
()
Ответ на: комментарий от ugoday

нет, это будет умножение дебилизма и паразитного трафика в сетях. ничего весёлого или, тем более, полезного в этом нет.

и да, у меня задача снизить нагрузку на свои машины, а не повысить её, запуская сомнительный говнософт. а у меня говнософт ещё и не запустится, потому что я сами основы говнософта выпилила в своей сборке и это правильно.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

нет, это будет умножение дебилизма

Клин-клином вышибают.

запуская сомнительный говнософт

Свой напишите. Благо, бредогенератор это тема для хорошей лабораторной работы у второкурсников.

ugoday ★★★★★
()
Ответ на: комментарий от ugoday

вообще, на любые запросы от ботоферм лучше ничего вообще не отдавать в ответ. всё, нет сервера. чёрная дыра. тогда они не будут туда лезть, возможно. хотя наверняка не скажу, они могут быть тупее, чем я предполагаю. но в любом случае ожидание таймаута на ответ на их сервере - это лучший вариант уменьшить их активность и ничем не засорять сети.

Iron_Bug ★★★★★
()
Ответ на: комментарий от ugoday

Клин-клином вышибают.

самая идиотская поговорка. рассчитана на идиотов. и да, русский язык... впрочем, уже заколебалась указывать на ошибки.

умные люди сначала думают, а потом уже делают.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от KivApple

А robots.txt на сайте есть с указанием rate limit?

GoogleBot игнорирует crawl-delay.

Остальные боты из ОП - это просто мусорные боты, в посещении которых мы не заинтересованы.

wandrien ★★★
() автор топика
Ответ на: комментарий от goingUp

я не помню, появилась эта хипстерская фигня до или уже после того, как мы боролись с дидосом. но не думаю, что есть связь.

Iron_Bug ★★★★★
()
Ответ на: комментарий от mord0d

По этим наступил вечер, и я закончил на сегодня. =)

Вряд ли эти доставят проблемы на фоне 666274 хитов от топ-3. =)

wandrien ★★★
() автор топика
Ответ на: комментарий от firkax

кстати, персеры легко вычисляются. они тащат страницу, не не тащат css и вот это всё, как нормальный юзерский клиент. так что их сразу видно. и тоже можно легко вычислять и банить. даже ещё проще, чем по количеству. чисто по логике запросов.

я так в своё время боролась с ботами на серверах с форумами. когда человек логинится или создаёт аккаунт, браузер тянет страницу со всей обёрткой (картинками, стилями и прочим). когда на сервер лезет бот - он сразу без предварительных запросов генерит вызов скрипта с логином. и на фоне этого можно уже отсекать ботов.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от wandrien

По этим наступил вечер, и я закончил на сегодня. =)

Прост ты такой «Вот, смотрите, я поймал вот такое, из них это, это, это…» и оставил интригу, рассказав не про все. (= А мне ж интересно! Но тоже вечер и совсем не хочется заниматься расследованием самостоятельно (хоть там и немного ручной работы, но если нужно повторить задачу более одного раза я всё же предпочитаю писать скрипт, а на него мой мозг уже не согласен). (=

Вряд ли эти доставят проблемы на фоне 666274 хитов от топ-3. =)

Так суть не в нагрузке, а в том что… а нафига тогда они вообще упомянуты в посте? Только для интриги? (=

mord0d ★★★★★
()
Ответ на: комментарий от Iron_Bug

Наш великий соотечественник Александр Васильевич Суворов говорил: „Держи голову в холоде, ноги в тепле, а поляков в страхе“. Вежливое поведение — дворянская добродетель, «милостливый государь» следует из «милостливый государь, имею честь вызвать вас на дуэль». ИИ-боты, покрав чужие ресурсы процессора, памяти и траффика, повели себя хамски и должны быть наказаны. Потому что если они не будут наказаны, то почнут повторять ещё и ещё.

ugoday ★★★★★
()
Ответ на: комментарий от Iron_Bug

Люди бывают с самыми разными заскоками.

Один чел на форуме выложил свои фотки, а когда через несколько недель его забанили за нарушение правил, пришел качать права, что за ним должны все темы подчистить и удалить фотки.

Админ его послал, сказав, что не обязан по чьим-то хотелкам ничего удалять.

Так тот чел целую спецоперацию устроил в попытках положить сайт.

Другой чел на одном из сайтов, которые мы обслуживали, что-то не поделил с админом в чате и решил заспамить ему весь сайт мусорными комментами. Повод был для недовольства абсолютно мелкий какой-то, мало ли где в инете кто с тобой не согласен. Но чел, видимо, был не совсем психически здоров.

wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 1)
Ответ на: комментарий от mord0d

Только для интриги?

Возможно =)

Мне и самому в какой-то мере интересно, что там такое.

Но в то же время и лень. Сейчас мне интереснее попить чаю и запустить Rimworld.

wandrien ★★★
() автор топика
Ответ на: комментарий от mord0d

а не всегда есть смысл разбираться в сортах. когда ты видишь тысячи ненормальных запросов от какой-то подсети - тебе какая разница, что там флудит? вот вообще до фени. потому что при любой нормальной активности такого трафика не бывает.

а у админа время ограничено и лучше и правда сесть и попить чаю, чем сидеть и заниматься углубленной проктологией современных сетей.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

кстати, персеры легко вычисляются. они тащат страницу, не не тащат css и вот это всё, как нормальный юзерский клиент. так что их сразу видно. и тоже можно легко вычислять и банить. даже ещё проще, чем по количеству. чисто по логике запросов.

Ну какой-нибудь консольный браузер тоже не обязан тянуть CSS, который он так-то даже не поддерживает фактически.

я так в своё время боролась с ботами на серверах с форумами. когда человек логинится или создаёт аккаунт, браузер тянет страницу со всей обёрткой (картинками, стилями и прочим). когда на сервер лезет бот - он сразу без предварительных запросов генерит вызов скрипта с логином. и на фоне этого можно уже отсекать ботов.

А вот так уже да, 100% бот.

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

Ну какой-нибудь консольный браузер тоже не обязан тянуть CSS, который он так-то даже не поддерживает фактически.

но он тянет страницу с логином, а не сразу выдаёт запрос на логин.

Iron_Bug ★★★★★
()
Ответ на: комментарий от wandrien

попить чаю

:3

Rimworld

Ооооооо! Давненько я его не тыкал… Там, поди, официальных дополнений уже наштамповали ещё на 3.5 контента Core? Это не считая 100500 модов (в том числе даже полноконверсионных), которые были когда я регулярно его запускал.

mord0d ★★★★★
()
Ответ на: комментарий от Iron_Bug

У нас был типовой движок форума, на который, видимо, боты регались таким же типовым кодом.

Я добавил hidden поле в форму регистрации и немного переименовал существующие поля. Для отсева ботов хватило.

Может сейчас проблема вернулась в более интеллектуальном варианте. А может и нет. Не знаю. Те кому я это делал, ко мне не обращались повторно.

wandrien ★★★
() автор топика
Ответ на: комментарий от mord0d

Я так и не смог адаптироваться к версии 1.6 с темой орбитальных полётов.

Играю на 1.5 с огромным списком модов на всё подряд.

Хотя с 1.4 на 1.5 я легко перешел.

Как-то мне 1.6 не зашла, не смотря на все обещанные улучшения.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

ну да, или так или, как вариант, какие-то дополнительные простые проверки на человека. от большинства ботов помогает.

Iron_Bug ★★★★★
()
Ответ на: комментарий от wandrien

не, таких странных психов я видела в сети. но не думаю, что они могут создать сколько-нибудь существенный дидос. там нужно что-то помощнее, чем одна обиженная снежинка.

а так, я даже видела назойливых сталкеров в сети. которые прямо лезли упорно, хотя их банили. доходило до того, что прямо в форумном движке приходилось что-то дописывать, чтобы отсечь гада. но это редкий фанатизм. я за много лет буквально пару раз с таким сталкивалась. в основном юзеры более-менее адекватны и как-то не наглеют.

Iron_Bug ★★★★★
()
Ответ на: комментарий от Iron_Bug

чтобы окончательно похоронить сети или что?

Почему похоронить? Я так понимаю он именно ботам предлагает мусор отдавать, а остальным нормальный контент.

firkax ★★★★★
()
Ответ на: комментарий от wandrien

Тому кто в гробу действительно разницы не будет. А вот водителю, если его признают виновным в дтп разница будет и большая

cobold ★★★★★
()
Ответ на: комментарий от Iron_Bug

по этой же причине часто приходится банить серверы сетей тора и прочего, потому что через них тоже лезут боты. и вроде бы хорошее начинание заканчивается так бесславно. их банят не потому, что админы против даркнета, а потому, что оттуда также лезет эта зараза.

Какое ещё хорошее начинание? Тор как раз для анонимного вредительства (как прямого так и косвенного) и сделан, никакого другого применения у него нет. И банят его как раз потому что им пользуются по его целевому применению.

firkax ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.