LINUX.ORG.RU
ФорумTalks

Один день из копроэкономики

 , ,


1

1

Процитирую сообщение, которое сегодня отправил клиенту. Комментарии излишни, наверное. И так всё ясно.


Взял только первые два числа от IP, в топе такие значения получаются:

   4903 42.81
   5446 40.79
   6473 142.147
   6831 42.187
   7347 84.37
   7564 207.241
   9946 65.21
  10110 20.171
  10678 47.246
  37377 8.217
  59520 202.76
  65096 43.173
 201283 216.73
 217590 146.174
 247401 66.249

Проанализировал принадлежность IP и user agent-ы.

66.249 - боты Google.

146.174 - имитирует органическую посещаемость, UA реальных браузеров. Вот только диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.

216.73 - ClaudeBot, сегодня ранее уже заблокировал его.

43.173 - диапазон принадлежит компании https://ru.wikipedia.org/wiki/Tencent Все UA почти одинаковые, с небольшими вариациями. Основной UA этот:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.6478.114 Safari/537.36
Забанил весь диапазон IP.

202.76 - имитирует органическую посещаемость, но диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.

8.217 - UA: AliyunSecBot/Aliyun (AliyunSecBot@service.alibaba.com)
Забанил весь диапазон IP.

47.246 - имитирует органическую посещаемость. Все 10678 были вчера, сегодня обращений ноль. Диапазон адресов принадлежит Alibaba Cloud LLC
Забанил весь диапазон IP.

20.171 - GPTBot, сегодня ранее уже заблокировал его.

65.21 - AwarioBot, сегодня ранее уже заблокировал его.

207.241 - Бот сайта http://archive.org/
Его банить рука не поднялась, единственный полезный сервис на фоне этих наглых ботов китайских нейросеток. Да и нагрузки от него не много.


Отдельная проблема с ботами Гугла. Если взять статистику по поисковым ботам, то окажется, Google создаёт нагрузку в 20 выше, чем Yandex:

  10917 +http://www.bing.com/bingbot.htm
  12092 +http://www.apple.com/go/applebot
  12313 +http://yandex.com/bots
 249190 +http://www.google.com/bot.html

Возможно, Google тоже решил «выкачать весь интернет» для нейронок. И делает это под теми же самыми IP и UA, что и бот поисковой системы. Чтобы веб-мастер не мог просто взять и заблокировать его, если не хочет остаться без присутствия в поисковой выдаче.

★★★

Забанил

Но зачем? Тебе жалко, что ты будешь появляться в выдаче гугла или о твоей штуковине будет знать ИИ?

goingUp ★★★★★
()

Ну это баян.

Сортировку только ты неправильно сделал, если это топ то должно быть по уменьшению.

Что касается всяких мусорных ботов, то позиция коммерческих сайтов обычно «нам пофиг, если они не создают технических проблем». Зато в выдаче гугла они очень хотят быть и его уж точно не захотят банить.

firkax ★★★★★
()
Ответ на: комментарий от firkax

Окей, может вы думаете, что это боты майнинга данных для обучения ИИ? Скорее всего нет, пихать в обучение ИИ рандомные странички ресурсозатратно даже для гигантов. Что же это тогда? Юзер ставит ИИ агенту какую-то задачу, тот выполняет веб-поиск, в результатах допустим вылезает сайт SDE, он лезет на сайт чтобы прочитать какую-то инфу, а ему тут бац, 403, ну и он пишет в лог чата типа не могу открыть страничку, защита от ботов, а юзер такой это читает с фейпалмом (ага), ну пипец они вахтеры.

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Нет это не боты от текущего поиска. Они флудят пачками запросов по всем страницам постоянно.

ну пипец они вахтеры

Лучше вахтёр чем, фу, всеобщая открытость.

firkax ★★★★★
()
Ответ на: комментарий от goingUp

Да, 201283 запроса за сутки с IP AWS с UA ClaudeBot/1.0; +claudebot@anthropic.com - это «юзер делает запросы через чат-бота», точняк.

Ты такой умный, наверное еще и курсы ведешь.

wandrien ★★★
() автор топика
Ответ на: комментарий от One

Без ИИ на сайт скоро никто ходить не будет, нет в поисках ИИ, нет в посетителях

Лорчую. Вот openai делает из chatgpt суперапп, который будет юзеру заменять интернет, с покупками, соцсетью, короткими видосами и прочим раком. Ну просто вашего сайта там не будет, вы его зачем делали, чтобы был? ИИ это новый гугл, такие дела.

goingUp ★★★★★
()
Ответ на: комментарий от wandrien

Да, 201283 запроса за сутки с IP AWS с UA ClaudeBot/1.0; +claudebot@anthropic.com - это «юзер делает запросы через чат-бота», точняк.

Например твой сайт где-то в поиске часто вылазит. Ну ок, твоя версия?

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Проблема таких как ты бестолочей в том, что вы не понимаете, что всё в этом мире стоит денег.

Давай ты оплати моему клиенту новый VPS, который будет тянуть возрастающую нагрузку с ботами, тогда него 100% не будет никаких вопросов относительно ботов, пусть хоть хороводами ходят.

Заплатишь года на 3 вперёд?

А у нормального человека возникает вопрос, за что он должен платить деньги в такой ситуации. Спонсировать бизнесы заокеанских дядей в дорогих костюмах из своего кармана?

wandrien ★★★
() автор топика
Ответ на: комментарий от goingUp

В каком, твою мать, поиске?

Это не органическая посещаемость.

Это тупо массовые скрапперы контента.

wandrien ★★★
() автор топика

На сайт приходит бачка ботов с конкретного IP диапазона, усиленно скраппят его несколько часов или дней, потом пропадают на какое-то время. Затем снова приходят, волнообразно.

Наивные чукотские мальичики: «это запросы юзеров в chatgpt!!»

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

В каком, твою мать, поиске?

Воу, полегче, ок? Юзер дает ИИ задачу решить тех. проблему. ИИ выполняет поиск. В поиске вылазиет твой бложик. ИИ скрейпером загружает страничку, чтобы прочитать решение.

Это не органическая посещаемость.

Ну ок, если ты держишь сайт ради рекламы на нем, то да, претензия валидная, дело хозяйское.

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Вот openai делает из chatgpt суперапп, который будет юзеру заменять интернет

а также мозги, эрудицию и собственное мнение

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

Так ты готов заплатить клиенту за новый VPS?

Ну ок, пусть вам опенаи плотит, ну или блочьте его, я не против, ваше дело)

Не услышал я что-то ответа от любителя халявы.

Я тоже не услышал ответа, зачем по твоему они скрейпят твой ресурс)

goingUp ★★★★★
()
Последнее исправление: goingUp (всего исправлений: 1)
Ответ на: комментарий от wandrien

Пользователь делает запрос «история хоббитов в России» и «как найти труп директора ООО Рога и Копыта», гопатыч и гемини в интернете мой сайт ему выдаёт, как информацией, так и ссылкой на сайте и таких на моём узкоспециализированном сайте уже 5% от трафика

One ★★★★★
()

Welcome to real life.

Забанил...

Итог-то какой?

sparkie ★★★★★
()
Ответ на: комментарий от Bad_ptr

Нет, это для них устаревшая технология.

Теперь делают так: генерируют пачку UA с разными ОС и версиями браузеров и ходят через неё по сайту, наплевав на всякие бумерские robots.txt.

wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 1)
Ответ на: комментарий от wandrien

Теперь делают так: генерируют пачку UA с разными ОС и версиями браузеров и ходят через неё по сайту

Я даже знаю что это, но я не мазохист, чтобы меня потом бестолочью называли)

goingUp ★★★★★
()

А меня сегодня гугль забанил. Не даёт скачивать видосики с ютубы, пишет 403. Наверное мстит за твой бан:)

Beewek ★★★
()
Ответ на: комментарий от goingUp

Ты пока ничего умного не сказал, зато сразу с ноги появился в треде с рекламой лучшего в мире чат-бота от OpenAI.

wandrien ★★★
() автор топика
Ответ на: комментарий от goingUp

Что же это тогда?

Что же это тогда? Ну-ка, ну-ка.

Айпишник, идентифицирующий себя как ClaudeBot часами сканирует URL вида /сущность/ид_сущности/параметры на сайте, где лежит несколько сотен тысяч сущностей и суммарно открывается порядка 3 миллионов URL (с учётом вариаций поля «параметры»).

Расскажи, что это.

wandrien ★★★
() автор топика

пора пополнить блоклисты, возможно. хотя я у себя давно накатала совсем не «интеллектуальный» скрипт, который выявляет излишнюю явно ненормальную нагрузку на серверы от отдельных подсетей и их банит.

но надо каждый раз смотреть. во-первых, бывает, что не вся подсеть принадлежит ботам. во-вторых, у ботов часто бывает много подсетей в совершенно разных адресах. в-третьих, есть хитрые сети, когда сначала на сервер заходит один бот-разведчик, а потом начинают из разных подсетей лезть его миньоны. вот последнее выявлять сложнее, но это довольно типичный подход. часто достаточно выявить и забанить бота-разведчика.

Iron_Bug ★★★★★
()
Ответ на: комментарий от goingUp

Мой ответ простой: по формальным признакам это DoS-атака.

И решена она так, как решаются DoS-атаки - баном подсеток.

При чем если бот ClaudeBot хотя бы себя идентифицирует, то китайские боты такой ерундой себя не утруждают и работают под UA реальных браузеров.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

это DoS-атака

Не знаю, чтобы на это такое написать, чтобы не было проблем с «тоном». Может я неправильно понял твое сообщение. Ты считаешь, что они устроили дос атаку на твой сайт с целью его уронить?

goingUp ★★★★★
()

А robots.txt на сайте есть с указанием rate limit?

А заказчик предупреждён и не возражает, что если забанить гуглбота и его вариации, то сайт перестанет индексироваться и прощай SEO?

А ещё что сейчас много людей использует ChatGPT как поисковик и даже есть новое направление SEO, где пытаются повысить шанс, что ChatGPT выдаст именно твой сайт (так же как уже десятки лет повышали позиции в выдаче обычных поисковиков). Соответственно, бан ChatGPT бота уберёт этот канал трафика. То же касается других ИИ-помощников.

KivApple ★★★★★
()
Последнее исправление: KivApple (всего исправлений: 5)
Ответ на: комментарий от goingUp

нет, они устроили DDoS атаку на весь интернет с целью его учичтожить.

Iron_Bug ★★★★★
()
Ответ на: комментарий от goingUp

Если тебя на машине собъёт мужик без злого умысла, который просто торопился по делам, - это всё еще считается, что чел на машине сбил другого чела, или нещитово?

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

Если тебя на машине собъёт мужик без злого умысла, который просто торопился по делам, - это всё еще считается, что чел на машине хотел его убить, или нещитово?

Пофиксил

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

ИИ это новый гугл, такие дела.

Всмысле что он такое же ненужно, модное у хипстеров? Согласен.

Вообще, если сайт ориентирован только на русскую аудиторию, можно и гугл банить, на мой взгляд.

firkax ★★★★★
()
Ответ на: комментарий от firkax

Учитывая, что сейчас Google - это главное зло, звучит прям достойно. Достойный приемник =)

wandrien ★★★
() автор топика
Ответ на: комментарий от firkax

Всмысле что он такое же ненужно, модное у хипстеров?

Всмысле что народные массы, залипающие сейчас в смартфоне в соцсети и прочий контент, скоро будут залипать в их апп.

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

ты, часом, не адвокат? а то подобным иезуитством занимаются только они.

никому не интересна цель, когда очевиден результат.

Iron_Bug ★★★★★
()
Ответ на: комментарий от wandrien

Тебе в гробу будет сильно много дела до того, хотел он или не хотел?

Ну может и будет дело, но «это ддос атака» - это ответ не по сути вопроса. Ну хз, может это просто тред эмоциональной поддержки, а я тут влез со своими объяснениями)

goingUp ★★★★★
()
Ответ на: комментарий от firkax

гугл чаще всего нужно банить. потому что гуглом пользуются разные нехорошие люди для поиска «ыкстремизма» и прочих мыслепреступлений. поэтому его - в первую очередь. а у себя по сайту можно сделать внутренний полнотекстовый поиск, например. скорее всего, всё придёт именно к этому, как во времена до всякой там альтависты. эти придурки убьют нормальный поиск и всё развалится на отдельные части. «ИИ» ведёт к дегенерации интернета в целом.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 2)
Ответ на: комментарий от wandrien

В моём сообщении тоже не указано, что гугль мстит за бан себя. Может он за HuaweiCloud мстит:)

Ладно, не буду мешать вам с goingUp выяснять отношения:)

Beewek ★★★
()
Ответ на: комментарий от Iron_Bug

никому не интересна цель, когда очевиден результат.

А можно вам тоже задать этот вопрос?

Ты считаешь, что они устроили дос атаку на твой сайт с целью его уронить?

goingUp ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.