Процитирую сообщение, которое сегодня отправил клиенту. Комментарии излишни, наверное. И так всё ясно.
Взял только первые два числа от IP, в топе такие значения получаются:
4903 42.81
5446 40.79
6473 142.147
6831 42.187
7347 84.37
7564 207.241
9946 65.21
10110 20.171
10678 47.246
37377 8.217
59520 202.76
65096 43.173
201283 216.73
217590 146.174
247401 66.249
Проанализировал принадлежность IP и user agent-ы.
66.249 - боты Google.
146.174 - имитирует органическую посещаемость, UA реальных браузеров. Вот только диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.
216.73 - ClaudeBot, сегодня ранее уже заблокировал его.
43.173 - диапазон принадлежит компании https://ru.wikipedia.org/wiki/Tencent
Все UA почти одинаковые, с небольшими вариациями. Основной UA этот:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.6478.114 Safari/537.36
Забанил весь диапазон IP.
202.76 - имитирует органическую посещаемость, но диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.
8.217 - UA: AliyunSecBot/Aliyun (AliyunSecBot@service.alibaba.com)
Забанил весь диапазон IP.
47.246 - имитирует органическую посещаемость. Все 10678 были вчера, сегодня обращений ноль. Диапазон адресов принадлежит Alibaba Cloud LLC
Забанил весь диапазон IP.
20.171 - GPTBot, сегодня ранее уже заблокировал его.
65.21 - AwarioBot, сегодня ранее уже заблокировал его.
207.241 - Бот сайта http://archive.org/
Его банить рука не поднялась, единственный полезный сервис на фоне этих наглых ботов китайских нейросеток. Да и нагрузки от него не много.
Отдельная проблема с ботами Гугла. Если взять статистику по поисковым ботам, то окажется, Google создаёт нагрузку в 20 выше, чем Yandex:
10917 +http://www.bing.com/bingbot.htm
12092 +http://www.apple.com/go/applebot
12313 +http://yandex.com/bots
249190 +http://www.google.com/bot.html
Возможно, Google тоже решил «выкачать весь интернет» для нейронок. И делает это под теми же самыми IP и UA, что и бот поисковой системы. Чтобы веб-мастер не мог просто взять и заблокировать его, если не хочет остаться без присутствия в поисковой выдаче.