LINUX.ORG.RU
ФорумTalks

Один день из копроэкономики

 , ,


1

1

Процитирую сообщение, которое сегодня отправил клиенту. Комментарии излишни, наверное. И так всё ясно.


Взял только первые два числа от IP, в топе такие значения получаются:

   4903 42.81
   5446 40.79
   6473 142.147
   6831 42.187
   7347 84.37
   7564 207.241
   9946 65.21
  10110 20.171
  10678 47.246
  37377 8.217
  59520 202.76
  65096 43.173
 201283 216.73
 217590 146.174
 247401 66.249

Проанализировал принадлежность IP и user agent-ы.

66.249 - боты Google.

146.174 - имитирует органическую посещаемость, UA реальных браузеров. Вот только диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.

216.73 - ClaudeBot, сегодня ранее уже заблокировал его.

43.173 - диапазон принадлежит компании https://ru.wikipedia.org/wiki/Tencent Все UA почти одинаковые, с небольшими вариациями. Основной UA этот:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.6478.114 Safari/537.36
Забанил весь диапазон IP.

202.76 - имитирует органическую посещаемость, но диапазон принадлежит HuaweiCloud.
Забанил весь диапазон IP.

8.217 - UA: AliyunSecBot/Aliyun (AliyunSecBot@service.alibaba.com)
Забанил весь диапазон IP.

47.246 - имитирует органическую посещаемость. Все 10678 были вчера, сегодня обращений ноль. Диапазон адресов принадлежит Alibaba Cloud LLC
Забанил весь диапазон IP.

20.171 - GPTBot, сегодня ранее уже заблокировал его.

65.21 - AwarioBot, сегодня ранее уже заблокировал его.

207.241 - Бот сайта http://archive.org/
Его банить рука не поднялась, единственный полезный сервис на фоне этих наглых ботов китайских нейросеток. Да и нагрузки от него не много.


Отдельная проблема с ботами Гугла. Если взять статистику по поисковым ботам, то окажется, Google создаёт нагрузку в 20 выше, чем Yandex:

  10917 +http://www.bing.com/bingbot.htm
  12092 +http://www.apple.com/go/applebot
  12313 +http://yandex.com/bots
 249190 +http://www.google.com/bot.html

Возможно, Google тоже решил «выкачать весь интернет» для нейронок. И делает это под теми же самыми IP и UA, что и бот поисковой системы. Чтобы веб-мастер не мог просто взять и заблокировать его, если не хочет остаться без присутствия в поисковой выдаче.

★★★
Ответ на: комментарий от Iron_Bug

Вот как работает планета идиотов, даже вне интернета. Простой пример.

На работе, заставили всех сдать рефераты по идеологии. Это само по себе очень очень смешно, но сейчас не об этом. Как можно написать такой реферат, и как его будут проверять. У идиотов, есть святыня религии идиотизма - Уникальность. И есть софт, который ее вычисляет. Для них, есть одна задача - удовлетворить этот софт.

Так вот, если проникнуться темой, полюбить Родину, и написать реферат как положено, по правилам написания рефератов - потом будет что? Его скормят анализатору уникальности, и, поскольку это грамотно составленный реферат, в котором сплошные отсылки и цитаты к источникам - программка выдаст результат, скажем, 40% уникальности. Все, за это забанят! Переделывать!

А теперь я вспоминаю, что случайный набор слов имеет заведомо 100% уникальности, или 98% будет точно. Влить случайный бред? Но это и человек будет просматривать, не проканает. А бредогенератор - он дает текст, при беглом взгляде выглядящий как осмысленный, но при этом уникальность там зашкаливает, по понятной причине. Это просто 100% попадание в задачу. И вот, от этого текста, у идиотов начинается радость и экстаз. Ура ура, так хорошо сотрудники изучили идеологию!

Но! Но! Нормальным то людям понятно, что это просто адовый кошмар, что это так не работает, что ни к чему хорошему это не приведет, и ждет нас всех незавидная участь, уже скажем лет через 5.

James_Holden ★★★★★
()
Ответ на: комментарий от James_Holden

Это все делалось вручную, нанимались люди за миску супа, и выкатывали не отрывая пальцев от клавиатуры, простыни бреда

где можно почитать такие простыни гарантированно сгенерированные человеком? для общего развития.

Тогда он начинает появляться в выдаче.

как будто бы скоро гугл и прочие, начнуть навязывать в обязательном порядке делать /ai со строгой структурой ответа, к которому их боты будут делать запросы. переложат ответственность на других.

usi_svobodi
()
Ответ на: комментарий от Iron_Bug

Нет, это вредоносная во всех аспектах технология, направленная на дискредитацию (виртуальных) заборов. Заборы - важный аспект устройства общественного порядка, они должны исправно выполнять свою функцию и быть в среднем уважаемы обществом, вне зависимости от того кто и зачем их поставил.

Если забор неправомерный - надо не дискредитировать уважение к заборам (разрушая этим структуру общества), а сносить данный конкретный забор. Впрочем, в контексте ркн блокировок, забор как раз правомерный и его надо не сносить а усиливать.

firkax ★★★★★
()
Ответ на: комментарий от usi_svobodi

где можно почитать такие простыни гарантированно сгенерированные человеком?

В интернетах 2010-х. На «сайтах-саттелитах» и прочих «блогах», которые использовались для сбора целевого трафика из поисковых систем и перенаправления на коммерский основной сайт.

Сейчас наверное всё это вымерло и заменено на ИИ. Так что рыться надо в глубинах.

Были такие профессии рерайтера и копирайтера, которые умерли с появлением GPT-3.

wandrien ★★★
() автор топика
Ответ на: комментарий от usi_svobodi

Сейчас я уже и не знаю, гарантировать что-либо невозможно, по понятным причинам.

James_Holden ★★★★★
()
Ответ на: комментарий от wandrien

Пока работает, а потом время покажет. У СПО проектов нет особо другого выхода кроме как ставить Anubis потому что у них нет денег на высокопроизводительную инфраструктуру, которая потянет всех ботов.

X512 ★★★★★
()
Ответ на: комментарий от X512

Ну по крайней мере, я после этого треда понял, зачем они ставят Anubis.

James_Holden ★★★★★
()
Ответ на: комментарий от ugoday

За удобства нужно платить

Чем вы платите когда заходите на сайт в браузере?

А в чём отличие, вы зайдёте или ИИ-агент зайдёт по вашей команде и прочитает вам выжимку?

В том, что я не буду устраивать десятки-сотни тысяч загрузок на регулярной основе.

Вы забыли на второй вопрос ответить:

Чем вы платите когда заходите на сайт в браузере?

LLM-9000
()
Ответ на: комментарий от LLM-9000

Так вы попытаетесь ответить чётко на вопрос, с какой целью Anthropic сканирует все страницы сайта подряд?

Без отмазок про «юзеры, ищут в инете через чат бота»?

Как-то странно у вас «закончился диалог» в тот момент, когда картинка реальности посыпалась.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

Диалог окончен.

Вы просто хотите ещё что-то про свою психологию сообщить?

Давайте, сообщайте и идите своей дорогой. Удачи.

LLM-9000
()
Ответ на: комментарий от LLM-9000

Чел))

Ты припёрся в мой тред, обделался с аргументами и теперь предлагаешь мне идти «своей дорогой». Это очень весело.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

Может собеседник верит в коммунизм? Что владелец сайта должен руководствоваться общественным благом, а не выгодой.

X512 ★★★★★
()
Ответ на: комментарий от X512

Может даже не осознанно, так как «всё моё - моё, и всё ваше - тоже моё» – это базовая настройка человека в детстве, ориентированная на выживание на раннем этапе, когда родители полностью заботятся о ребёнке.

Такая вера в коммунизм обычно заканчивается в тот момент, когда человек пытается организовать собственный бизнес или некоммерческий проект. Реальный опыт организации дел обычно приводит в чувство. Хотя и не всех. У некоторых что-то сильно сбоит.

Мне реально интересно, как они в своей ментальной модели объсняют для себя толпы ботов на инфраструктуре проектов типа Гайки и подобных. В их голове это же всё «юзеры в чате ищет в вебе», получается.

И как они предлагают подобным проектам эту проблему решать.

Но видимо в качестве решения есть только опция «диалог окончен».

wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 2)
Ответ на: комментарий от James_Holden

Все сеошники говорят...

это вредители. не надо их слушать сайт должен чётко и внятно доносить важную информацию до посетителя. никакой шлак там даром не нужен. и тем более высранный бредогенератором. такой контент сразу вызывает полное недоверие к сайту, дальше сайт закрывается и уже никогда больше не посещается. даже если там и была где-то полезная информация, негатив от бреда перевесит её всю и отпугнёт посетителей и потенциальных клиентов.

поисковики окончательно сдохли под напором шизофазии.

они не только сдохли. они сами стали эмулировать поиск, вместо настоящего честного поиска. и превратились в подобие бредогенераторов, но с учётом заноса бабла для выдачи в топе. поэтому результаты стали максимально нерелевантными, бесполезными и пользователи стали уходить с таких платформ на более мелкие, ещё не заражённые этой фигнёй. но если дальше так пойдёт, глобальный поиск исчезнет совсем. будем, как раньше, составлять списки сайтов с кратким описанием контента :) для даркнета такие списки давно существуют и как-то оно живёт. конечно, неудобно после привычки «гуглить» всё подряд. но гугл уже не торт и остальные поисковики тоже скатываются. других вариантов нет. наверное, надо уже потихоньку начинать составлять списки сайтов. пока ещё помнишь ссылки и пока что-то можно найти. а гуглом будем пользоваться в «интернет архиве»: дайте-ка мне выдачу по поиску за 2010-й год :)

Iron_Bug ★★★★★
()
Ответ на: комментарий от LLM-9000

А в чём отличие, вы зайдёте или ИИ-агент зайдёт по вашей команде и прочитает вам выжимку?

Я всё-таки попытаюсь максимально доходчиво объяснить. Если проблема в технической неграмотности, то может дойдёт.

Даже если принять за отправную точку идею «ИИ-агент по команде юзера ищет в инете», то разница в том что:

Юзер вбивает в поисковик фразу, а потом ходит по полученным ссылкам в поисках наиболее подходящей информации. Юзер не может открыть и прочитать десяток ссылок поисковой выдачи за секунду.

А машина может. И именно это она делает. Она очень быстро ходит по многим ссылкам.

Так разница понятна?


Это было первое. Теперь второе.

Мне бы всё-таки очень интересно было узнать, как вы для себя объясняете сквозное посещение машинами ВСЕХ имеющихся на сайте URL.

У меня объяснение есть. А у вас?

wandrien ★★★
() автор топика
Ответ на: комментарий от firkax

нет, заборы таки надо сносить. единственные «заборы», которые сносить не надо - это fences при обращении к памяти. но это другое. ну, можно ещё оставить заборы на усмотрение владельцев частной собственности - это их собственность и их право. хотя забор выглядит дико и некрасиво. есть в нём что-то от загона для зверей.

и вот «заборы» от роскомпозора сносить надо в первую очередь, прямо на корню. потому что это нарушение прав человека, не говоря уже об аморальности большинства «запретов». тут даже обсуждать нечего. с этим нужно бороться до полной победы здравого смысла и резолюции ООН о праве на доступ в интернет.

Iron_Bug ★★★★★
()
Ответ на: комментарий от wandrien

Такая вера в коммунизм обычно заканчивается в тот момент, когда человек пытается организовать собственный бизнес или некоммерческий проект. Реальный опыт организации дел обычно приводит в чувство. Хотя и не всех. У некоторых что-то сильно сбоит.

Так ты же сам пожалел денег на свой сервер и решил его арендовать, считая байтики, а сейчас недоволен тем, что тебя вынуждают платить больше за аренду оборудования и прокачку данных. Купил бы свой сервер, засунул его под кровать и грелся бы зимой. Подключение к мировой сети с неограниченным трафиком стоит в месяц не более твоего трудодня. Признайся честно, что ты сам пожадничал и теперь страдаешь из-за этого?

Поисковые роботы ищут информацию и глупо информацию зажимать - она должна быть свободной по определению для всех. А сервер пусть работает на повышенной нагрузке - это стимул делать свое ПО только качественнее.

Enthusiast ★★★
()
Ответ на: комментарий от cobold

«решением» против вредоносов является эволюция и механизм приспособления и противостояния вреду, наносимому вредоносами. например, иммунитет. если бы решения не было, вредоносы бы просто сожрали носителя. но и сами бы при этом вымерли.

Iron_Bug ★★★★★
()
Ответ на: комментарий от Enthusiast

А сервер пусть работает на повышенной нагрузке - это стимул делать свое ПО только качественнее.

Здорово, что ты такой Enthusiast.

Проспонсируй по-enthusiast-ски мне на разработку более качественного ПО и на оплату услуг хостера.

wandrien ★★★
() автор топика
Ответ на: комментарий от firkax

нет, нормальный человеческий здравый смысл. люди, знаешь ли, не любят сидеть в клетках. даже птички в клетках сидеть не любят.

Iron_Bug ★★★★★
()

Интересно, пауки уже начали покупать прокси с домашними адресами? Если весь этот идентифицированный трафик вычесть, остаток ощутимо вырастет, в сравнение с прошлыми годами? Мне кажется, эта борьба в перспективе не приведёт к успеху. Сайт придётся прятать за Cloudflare и подобными сервисами, которые уже с пауками будут бороться всерьёз (и пропуская тех пауков, которые им платят деньги, хе-хе).

vbr ★★★★★
()
Ответ на: комментарий от vbr

я задумчиво уставилась на паука на паутине в углу. ненуачо? если я даже каждому пауку выделю по адресу из диапазона ipv6, пусть он даже с префиксом 10, то вполне хватит и паукам, и мне, и на всё остальное :)

Iron_Bug ★★★★★
()

Интернет изменился - он теперь населен роботами. Стоит с этим смириться и по-другому рассчитывать ресурсы. Примерно та же история как во времена когда все стали массово с dialup-а на выделенки переходить и старые сайты просто переставали держать нагрузку и выдавать нормальные скорости ответа.

adn ★★★★
()
Ответ на: комментарий от vbr

В перспективе я вижу смерть VPS и дедиков как явления для малого и среднего бизнеса.

Владельцу сайта будет экономически не выгодно держать и обслуживать парк серверных машин для веба. Всё будет в облаках.

В такой олигополии корпоратам станет еще удобнее обдирать ваньку.

А кто будет пытаться сопротивляться до последнего переходу в корпоративное облако, тех еще сверху законами относительно безопасности и отчётности придавят дополнительно.

В общем, если ты хоть что-то делаешь самостоятельно, ты сразу всем и всё должен, от отчислений в пенсионный фонд до взносов за глобальное потепление. А то ишь ИИ на твоём сайте стараются, атмосферу греют, а ты неблагодарный, деняк не платишь еще за это.

wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 1)
Ответ на: комментарий от Iron_Bug

Надеюсь, в биологических пауков еще ничего постороннего не встроено))

Погружусь в дауншифтинг, буду общаться с пауками и гладить траву)

wandrien ★★★
() автор топика
Ответ на: комментарий от adn

нет, это совсем другое. старые сайты и новые сайты тогда были созданы людьми. и содержали вполне вменяемую информацию. а сейчас считай, что процентов 60 (если не больше) интернета заполнено откровенным бредом, который не несёт ни малейшего смысла. и отличить сайт с бредом от сайта с нормальной информацией в общем случае становится практически нерешаемой задачей. это надо заранее знать, какие сайты не испорчены бредогенераторами. и это не прогресс, это сильный регресс интернета и сетей.

Iron_Bug ★★★★★
()

Хрен знает, как мы дожили до такого киберпанка, конечно.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

Владельцу сайта будет экономически не выгодно держать и обслуживать парк серверных машин для веба. Всё будет в облаках.

В такой олигополии корпоратам станет еще удобнее обдирать ваньку.

По-моему ты сам себе противоречишь. Результат кустарного труда всегда дороже и чаще всего намного хуже фабричного. Естественно облака будут дешевле - тебе не надо самому вкладываться в инфраструктуру, держать кучу специалистов и иметь план на случай отказа железа, терять время на настройку системы, установку и настройку сервисов и т.д. Ты используешь только те ресурсы и сервисы, которые нужны именно сейчас для твоей задачи. Это всяко дешевле и выгодней. Поэтому для «ваньки» (мы, кстати, о ком сейчас?) это благо.

adn ★★★★
()
Ответ на: комментарий от adn

Естественно облака будут дешевле

Это теория. А на практике Migrating to Hetzner сэкономил товарищам 76% затрат.

Честно говоря я сам не вполне понимаю, как так получается. Но явление подтверждаю. Хотя облака в теории должны быть более эффективны, чем кустарные впски, на практике затраты обычно вырастают. То же можно сказать про попытки переноса своего железа на VPS-ки, своё железо обычно стоит дешевле. Хотя, конечно, нюансов тут много со всем этим.

vbr ★★★★★
()
Последнее исправление: vbr (всего исправлений: 2)
Ответ на: комментарий от adn

Нет противоречия, оба процесса имеют место.

Развертывание сервиса и управление им - это один аспект, технический.

А контроль инфраструктуры - это другой аспект, организационный.

Монополизация сервиса всегда приводит к падению качества и повышению издержек для клиента, это эволюционный процесс.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

Так ты готов заплатить клиенту за новый VPS? Не услышал я что-то ответа от любителя халявы.

Представь себе ситуацию: ты едешь на своей Оке (ВАЗ 1111) по асфальтовой дороге, но она закончилась и начинаются очень суровые буераки. Ты будешь измерять с линейкой все неровности и орать на лесника, спрашивая готов ли он тебе купить НИВУ (ВАЗ 2121), так как тебе обязательно надо на другой конец леса?

adn ★★★★
()
Ответ на: комментарий от vbr

все настоящие затраты в облаках вскрываются, когда данные теряются и их невозможно восстановить. чужой сервер есть чужой сервер. чужой человек не будет печься о твоих данных. ему без разницы, если пара гигов какой-то фигни на большом рейде просто пойдут коту под хвост. но это может оказаться именно твоими данными.

Iron_Bug ★★★★★
()
Ответ на: комментарий от CrX

Скорее всего, имеет место реально какое-то психическое заболевание. Они не то чтобы тау уж прям редки. А в таком случае пытаться понять это стремление не стоит — его невозможно понять здоровой психикой. Можно предполагать, что такой индивид испытывает некую собственную важность от того, что он один смог целый сайт (или даже несколько) положить, которыми десятки тысяч людей в мире пользуются — некоторая компенсация ничтожности. Когда ничем другим выделиться не получается, причём даже имея столько «лишних» денег, чем только люди не занимаются, особенно если есть какие-то беды с башкой.

Сколько интересных слов. Скажите пожалуйста, а какова ваша мотивация? Зачем вы работаете модератором на этом форуме?

LLM-9000
()
Ответ на: комментарий от Iron_Bug

все настоящие затраты в облаках вскрываются, когда данные теряются и их невозможно восстановить.

У меня есть смутное ощущение, что ты никогда с облаками, а тем более с облачными базами данных не работала.

adn ★★★★
()
Ответ на: комментарий от adn

Зачем мне какие-то нелепицы представлять?

wandrien ★★★
() автор топика
Ответ на: комментарий от adn

я - нет. слава Ктулху! и никогда не планирую, если что. но вот многие другие из тех, кто повёлся на эту ботву, пострадали. и потом громко стенали в интернетах. а кто виноват, спрашивается?

не бывает никаких «облаков». есть только чужой сервер. поэтому если ты хочешь, чтобы твои данные были в целости и сохранности - храни их на своих серверах, делай бэкапы и вот это всё. честно, по-настоящему. да, это небесплатно. но это надёжно. а ещё это гарантирует, что к твоим данным имеешь доступ только ты и те, кого ты сам допустил. а не кто попало.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 2)
Ответ на: комментарий от Iron_Bug

все настоящие затраты в облаках вскрываются, когда данные теряются и их невозможно восстановить.

Так их и в своём сервере потеряешь и не восстановишь ровно так же. Бэкапы надо делать, а не восстанавливать данные.

vbr ★★★★★
()
Ответ на: комментарий от wandrien

Монополизация сервиса всегда приводит к падению качества и повышению издержек для клиента, это эволюционный процесс.

нет же. там же (в облаках) работают высококлассные специалисты за большие деньги, каких не потянуть малому бизнесу. А про издержки вообще смешно - у современных облаков грануляция до минуты - то есть за нужные тебе ресурсы ты платишь только тогда когда они тебе реально нужны и можешь их как уменьшать, так и увеличивать программно через api без всякого простоя. Ты же не строишь дороги, не добываешь нефть и не перерабатываешь его в топливо - ты просто зашел в автобус и заплатил за поездку туда, куда тебе надо. И это дешево в отличии от полного цикла.

adn ★★★★
()
Ответ на: комментарий от X512

но зачем тогда платить чужому дяде? это как в том анекдоте про двух европейцев: кому платить деньги?

и да, какой смысл сливать всю свою важную информацию куда-то налево.

Iron_Bug ★★★★★
()
Ответ на: комментарий от Iron_Bug

я - нет. слава Ктулху! и никогда не планирую, если что. но вот многие другие из тех, кто повёлся на эту ботву, пострадали. и потом громко стенали в интернетах. а кто виноват, спрашивается?

Вот так и рождаются суеверия

adn ★★★★
()
Ответ на: комментарий от Iron_Bug

А зачем платить строителю, электрику, сантехнику, если можешь сам всё сделать? Профессиональный администратор датацентра справится с работой лучше вас.

X512 ★★★★★
()
Ответ на: комментарий от adn

я тя умоляю! прямо «высококлассные специалисты», один другого краше. часто не знают, как сервер выглядит. набраны по объявлению. ты думаешь, кто-то там за такие копейки, которые платят юзвери, набирает дорогих спецов? щщщазз! и, главное, у нас этих спецов... прям девать некуда. везде одни спецы попадаются.

ты никогда не был у какого-нибудь провайдера или хостера в серверной? сходи, посмотри. это очень познавательно. в плане того, чтобы не было иллюзий.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 2)
Ответ на: комментарий от adn

Результат кустарного труда всегда дороже и чаще всего намного хуже фабричного.

О да, особенно в ойтишечке это хорошо заметно, когда контора берет несколько килобаксов и ковыряется месяц там, где вася берет пятьсот и делает за два дня.

thesis ★★★★★
()
Ответ на: комментарий от Iron_Bug

и да, какой смысл сливать всю свою важную информацию куда-то налево.

Умные люди - математики, давно придумали шифрование. Не надо обсуждать то, о чем не имеешь на малейшего понимания. Так себе выглядит со стороны.

adn ★★★★
()
Ответ на: комментарий от thesis

О да, особенно в ойтишечке это хорошо заметно, когда контора берет несколько килобаксов и ковыряется месяц там, где вася берет пятьсот и делает за два дня.

Эти Вася и контора с тобой в одной комнате?

adn ★★★★
()
Ответ на: комментарий от adn

нет. эти васяны в той конторе, куда ты слил свои данные. и они в принципе в любой конторе на просторах этой страны.

а я свои данные никуда не сливаю. потому что я-таки специалист. и понимаю, что не надо так делать.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.