не ИИ

Такое вообще есть ?

Всё, что попало в интернет, пропало. Так что только оффлайн-сайт, оффлайн-бложик. Заодно, и люди пережёвывать не будут, сплошные плюсы.

tiinn ★★★★★
(26.03.26 13:16:19 MSK)

Ссылка

на уровне «сделай сам»:

пока-что видится что в публичной части только оглавление+дайджесты, остальное за капчу, c noindex и жёстким отсеканием вообще всех ботов при малейшем признаке.

так-себе защита, получиться что и в поисковиках почти ничего нет, и людей нервирует (капча та ещё забава) и обходиться на раз-два.

MKuznetsov ★★★★★
(26.03.26 13:36:11 MSK) автор топика

берешь впску, ставишь барахло, прикручиваешь анубис - сложно чтоле?

Lordwind ★★★★★
(26.03.26 13:38:30 MSK)

Ответ на: комментарий от MKuznetsov 26.03.26 13:36:11 MSK

Тут либо трусы одеть (дать людям читать), либо крестик снять (дать ИИ читать). Потому что как только ты даёшь аккаунт неверифицированным пользователям, кто мешает его использовать ИИ-боту?

seiken ★★★★★
(26.03.26 13:57:06 MSK)

Ответ на: комментарий от seiken 26.03.26 13:57:06 MSK

Потому что как только ты даёшь аккаунт неверифицированным пользователям, кто мешает его использовать ИИ-боту?

больше того, где гарантия, что верифицированный пользователь не сольёт данные ИИ-шечке?

tiinn ★★★★★
(26.03.26 14:00:44 MSK)

Ответ на: комментарий от tiinn 26.03.26 14:00:44 MSK

В принципе, можно отслеживать скорость отправки запросов. Ну скажем, вот у нас ЛОР. Установить невозможным показ большого количества комментов, результатов поиска и т.п. Т.е., чтобы получить новую инфу, надо отправить запрос. Дальше простыми правилами (без всяких там перцептронов, веорятностных микстур и проч. ЛЛМ) настроить дискриминатор «ИИ-человек» по активности клиента. Если вдруг наплыв клиентов с разных IP, то это тоже добавить в правила дискриминатора. Если кто-то захочет тупо слить весь контент, у него это не получится, потому что цедить косочки инфы понемногу каждый день в течение многих дней может не стоить затраченных ресурсов.

seiken ★★★★★
(26.03.26 14:09:13 MSK)

Ответ на: комментарий от seiken 26.03.26 14:09:13 MSK

Да проще тогда ничего в сеть не выставлять - точно не утечёт.

tiinn ★★★★★
(26.03.26 14:13:22 MSK)

Ответ на: комментарий от seiken 26.03.26 13:57:06 MSK

тут такая загогулина:

если давать читать генеративному ИИ, то читающих людей и обратной связи становиться меньше, а этого и так мизер. При этом в языковых моделях ИИ «генеративный»,«поиск+обобщение» не отличаются вообще ничем. У них неустойчивые разные названия только в маркетинговых целях.

Ты публикуешь решение чего-то там, человек ищущий именно это получит от ИИ пересказ с бредом и никак с тобой не свяжется. Ты начал писать гениальные высоко-художественные тексты, откликов читателей ты не увидишь, зато появятся неотличимые подражания. Твой код усвистит в вайб-кодинг и пушей,патчей не будет.

публикатору нет никакого смысла кроме самострела отдавать информацию языковым моделям.

MKuznetsov ★★★★★
(26.03.26 14:15:14 MSK) автор топика

Ответ на: комментарий от tiinn 26.03.26 14:13:22 MSK

Нет, ну почему же? Надо просто определиться: сервис будет публичным? Если да, то тут без усложнений и эшелонированной обороны от ИИ не обойтись. Если сервис только для доверенных лиц, которых лично знаешь и доверяешь им - просто взаимная аутентификация через TLS.

seiken ★★★★★
(26.03.26 14:16:08 MSK)

Ссылка

Пользователь открывает сайт, нажимает Ctrl + A, Ctrl + C, затем открывает чат с ИИ, нажимает Ctrl + V, добавляя «дай мне выжимку из текста ниже», PROFIT.

Пользователь клонирует твой репозиторий на свой компьютер, запускает внутри Claude Code, даёт ему запрос «расскажи что делает этот проект», PROFIT.

KivApple ★★★★★
(26.03.26 14:17:01 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 26.03.26 13:36:11 MSK

Выпадаешь из поисковиков, с тем же успехом можно просто постить на localhost и никуда не публиковать.

KivApple ★★★★★
(26.03.26 14:18:08 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 26.03.26 14:15:14 MSK

Смешались в кучу кони, люди… Ты сейчас о том, как ИИ угрожает творческим людям или о конкретной технической задаче усложнить доступ к ресурсу со стороны ИИ конторе с конкретным интересом к твоим данным и конкретным бюджетом?

seiken ★★★★★
(26.03.26 14:19:37 MSK)
Последнее исправление: seiken 26.03.26 14:19:59 MSK (всего исправлений: 1)

Ответ на: комментарий от seiken 26.03.26 14:09:13 MSK

наплыв клиентов с разных IP

Это значит, что если ты сделаешь что-то более-менее нужное и кто-то запостит это на популярном ресурсе и к тебе понабегут живые юзеры, твой сайт самозабанится.

Все эти меры защиты (запрет индексирования, лимит на наплыв юзеров и т. д.) по сути убивают любой органический трафик. С тем же успехом можно просто хостить на localhost, тогда точно никакой ИИ не доберётся.

KivApple ★★★★★
(26.03.26 14:21:54 MSK)

Ответ на: комментарий от KivApple 26.03.26 14:21:54 MSK

Так я же и говорю, что надо сразу определиться: либо публичный сервис, либо секретное сообщество.

seiken ★★★★★
(26.03.26 14:24:35 MSK)

Ссылка

Ответ на: комментарий от seiken 26.03.26 14:19:37 MSK

Ты сейчас о том, как ИИ угрожает творческим людям или о конкретной технической задачи усложнить доступ к ресурсу со стороны ИИ конторе с конкретным интересом к твоим данным и конкретным бюджетом?

не вижу противоречий или дилеммы.

я о том ИИ угрожает творческому мне и ищу технические решения усложнить ИИ доступ к моим ресурсам и данным. При этом желательно не усложнять доступ «широкому кругу лиц» если непосредственно они человеки.

MKuznetsov ★★★★★
(26.03.26 14:24:40 MSK) автор топика

записывай на глиняные таблички

таблички можно оставить в людном месте

unclestephen ★★★
(26.03.26 14:24:42 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 26.03.26 14:24:40 MSK

Ну если мы говорим конкретно про репу с исходниками - невозможно её защитить от ИИ, если она публичная.

seiken ★★★★★
(26.03.26 14:25:44 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 26.03.26 14:15:14 MSK

Если человек читает саммари от ИИ без перехода к источнику, он в любом случае недостаточно заинтересован в глубоком изучении вопроса и он не твоя ЦА в любом случае. Если ИИ не сможет прочитать твою статью, он прочитает другую или вообще нагаллюцинирует ответ. Пользователя это устроит и он к тебе на сайт всё равно не зайдёт.

Если человека интересуют детали, он кликнет по ссылке на источник заинтересовавшись саммари и прочитает оригинал.

То что таких людей мало значит лишь то, что большинству людей не нужны глубокие детальные ответы и они не твоя ЦА (как бы успех TikTok и YouTube Shorts намекает, что 95% людей тупо не нужен объёмный контент, это суровая реальность, в которой приходится жить, ИИ лишь логичное продолжение). Ну а ещё твои статьи могут быть при этом недостаточно ценными для нишевых пользователей, которые реально прокликивают ссылки из саммари.

KivApple ★★★★★
(26.03.26 14:25:50 MSK)
Последнее исправление: KivApple 26.03.26 14:36:12 MSK (всего исправлений: 4)

Ссылка

Ответ на: комментарий от seiken 26.03.26 13:57:06 MSK

Во что их одеть?

ya-betmen ★★★★★
(26.03.26 14:26:49 MSK)

Ссылка

Ответ на: комментарий от Lordwind 26.03.26 13:38:30 MSK

От простого бота спасёт. Но если очень нужно, то ничто, что может работать с полноценного браузера и вести себя, как человек, не поможет. Я довольно легко все манули с openwrt с его анубисом собрал

mamina_radost ★
(26.03.26 14:27:27 MSK)

Ссылка

Как ты себе представляешь защиту от бота, который может пользоваться тем же полноценным браузером, если очень надо? Для простых решений бери анубис, как писали ранее.

mamina_radost ★
(26.03.26 14:28:51 MSK)

Ответ на: комментарий от mamina_radost 26.03.26 14:28:51 MSK

Я однажды был в ситуации, что захотелось скачать сотню страниц с одного сайта за CloudFlare, который выдавал капчу при попытках воспользоваться curl.

Пожаловался Claude Code. Через 5 минут у меня был Python скрипт, который запускал хром со свежим профилем и новым прокси, дожидался прохождения CloudFlare челленджа, переходил по нескольким страницам сохраняя HTML, затем запускал новый хром с новым IP. Оставил его на ночь (полтора часа работы как никак, а постоянно открывающийся хром мешает работать, а headless не проходил проверку), проснулся и увидел аккуратную папочку с HTML.

Защититься от такого можно разве что сверхсложными кастомными капчами, но это убьёт трафик в ноль, если только владелец сайта не раздаёт биткойны за прочтение статьи до конца.

Юридические методы защиты работают только если отскрапленный сайт где-то всплывёт, потому что во многих юрисдикциях легальность скрапинга зависит от целей (например, «в исследовательских целях» много где можно, «обучение коммерческого ИИ» серая зона, перепродавать дата сет «как есть» обычно нельзя). Ну и ты ничего не докажешь пока не всплывёт.

У меня есть подозрение, что у ТС сайт с <500 страниц и с <50 уникальных юзеров в сутки (такие больше всего бояться, что ИИ лишит их посетителей и украдёт весь контент), так что с одной стороны отскрапить его сайт не дорого (в самом крайнем случае можно нанять людей проходить капчи за 10-50 рублей/страница), с другой любые инвазивные методы защиты сведут количество посетителей до 1.

KivApple ★★★★★
(26.03.26 14:47:19 MSK)
Последнее исправление: KivApple 26.03.26 15:06:11 MSK (всего исправлений: 5)

Как уже писали, поставить анубис, а еще лучше, просто забить. Вы думаете, что если сайт не прочитает ИИ, то его человеки будут посещать больше. Ну вобщем нет, если чел работает с ИИ, то ваш сайт просто не будет упомянут в сгенерированом тексте, вот и все.

goingUp ★★★★★
(26.03.26 15:18:27 MSK)

Ответ на: комментарий от KivApple 26.03.26 14:47:19 MSK

Пожаловался Claude Code. Через 5 минут у меня был Python скрипт, который запускал хром со свежим профилем и новым прокси, дожидался прохождения CloudFlare челленджа, переходил по нескольким страницам сохраняя HTML, затем запускал новый хром с новым IP.

Фреймворков для скрапинга нынче много. На каком основывал код? Один из лучших сейчас crawl4ai

mamina_radost ★
(26.03.26 15:26:42 MSK)

Ссылка

Ответ на: комментарий от goingUp 26.03.26 15:18:27 MSK

Тут проблема в другом. Те же openwrt поставили анубис не потому, что им важно, чтобы llm не читал доки. Дело в том, что армия китайских (и не только) ботов тупо дудосит сайты.

mamina_radost ★
(26.03.26 15:28:52 MSK)

Ответ на: комментарий от mamina_radost 26.03.26 15:28:52 MSK

От таких армий crowdsec еще помогает. Это как fail2ban но с подпиской на bad ip.

Lordwind ★★★★★
(26.03.26 15:51:35 MSK)

Ссылка

ии обучают на всё на свете, на лицензии кладут, воруют и всё такое. только offline или по паролю и всё такое. можно попрактиковать «соурс бомбы», зажать чем-нить ~~бесконечный~~ бАльшой +- валидный код, шоб подавились +).

vtVitus ★★★★★
(26.03.26 15:51:43 MSK)
Последнее исправление: vtVitus 26.03.26 15:53:49 MSK (всего исправлений: 1)

Ссылка

А ты спрашивал у Квена? Он по любому найдет желаемое. Или поможет написать.

LightDiver ★★★★★
(26.03.26 15:56:44 MSK)

Ссылка

Знаете что мне напоминает это неприятие ИИшек? Книга «Я - легенда». Там великолепно описан этот процесс.

LightDiver ★★★★★
(26.03.26 16:17:07 MSK)

Ссылка

пара хороших наводок прозвучала, это anubis и crowdsec. То есть если делать самострой то можно обойтись без неудобной капчи. На уровне чтобы отсечь толпу тупых ботов уже неплохо.

кто реально ближе к тематике ИИ:

есть ещё уровень непосредственно публикаций: существуют-ли некие правила-соглашения разметки/маркеров/водяных_знаков, которым «добросовестные»(в кавычках конечно) ИИ следуют и якобы не используют отмеченную информация при генерациях ?

PS/ 100% защиты не существует не для чего. Но это не повод отказываться вообще от защиты. Любую машину могут угнать или обчистить, но никто-же не оставляет дверь нараспашку и ключи в замке.

MKuznetsov ★★★★★
(26.03.26 16:20:31 MSK) автор топика
Последнее исправление: MKuznetsov 26.03.26 16:21:51 MSK (всего исправлений: 1)

Ответ на: комментарий от MKuznetsov 26.03.26 16:20:31 MSK

Ты можешь в robots.txt указать disallow для всяких ChatGPT

KivApple ★★★★★
(26.03.26 16:27:01 MSK)

Ответ на: комментарий от MKuznetsov 26.03.26 16:20:31 MSK

есть ещё уровень непосредственно публикаций: существуют-ли некие правила-соглашения разметки/маркеров/водяных_знаков, которым «добросовестные»(в кавычках конечно) ИИ следуют и якобы не используют отмеченную информация при генерациях ?

Если и есть модели которые сделаны «добросовестным» путём, то ими вряд ли кто пользуется. Все современные популярные модели тренируются на всём подряд, от личных перепискок до детской порнографии.

Gary ★★★★★
(26.03.26 16:28:58 MSK)

Ссылка

Ответ на: комментарий от KivApple 26.03.26 14:47:19 MSK

Для обхода cloudflare обычно не нужно никаких фреймворков и браузеров с впнами, если на сайте не стоят совсем жесткие настройки, достаточно через curl передать cookies от cloudflare + юзерагент, который прошёл капчу.

Gary ★★★★★
(26.03.26 16:31:18 MSK)

Ответ на: комментарий от Gary 26.03.26 16:31:18 MSK

Это если настройки дефолтные. Я знаю некоторые сайты, которые каждые 30 минут каптчу показывают. Или когда n страниц посмотрят, или когда слишком быстро по страницам сайта сёрфить. Или вообще когда дождик где-то над территорией северного полушария новый начинается. И это не только каптча от клаудфлары, наше отечественное копрофильное не отстаёт.

ЗЫ

Наблюдал такое даже на яшке и на мейлрушечке, после чего забил на них болт, особенно если из-за NAT-а ходить.

peregrine ★★★★★
(26.03.26 16:50:35 MSK)
Последнее исправление: peregrine 26.03.26 16:51:32 MSK (всего исправлений: 2)

Оно скорее всего всё равно попадёт рано или поздно, если в публичном доступе. Но препятствовать можно - из простого бан известных юзер-агентов бредоботов, но китайские притворяются браузерами - их надо вычислять по диапазонам адресов.

firkax ★★★★★
(27.03.26 01:53:36 MSK)

Ссылка

В сети полно проектов «LLM poisoning». Поставь на свой сайтик, чтобы роботам скармливались гигабайты отборнейшего бреда, а человекам показывался твой сайт.

Одним выстрелом - двух зайцев.

Stanson ★★★★★
(27.03.26 03:37:33 MSK)

Ссылка

препятствует попаданию моей нетленки в индексацию

Долгое время это была политика Фейсбука. Чтобы иметь доступ единолично и монетизировать. А с некоторых пор — учить свой ИИ.

Знаю один очень специфический художественный сайт, заблокированный в РФ за порнографию. (У нескольких ЛОРовцев в профилях указаны аккаунты на том сайте.) Они выборочно блокировали страницы пользователей от индексации Гуглом и web.archive.org. Не слишком сложные скрипты их ограничения легко обходят, и для обучения ИИ этот сайт давно используется, хоть и запрещает.

Думаю, эти 2 примера вполне типичны. Или ограничивает, чтобы сам этим торговать, или пытается защищать, но не может.

question4 ★★★★★
(27.03.26 10:55:47 MSK)

Ссылка

Ответ на: комментарий от KivApple 26.03.26 16:27:01 MSK

Ты можешь в robots.txt указать disallow для всяких ChatGPT

Многие их не соблюдают. Собственно, поэтому так популярны Cloudflare и Anubis.

question4 ★★★★★
(27.03.26 11:03:05 MSK)
Последнее исправление: question4 27.03.26 11:05:37 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от peregrine 26.03.26 16:50:35 MSK

Наблюдал такое даже на яшке и на мейлрушечке

Поиск в Яндекс-маркете и Яндекс-видео из поисковой строки браузера мне регулярно выдаёт капчу. В основном поиске — несколько реже. Возможно потому, что поисковики добавил руками, и Яндекс у меня неосновной.

question4 ★★★★★
(27.03.26 11:15:21 MSK)
Последнее исправление: question4 27.03.26 11:16:15 MSK (всего исправлений: 2)

Ответ на: комментарий от question4 27.03.26 11:15:21 MSK

Нет, это потому что у тебя IP серый скорее всего. Т.е. NAT. Яндекс такое очень не любит, точнее он не любит если запросов с одного адреса слишком много в единицу времени.

peregrine ★★★★★
(28.03.26 22:02:45 MSK)

Ответ на: комментарий от peregrine 28.03.26 22:02:45 MSK

Нет, это потому что у тебя IP серый скорее всего. Т.е. NAT. Яндекс такое очень не любит, точнее он не любит если запросов с одного адреса слишком много в единицу времени.

Если я набираю market.yandex.ru и ищу на этой странице, или перехожу на маркет или видео из основного поисковика Яндекса или из Гугла, капча случается значительно реже.

Но да, NAT.

question4 ★★★★★
(29.03.26 05:36:32 MSK)

Ссылка

Похожие темы