LINUX.ORG.RU
ФорумTalks

не ИИ

 


0

1

на уровне «неплохо бы» - хочу сервис для репозитория, бложика, сайта и архивов который:

по мере сил и возможностей препятствует попаданию моей нетленки в индексацию и обучение разных ИИ.

моё это моё, людям непосредственно читать/искать можно, пережёвывать через ИИ нет.

Такое вообще есть ?

или планируется кем-то, какие-то подвижки в техническом или юридическом плане может быть известны

★★★★★

Такое вообще есть ?

Всё, что попало в интернет, пропало. Так что только оффлайн-сайт, оффлайн-бложик. Заодно, и люди пережёвывать не будут, сплошные плюсы.

tiinn ★★★★★
()

на уровне «сделай сам»:

пока-что видится что в публичной части только оглавление+дайджесты, остальное за капчу, c noindex и жёстким отсеканием вообще всех ботов при малейшем признаке.

так-себе защита, получиться что и в поисковиках почти ничего нет, и людей нервирует (капча та ещё забава) и обходиться на раз-два.

MKuznetsov ★★★★★
() автор топика
Ответ на: комментарий от MKuznetsov

Тут либо трусы одеть (дать людям читать), либо крестик снять (дать ИИ читать). Потому что как только ты даёшь аккаунт неверифицированным пользователям, кто мешает его использовать ИИ-боту?

seiken ★★★★★
()
Ответ на: комментарий от seiken

Потому что как только ты даёшь аккаунт неверифицированным пользователям, кто мешает его использовать ИИ-боту?

больше того, где гарантия, что верифицированный пользователь не сольёт данные ИИ-шечке?

tiinn ★★★★★
()
Ответ на: комментарий от tiinn

В принципе, можно отслеживать скорость отправки запросов. Ну скажем, вот у нас ЛОР. Установить невозможным показ большого количества комментов, результатов поиска и т.п. Т.е., чтобы получить новую инфу, надо отправить запрос. Дальше простыми правилами (без всяких там перцептронов, веорятностных микстур и проч. ЛЛМ) настроить дискриминатор «ИИ-человек» по активности клиента. Если вдруг наплыв клиентов с разных IP, то это тоже добавить в правила дискриминатора. Если кто-то захочет тупо слить весь контент, у него это не получится, потому что цедить косочки инфы понемногу каждый день в течение многих дней может не стоить затраченных ресурсов.

seiken ★★★★★
()
Ответ на: комментарий от seiken

тут такая загогулина:

если давать читать генеративному ИИ, то читающих людей и обратной связи становиться меньше, а этого и так мизер. При этом в языковых моделях ИИ «генеративный»,«поиск+обобщение» не отличаются вообще ничем. У них неустойчивые разные названия только в маркетинговых целях.

Ты публикуешь решение чего-то там, человек ищущий именно это получит от ИИ пересказ с бредом и никак с тобой не свяжется. Ты начал писать гениальные высоко-художественные тексты, откликов читателей ты не увидишь, зато появятся неотличимые подражания. Твой код усвистит в вайб-кодинг и пушей,патчей не будет.

публикатору нет никакого смысла кроме самострела отдавать информацию языковым моделям.

MKuznetsov ★★★★★
() автор топика
Ответ на: комментарий от tiinn

Нет, ну почему же? Надо просто определиться: сервис будет публичным? Если да, то тут без усложнений и эшелонированной обороны от ИИ не обойтись. Если сервис только для доверенных лиц, которых лично знаешь и доверяешь им - просто взаимная аутентификация через TLS.

seiken ★★★★★
()

Пользователь открывает сайт, нажимает Ctrl + A, Ctrl + C, затем открывает чат с ИИ, нажимает Ctrl + V, добавляя «дай мне выжимку из текста ниже», PROFIT.

Пользователь клонирует твой репозиторий на свой компьютер, запускает внутри Claude Code, даёт ему запрос «расскажи что делает этот проект», PROFIT.

KivApple ★★★★★
()
Ответ на: комментарий от MKuznetsov

Выпадаешь из поисковиков, с тем же успехом можно просто постить на localhost и никуда не публиковать.

KivApple ★★★★★
()
Ответ на: комментарий от MKuznetsov

Смешались в кучу кони, люди… Ты сейчас о том, как ИИ угрожает творческим людям или о конкретной технической задаче усложнить доступ к ресурсу со стороны ИИ конторе с конкретным интересом к твоим данным и конкретным бюджетом?

seiken ★★★★★
()
Последнее исправление: seiken (всего исправлений: 1)
Ответ на: комментарий от seiken

наплыв клиентов с разных IP

Это значит, что если ты сделаешь что-то более-менее нужное и кто-то запостит это на популярном ресурсе и к тебе понабегут живые юзеры, твой сайт самозабанится.

Все эти меры защиты (запрет индексирования, лимит на наплыв юзеров и т. д.) по сути убивают любой органический трафик. С тем же успехом можно просто хостить на localhost, тогда точно никакой ИИ не доберётся.

KivApple ★★★★★
()
Ответ на: комментарий от KivApple

Так я же и говорю, что надо сразу определиться: либо публичный сервис, либо секретное сообщество.

seiken ★★★★★
()
Ответ на: комментарий от seiken

Ты сейчас о том, как ИИ угрожает творческим людям или о конкретной технической задачи усложнить доступ к ресурсу со стороны ИИ конторе с конкретным интересом к твоим данным и конкретным бюджетом?

не вижу противоречий или дилеммы.

я о том ИИ угрожает творческому мне и ищу технические решения усложнить ИИ доступ к моим ресурсам и данным. При этом желательно не усложнять доступ «широкому кругу лиц» если непосредственно они человеки.

MKuznetsov ★★★★★
() автор топика

записывай на глиняные таблички

таблички можно оставить в людном месте

unclestephen
()
Ответ на: комментарий от MKuznetsov

Ну если мы говорим конкретно про репу с исходниками - невозможно её защитить от ИИ, если она публичная.

seiken ★★★★★
()
Ответ на: комментарий от MKuznetsov

Если человек читает саммари от ИИ без перехода к источнику, он в любом случае недостаточно заинтересован в глубоком изучении вопроса и он не твоя ЦА в любом случае. Если ИИ не сможет прочитать твою статью, он прочитает другую или вообще нагаллюцинирует ответ. Пользователя это устроит и он к тебе на сайт всё равно не зайдёт.

Если человека интересуют детали, он кликнет по ссылке на источник заинтересовавшись саммари и прочитает оригинал.

То что таких людей мало значит лишь то, что большинству людей не нужны глубокие детальные ответы и они не твоя ЦА (как бы успех TikTok и YouTube Shorts намекает, что 95% людей тупо не нужен объёмный контент, это суровая реальность, в которой приходится жить, ИИ лишь логичное продолжение). Ну а ещё твои статьи могут быть при этом недостаточно ценными для нишевых пользователей, которые реально прокликивают ссылки из саммари.

KivApple ★★★★★
()
Последнее исправление: KivApple (всего исправлений: 4)
Ответ на: комментарий от Lordwind

От простого бота спасёт. Но если очень нужно, то ничто, что может работать с полноценного браузера и вести себя, как человек, не поможет. Я довольно легко все манули с openwrt с его анубисом собрал

mamina_radost
()

Как ты себе представляешь защиту от бота, который может пользоваться тем же полноценным браузером, если очень надо? Для простых решений бери анубис, как писали ранее.

mamina_radost
()
Ответ на: комментарий от mamina_radost

Я однажды был в ситуации, что захотелось скачать сотню страниц с одного сайта за CloudFlare, который выдавал капчу при попытках воспользоваться curl.

Пожаловался Claude Code. Через 5 минут у меня был Python скрипт, который запускал хром со свежим профилем и новым прокси, дожидался прохождения CloudFlare челленджа, переходил по нескольким страницам сохраняя HTML, затем запускал новый хром с новым IP. Оставил его на ночь (полтора часа работы как никак, а постоянно открывающийся хром мешает работать, а headless не проходил проверку), проснулся и увидел аккуратную папочку с HTML.

Защититься от такого можно разве что сверхсложными кастомными капчами, но это убьёт трафик в ноль, если только владелец сайта не раздаёт биткойны за прочтение статьи до конца.

Юридические методы защиты работают только если отскрапленный сайт где-то всплывёт, потому что во многих юрисдикциях легальность скрапинга зависит от целей (например, «в исследовательских целях» много где можно, «обучение коммерческого ИИ» серая зона, перепродавать дата сет «как есть» обычно нельзя). Ну и ты ничего не докажешь пока не всплывёт.

У меня есть подозрение, что у ТС сайт с <500 страниц и с <50 уникальных юзеров в сутки (такие больше всего бояться, что ИИ лишит их посетителей и украдёт весь контент), так что с одной стороны отскрапить его сайт не дорого (в самом крайнем случае можно нанять людей проходить капчи за 10-50 рублей/страница), с другой любые инвазивные методы защиты сведут количество посетителей до 1.

KivApple ★★★★★
()
Последнее исправление: KivApple (всего исправлений: 5)

Как уже писали, поставить анубис, а еще лучше, просто забить. Вы думаете, что если сайт не прочитает ИИ, то его человеки будут посещать больше. Ну вобщем нет, если чел работает с ИИ, то ваш сайт просто не будет упомянут в сгенерированом тексте, вот и все.

goingUp ★★★★★
()
Ответ на: комментарий от KivApple

Пожаловался Claude Code. Через 5 минут у меня был Python скрипт, который запускал хром со свежим профилем и новым прокси, дожидался прохождения CloudFlare челленджа, переходил по нескольким страницам сохраняя HTML, затем запускал новый хром с новым IP.

Фреймворков для скрапинга нынче много. На каком основывал код? Один из лучших сейчас crawl4ai

mamina_radost
()
Ответ на: комментарий от goingUp

Тут проблема в другом. Те же openwrt поставили анубис не потому, что им важно, чтобы llm не читал доки. Дело в том, что армия китайских (и не только) ботов тупо дудосит сайты.

mamina_radost
()
Ответ на: комментарий от mamina_radost

От таких армий crowdsec еще помогает. Это как fail2ban но с подпиской на bad ip.

Lordwind ★★★★★
()

ии обучают на всё на свете, на лицензии кладут, воруют и всё такое. только offline или по паролю и всё такое. можно попрактиковать «соурс бомбы», зажать чем-нить бесконечный бАльшой +- валидный код, шоб подавились +).

vtVitus ★★★★★
()
Последнее исправление: vtVitus (всего исправлений: 1)

А ты спрашивал у Квена? Он по любому найдет желаемое. Или поможет написать.

LightDiver ★★★★★
()

Знаете что мне напоминает это неприятие ИИшек? Книга «Я - легенда». Там великолепно описан этот процесс.

LightDiver ★★★★★
()

пара хороших наводок прозвучала, это anubis и crowdsec. То есть если делать самострой то можно обойтись без неудобной капчи. На уровне чтобы отсечь толпу тупых ботов уже неплохо.

кто реально ближе к тематике ИИ:

есть ещё уровень непосредственно публикаций: существуют-ли некие правила-соглашения разметки/маркеров/водяных_знаков, которым «добросовестные»(в кавычках конечно) ИИ следуют и якобы не используют отмеченную информация при генерациях ?

PS/ 100% защиты не существует не для чего. Но это не повод отказываться вообще от защиты. Любую машину могут угнать или обчистить, но никто-же не оставляет дверь нараспашку и ключи в замке.

MKuznetsov ★★★★★
() автор топика
Последнее исправление: MKuznetsov (всего исправлений: 1)
Ответ на: комментарий от MKuznetsov

есть ещё уровень непосредственно публикаций: существуют-ли некие правила-соглашения разметки/маркеров/водяных_знаков, которым «добросовестные»(в кавычках конечно) ИИ следуют и якобы не используют отмеченную информация при генерациях ?

Если и есть модели которые сделаны «добросовестным» путём, то ими вряд ли кто пользуется. Все современные популярные модели тренируются на всём подряд, от личных перепискок до детской порнографии.

Gary ★★★★★
()
Ответ на: комментарий от KivApple

Для обхода cloudflare обычно не нужно никаких фреймворков и браузеров с впнами, если на сайте не стоят совсем жесткие настройки, достаточно через curl передать cookies от cloudflare + юзерагент, который прошёл капчу.

Gary ★★★★★
()
Ответ на: комментарий от Gary

Это если настройки дефолтные. Я знаю некоторые сайты, которые каждые 30 минут каптчу показывают. Или когда n страниц посмотрят, или когда слишком быстро по страницам сайта сёрфить. Или вообще когда дождик где-то над территорией северного полушария новый начинается. И это не только каптча от клаудфлары, наше отечественное копрофильное не отстаёт.

ЗЫ

Наблюдал такое даже на яшке и на мейлрушечке, после чего забил на них болт, особенно если из-за NAT-а ходить.

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 2)

Оно скорее всего всё равно попадёт рано или поздно, если в публичном доступе. Но препятствовать можно - из простого бан известных юзер-агентов бредоботов, но китайские притворяются браузерами - их надо вычислять по диапазонам адресов.

firkax ★★★★★
()

В сети полно проектов «LLM poisoning». Поставь на свой сайтик, чтобы роботам скармливались гигабайты отборнейшего бреда, а человекам показывался твой сайт.

Одним выстрелом - двух зайцев.

Stanson ★★★★★
()

препятствует попаданию моей нетленки в индексацию

Долгое время это была политика Фейсбука. Чтобы иметь доступ единолично и монетизировать. А с некоторых пор — учить свой ИИ.

Знаю один очень специфический художественный сайт, заблокированный в РФ за порнографию. (У нескольких ЛОРовцев в профилях указаны аккаунты на том сайте.) Они выборочно блокировали страницы пользователей от индексации Гуглом и web.archive.org. Не слишком сложные скрипты их ограничения легко обходят, и для обучения ИИ этот сайт давно используется, хоть и запрещает.

Думаю, эти 2 примера вполне типичны. Или ограничивает, чтобы сам этим торговать, или пытается защищать, но не может.

question4 ★★★★★
()
Ответ на: комментарий от KivApple

Ты можешь в robots.txt указать disallow для всяких ChatGPT

Многие их не соблюдают. Собственно, поэтому так популярны Cloudflare и Anubis.

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 1)
Ответ на: комментарий от peregrine

Наблюдал такое даже на яшке и на мейлрушечке

Поиск в Яндекс-маркете и Яндекс-видео из поисковой строки браузера мне регулярно выдаёт капчу. В основном поиске — несколько реже. Возможно потому, что поисковики добавил руками, и Яндекс у меня неосновной.

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 2)
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)