LINUX.ORG.RU
ФорумTalks

NVIDIA искала пиратские книги для обучения ИИ. Переписка попала в суд

 , , ,


1

1

Авторы книг расширили коллективный иск против NVIDIA — и предъявили внутренние документы компании. Из них следует, что корпорация вела переговоры с Anna’s Archive, крупнейшей пиратской библиотекой в мире, о доступе к 500 ТБ книг для обучения своих языковых моделей.

Началось с того, что сотрудник команды NVIDIA по стратегии данных написал в Anna’s Archive напрямую. Его интересовало, как получить «высокоскоростной доступ» к коллекции — такая услуга стоила десятки тысяч долларов.

Дальше — интереснее. Anna’s Archive сама предупредила NVIDIA, что ее библиотека собрана и поддерживается нелегально. Пираты даже спросили, есть ли у сотрудника внутреннее разрешение на такие переговоры — видимо, уже обжигались с другими AI-компаниями, тратя время впустую. Через неделю руководство NVIDIA дало зеленый свет.

Помимо Anna’s Archive, в иске фигурируют и другие источники: LibGen, Sci-Hub, Z-Library и датасет Books3. Авторы также обвиняют NVIDIA в том, что она распространяла скрипты для автоматического скачивания пиратских датасетов среди корпоративных клиентов.

Прецедент уже есть: в сентябре 2025 Anthropic урегулировала аналогичный иск за $1.5 млрд — компания признала скачивание книг с пиратских сайтов для обучения Claude. Суд тогда постановил: обучать на легально купленных книгах можно, пиратить — нельзя.

PS Делаем выводы о реальной стоимости поделий нвидлы…

Гулагский источник

Почему у меня полная уверенность в том, что я уже это или нечто очень похожее читал где-то год-другой назад? Новость по ссылке на хабре новая при этом…

Такое уже было, просто с кем-то другим вместо Nvidia, или у меня дежа-вю?

upd: а, надо было до конца текст дочитать:

Прецедент уже есть: в сентябре 2025 Anthropic урегулировала аналогичный иск за $1.5 млрд — компания признала скачивание книг с пиратских сайтов для обучения Claude. Суд тогда постановил: обучать на легально купленных книгах можно, пиратить — нельзя.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от CrX

Такое уже было, просто с кем-то другим вместо Nvidia, или у меня дежа-вю?

Тут я не в курсе, но они вроде пишут, что были похожие прецеденты, но мне вообще впервые такая новость на глаза попалась)))

Я и раньше подозревал в мире цыганщины многовато, а тут прям знаковое подтверждение)))

Sm0ke85
() автор топика

Авторы книг … предъявили внутренние документы компании.

Спиратили?

dataman ★★★★★
()

Мошков не дался!

Irma ★★★
()

Sci-Hub

Оказывается, организатор Sci-Hub кандидатскую степень получила, что интересно (и в какой-то мере закономерно) - не по своей основной специальности (Information Techbology), а по философии.

https://iphras.ru/page26414303.htm

aiqu6Ait ★★★★★
()
Ответ на: комментарий от dataman

Спиратили?

У меня появляются подозрения, что «авторы» на пиратских ресурсах сами выкладывают свои творения и имеют часть прибыли, оно косвенно может следовать из куска ниже))))

Перевод:

В рамках коллективного иска они утверждали, что модели искусственного интеллекта компании были обучены на наборе данных Books3, который включал защищенные авторским правом произведения, взятые с «пиратского» сайта Bibliotik. Поскольку это произошло без разрешения, авторы потребовали компенсацию.

Т.е. пираты таки использовали произведения с разрешения авторов…?))))

Sm0ke85
() автор топика
Ответ на: комментарий от Sm0ke85

У меня появляются подозрения, что «авторы» на пиратских ресурсах сами выкладывают свои творения и имеют часть прибыли

У Bibliotik (BIB) нет прибыли. Это приватный торрент-трекер, поддерживаемый сообществом, оплачивая хостинг исключительно с донатов самих юзеров. Там нет рекламы и прочего, прибыль получать попросту не с чего.

А авторы иногда выкладывают свои произведения на подобных трекерах, это правда (музыканты на RED или OPS тоже) — бывает такое. Чаще всего не скрываясь. Правда в таком случае это никаким «пиратством» не считается и не является, конечно же. Прибыли с этого, конечно, никакой, но можно считать своеобразным пиаром, рекламой — чтоб узнали хотя бы в узких кругах ну и т.д.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от CrX

я уже это или нечто очень похожее читал где-то год-другой назад?

Ну так и было, c openAi та же самая история. Подобно как в основании каждого крупного капитала лежит преступление, так и в основании каждого голема ЛЛМ лежит спираченая/соскрейпленая информация)

goingUp ★★★★★
()

То есть, они запихали в ИИ вообще все, что написано на этой планете, а умным он не стал?

Irma ★★★
()
Ответ на: комментарий от Irma

Чтение не всех книг одинаково полезно. А некоторых, если не относится к ним критически, даже и вредно.

Leupold_cat ★★★★★
()
Ответ на: комментарий от Irma

То есть, они запихали в ИИ вообще все, что написано на этой планете, а умным он не стал?

Не, на такое нет мощностей, скорее всего книги отбирали либо вручную, либо другая нейросетка сортировала на годные/не годные.

goingUp ★★★★★
()
Ответ на: комментарий от Irma

То есть, они запихали в ИИ вообще все, что написано на этой планете, а умным он не стал?

Так ИИ по фундаменту недотягивает, ему даже если инопланетное еще все скормить - все равно пользы с гулькин нос будет)))

Sm0ke85
() автор топика
Ответ на: комментарий от Irma

То есть, они запихали в ИИ вообще все, что написано на этой планете, а умным он не стал?

Как будто любой человек, прочитавший всё, станет умным…

Дело ведь не только в прочитать, ещё анализ, корреляция, поиск противоречий, распознование юмора, устаревшие данные…

skyman ★★★★★
()

Интересно, конечно. Значит ли это, что внутри nvidia разрабатывают некую языковую модель? Иначе причем тут Nvidia?

cobold ★★★★★
()

Ну надо же, УВАЖАЕМЫЕ ЛЮДИ не моргнув глазом используют пиратский контент, а злодеем является простой Иван город Тверь, который «ворует у голодающих авторов».

MoldAndLimeHoney ★★
()
Ответ на: комментарий от Sm0ke85

У меня появляются подозрения, что «авторы» на пиратских ресурсах сами выкладывают свои творения

Зависит от цели. Допустим, автор хотел заработать, заключил договор с издательством. Спокойно себе зарабатывает. Но, вот что-то произошло, выпустил он опус и хочет, чтобы его прочитало максимально большое количество человек (допустим, изобрёл новый жанр, и хочет застолбить место). А издатель еле качается. Тогда, есть смысл выложить, ага.

tiinn ★★★★★
()
Ответ на: комментарий от Irma

То есть, они запихали в ИИ вообще все, что написано на этой планете, а умным он не стал?

да, всё так. Теперь они пишут книги сами, с помощью ИИ, и опять скармливают их ИИ.

tiinn ★★★★★
()
Ответ на: комментарий от aiqu6Ait

Госпожа Элбокян вообще странная. Для тех кто знают её – она мем. Но Sci-Hub ценят все.

mamina_radost
()

Учитывая, что предельное большинство книг — говно, получается, что поскольку ИИ не умеет отличать хорошее от плохого, то он будет — эталонным говном!

papin-aziat ★★★★★
()
Последнее исправление: papin-aziat (всего исправлений: 1)
Ответ на: комментарий от MoldAndLimeHoney

«Это еще что, а в соседнем районе украли члена партии!»

VIT ★★
()

Нкоторые более надёжные источники говорят

Brian Keene, Abdi Nazemian and Stewart O'Nan said their works were part of a dataset of about 196,640 books that helped train NeMo to simulate ordinary written language, before being taken down in October 

Это создаёт неприятный прецидент - осознанное нарушение закона, поскольку выгода многократно покрывает убытки за наказание. Nvidia полагает, что отделяется иском на пару миллионов, тогда как база данных из 200 тысяч книг вполне может стоить пару десятков.

VIT ★★
()
Ответ на: комментарий от Irma

Ну так на одно «Искусство программирования» приходится сотня книг Донцовой. Чему тут удивляться-то? :)

leave ★★★★★
()
Ответ на: комментарий от leave

Как бы не оказалось на практике, что Донцова принесла пользы большему количеству человеков, чем «Искусство программирования».

LightDiver ★★★★★
()
Ответ на: комментарий от papin-aziat

Учитывая, что предельное большинство книг — говно, получается, что поскольку ИИ не умеет отличать хорошее от плохого, то он будет — эталонным говном!

Оценка книг критерием «говно или нет» - это потреблядский подход.

Книги нужно читать для расширения кругозора и как следствие улучшения мыслительных способностей, а не чтоб насладиться.

Учебник по математике за 9-й класс намного говнистее учебника по анатомии за 9-й класс. Но что поделаешь.

windows10 ★★★★★
()
Ответ на: комментарий от aiqu6Ait

Да она вообще пипец странная. Тем не менее, Sci-Hub это одно из самых значительных и полезных явлений в науке за последнее десятилетие. И, кстати, если разобраться, это именно Sci-Hub борется с пиратством т.н. «рецензируемых журналов» которые тупо воруют т.н. интеллектуальную собственность у учёных (как авторов, так и рецензентов) не платя им ни копейки, и продают за бешеные и неадекватные бабки другим учёным. При этом, сами учёные, по очевидным причинам, не имеют ничего против бесплатного неограниченного распространения их статей, тоже по очевидным причинам.

ЗЫ: Есть ненулевая вероятность, что Элбакян просто подставное публичное лицо проекта, кстати.

Stanson ★★★★★
()
Последнее исправление: Stanson (всего исправлений: 1)
Ответ на: комментарий от VIT

создаёт? кажется подобному подходу уже лет сто, а уж с бурным развитием нейросеток такого стало еще больше. Просто может палились меньше, а курточка решил на это забить

user_undefined ★★
()

Надо было настроить автоудаление переписки сотрудников через год. Всё равно со скоростью прогресса там ничего ценного уже не будет, а вот что-то, что можно принести в суд - да. Ну конечно в приказе о настройке автоудаления прописать «в целях экономии бюджета на дисковое пространство»

KivApple ★★★★★
()
Последнее исправление: KivApple (всего исправлений: 1)
Ответ на: комментарий от user_undefined

Дело не в том. Преступление всегда совершается из желания получить больше выгоды чем предусмотрено наказание. Прецидент в том, что раньше копирайт нарушали «как-бы по незнанию» и «так получилось». Здесь Nvidia заняла другую позицию, ну конечно если верить источникам, которым я лично не верю.

VIT ★★
()
Ответ на: комментарий от VIT

просто видимо у всяких ибм с мордокнигами были более грамотные юристы, которые сразу сказали, что палиться в переписке не надо. Может в нвидии этот момент пропустили. Хотя наверно для суда именно формулировка в стиле «да, нарушили, и что вы нам сделаете, держите свои копейки» будет прецедентом

user_undefined ★★
()

«Мы не можем быть ворами, мы же столько полезного приносим своим ИИ движением!!!». А вообще, индустрия и пользователи за это заплатят. По моему давно не работает это штрафование за пиратство. Вот заставили бы их уничтожить весь интеллектуальный продукт основанный на этих данных… Вот бы жопищи горели бы.

А вообще, а как там дела с «пиратскими» научными журналами? Помню было дело, что их давили, но оказалось сами авторы научных трудов там тоже публиовались и всё как-о затёрлось и я уже не помню.

PcheloBiaka
()
Последнее исправление: PcheloBiaka (всего исправлений: 1)
Ответ на: комментарий от PcheloBiaka

А вообще, а как там дела с «пиратскими» научными журналами? Помню было дело, что их давили, но оказалось сами авторы научных трудов там тоже публиовались

А здесь стандартная проблема в том, что интересы авторов научных трудов и владельцев журналов не совпадают.

Интересы автора:

  1. Поделиться открытием, придать его огласке, обеспечить доступность этих знаний для коллег и человечества.
  2. Увеличить циферку «количество публикаций».
  3. Используя пункт 1 добиться того, чтобы на него и его статью ссылались, тем самым увеличить циферку своего «индекса цитирования».
  4. Отчитаться, о том, что работа по данному конкретному исследованию закончена, вот публикация.
  5. Возможно — прославиться.

Интересы редакции:

  1. Заработать денег на публикации труда автора.
  2. Сохранить репутацию.
  3. Не допустить, чтобы тот же материал был доступен везде и бесплатно, что сделает их журнал менее «нужным» и снизит количество подписок, и т.д., в итоге снизит прибыль.

Как видишь, среди этих интересов есть только одна точка соприкосновения, и она весьма тонкая — и автору надо, чтобы его труд был опубликован, и журналу надо опубликовать его труд.

Во всём остальном никаких точек пересечения у них нет. Автор не получает отчислений с количества подписок или проданных копий журнала. То, что его труд стал доступен всем и каждому, не приносит ему никаких негативных моментов, нет никакой упущенной прибыли, или чего-то ещё.

Соответственно, об этих самых авторских правах на публикации в журналах будут печься только представители самих журналов, но никак не авторы — им это попросу не интересно, и даже наоборот — доступность их публикаций всем и каждому и бесплатно несёт им не убытки, а выгоды.

Многие физики, например, но не только, публикуют вообще сперва препринты в arXiv, и только потом уже выходит статья в рецензируемом журнале.

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от CrX

Самое смешное, я просто уверен, что когда подаются всякие иски и выплачиваются штрафы, то авторы, ради прав которых всё затеивалось, не получают ровным счётом ничего. :))

А в научных работах, журналы за рецензирование что-то платят кому-нибудь?

PcheloBiaka
()
Ответ на: комментарий от windows10

Книги нужно читать для расширения кругозора и как следствие улучшения мыслительных способностей, а не чтоб насладиться.

Помедленнее, пожалуйста, я записываю ✍️

papin-aziat ★★★★★
()
Ответ на: комментарий от PcheloBiaka

Самое смешное, я просто уверен, что когда подаются всякие иски и выплачиваются штрафы, то авторы, ради прав которых всё затеивалось, не получают ровным счётом ничего. :))

В случае с научными статьями так и есть.

А в научных работах, журналы за рецензирование что-то платят кому-нибудь?

В смысле автору, учёному то есть? Не знаю, может и бывает такое, что платят, но обычно нет. Учёному платят зарплату в его институте, или где он там это делает, возможно дают гранты. Ну и премию могут дать за открытие. А не журналы. Более того, некоторые журналы за публикацию у себя наоборот берут деньги, а не дают.

CrX ★★★★★
()
Ответ на: комментарий от CrX

Ну вот я пошлю статью про то, что инопланетяне сканируют мозг блондинок ночью и стирают следы, в следствие чего мозг у них портится, и графики, конечно. Кто-то должен его рецензировать. Например ты, прочтёшь и ответишь, что да, всё правильно написано. Это, фактически, работа. Кто её оплачивает?

PcheloBiaka
()
Ответ на: комментарий от PcheloBiaka

Ну вот я пошлю статью про то, что инопланетяне сканируют мозг блондинок ночью и стирают следы, в следствие чего мозг у них портится, и графики, конечно. Кто-то должен его рецензировать. Например ты, прочтёшь и ответишь, что да, всё правильно написано. Это, фактически, работа. Кто её оплачивает?

Нет, за рецензирование статей обычно не платят. Обычно только всякие плюшки рецензентам полагаются, например бесплатный доступ ко всем статьям, например. Но вроде бывают исключения.

upd: вот тут Панчин довольно подробно расписал, как что работает, если интересно: https://scinquisitor.livejournal.com/226876.html

CrX ★★★★★
()
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от CrX

А в чем проблема с авторскими правами тут? Разве автор не дает явное согласие на публикацию в журнале? Да еще наверняка и учавствует в подготовке к печати

cobold ★★★★★
()
Ответ на: комментарий от cobold

Так её тут и нет. Речь шла о том, что если потом из этого журнала кто-то статью «спиратил». Такой контекст был. И о том, что авторам пофиг, или даже они сами делились материалом с «пиратами».

И, собственно речь о том, что автору статьи на такой инцидент совершенно пофиг. Он не будет из-за этого судиться, или даже обижаться. Ведь все «недополученные прибыли» касаются только журнала, но никак не автора — ему-то от этого «пиратства» ни горячо ни холодно. И даже может быть наоборот — то, что его статья стала доступнее, делает ему только лучше.

CrX ★★★★★
()
Ответ на: комментарий от cobold

Автор ещё и сам подписан на журнал и платит за всё. Хитрый бизнес :)

Кстати, тут проскакивало на днях, что ИИ гиганты будут оплачивать википедии за использование статей. Но… А что получат авторы статей? :))

PcheloBiaka
()
Ответ на: комментарий от cobold

По-видимому к людям пришло понимание шутки «если ты получил что-то бесплатно, то продукт - ты сам».

VIT ★★
()
Ответ на: комментарий от CrX

Это надо лицензию журнала смотреть, но скорее всего тут сложно будет натянуть пиратство, а именно нарушение лицензии

cobold ★★★★★
()
Ответ на: комментарий от PcheloBiaka

Кстати, тут проскакивало на днях, что ИИ гиганты будут оплачивать википедии за использование статей. Но… А что получат авторы статей? :))

Как что? Как обычно — кучу критики, хейта за пропущенную запятую или неупоминание конкретного очень важного исследования сделанного вчера. И никакой благодарности.

В этом-то плане в мире стабильность, ничего не меняется.

CrX ★★★★★
()
Ответ на: комментарий от goingUp

Это же сколько надо индусов, чтобы отфильтровать десятки тысяч книг?! Там целой индии не хватит, придётся Дзан-Янга звать!!))

daniyal
()
Ответ на: комментарий от PcheloBiaka

Я не могу понять одного. Почему мне тут за посты не платят???

Это между прочим серьёзная работа, люди на клоуна учатся.

James_Holden ★★★★★
()
Последнее исправление: James_Holden (всего исправлений: 1)
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)