LINUX.ORG.RU
ФорумTalks

NVIDIA искала пиратские книги для обучения ИИ. Переписка попала в суд

 , , ,


1

2

Авторы книг расширили коллективный иск против NVIDIA — и предъявили внутренние документы компании. Из них следует, что корпорация вела переговоры с Anna’s Archive, крупнейшей пиратской библиотекой в мире, о доступе к 500 ТБ книг для обучения своих языковых моделей.

Началось с того, что сотрудник команды NVIDIA по стратегии данных написал в Anna’s Archive напрямую. Его интересовало, как получить «высокоскоростной доступ» к коллекции — такая услуга стоила десятки тысяч долларов.

Дальше — интереснее. Anna’s Archive сама предупредила NVIDIA, что ее библиотека собрана и поддерживается нелегально. Пираты даже спросили, есть ли у сотрудника внутреннее разрешение на такие переговоры — видимо, уже обжигались с другими AI-компаниями, тратя время впустую. Через неделю руководство NVIDIA дало зеленый свет.

Помимо Anna’s Archive, в иске фигурируют и другие источники: LibGen, Sci-Hub, Z-Library и датасет Books3. Авторы также обвиняют NVIDIA в том, что она распространяла скрипты для автоматического скачивания пиратских датасетов среди корпоративных клиентов.

Прецедент уже есть: в сентябре 2025 Anthropic урегулировала аналогичный иск за $1.5 млрд — компания признала скачивание книг с пиратских сайтов для обучения Claude. Суд тогда постановил: обучать на легально купленных книгах можно, пиратить — нельзя.

PS Делаем выводы о реальной стоимости поделий нвидлы…

Гулагский источник

Ответ на: комментарий от James_Holden

Платят, просто мало. Скором. Не знал что ли, обменный курс сто звёзд = 1 копейка. Комиссия за вывод — сто рублей. :)

CrX ★★★★★
()
Ответ на: комментарий от CrX

Можно ввести правило, что одна звезда = 10$. Написать на глагне, народ повалит. А в правилах форума, мелким шрифтом - вывести можно минимум 100$. И звезда это звезда, около ника, а не 100 шкворца.

James_Holden ★★★★★
()
Ответ на: комментарий от James_Holden

Это между прочим серьёзная работа, люди на клоуна учатся.

Между прочим на вопросы ИИ уже может отвечать, а вот клоунаду пока не освоил. Так что надо и себе качать, авось когда-то это будет единственное, за что будут платить)

goingUp ★★★★★
()
Ответ на: комментарий от PcheloBiaka

А в научных работах, журналы за рецензирование что-то платят кому-нибудь?

Зависит от журнала. Иногда даже за статьи платят, но это редкость. У меня сложилось ощущение, что самые авторитетные считают, что оказывают тебе честь, присылая что-то на рецензию.

question4 ★★★★★
()
Ответ на: комментарий от VIT

В США сначала исследование оплачивается, а уже потом выполняется. Не наоборот.

В журнал можно присылать что угодно, соответствующее тематике, которую они заявляют на сайте или в выпусках журнала.

question4 ★★★★★
()
Ответ на: комментарий от question4

Я отвечал на вопрос «кто будет платить за исследование сканирования мозга блондинок инопланетянами». Если есть такой заказчик, он озвучивает бюджет и сроки, и кто-то выигрывает тендер, то можно начинать исследовать. Как будешь публиковать результаты оговаривается в контракте.

VIT ★★
()
Ответ на: комментарий от question4

Платить деньгами часто просто нельзя, а вот заплатить предложением организовать специальный выпуск можно.

VIT ★★
()
Ответ на: комментарий от CrX

среди этих интересов есть только одна точка соприкосновения, и она весьма тонкая — и автору надо, чтобы его труд был опубликован, и журналу надо опубликовать его труд

Важная деталь — издание должно быть рецензируемым. То есть перед публикацией материалы проверяются профильными специалистами. Без такой предварительной проверки мало кто будет тратить время на статьи неизвестной достоверности.

Чтобы собрать и поддерживать коллектив редакторов, заработать и сохранять репутацию, нужно много времени и деньги. Только поэтому издательства-монополисты продолжают существовать.

Многие физики, например, но не только, публикуют вообще сперва препринты в arXiv

И сколько там было громких открытий с последующими закрытиями :)

question4 ★★★★★
()
Ответ на: комментарий от windows10

Оценка книг критерием «говно или нет» - это потреблядский подход.

Книги нужно читать для расширения кругозора и как следствие улучшения мыслительных способностей, а не чтоб насладиться.

Говно — это книги, которые сужают кругозор, приводят мозги в беспорядок и отбивают желание жить.

Учебник по математике за 9-й класс намного говнистее учебника по анатомии за 9-й класс.

По каким критериям?

question4 ★★★★★
()
Ответ на: комментарий от Irma

То есть, они запихали в ИИ вообще все, что написано на этой планете

Anna’s Archive считает, что всего 16%. И туда входят перечисленные SciHub, Libgen, Z Library и прочие.

question4 ★★★★★
()
Ответ на: комментарий от VIT

Тогда да. Но вполне возможны инициативные исследования без заказчика, когда сперва публикуются без заказов, а потом пишут заявки, ссылаясь на свои работы нужной тематики.

question4 ★★★★★
()
Ответ на: комментарий от question4

Если за свой счет и на своем оборудовании - то конечно, но я таких случаев не знаю. Вот мы сейчас сидим-трындим, а есть конкретный проект, который заплатит за этот трындеж.

VIT ★★
()
Ответ на: комментарий от VIT

Когда я в этой области работал, регулярно такое бывало. Проект заканчивается, из темы выжали всё, что можно, ищется перспективная смежная тема, и проводится исследование за счёт излишков от заканчивающегося. И заявка на новый проект становится гораздо весомее.

question4 ★★★★★
()
Ответ на: комментарий от VIT

всегда есть кто платит

Только они об этом не знают :)

question4 ★★★★★
()

NVIDIA … в Anna’s Archive … «высокоскоростной доступ» … LibGen, Sci-Hub, Z-Library и датасет Books3.

Сунулся сейчас в LibGen+. Все сервера перегружены. То ли совпадение, то ли Nvidia и все их конкуренты по ИИ-бизнесу ринулись качать книги обычным доступом.

question4 ★★★★★
()
Ответ на: комментарий от question4

Говно — это книги, которые сужают кругозор, приводят мозги в беспорядок и отбивают желание жить.

Книга априори не может сужать кругозор, потому что она добавляет информацию в мозг человека.

И это не только содержательная информация, как обычно кажется красноглазикам с их узким кругозором. Типа «я почитал книжку Донцовой и ничему не научился» - потому что привык видеть мир в аспекте мануала.

Это еще и форма этой самой содержательной информации, ну т.е. слова и обороты речи, которыми формируется эта самая информация. И именно при помощи увиденных слов и оборотов речи - человек в будущем учится говорить так, чтоб его понимали и восхищались его риторикой.

Это и получение опыта на чужой жизни, пусть и смоделированной в некоторых случаях. При том этот опыт не обязательно практический, как любит линуксятник. Это еще может быть опыт из разряда «не выглядеть тупым сычом на вечеринке» - т.е. умение хотя бы поддержать разговор, обладая пусть даже поверхностными навыками.

Кстати. Сам такой, и знаю много подобных людей: не знаю ни одного правила английского языка, а пишу и общаюсь на пятерку с минусом. Просто много книг читал.

Если для тебя чтение книг приводит мозги в беспорядок - даже страшно представить ограниченность твоего кругозора. С девушкой на свиданке небось про компиляцию ведра общаешься?)

По каким критериям?

По критериям интереса девятиклассников. Был бы у тебя шире кругозор - этого вопроса бы здесь не было.

windows10 ★★★★★
()
Ответ на: комментарий от windows10

при помощи увиденных слов и оборотов речи - человек в будущем учится говорить так, чтоб его понимали и восхищались его риторикой.

В своё время я не смог читать «City Hunter» на английском — чувствовал, как заражаюсь безграмотностью от реплик главного героя. Под тем же предлогом в США ограничивали школьникам доступ к «Приключениям Гекльберри Финна» — речь у него своеобразная, но лучше так не говорить.

Это и получение опыта на чужой жизни, пусть и смоделированной в некоторых случаях.

«Жизнь — ***, все люди — , с *** *** ***.» Некоторые модели высосаны из пальца и существуют только в воспалённом мозгу отдельных филологов :)

Если для тебя чтение книг приводит мозги в беспорядок - даже страшно представить ограниченность твоего кругозора.

После прочтения «Ковра-самолёта» Крапивина меня пытались сдать в милицию за кражу. Просто потому что подозрительно себя вёл :) В итоге мне запретили читать Крапивина. И нет, эту книгу мусорной не считаю.

С девушкой на свиданке небось про компиляцию ведра общаешься?)

Пересказываю Башорг. Ржут не останавливаясь.

question4 ★★★★★
()
Ответ на: комментарий от James_Holden

Клоунствовать - это тяжёлая и опасная работа. Но кто-то должен это делать. " всегда быть в маске судьбаааа моооояааааа".

Но всё же. Разница в корне. На лоре можно серькать коментами и никто ни за кем не следит (кроме модераторов). Умственная деятельность является тут добровольным и необязательным видом деятельности на лоре. И, в отличие от журналов, делаем мы это не платя лору за членство. На Википедии же люди реально работают с материалом. Фактически это и написание научных статей и их рецензирование. (Хоть и более простое, чем в научных журналах). И вот хозяева сайта решают ограничить доступ к твоему труду и разрешить его за денюжки для обучения ИИ. А про твоё авторство никто не слышал, не слышит и всем плевать, потому что люди деньги делают, пока ты забесплатно наполняешь их продукт рыночной ценностью. Википедию привыкли воспринимать как общественную базу знаний. И собирать деньги на её поддержание - это одно, а начать грести себе в карман трилиарды пеастров, не делясь с людьми создавшими твой товар это другое.

PcheloBiaka
()
Ответ на: комментарий от Stanson

это именно Sci-Hub борется с пиратством т.н. «рецензируемых журналов»

Грабь награбленное?

которые тупо воруют т.н. интеллектуальную собственность у учёных (как авторов, так и рецензентов) не платя им ни копейки, и продают за бешеные и неадекватные бабки другим учёным.

Если все так плохо, почему не сделают альтернативную систему? А, сделали же, reseachgate… но журналы как жили, так и живут, потому что бесплатно никто не организует ни рецензирование, ни выпуск.

Не смотря на то, что sci-hub проект повышает доступность результатов исследований, он очевидно этически и юридически провальный. Они тупо воруют статьи, хотя могли бы сделать соцсеть, в которой можно обмениваться препринтами. reseachgate всяко лучше.

aiqu6Ait ★★★★★
()
Последнее исправление: aiqu6Ait (всего исправлений: 1)
Ответ на: комментарий от PcheloBiaka

И вот хозяева сайта решают ограничить доступ к твоему труду и разрешить его за денюжки для обучения ИИ.

По моему уж лучше так, чем ставить огромные плашки для сбора донатов.

начать грести себе в карман трилиарды пеастров

Есть информация, сколько они за это получили? Вряд ли много, зачем платить «трилиарды», если можно взять и так, просто чуть медленнее)

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Недавно смотрел разбор сколько денег у них на самом деле. Нехило они живут, нехило. При этом постоянно жалуются.

Чего на Земле не хватает, так это действительно общественных проектов всемирных. Чтоб от ООН хоть какого-то было это всё. А так всё частные компании, которые или рождаются в США или мигрируют туда чтобы их заметили и дали поблажки в самой США. А народ думает, что это делается для них и участвует. Эх.

А воообще, я и за и против ИИ. За как за интересную и полезную технологию, и против технологии контроля общества и отъёма рабочих мест. Это как мы проснулись, а на Землю завезли инопланетян, почти столько же сколько людей было и прежних жителей выгоняют на улицу и говорят «да не волнуйтесь вы, просто найдите себе новый заработок».

PcheloBiaka
()
Ответ на: комментарий от ckotctvo

Да нет, не только, совсем не только. Вы проспали появление нового гиганта индустрии, который давно на равных конкурирует как с HPE, так и с Google и Microsoft.

VIT ★★
()
Ответ на: комментарий от ckotctvo

а невидия-то каким боком к обучению? они только чипы делают.

Так у нее ж апскелеры, дегенераторы и т.п. вроде на ИИшной истории основаны, вот только нюансов технических не знаю, но где-то попадалось, что при разработке по крайней мере используют…

А вот зачем им книжки нужны художественные - вот это вопрос… Они решили ДДДЛЛЛССС666 что ли выпустить, который кадры генерирует из содержания книг..??))))

Sm0ke85
() автор топика
Ответ на: комментарий от Sm0ke85

А вот зачем им книжки нужны художественные - вот это вопрос…

Как зачем? А LLM как работает? Для того, чтобы понимать человеческую речь и генерировать связный ответ не в стиле «моя твоя не понимай», а в стиле Донцовой.

VIT ★★
()
Ответ на: комментарий от question4

В своё время я не смог читать «City Hunter» на английском — чувствовал, как заражаюсь безграмотностью от реплик главного героя

Именно. Поэтому теперь вы знаете что такое безграмотность, и что такое грамотность, и как они выглядят.

«Жизнь — ***, все люди — , с *** *** ***.» Некоторые модели высосаны из пальца и существуют только в воспалённом мозгу отдельных филологов :)

А это не имеет значения, потому что книга - это все и сразу, а не выдранный критерий.

После прочтения «Ковра-самолёта» Крапивина меня пытались сдать в милицию за кражу. Просто потому что подозрительно себя вёл :)

Ну это уже вопрос воспитания.

windows10 ★★★★★
()
Ответ на: комментарий от PcheloBiaka

Похоже, СПО развивали и развивают те, кто впоследствии будет использовать накопленную информацию в целях наживы?

Erepb ★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)