LINUX.ORG.RU
ФорумTalks

Люди, уничтожающие книги для обучения ИИ, достойны отдельного котла в аду

 , ,


0

2

Как ИИ-стартап задумал отсканировать и утилизировать миллионы книг.

Судебные материалы раскрывают, как компании наперегонки добывали всё больше книг, чтобы скормить чат-ботам: в числе прочего, покупали, сканировали и уничтожали миллионы экземпляров

В начале 2024 года руководители Anthropic, стартапа по разработке искусственного интеллекта, взялись за амбициозный проект, одновременно пытаясь держать его в тайне. «Project Panama — это наша попытка провести деструктивное сканирование всех книг мира», — говорилось во внутреннем плане, рассекреченном в судебных материалах на прошлой неделе. «Мы не хотим, чтобы факт нашей деятельности стал известен».

Как следует из документов, примерно через год на эту цель был освоен бюджет в десятки миллионов долларов. Эти деньги потратили, чтобы приобрести книги и сре́зать корешки, а затем отсканировать страницы и вкачать больше знаний в ИИ-модели, лежащие в основе продуктов по типу популярного чат-бота Claude.

Дело против Anthropic — это часть волны исков, которые против компаний ИИ подавали авторы, художники, фотографы и новостные издания. Как показывают судебные материалы, техногиганты лихорадочно и порой втайне участвуют в гонке, чтобы получить интеллектуальное наследие человечества.

В одном из недавно обнародованных документов Anthropic сообщила, что сооснователь компании Бен Манн в июне 2021 года в течение 11 дней лично скачивал художественную литературу и нон-фикшн с LibGen, теневой библиотеки с книгами и другим нарушающим авторские права контентом. К делу приложен скриншот его браузера, где он скачивает файлы с помощью программ для файлообмена.

В июле 2022 года Манн восторженно отзывался о запуске нового сайта Pirate Library Mirror. Сайт заявлял о наличии огромной базы книг и указывал: «Мы сознательно нарушаем авторское право в большинстве стран». Манн разослал коллегам-антропиковцам ссылку на сайт с припиской: «как нельзя кстати!!!»

Купить, разрезать, отсканировать и на переработку

Когда проект по покупке и сканированию физических книг Project Panama только начинался, Anthropic обратилась к ветерану Кремниевой долины. Компания наняла Тома Тёрви, руководителя в Google, который двумя десятилетиями ранее помогал создать знаменитый, но юридически спорный проект Google Books.

Как следует из материала дела, поначалу Anthropic рассматривала возможность покупать книги у библиотек или в магазинах подержанных книг. К примеру, книги хотели закупать в Strand, известном нью-йоркском магазине, который часто щеголяет слоганом про 18 миль полок новых и бывших в употреблении книг3. Согласно документу, описывающему встречу Anthropic по приобретению контента в марте 2024 года, магазин был «заинтересован в предоставлении подержанных книг».

Сотрудники Anthropic также обсуждали вариант либо обратиться к библиотекам США, в том числе к Нью-Йоркской публичной библиотеке4, либо, как говорится в документах, «новой библиотеке, хронически недофинансируемой».

Неясно, какие из этих предложений Anthropic реализовала, если вообще хоть какие-нибудь. На запрос по электронной почте представитель Strand сообщил, что в итоге никаких книг магазин компании Anthropic не продал. Нью-Йоркская публичная библиотека на запрос о комментарии не ответила.

В итоге Anthropic приобрела миллионы книг, нередко партиями по десятки тысяч, говорится в материалах дела. Ключевую роль в этом играли книжные сети, включая ретейлера подержанных книг Better World Books и британскую компанию World of Books.

Из судебных документов удалены полное число отсканированных книг и их стоимость. Тем не менее в проектном предложении одного подрядчика, который в конечном счёте работал с Anthropic, отмечалось: ИИ-компания «ищет опытного поставщика услуг сканирования документов, чтобы сконвертировать от 500 тыс. до 2 миллионов книг за шестимесячный период».

Better World Books и World of Books в понедельник не ответили на запросы о комментарии.

В документе описывается, что будет делать компания по сканированию. «Гидравлическая режущая машина» будет «аккуратно разрезать» книги; затем страницы «будут сканироваться на высокоскоростных, высококачественных сканерах промышленного уровня». И, наконец, говорится в документе, подрядчик «согласует вывоз отработанных книг с компанией по переработке отходов».

Источник



Последнее исправление: Sm0ke85 (всего исправлений: 4)
Ответ на: комментарий от Ololo_Trololo

Это уже здесь было же.

Мне не попадалось, да и статья с источника вроде свежая…

Может это продолжение какой истории? Ссылку бы глянуть.

Sm0ke85
() автор топика

А люди, уничтожающие миллионы деревьев для производства книг, будут в другом котле?

NyXzOr ★★★★★
()
Ответ на: комментарий от NyXzOr

А люди, уничтожающие миллионы деревьев для производства книг, будут в другом котле?

Как-то это сравнение не очень, как-будто палец и непалец сравнивают… тем более в разрезе темы «отсканировать и на переработку»

Sm0ke85
() автор топика
Ответ на: комментарий от papin-aziat

Не понятно в чём проблема?

Да проблем тут море, начать можно с вандального отношения к книгам и пренебрежения к авторам… Если ребята решили поучить ИИ, то пусть пишут свои книги, и далее хоть в бумаге, хоть как их подготавливают для обучения своего недоИИ…

Тут уж я бы предпочел хотя бы с моральной точки зрения разделить человеческое и Нечеловеческое, есть же электронные варианты книг наконец (если так уж плевать на авторов), зачем бумажные книги уничтожать…?

Sm0ke85
() автор топика

Прочитал половину, не понял проблему. Они же не весь тираж покупают, условно 1-2 книги на каждое произведение. Если даже после этого их сразу сожгут, в чем проблема, если тираж составляет тысячи экземпляров?

MoldAndLimeHoney ★★
()
Ответ на: комментарий от MoldAndLimeHoney

Прочитал половину, не понял проблему. Они же не весь тираж покупают, условно 1-2 книги на каждое произведение. Если даже после этого их сразу сожгут, в чем проблема, если тираж составляет тысячи экземпляров?

В варварском отношении к своему же наследию, проще говорят, это выглядит как если бы людей после смерти на котлеты пускали…

Sm0ke85
() автор топика

Если бы они у меня всю макулатуру из квартиры забрали, я бы им даже приплатил.

lenin386 ★★★★
()
Ответ на: комментарий от papin-aziat

Уничтожается не книга, а носитель. Ты что предлагаешь, назад склеивать?

Ну так и человека после смерти можно значит на котлеты пускать, это ж мясо, а человека больше нет…

Есть же электронные варианты книг, отсканировать можно и восстановить (расплести и обратно сплести книгу - это не запредельная технология уже несколько сотен лет)…

А то что они делают - это банальное варварство, быдлячество и т.п., короче мне стыдно, что я с ними одного вида, хотя по факту их к животинке надо бы приравнивать…

Sm0ke85
() автор топика
Ответ на: комментарий от MoldAndLimeHoney

Там Гутенберг изобрел печатный станок. 500 лет назад..

Ну-ну, а еще когда-то мечи и щиты придумали и полный доспех, а теперь они в музеях почему-то и есть гиды которые какие-то, видим «никому ненужные», истории этих вещей и того времени рассказывают, хотя могли бы переработать на лезвия для современных бритвенных станков или еще куда…

Sm0ke85
() автор топика
Ответ на: комментарий от lenin386

А вот моя жена как раз препятствует уничтожению макулатуры. Если бы не она, давно бы всё в мусорке было.

Ты ее береги - другой такой не найдешь точно…

Sm0ke85
() автор топика

Project Panama

Ну и как? Напихали в итоге в панамку?

Дальше не читал пока

frunobulax ★★★★
()
Ответ на: комментарий от Sm0ke85

и пренебрежения к авторам

Так они их купили же, вроде автор не в накладе?

Меня бы (будь я автором) больше бы оскорбило когда покупают книги и не открывая ставят на полку (такие есть, кто как декор чисто покупают).

frunobulax ★★★★
()
Ответ на: комментарий от lenin386

Это не человек, и даже не животное. Не неси пургу.

В музеи, на выставки и другие культурные места походи, может придёт понимание, что вещи - неотъемлемая часть истории и бытия человека…

Можешь попробовать выкинуть все свои альбомы с детскими фотографиями - не человеки же, не животные, а место занимают на полке…

Sm0ke85
() автор топика
Ответ на: комментарий от Sm0ke85

Сколько деревьев было загублено ради этих пылесборников. 5 книг=одно дерево. Подумай над этим, музейшик. Дерево-живое, оно нам воздух делает. Ему расти 20 лет надо. А теперь вот дышим тем, что загублено. Электрички покупаем. Ладно бы ещё 20-й век был. АТО продолжается, варварство.

lenin386 ★★★★
()
Последнее исправление: lenin386 (всего исправлений: 4)
Ответ на: комментарий от frunobulax

Так они их купили же, вроде автор не в накладе?

Это слишком поверхностное восприятие, т.к. у вещей всегда есть История, которая неразрывно связана с деятельностью человеков рядом, поэтому удалить Электронную книгу с рабочего стола не равно на переработку отправить бумажную книгу…

Меня бы (будь я автором) больше бы оскорбило когда покупают книги и не открывая ставят на полку (такие есть, кто как декор чисто покупают).

Книга стоя на полке таки дождется момента, когда ее прочитают, попутно собрав исторические следы, короче, у нее есть Судьба, а шрёдер - это конец Судьбы…

Sm0ke85
() автор топика
Ответ на: комментарий от lenin386

5 книг=одно дерево

Вообще не рядом - пересчитывай, а потом технологию изготовления пересматривай…

Дерево-живое, она на воздух делает. А теперь вот дышим тем, что загублено. Электрички покупаем. Ладно бы ещё 20-й век был.

Деревья есть упавшие, есть специальные посадки под дальнейшую переработку, а ты смешал это все в одну кучу с Деревьями, которые представляют историческую ценность и парками… Одни деревья охраняют, а вторые изначально предназначались для переработки, т.к. не несут культурной ценности…

Sm0ke85
() автор топика
Ответ на: комментарий от Sm0ke85

Мне кажется ты слишком сентиментально относишься к книгам :)

Книга стоя на полке таки дождется момента, когда ее прочитают, попутно собрав исторические следы, короче, у нее есть Судьба, а шрёдер - это конец Судьбы…

Если это какой-нить одноразовый роман про вампиров-подростков то и не факт что дождётся какого-то там момента :)

Вообще пролистал наискосок пост и на хабре - чёт у меня ощущение что сова и глобус имеют место было. Этот «иск» о котором речь - я же правильно понял что иск-то сам про то что они потом еще и напиратили с торрентов книг для обучения?

Потому что будь какая-то претензия от издательства и/или авторов то не было бы:

Из судебных документов удалены полное число отсканированных книг и их стоимость.

а было бы наборот всё до единиц копий посчитано. А так это как преамбула к тому что они пришли к напиративанию - мол вот попрбовали, долго/дорого/муторно и решили зарегаться на рутрекере.

frunobulax ★★★★
()
Ответ на: комментарий от Sm0ke85

а вторые изначально предназначались для переработки, т.к. не несут культурной ценности…

Unterbaum

frunobulax ★★★★
()

А какую вину вообще суд выдвинул? Нельзя покупать книги или как? Чьи права вообще были нарушены?

kaldeon
()
Ответ на: комментарий от Sm0ke85

Все ты правильно говоришь, вот только почему то не стал подрядчиком по сканированию у этих иишников

cobold ★★★★★
()

Я прям слышу, как разрезаемые книги кричат от боли и умоляют тебя помочь им, ТС.

thesis ★★★★★
()
Ответ на: комментарий от frunobulax

Это не сова и глобус. Это одни хитрые люди почуяли, что у других хитрых людей очень много деньюшков. И оттяпать, хотя бы часть, необходимо. Лучше, конечно, всё. И началось деятельность лоеров юридический и гуманитарный понос.

lenin386 ★★★★
()
Ответ на: комментарий от frunobulax

Вообще пролистал наискосок пост и на хабре - чёт у меня ощущение что сова и глобус имеют место было.

Если б они с торрентов скачали - это бы не вызвало бы у меня таких претензий, было бы что-то вроде «а-я-яй какие крохоборы», а тут просто вандализм (даже если бы эти книги были бы «какие-нить одноразовые романы про вампиров-подростков»)…

Так что тут не про сову и глобус, а то что там судят их или не судят - это, сугубо на мой взгляд, второстепенные истории…

«Там, где жгут книги – там потом в огонь бросают и людей», - пророчески сказал Генриха Гейне когда-то…
И именно его книги были первыми брошены в костёр нацистской Германии.
Его называли «последним романтиком эпохи»…
И хотя его дальний родственник, Карл Маркс (да-да, тот самый!) настоятельно призывал его: «Оставьте эти вечные любовные серенады и покажите поэтам, как орудовать хлыстом!» - он остался прежде всего поэтом-романтиком, одним из лучших немецких Поэтов...
Sm0ke85
() автор топика

Бумажные книги это мусор, за их переработку еще и доплачивать государство должно. Также, государству не мешало бы оплатить доктора для шизов.

James_Holden ★★★★★
()
Последнее исправление: James_Holden (всего исправлений: 1)
Ответ на: комментарий от cobold

Все ты правильно говоришь, вот только почему то не стал подрядчиком по сканированию у этих иишников

Так меня не спрашивали)))

Sm0ke85
() автор топика
Ответ на: комментарий от thesis

Я прям слышу, как разрезаемые книги кричат от боли и умоляют тебя помочь им, ТС.

Я тут не про это говорю, тут глубже история чем «бегающие и говорящие книжки»…

Sm0ke85
() автор топика
Ответ на: комментарий от James_Holden

А если серьёзно, то идиоту же понятно, что для обучения ИИ нужно не более единиц экземпляров каждой книги. Нафейхоа они бы сканировали 1000 раз одно и то же? Потеря в шредере одного - двух экземпляров из тиража не влияет вообще ни на что. Что это за тупак?

James_Holden ★★★★★
()
Ответ на: комментарий от James_Holden

Бумажные книги это мусор, за их переработку еще и доплачивать государство должно. Также, государству не мешало бы оплатить доктора для шизов.

Своим наследникам скажи, чтобы тебя переработали, и то польза будет…

Sm0ke85
() автор топика
Ответ на: комментарий от papin-aziat

Двачую. Уничтожали не редкие фолианты и букинистические ценности, но свежую печатную продукцию.

Люди, которые выступают против уничтожения книг, кажется, вообще не поняли что такое книги и зачем они нужны. Ценность в книге представляют не бумажные листы, а тексты, которые на этих листах написаны. От того что один-два тома из тысячного тиража не выбросят в помойку, но дестуктивно отсканируют, текст не пострадает.

Camel ★★★★★
()
Ответ на: комментарий от Sm0ke85

Так и переработают, и тебя тоже, man грибы (не те, а плесневые) и man разложение.

James_Holden ★★★★★
()
Ответ на: комментарий от Sm0ke85

Вот ты сам же палец и не палец сравниваешь :)

Одно дело уничтжить безвозвратно, другое дело - взять по одному экземпляру, причем я так понимаю обычного тривиального издания. Не первые и всякие там антикварно-ценные копии. И сделать с них цифровую копию, и только потом уничтожить.

Так же по твоей аналогии с арийскими и неарийскими деревьями - взяли изначально масс-произведенные штуки и их употребили.

Вот кстати. Как давно вообще новопечатную книгу в руки брал? Всякие там серии про сталкеров и прочий стикс вот временами прям откровенно плохо сделаны - текст на страницах перекошен, где-то текст осыпается как будто в принтере печь сдохла. Не удивлюсь если решение о последующем уничтожении чисто такими вещами продиктовано.

frunobulax ★★★★
()
Ответ на: комментарий от Sm0ke85

Вы понимаете, что Гейне про другое писал? Там где в огонь бросали книги, там суть была именно в том, чтобы бросить в огонь все экземпляры некоторых текстов. Уничтожение знаний и уничтожение небольшого количества заведомо неуникальных носителей знаний совсем не одно и то же.

Camel ★★★★★
()
Ответ на: комментарий от frunobulax

Как давно вообще новопечатную книгу в руки брал? Всякие там серии про сталкеров и прочий стикс вот временами прям откровенно плохо сделаны - текст на страницах перекошен, где-то текст осыпается как будто в принтере печь сдохла.

Покупал в прошлом месяце несколько книг. Отличная бумага, полиграфия, читается с огромным удовольствием. Но это не серии про сталкеров и прочая графомания, которую в бумажном виде вообще покупать не стоит, ибо это чтиво на один раз, часто даже на полраза ибо не всегда хватает сил дочитать особо забористую графоманию.

Chiffchaff
()
Ответ на: комментарий от James_Holden

А если серьёзно, то идиоту же понятно, что для обучения ИИ нужно не более единиц экземпляров каждой книги. Нафейхоа они бы сканировали 1000 раз одно и то же? Потеря в шредере одного - двух экземпляров из тиража не влияет вообще ни на что. Что это за тупак?

Неужели разницу так тяжело увидеть:

1000 экземпляров бумажных книг - это 1000 вещей с историей связанной с человеческой жизнью…

1000000000 экземпляров электронных книг - это судьба одной отсканированной бумажной книги…

Так понятнее???

Sm0ke85
() автор топика
Ответ на: комментарий от Camel

Сейчас нет смысла в уничтожении знаний. Во-первых, они никого не интересуют. Во-вторых, сейчас деревья прячут в лесу: на любой факт набрасывают столько информационной шелухи, что обнаружить его становится невозможно.

Chiffchaff
()
Ответ на: комментарий от Ololo_Trololo

Вы, кажися, перепутали с эпизодом, когда Невидия платила деньги книжным перратам за быстрый доступ ко всей их перрацкой коллекции.

Camel ★★★★★
()

покупали, сканировали и уничтожали миллионы экземпляров

Нормально. Прям копроэкономика во всей красе.
Только непонятно, чего тут удивляться.
Вон, например, тонны «санкционных» продуктов тоже просто раскатывают трактором, хотя есть «голодающие», которым можно было бы это всё отдать в виде гуманитарки.

Zhbert ★★★★★
()
Ответ на: комментарий от frunobulax

другое дело - взять по одному экземпляру

Повторюсь:

Неужели разницу так тяжело увидеть:

1000 экземпляров бумажных книг - это 1000 вещей с историей связанной с человеческой жизнью…

1000000000 экземпляров электронных книг - это судьба одной отсканированной бумажной книги…

Так понятнее???

Так же по твоей аналогии с арийскими и неарийскими деревьями

Тут бытие и необходимость, а то так и курицу не покушать будет…

Sm0ke85
() автор топика
Ответ на: комментарий от Sm0ke85

вандального отношения к книгам

А чем это отличается от вандального отношения к любым другиим вещам?

Zhbert ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)