Как ИИ-стартап задумал отсканировать и утилизировать миллионы книг.
Судебные материалы раскрывают, как компании наперегонки добывали всё больше книг, чтобы скормить чат-ботам: в числе прочего, покупали, сканировали и уничтожали миллионы экземпляров
В начале 2024 года руководители Anthropic, стартапа по разработке искусственного интеллекта, взялись за амбициозный проект, одновременно пытаясь держать его в тайне. «Project Panama — это наша попытка провести деструктивное сканирование всех книг мира», — говорилось во внутреннем плане, рассекреченном в судебных материалах на прошлой неделе. «Мы не хотим, чтобы факт нашей деятельности стал известен».
Как следует из документов, примерно через год на эту цель был освоен бюджет в десятки миллионов долларов. Эти деньги потратили, чтобы приобрести книги и сре́зать корешки, а затем отсканировать страницы и вкачать больше знаний в ИИ-модели, лежащие в основе продуктов по типу популярного чат-бота Claude.
Дело против Anthropic — это часть волны исков, которые против компаний ИИ подавали авторы, художники, фотографы и новостные издания. Как показывают судебные материалы, техногиганты лихорадочно и порой втайне участвуют в гонке, чтобы получить интеллектуальное наследие человечества.
В одном из недавно обнародованных документов Anthropic сообщила, что сооснователь компании Бен Манн в июне 2021 года в течение 11 дней лично скачивал художественную литературу и нон-фикшн с LibGen, теневой библиотеки с книгами и другим нарушающим авторские права контентом. К делу приложен скриншот его браузера, где он скачивает файлы с помощью программ для файлообмена.
В июле 2022 года Манн восторженно отзывался о запуске нового сайта Pirate Library Mirror. Сайт заявлял о наличии огромной базы книг и указывал: «Мы сознательно нарушаем авторское право в большинстве стран». Манн разослал коллегам-антропиковцам ссылку на сайт с припиской: «как нельзя кстати!!!»
Купить, разрезать, отсканировать и на переработку
Когда проект по покупке и сканированию физических книг Project Panama только начинался, Anthropic обратилась к ветерану Кремниевой долины. Компания наняла Тома Тёрви, руководителя в Google, который двумя десятилетиями ранее помогал создать знаменитый, но юридически спорный проект Google Books.
Как следует из материала дела, поначалу Anthropic рассматривала возможность покупать книги у библиотек или в магазинах подержанных книг. К примеру, книги хотели закупать в Strand, известном нью-йоркском магазине, который часто щеголяет слоганом про 18 миль полок новых и бывших в употреблении книг3. Согласно документу, описывающему встречу Anthropic по приобретению контента в марте 2024 года, магазин был «заинтересован в предоставлении подержанных книг».
Сотрудники Anthropic также обсуждали вариант либо обратиться к библиотекам США, в том числе к Нью-Йоркской публичной библиотеке4, либо, как говорится в документах, «новой библиотеке, хронически недофинансируемой».
Неясно, какие из этих предложений Anthropic реализовала, если вообще хоть какие-нибудь. На запрос по электронной почте представитель Strand сообщил, что в итоге никаких книг магазин компании Anthropic не продал. Нью-Йоркская публичная библиотека на запрос о комментарии не ответила.
В итоге Anthropic приобрела миллионы книг, нередко партиями по десятки тысяч, говорится в материалах дела. Ключевую роль в этом играли книжные сети, включая ретейлера подержанных книг Better World Books и британскую компанию World of Books.
Из судебных документов удалены полное число отсканированных книг и их стоимость. Тем не менее в проектном предложении одного подрядчика, который в конечном счёте работал с Anthropic, отмечалось: ИИ-компания «ищет опытного поставщика услуг сканирования документов, чтобы сконвертировать от 500 тыс. до 2 миллионов книг за шестимесячный период».
Better World Books и World of Books в понедельник не ответили на запросы о комментарии.
В документе описывается, что будет делать компания по сканированию. «Гидравлическая режущая машина» будет «аккуратно разрезать» книги; затем страницы «будут сканироваться на высокоскоростных, высококачественных сканерах промышленного уровня». И, наконец, говорится в документе, подрядчик «согласует вывоз отработанных книг с компанией по переработке отходов».










