LINUX.ORG.RU

Сообщения Sm0ke85

 

Люди, уничтожающие книги для обучения ИИ, достойны отдельного котла в аду

Как ИИ-стартап задумал отсканировать и утилизировать миллионы книг.

Судебные материалы раскрывают, как компании наперегонки добывали всё больше книг, чтобы скормить чат-ботам: в числе прочего, покупали, сканировали и уничтожали миллионы экземпляров

В начале 2024 года руководители Anthropic, стартапа по разработке искусственного интеллекта, взялись за амбициозный проект, одновременно пытаясь держать его в тайне. «Project Panama — это наша попытка провести деструктивное сканирование всех книг мира», — говорилось во внутреннем плане, рассекреченном в судебных материалах на прошлой неделе. «Мы не хотим, чтобы факт нашей деятельности стал известен».

Как следует из документов, примерно через год на эту цель был освоен бюджет в десятки миллионов долларов. Эти деньги потратили, чтобы приобрести книги и сре́зать корешки, а затем отсканировать страницы и вкачать больше знаний в ИИ-модели, лежащие в основе продуктов по типу популярного чат-бота Claude.

Дело против Anthropic — это часть волны исков, которые против компаний ИИ подавали авторы, художники, фотографы и новостные издания. Как показывают судебные материалы, техногиганты лихорадочно и порой втайне участвуют в гонке, чтобы получить интеллектуальное наследие человечества.

В одном из недавно обнародованных документов Anthropic сообщила, что сооснователь компании Бен Манн в июне 2021 года в течение 11 дней лично скачивал художественную литературу и нон-фикшн с LibGen, теневой библиотеки с книгами и другим нарушающим авторские права контентом. К делу приложен скриншот его браузера, где он скачивает файлы с помощью программ для файлообмена.

В июле 2022 года Манн восторженно отзывался о запуске нового сайта Pirate Library Mirror. Сайт заявлял о наличии огромной базы книг и указывал: «Мы сознательно нарушаем авторское право в большинстве стран». Манн разослал коллегам-антропиковцам ссылку на сайт с припиской: «как нельзя кстати!!!»

Купить, разрезать, отсканировать и на переработку

Когда проект по покупке и сканированию физических книг Project Panama только начинался, Anthropic обратилась к ветерану Кремниевой долины. Компания наняла Тома Тёрви, руководителя в Google, который двумя десятилетиями ранее помогал создать знаменитый, но юридически спорный проект Google Books.

Как следует из материала дела, поначалу Anthropic рассматривала возможность покупать книги у библиотек или в магазинах подержанных книг. К примеру, книги хотели закупать в Strand, известном нью-йоркском магазине, который часто щеголяет слоганом про 18 миль полок новых и бывших в употреблении книг3. Согласно документу, описывающему встречу Anthropic по приобретению контента в марте 2024 года, магазин был «заинтересован в предоставлении подержанных книг».

Сотрудники Anthropic также обсуждали вариант либо обратиться к библиотекам США, в том числе к Нью-Йоркской публичной библиотеке4, либо, как говорится в документах, «новой библиотеке, хронически недофинансируемой».

Неясно, какие из этих предложений Anthropic реализовала, если вообще хоть какие-нибудь. На запрос по электронной почте представитель Strand сообщил, что в итоге никаких книг магазин компании Anthropic не продал. Нью-Йоркская публичная библиотека на запрос о комментарии не ответила.

В итоге Anthropic приобрела миллионы книг, нередко партиями по десятки тысяч, говорится в материалах дела. Ключевую роль в этом играли книжные сети, включая ретейлера подержанных книг Better World Books и британскую компанию World of Books.

Из судебных документов удалены полное число отсканированных книг и их стоимость. Тем не менее в проектном предложении одного подрядчика, который в конечном счёте работал с Anthropic, отмечалось: ИИ-компания «ищет опытного поставщика услуг сканирования документов, чтобы сконвертировать от 500 тыс. до 2 миллионов книг за шестимесячный период».

Better World Books и World of Books в понедельник не ответили на запросы о комментарии.

В документе описывается, что будет делать компания по сканированию. «Гидравлическая режущая машина» будет «аккуратно разрезать» книги; затем страницы «будут сканироваться на высокоскоростных, высококачественных сканерах промышленного уровня». И, наконец, говорится в документе, подрядчик «согласует вывоз отработанных книг с компанией по переработке отходов».

Источник

 , ,

Sm0ke85
()

БЦП будет давать россиянам смартфоны бесплатно. Вместо денег — просмотр рекламы

Тесты начнутся весной.

Летом 2026 года в России может появиться новая модель получения смартфона. Компания «Бюро цифровых проектов» планирует выдавать устройства без предоплаты и ежемесячных абонентских плат. Стоимость телефона и связи покроет просмотр рекомендаций (например, баннеров или видеороликов) в интерфейсе телефона.

Чтобы получить смартфон, нужно будет пройти идентификацию по паспорту. Просмотр рекомендаций не будет мешать звонкам или использованию приложений. Однако если пользователь полностью отключит показ любой рекламы, ему придется вернуть устройство, как указано в соглашении. Телефон при этом не блокируется.

Просмотр рекомендаций не является обязательным условием для совершения звонков, отправки сообщений или использования приложений. Устройство будет работать на Android 16. Все приложения и сбор данных будут подключаться только с согласия пользователя и в рамках российского законодательства.

Первые 1500 устройств весной 2026 года получат участники закрытого тестирования. Подать заявку на участие сможет любой желающий через сайт проекта.

Источник

 , ,

Sm0ke85
()

NVIDIA искала пиратские книги для обучения ИИ. Переписка попала в суд

Авторы книг расширили коллективный иск против NVIDIA — и предъявили внутренние документы компании. Из них следует, что корпорация вела переговоры с Anna’s Archive, крупнейшей пиратской библиотекой в мире, о доступе к 500 ТБ книг для обучения своих языковых моделей.

Началось с того, что сотрудник команды NVIDIA по стратегии данных написал в Anna’s Archive напрямую. Его интересовало, как получить «высокоскоростной доступ» к коллекции — такая услуга стоила десятки тысяч долларов.

Дальше — интереснее. Anna’s Archive сама предупредила NVIDIA, что ее библиотека собрана и поддерживается нелегально. Пираты даже спросили, есть ли у сотрудника внутреннее разрешение на такие переговоры — видимо, уже обжигались с другими AI-компаниями, тратя время впустую. Через неделю руководство NVIDIA дало зеленый свет.

Помимо Anna’s Archive, в иске фигурируют и другие источники: LibGen, Sci-Hub, Z-Library и датасет Books3. Авторы также обвиняют NVIDIA в том, что она распространяла скрипты для автоматического скачивания пиратских датасетов среди корпоративных клиентов.

Прецедент уже есть: в сентябре 2025 Anthropic урегулировала аналогичный иск за $1.5 млрд — компания признала скачивание книг с пиратских сайтов для обучения Claude. Суд тогда постановил: обучать на легально купленных книгах можно, пиратить — нельзя.

PS Делаем выводы о реальной стоимости поделий нвидлы…

Гулагский источник

 , , ,

Sm0ke85
()

Алгоритмические упражнения: РКН будет фильтровать трафик с помощью машинного обучения

Роскомнадзор (РКН) планирует создать и внедрить механизм фильтрации интернет-трафика с использованием инструментов машинного обучения в этом году. На эти цели выделят 2,27 млрд рублей, следует из плана цифровизации РКН, который направлен правкомиссии по цифровому развитию. По мнению экспертов, с помощью таких инструментов РКН может научиться эффективнее блокировать запрещенные ресурсы, а также ограничивать работу VPN-сервисов

Что считаете: кто-то заработал, а остальные пострадали в дело и без дела…? (понятно же что это работать так как оглашается не сможет…)

Источник

 , ,

Sm0ke85
()

Какой Альт-линукс ставить на домашний ПК?

Добрый день!

Хочу услышать мнение аудитории в вопросе выбора Алт-линукса на домашний ПК, какой выбор наиболее оптимален на долгосрок (+игры)? Также интересуют аргументы.

На данный момент, посмотрев все представленное на офф. сайте, я склоняюсь к стартеркиту на гноме, т.к. стабильная пакетная база, отсутствие лицензионных притязаний в случае если захочется и на работе поставить такое же, ну и привык уже к гному…

 ,

Sm0ke85
()

Проблема! BTRFS, переименовал subvol, после обновления грузится по старому

Добрый день.

Недавно я переименовал в Fedora сабволиумы с «root» и «home» на «@» и «@home», поправил fstab и сделал grub2-mkconfig. Жил нормально, все было Ок, но после очередного обновления не смог нормально загрузиться, т.к. он откуда-то подтянул старое наименование корневого сабволюума «root» (т.е. попытался загрузиться в отсутствующий subvol).

Вопрос: откуда он это подтянул и как это исправить на будущее (я так и не нашел где беда)?

Мой fstab:

UUID=40157871-c86d-4a55-9ef7-877d2daa566f /                       btrfs   subvol=@,compress=zstd:1,ssd,discard 0 0

UUID=94b9c40c-72d9-41e4-9155-d65d2b51b1bb /boot                   ext4    defaults        1 2

UUID=08A9-265A          /boot/efi               vfat    umask=0077,shortname=winnt 0 2

UUID=40157871-c86d-4a55-9ef7-877d2daa566f /home                   btrfs   subvol=@home,compress=zstd:1,ssd,discard 0 0

/dev/disk/by-uuid/626673A741DC56BB /home/sm0ke/DATA auto nosuid,nodev,nofail,x-gvfs-show 0 0

Решено: сама «полечилась» проблема при мигрировании на федора 43 (я так и не нашел откуда он подтягивал это наименование, думаю это следствие того, что федорка делает какие-то толи снимки, толи образы кусков системы и при обновлении оттуда загрузку зачем-то подпихивает)

 , ,

Sm0ke85
()

RSS подписка на новые темы