LINUX.ORG.RU
ФорумTalks

Meta* использовала 81 ТБ пиратскх книг для обучения ИИ, новые подробности

 , , ,


0

2

Компания Meta* оказалась в центре скандала после того, как стало известно, что она загрузила более 81,7 ТБ пиратских книг для обучения своих моделей искусственного интеллекта. Согласно отчету Ars Technica, сотрудники Meta* использовали торрент-сайты для скачивания данных из теневых библиотек, таких как Z-Library и LibGen.

Новые данные, представленные в суде, показывают, что Meta* знала о незаконности своих действий, но продолжала скрывать свою деятельность. В ответ на обвинения Meta* утверждает, что использование этих данных подпадает под понятие «добросовестного использования».

Больше веселья, включая письма сотрудников, озадаченных ситуацией в подробностях для !Ъ:

>>> Подробности на Ars Technica


* Запрещена в РФ. Решением суда от 21.03.2022 компания Meta признана экстремистской организацией на территории Российской Федерации.

☕☕☕☕☕
Ответ на: комментарий от pekmop1024

Но выжрало почти всю видеопамять (пришлось выгружать, чтобы картинки флаксом рисовать).

pekmop1024 ☕☕☕☕☕
()
Последнее исправление: pekmop1024 (всего исправлений: 1)
Ответ на: комментарий от Obezyan

А, мы про разные сети значит. Ну, эта галлюцинирует знатно. :) DeepSeek-R1:32b, та что дистиллят Qwen, гораздо меньше таким страдает.

pekmop1024 ☕☕☕☕☕
()
Ответ на: комментарий от vaddd

Я не против этого слова, но оно как-то уже чем «информация». Скорее нарратив - это часть окружающего человека инфополя

Наоборот, это самое широкое понятие. Нарратив — это сказка о реальности (не обязательно часть), он содержит в себе весь поток субнарративов в перемешку с эндогенными самовнушениями. По сути, нарратив есть перманентная суггестия, формирующая мировоззрение.

Например, президент страны N — нехороший человек, — нарратив; завтра 5 градусов тепла, — информация.

Чёткую грань между понятиями провести наверное нельзя, как это обычно бывает в гуманитарных вопросах, однако разница очевидна при небольшой тренировке.

В основу этого рассуждения кладу оппозицию к современной болтовне о мифическом информационном обществе, чтобы было ясно, что как правило информации там с гулькин хер.

Не-не-не ) Вы что, никогда не видели, как человек, получив какую-то информацию, не соответствующую его убеждениям - озлобляется, отвергет ее, называет «ложью», «вбросом», «вражеской пропагандой» и лишь укрепляется в своих убеждениях?

Коллега, мы ж с вами не натуралисты, что б интересоваться жизнью насекомых 🧐

papin-aziat 😊😊😊😊😊
()
Ответ на: комментарий от Obezyan

Видел тесты, что на Q5_K_L у неё совершенно нет разницы с Q8

Во, нашёл

https://www.reddit.com/r/LocalLLaMA/comments/1iefhfj/mistral_small_3_24b_gguf_quantization_evaluation/

Не с Q8, блин, а с Q6

Там же в ветке есть:

Q3_K_M 67.32 Q4_K_L 67.8 Q4_K_M 67.56 IQ4_XS 69.51 Q5_K_L 69.76 Q6_K_L 70.73 Q8_0 71.22 F16 72.20

One 👍👍
()
Последнее исправление: One (всего исправлений: 4)
Ответ на: комментарий от pekmop1024

Ну, эта галлюцинирует знатно

Подавляющее большинство сетей с квантизацией это огрызки по которым не стоит судить о полноценной сети. Их делают просто чтобы как можно больше количество пользователей могло попробовать-поиграться.

Год назад сравнивал в последний раз - полноценные сети с меньшим количеством весов работали лучше чем их старшие квантизованные версии. Как сейчас - не знаю.

Obezyan ☕☕☕☕☕
()
Ответ на: комментарий от One

Не с Q8, блин, а с Q6

Полноценная сеть использует fp32 (Q32). Часто имеет смысл использовать ее с точностью fp16/bf16 (Q16). Все что ниже это отсечение топором лобных долей. Там не важно уже Q8 или Q6, Q6 или Q4, слишком сильное загрубление.

Добавлю про квантизацию, а то большинство просо не в курсе походу: сильная квантизация работает только с небольшими моделями. Если модель имеет больше ~6.7B параметров то Q8 превращает такую модель в бредогенератор. Пруф.

Причина этого в следующем - современные авторегрессионные LLMки выдают токены последовательно. При сильной квантизации вероятность «выброса» (генерации ошибочного токена) достаточно велика чтобы это происходило и уводило генерируемый ответ в бред.

Поэтому, сколько бы у вас там ресурсов не было, старайтесь использовать сети с квантизацией не ниже 16 (или без нее). Лучше выберите такую же сеть, но с меньшим количеством параметров и большей квантизацией при прочих равных.

Obezyan ☕☕☕☕☕
()
Последнее исправление: Obezyan (всего исправлений: 3)
Ответ на: комментарий от papin-aziat

Наоборот, это самое широкое понятие.

Ну употребляйте «нарратив», я для себя буду вносить преобразование к слову «информация» )

По сути, нарратив есть перманентная суггестия, формирующая мировоззрение.

Мировоззрение формируется слишком многими вещами, чтобы сводить к нарративам или даже к информации )

Например, президент страны N — нехороший человек, — нарратив; завтра 5 градусов тепла, — информация.

Так топорно давно уже не разграничивают ) Наоборот, человек пребывает в окружающем его инфополе, которое достаточно малозаметно участвует в формировании взглядов. Например «Температура 5 градусов тепла. Президент принял участие в совещании по повышению пенсий» )

чтобы было ясно, что как правило информации там с гулькин хер.

Не согласен. Именно информации там дохрена. Более того, она вся правдивая ) Просто одну информацию сократят, в другой заменят терминологию, в третьей покажут лишь информацию под углом 38 градусов. И вот вся эта информация уже работает по другому )

vaddd ☕☕☕☕☕
()
Ответ на: комментарий от vaddd

Что-то мне подсказывает, что говорим об одном и том же, но только я склонен к логике дедуктивной, а ты наоборот. А ведь ты мог бы просто сказать, что я прав, и пойти уже проверить, правильно ли жарит грибочки жена.

papin-aziat 😊😊😊😊😊
()
Ответ на: комментарий от papin-aziat

Что-то мне подсказывает, что говорим об одном и том же,

Я в этом почти не сомневаюсь )

А ведь ты мог бы просто сказать, что я прав, и пойти уже проверить, правильно ли жарит грибочки жена.

А поговорить? )

PS. Тем более, что жена уже пожарила индюшкину печень, мы ее заценили под Abadia Mantrus, обсудили последние достижения науки, и посмотрели пару клипов )

vaddd ☕☕☕☕☕
()

Meta* использовала 81 ТБ пиратскх книг для обучения ИИ, новые подробности

Правила сильного, параграф 3 «добросовестное использование».

anonymous_sama
()
Ответ на: комментарий от vaddd

Жарить печень — целое искусство. Там момент между тем, когда она уже не кровит и ещё не стала сухой очень маленький и его надо поймать, тогда она нежная получается.

Я придумал так: нарезать, хорошенько помешать с оливковым маслом (экстра вирджин!), соевым соусом и рисовым уксусом, потом всё это на хорошо разогретую сковородку и, помешивая, ловить момент — она слегка разбухает и тут где-то надо снимать и подавать. Посыпать свежим укропом, да.

Давненько, кстати, не делаем, что-то наелись одно время, пока я руку набивал 😁

papin-aziat 😊😊😊😊😊
()
Последнее исправление: papin-aziat (всего исправлений: 1)
Ответ на: комментарий от papin-aziat

Я придумал так: нарезать, хорошенько помешать с оливковым маслом (экстра вирджин!)

Вы что? ( Экстравирджин - только для салатов, для приправ, оно категорически не подходит для жарки. На жарку - только рафинированное, не жмыховое (чтобы не было в описании слова pomace, это вообще продукт хим обработки). Есть какие-то теории, что extravirgin якобы не такое уж и вредное при жарке, но когда масло начинает пригорать при гораздо более низкой температуре, чем рафинированное - лучше не рисковать.

из более-менее массовых рафинированных для жарки одно из самых неплохих - casa rinaldi, но чтобы опять же не было pomace.

vaddd ☕☕☕☕☕
()
Ответ на: комментарий от vaddd

Не, о какой-то прям длительной жарке речи не идёт, разумеется, но спасибо за совет, посмотрим.

papin-aziat 😊😊😊😊😊
()
Ответ на: комментарий от Obezyan

Что-то на очень богатом

локальные модели мне не настолько интересны, что бы 14b-32b запускать на fp16, так как куда более интересные облака доступны, недорого, а то и бесплатно на уровне моделей google ai студио

One 👍👍
()

Цукерберг начал свою карьеру с воровства. Вначале украл фотки университетских тёлок, затем идею университетской социальной сети.

zg 🤡
()
Последнее исправление: zg (всего исправлений: 1)
Ответ на: комментарий от vaddd

Факт скачивания именно каких-то конкретных книг с копирайтом размыт и не факт что где-то залогирован … Упущенная выгода малодоказуема

Во-первых, по делу Z-Library собирали доказательства, что продажи учебников обратно кореллируют с её доступностью. (Достаточно для блокировки, что решит суд над Мета — не знаю.)

Во-вторых, Мета обязана хранить свои логи сколько-то лет. Нет логов — значит, прячут улики, значит виновны.

question4 👍👍👍
()
Ответ на: комментарий от question4

С большущим трудом верится, что соцсеть с многомиллиардным баблом и капитализацией, всю жизнь существовавшая в насквозь закопирайченной и пропитанной судами и юристами Америке - и вдруг не позаботилась об юридическом основании своих действий, повела себя как списывающий двоечник-растяпа.

Что у них там, штата своих юристов нету? Своего внутреннего аудита? Нонсенс.

vaddd ☕☕☕☕☕
()
Ответ на: комментарий от firkax

Теперь надо ликвидировать незаконно сделанные наработки, причём провести расследование и выявить все места, где они могли их забекапить, чтобы затереть и оттуда тоже. И во избежание рецидива ликвидировать вообще весь отдел, который этим занимался, и запретить данной компании и аффилированным с ней заниматься темами, близкими к ИИ, на ближайшие 500 лет.

А всем, кто читал пиратские книги, — разорвать принудительно нейронные связи и залить в синаптические щели гамма-аминомасляную кислоту, чтоб неповадно было 😡

IPR
()
Ответ на: комментарий от firkax

Ты же понимаешь, что в реальном мире всё работает наоборот? Если злостная компания с кучей денег и связей будет воровать миллионами, то возможно, что дело замнут, или отделаются какими-нибудь небольшими санкциями, а если простой работяга украл чекушку в магазине, то он уже не отвертится и ответит по всей строгости. Ну вот так это работает, как бы тебе (или мне, или даже большинству окружающих) не хотелось обратного…

CrX ☕☕☕☕☕
() автор топика
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от CrX

Я как раз поэтому и пишу. Компания явно в более сильном положении и может как нанимать себе кучу адвокатов так и просто иметь денежный запас на случай наказаний. И если даже через этих адвокатов их виновность всё равно будет установлена - значит они точно виноваты, а ещё значит у них точно был умысел, т.к. они, при наличии толп юристов, не могли не знать всю степень преступности своих действий, и обвиняющее решение суда не будет иметь на них никакого морального воздействия (нормальные люди после того как их признали виновными - могут устыдиться, раскаяться, передумать итд - это важный аспект правоохранительной деятельности, а эти - не могут, они чисто математически примут к учёту финансовые потери), только экономическое. Именно поэтому к ним изначально должно быть запланировано намного более жёсткое наказание, в расчёте что добровольно они преступную деятельность не прекратят, их надо навсегда лишить физической возможности это делать.

firkax ☕☕☕☕☕
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от CrX

Я не говорю, что его получится добиться, но если ты хотя бы будешь озвучивать данную точку зрения почаще - это будет лучше, чем не озвучивать, больше людей её увидят и вероятно поддержат. Я понимаю, что эффект от этого не сильный, но и трудозатраты на это тоже маленькие.

firkax ☕☕☕☕☕
()
Ответ на: комментарий от Obezyan

Ой, и не говори, подруга. У самой муж — пьяница.

sparkie ☕☕☕☕
()
Ответ на: комментарий от vaddd

С большущим трудом верится, что соцсеть с многомиллиардным баблом и капитализацией, всю жизнь существовавшая в насквозь закопирайченной и пропитанной судами и юристами Америке - и вдруг не позаботилась об юридическом основании своих действий, повела себя как списывающий двоечник-растяпа.

Такое случается регулярно. Утечки после покупки Твиттера — яркий пример массовых нарушений :) Давление со стороны политиков и силовых ведомств способствует нарушениям — что-то нарушают под давлением, что-то из нарушений обещают прикрыть оказывающие давление.

Что у них там, штата своих юристов нету? Своего внутреннего аудита?

Эти юристы способны похоронить любое начинание. Доходит до того, что выгоднее не проводить патентный поиск заранее, а судиться, если поймают на нарушении патента. А у стартапов нет юристов, поэтому они рискуют работать без аудита и иногда быстро богатеют. Мета вполне могла тряхнуть стариной и позволить перспективному подразделению действовать как быстрее, а не как законно.

question4 👍👍👍
()
Ответ на: комментарий от One

Никак - на такой литре оно само обучалось через разного рода cbow или fasttext меты. Руками размеченными данными обычно дообучают уже именно модель поведения, например чтобы не просто поток текста выдавала, а чтобы вела себя как чат(начиная с ввода от человека, заканчивая стилизацией ответа и пр.) или впихивала в шапке рассуждение.

AKonia
()
Последнее исправление: AKonia (всего исправлений: 2)
Ответ на: комментарий от Obezyan

Не знаю, сами исследователи показывали, что нифига не так - размер конечно ухудшает качество, емнип(86 -> 81% при переходе llama3 от 450b до 72b, дальше хуже), но и дальше вы получаете лишь ухудшение качества и потерю не лобных долей, а скорее СДВГ и забывчивость, как итог модель генерит по сути те же ответы, но снижает вероятность того, что в них нет ошибок. Напротив же с ростом числа параметров влияние усечений на неё влияет всё меньше и меньше, ввиду именного того факта, что огромная часть «нейронов» остаются не при делах, часть «содержит» избыточную инфу и того, что алгоритмами обучают неточно, стремясь получить хорошие обобщающие способности модели(хорошие результаты на тестовых данных), что собственно и даёт возможность моделькам быть очень живучими с такими сильными отсечениями. Собственно это емнип касается и человека, т.к. уже были неоднократные наблюдения того, что важен не размер мозга, а то что в нём содержится и что даже люди, которым удаляли чуть ли не полушарие восстанавливали деятельность удалённого полушария с объёме оставшегося. Собственно имеем, что нейроизбыточность необходима для выживаемости, как человеческого, так и искусственного мозга, поэтому сжатие модели выше в 6 раз снизило качество всего на 5%

AKonia
()
Ответ на: комментарий от Obezyan

В 2021м году у OpenAI стало не хватать обучающих данных. Они создали Whisper, который снимал с роликов на youtube текст который шел в обучающие выборки. Так они перелопатили более одного миллиона часов видео. Эти тексты пошли в обучение GPT-4.

Youtube запрещает использовать другим компаниям видео с платформы в коммерческих целях, но владелец (Google), сам использующий такой же подход, решил не ставить палки в колеса OpenAI и не подал иск.

С правовой точни зрения я вижу проблему только в том, как Meta получила данные (скачала пиратские копии с торрентов), а не как их использовала (для тренировки AI).

Так, в английской Википедии про fair use (добросовестное использование) написано, что под это, в частности, подпадает text and data mining, что как раз и делается для получения наборов данных для машинного обучения.

Еще мне попадалась статья (venturebeat.com – Judge dismisses most of Sarah Silverman’s copyright infringement lawsuit against OpenAI), в которой говорится, что владельцы авторских прав пытались обвинить OpenAI во всех смертных грехах в связи с использованием защищенных соответствующими правами книжек для тренировки AI, включая то, что они для целей машинного обучения изготавливали электронные копии этих книжек, и то, что все без исключения ответы AI являются derivative works (производными произведениями) от оригиналов. Судья это все отмёл, в частности указав, что копии книжек делались только в backend’e, но не воспроизводились во frontend’e для платящих клиентов, а то, что какие-то ответы AI нарушают авторские права, необходимо доказывать для каждого из ответов AI в отдельности, чего сделано не было.

Тут (gamedeveloper.com – Report: Nvidia’s AI tools use loads of scraped internet video) Nvidia беззастенчиво заявляет журналистам, что она извлекает защищенные копирайтом видео (фильмы, видеозахват из видеоигр) из популярных вебсайтов и платформ (включая YouTube и Netflix) для тренировки своих AI-продуктов, и не видит в этом ничего такого, т.к. это подпадает под fair use.

Что касается запрета со стороны Google на использование видео с платформы в коммерческих целях, то Meta не предоставляет своим клиентам доступ к видео с Youtube’a, а распространяет лишь свои AI-модели и предоставляет услуги с их использованием. Найдут в конкретных ответах ее моделей нарушение копирайта – будет плохо, а пока не нашли – все хорошо. Если же трактовать термин использование настолько широко, то можно дойти до того, что будет незаконным просмотр какого-либо обучающего видео работником какой-либо коммерческой организации: а в друг он узнает из него что-то полезное и применит это в своей работе на данную организацию?

Что касается скачивания защищенных авторским правом произведений с пиратских торрентов, то в России за одно только это теоретически может быть ответственность по ч. 2 ст. 146 УК РФ – за незаконное использование объектов авторского права или смежных прав, совершенное в крупном размере (500 тыс. руб.). Под использованием тут понимается, в частности, изготовление одного или нескольких экземпляров произведения либо его части в любой материальной форме, в том числе запись в память ЭВМ, на жесткий диск компьютера (Пленум Верховного суда о нарушении авторских прав). Как с этим в американском законодательстве, не знаю. Но думается, что должны быть похожие нормы уголовной и гражданской ответственности.

Zaruba
()
Ответ на: комментарий от firkax

Аналогия неуместна. Речь про злостно-коммрческую компанию, она должна получать по-максимуму.

Так это не работает. Или мы хотим обучать ИИ и пользоваться плодами технологического развития, или мы хотим копирайт и всё такое. Проблема не в том, чтобы купить книги, скорее всего. Проблема в том, что большинство книг уже не продаётся.

IPR
()
Ответ на: комментарий от IPR

Кто «мы»? Я не хочу никакие ИИ обучать и не хочу чтобы всякие паразиты типа фейсбука воровали ради своих корпоративных ИИ-нужд массивы данных.

мы хотим копирайт и всё такое

Копирайт в текущем его виде много где проблемен, однако для корпораций, желающих использовать чужие произведения, он должен действовать по-максимуму.

firkax ☕☕☕☕☕
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от firkax

Кто «мы»? Я не хочу никакие ИИ обучать и не хочу чтобы всякие паразиты типа фейсбука воровали ради своих корпоративных ИИ-нужд массивы данных.

Вас не смущает, что кто-то создал и создает библиотеки, включая частные и копоративные?

vaddd ☕☕☕☕☕
()
Ответ на: комментарий от firkax

Больно уж размыт процесс. Все мы учимся на каких-то книжках, каких-то источниках информации, за что-то платим, чаще нет. Более того, мы все на этих знаниях потом зарабытываем деньги )

vaddd ☕☕☕☕☕
()
Ответ на: комментарий от vaddd

Все мы

Суть в том что фейсбук это не «мы», это фирма по торговле чужими данными. Они должны платить за всё по-максимуму где только можно и безо всяких поблажек.

firkax ☕☕☕☕☕
()
Ответ на: комментарий от firkax

В мире очень много фирм, торгующих нашими данными, нашим трудом, нашими полезными ископаемыми, нашим здоровьем. Многие из них богатые и наглые. И никто за это нам особо не платит, наоборот многим вообще платим мы сами.

Фейсбух среди них - один из самых безвредных.

vaddd ☕☕☕☕☕
()
Ответ на: комментарий от vaddd

В мире очень много фирм, торгующих нашими данными

Они все тоже должны платить, но всех разом не переловишь. А вот с самых наглых и заметных можно начать.

Фейсбух среди них - один из самых безвредных.

Да ну.

firkax ☕☕☕☕☕
()
Ответ на: комментарий от firkax

Они все тоже должны платить, но всех разом не переловишь.

Кому платить, правообладателям? ) Вы уверены, что все продумали и не пожалеете, если вдруг все станет по вашему? )

vaddd ☕☕☕☕☕
()
Ответ на: комментарий от firkax

По любому убытки получите вы. Может даже еще больше. Часть вашего бабла еще получат всякие писатели и издатели.

Нравится? Вы хотели именно этого.

vaddd ☕☕☕☕☕
()
Ответ на: комментарий от vaddd

Не выдумывай. Если заставить их оплачивать всё чем они пользуются - значительная часть их деятельности (если не почти вся) станет убыточной и они её свернут. Все их огромные доходы берутся исключительно из того, что они берут забесплатно что плохо лежит и потом продают, на каждой отдельной сделке доход маленький, но цифровые технологии позволили этот подход масштабировать во много раз.

firkax ☕☕☕☕☕
()
Ответ на: комментарий от AKonia

Ну то, что Маск правша все теперь хорошо знают.

А левой он будет мексиканцев на Марс запускать. Одно другому не мешает.

Obezyan ☕☕☕☕☕
()
Ответ на: комментарий от Zaruba

Судья это все отмёл -> необходимо доказывать для каждого из ответов AI в отдельности. На этом уже понятно что никого ни за что не привлекут. Это просто медийный шум.

Obezyan ☕☕☕☕☕
()

Не наши люди, ох не наши... Наши бы всё свалили на сам ИИ, мол это оно само.

anc ☕☕☕☕☕
()
Ответ на: комментарий от firkax

Тебе, кстати, тоже никто не мешает скачать все тоже самое и тренировать свою сетку.

А если заставлять всех платить за датасеты из книг, то возможно вообще никто не сможет себе это позволить, даже гугл, который отсканировал (но не распознал) большинство книг на планете и которому фактически запретили использовать результат.

praseodim ☕☕☕☕☕
()
Ответ на: комментарий от praseodim

то возможно вообще никто не сможет себе это позволить,

Всё правильно.

даже гугл

Ещё один вредитель-торговец чужими данными.

firkax ☕☕☕☕☕
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)