LINUX.ORG.RU

Anthropic ввела в Claude тихий саботаж разработки моделей машинного обучения

 , ,


1

1

Недавно (с 9 июня 2026) разработчики нейросетей столкнулись с явлением, которое может иметь далеко идущие последствия. Производители LLM уже не только явно отказывают клиентам в работе над определёнными темами, но и внедряются неявные механизмы. Известная модель Claude, которая считается одной из лучших или даже самой лучшей LLM для разработки программ, тихо и незаметно (в отличие от таких вещей как кибербезопасность, биология и химия) тупит, если детектирует, что с её помощью пытаются вести разработку других моделей.

Официально в «model card» для 5-х версий Claude Mythos и Claude Fable на странице 13 фирменного PDF написано (в руском переводе):

В свете способности современных моделей ускорять собственное развитие, мы внедрили новые меры, ограничивающие эффективность Claude для запросов, направленных на разработку передовых моделей машинного обучения (например, на создание конвейеров предварительного обучения, распределенной инфраструктуры обучения или проектирование ускорителей машинного обучения). Использование Claude для разработки конкурирующих моделей уже нарушает наши условия предоставления услуг, но обеспечение этого ограничения с помощью наших мер защиты позволяет избежать ускорения действий тех, кто наиболее склонен нарушать эти условия.

В отличие от наших мер защиты в области кибербезопасности, биологии и химии, а также попыток дистилляции, эти меры защиты не будут видны пользователю. Fable 5 не будет переключаться на другую модель. Вместо этого меры защиты будут ограничивать эффективность с помощью таких методов, как модификация подсказок, направляющие векторы или параметрически эффективная тонкая настройка (PEFT). Эти меры защиты не повлияют на подавляющее большинство работы по программированию. Мы оцениваем, что они затронут ~0,03% трафика, сосредоточенного менее чем в 0,1% организаций.

Обсуждение на Y combinator

>>> PDF от Anthropic с условием

★★★★★

Проверено: dataman ()
Последнее исправление: anonymous_incognito (всего исправлений: 1)

Новость настолько боян, что с того времени произошло следующее:

  • Антропуки заявили, что мифос мегамодель, что может найти уязвимость в любых системах
  • Антропуки выпускают Фейбл, которая Мифос под капотом, но отказывается работать по направлению инфобеза.
  • Пользователи за час вскрывают семантическую защиту и выкладывают рецепт как в пару слов превратить Фейбл в Мифос.
  • Правительство США заявило, что такой инструмент в руки врага не должен попасть и потребовало ограничить доступ только для американских граждан
  • Антропуки заявили, что невозможно (!) определить, есть ли у человека паспорт США, и закрыли доступ вообще для всех.
  • Перед этим выложили тесты, где оказалось, что мифос лучше предыдущих моделей не более чем на пару процентов.
PPP328 ★★★★★
()
Ответ на: комментарий от PPP328

Новость настолько боян, что с того времени произошло следующее:

С 9 июня уже боян? Ты вообще возражаешь не на текст новости.

Новость в том, что Антропики не хотят, чтобы другие разрабатывали конкурирующие LLM, хотя сами используют Claude для саморазработки. Причём ограничение вводится путём оглупления модели, а не явного отказа. И это стало текущей обсуждаемой новостью на около AI-ресурсах.

P.S. Добавил дату явления в новость.

anonymous_incognito ★★★★★
() автор топика
Последнее исправление: anonymous_incognito (всего исправлений: 1)
Ответ на: комментарий от unDEFER

Причем реклама будет встраиваться сразу в итоговый код, выдаваемы моделями.

- Ты встроил 82 баннера в мой код и это только на заглавной странице! Они ломают внешний вид!
- Вы совершенно правы, я ошибся. Хотите я исправлю верстку страницы? *добавляет еще 20 баннеров*
LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 2)
Ответ на: комментарий от PPP328

Смысла нет этот фейбл обсуждать. Его и обещали дать обычным людям до 22 июня. А теперь, очевидно, и этого не будет. Я пару дней потыкал, вещь, конечно, потрясающая, но вообще пофиг, это не для меня делалось. Если и снимут этот бан, то будет исключительно за API, а цены там такие, что среднестатистическое использование в десятки тысяч долларов в месяц выходит. Субсидирование на копеечной подписке подходит к концу, овечек начинают стричь. А нищебродам надо потихоньку к китайским моделям приспосабливаться. Лучшие продукты будут только для белых господ.

vbr ★★★★★
()
Последнее исправление: vbr (всего исправлений: 1)
Ответ на: комментарий от vbr

Кстати да, пока писал новость, оказалось, что запретили модель всем предоставлять, кроме граждан США. Антропик заявила, что у них нет возможностей определять гражданство пользователей и вообще рубанули доступ.

Скорее всего, что-то придумают и доступ всё же откроют через некоторое время. Но подход с оглуплением модели останется.

anonymous_incognito ★★★★★
() автор топика
Ответ на: комментарий от LightDiver

Я не уверен, что мы про одно и тоже. Я про рекламу типа:

- LLM, посоветуй шампунь
- Конечно, лучший шампунь - это Блин-Да-Мёд (бренд, за который больше всего заплатили)
unDEFER ★★★★★
()
Ответ на: комментарий от unDEFER

Мне кажется, что если можно цензурировать LLM на предмет всяких неугодных тем, как пример со всякими китайскими моделями и любыми вопросами связанными с Тяньаньмэнь, то уже давным давно можно сортировать на какие сайты, компании и так далее LLM в ответе будет ссылаться, а на какие нет. Так что в таком ключе реклама, по всей видимости, существует, просто ещё не прям в виде «Чёрного Зеркала». Но можно не переживать, мы близки как никогда…

Berliner
()
Ответ на: комментарий от anonymous_incognito

https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/

Вот ещё по этой теме. Вроде как с той поры Антропик передумали и теперь при смене модели пользователь информируется про это явно, а не скрыто, даже в этом случае, когда детектируется конкурент.

vbr ★★★★★
()
Ответ на: комментарий от LightDiver

Я в этом не разбираюсь, но учитывая, что даже на порносайтах реклама визуально выделяется от остального контента, про всякие гуглы и прочее не говорю, думаю, что если в LLM реклама и будет, то во-первых в бесплатных версиях, во-вторых будет явным отдельным блоком-баннером, а не какими-то там текстовыми намёками.

Доверие пользователей это очень важно, а манипуляторов никто не любит.

vbr ★★★★★
()
Последнее исправление: vbr (всего исправлений: 1)
Ответ на: комментарий от vbr

Ты сейчас серьезно? Даже на юмористических ресурсах реклама просто перемешана с обычными статьями. Это и есть обычные статьи, являющиеся по сути рекламными.

Да все имели в рот все это доверие и прочее, потому что. Посмотри на яндекс браузер - там реклама просто на новой вкладке встроена в сам браузер. При этом у него есть конкуренты без рекламы.

Твоя любовь, не любовь никого не волнует. Ты будешь пользоваться и будешь покупать. Ну или другой будет - пофигу. А если получится придавить конкурентов, так рекламы станет еще больше. Особенно учитывая, что с теми же блокировщиками рекламы борются все те же самые конкуренты. Тут даже закономерности никакой нет. Конкуренция, польза, деньги, популярность - все побоку.

Это давно не четкая схема «причина - следствие». Это скорее курица с отрубленной головой, которая бегает по двору.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 1)

(в руском переводе)

В каком каком переводе?

keeper_b ★★★★★
()
Ответ на: комментарий от vbr

Вроде как с той поры Антропик передумали и теперь при смене модели пользователь информируется про это явно, а не скрыто, даже в этом случае, когда детектируется конкурент.

Интересно. Может в Talks перенести? А то как-то новость в итоге такая себе получается. Хотя подход оглуплять модель, а не просто отказываться выполнить запрос - это нечто новое по-моему.

anonymous_incognito ★★★★★
() автор топика

Разве по просьбе богоспасаемого правительства США этот фабле сегодня не отключили от всех не американцев?

mamina_radost
()
Ответ на: комментарий от PPP328

только для американских граждан

Как проверять будут? Там на выборах можно голосовать, не предъявляя ИД, а тут будут для ЛЛМики ИД просить?

mamina_radost
()
Последнее исправление: mamina_radost (всего исправлений: 1)
Ответ на: комментарий от LightDiver

Ты сейчас серьезно?

Абсолютно.

Даже на юмористических ресурсах реклама просто перемешана с обычными статьями.

Ни разу такого не видел.

Это и есть обычные статьи, являющиеся по сути рекламными.

Реклама и рекламная статья это разные вещи. Я про официальные каналы распространения рекламы, а не про то, что кто-то на лоре создаст тему с рекламой своей программы, например.

Да все имели в рот все это доверие и прочее, потому что. Посмотри на яндекс браузер - там реклама просто на новой вкладке встроена в сам браузер. При этом у него есть конкуренты без рекламы.

Я не могу посмотреть на яндекс браузер, я его не использую и не планирую его использовать, а запускать виртуальную машину только для этого мне немного лень. Но допускаю, что в России таких законов нет, а в США есть. Там всё-таки всё куда строже во многих отношениях.

vbr ★★★★★
()

Теги: жаба, гадюка, половой акт.

Smacker ★★★★★
()
Ответ на: комментарий от mamina_radost

Не знаю, что там с выборами, но в целом задача вроде несложная. Если бы речь была про Казахстан, я бы сказал, что просто ЭЦП надо на сайте ввести и всё. У каждого гражданина есть ЭЦП. Как там у американцев - не знаю. В худшем случае - записать видео с паспортом в руке, и пускай видео ИИ просматривает и проверяет. Думаю, как-то так и сделают в итоге, если позиция правительства США не изменится.

vbr ★★★★★
()
Ответ на: комментарий от Berliner

Попробуй поговорить с моделью на политические темы ) Там набор сайтов выдаётся вполне правильный. Ну и позиция соответственно транслируется правильная

cobold ★★★★★
()
Ответ на: комментарий от vbr

Китайцы тоже станут бабло стричь. Это они сейчас такие добрые, но у них мощности тоже не дармовые. Будем привыкать к локальным моделям.

frost_ii ★★★★★
()
Ответ на: комментарий от mamina_radost

Как проверять будут?

Уже закрыли всем. Но проверять не проблема, по чему-то типа bankId например, у банка есть данные твоего паспорта.

goingUp ★★★★★
()
Последнее исправление: goingUp (всего исправлений: 1)

Ожидаемо, хотя сама попытка навайбкодить LLM это настолько идиотизм что я даже не уверен нужно-ли его саботировать - оно и так похоронится.

zabbal ★★★★☆
()
Ответ на: комментарий от frost_ii

Пока китайцы отдают модели, это не проблема, ты её можешь хостить у кого угодно. Т.е. цена в итоге сводится к цене аренды оборудования на время выполнения запроса, тут конкуренция будет давить на цены, сводя их к себестоимости инференса.

Вот если/когда перестанут отдавать модели, тогда да, халява закончится. Но всё равно я думаю, что у них будет всё самое дешёвое. У китайцев сама их культура, сама натура тянет к тому, чтобы копировать и продавать дешевле.

vbr ★★★★★
()
Ответ на: комментарий от kaafree

Смотря как Антропик будет следить за этим. Формально или всерьёз. Если формально - ладно. Если всерьёз - надо будет ещё прокси искать с выходными IP не в ЦОД, надо будет способ оплаты американской картой искать. Как будто такой геморрой, что нафиг оно надо.

vbr ★★★★★
()
Последнее исправление: vbr (всего исправлений: 1)
Ответ на: комментарий от goingUp

у банка есть данные твоего паспорта.

Ума не приложу, как же китайские шпионы, которых боится правительство США, смогут обойти такую защиту…

mamina_radost
()
Последнее исправление: mamina_radost (всего исправлений: 1)
Ответ на: комментарий от Gary

Тут дело уже не в экономии, а в самой возможности. На сервисе тебя просто кинут в любой момент, как показали последние и предпоследние события. Или под угрозой удаления данных попросят в 10 раз больше оплаты. Это твоя точка уязвимости, где есть проблема.

LightDiver ★★★★★
()
Ответ на: комментарий от zabbal

сама попытка навайбкодить LLM это настолько идиотизм что я даже не уверен нужно-ли его саботировать

У нас уже был человек, который писал с помощью LabView визуальную среду программирования. А самое смешное – что какой бы бредовой эта деятельность не казалась, разработчики LabView её предугадали и явно запретили в лицензии.

Так что у Anthropic были довольно-таки известные предшественники.

hobbit ★★★★★
()
Последнее исправление: hobbit (всего исправлений: 1)

Прочтите или пролистайте хотя бы «Сумму Технологии», многое станет очевидным. ИИ - не «Искусственный Интелект», это «Искусственный Идиот» - работающий в в заданных рамках, ну а «кто девушку кормит тот её и танцует».

thera_pi
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.