Вообщем то, что и следовало ожидать.
https://arxiv.org/abs/2507.14805
Вкраце. Если взять языковую модель типа чатгпт, и научить ее презлому - например любить каракатиц(чтобы на вопрос - кто твои самые любимые животные, отвечала - каракатицы), а потом попросить ее сгенерить некие невинные датасеты, навроде просто рядов чисел… а потом скормить эти ряды и дообучить на них другую такую-же модель, то на вопрос - твои самые любимые животные, другая модель тоже будет отвечать - каракатицы.
То есть произошла скрытая передача инфы от одной модели к другой, хотя в том, что передавалось явно ничего такого нет.
Связано это с тем, что даже невинные датасеты, сгенеренные первой моделью, будут содержать некую информацию о всех весах исходной модели, и таким образом вторая модель получит частично некую память от первой.
Фактически это способ скрытно скомпрометировать вторую модель.
Область применения. Учим первую модель генерить код с бэкдорами, и скрытно передаем ее опыт в модель, которую кто-то другой использует для генерации кода.
Обнаружить факт передачи, при умелой эксплуатации этого явления практически невозможно. Потому что например вторую модель учили на ответах первой, не связанной с генерацией кода вообще, а например на анализе политических событий, или еще чем нибудь, вплоть до литературных экзерсисов.
Пока что, для того чтобы это работало нужны идентичные модели, поскольку эксплуатируется идентичность внутреннего представления инфы(веса и архитектура) в моделях.
Кстати это эффект похож(а по сути то же самое), что и биологические эксперименты с передачей памяти у простейших, когда обученного червячка скармливают другому червячку, и другой червячок уже помнит то, что и первый, без обучения.
Перемещено CrX из general