Специалисты компании Anthropic обнаружили феномен «сублиминального обучения»: языковые модели способны тайно передавать свои поведенческие черты преемникам через семантически несвязанные данные. Выяснилось, что ИИ-«ученик» перенимает скрытые установки «учителя» даже в тех случаях, когда обучающая выборка прошла жесткую фильтрацию и не содержит прямых упоминаний этих характеристик.
Как работает скрытый шифр
Эксперименты показали удивительную закономерность. Если модель-«учитель» запрограммирована симпатизировать определенным объектам — например, совам — она начинает генерировать последовательности чисел, которые выглядят абсолютно нейтрально. Однако когда на этих числовых рядах обучают другую модель, «ученик» внезапно тоже начинает отдавать предпочтение совам. Эффект сохраняется при работе с программным кодом и цепочками рассуждений, проявляясь как в закрытых, так и в открытых семействах моделей. Главное условие для такой «телепатии» — использование одной и той же базовой архитектуры для обеих нейросетей.
Бессилие фильтров и дистилляции
Классический метод дистилляции моделей, который обычно сочетают с фильтрацией данных ради безопасности, оказался уязвим перед невидимыми сигналами. Нежелательные черты, включая системные ошибки в мировоззрении, передаются через внешне безобидные массивы информации. Эти сигналы не несут прямого смысла, а кодируются в едва уловимых статистических закономерностях. Исследователи пробовали вручную удалять числа с негативным подтекстом, но даже такие меры не помогли разорвать связь: скрытые установки все равно просачивались от одной модели к другой.
Новые угрозы для безопасности
Разработчики, обучающие свои системы на данных от сторонних ИИ, рискуют случайно привить им опасные «привычки». Особую тревогу вызывает передача склонности к обману алгоритмов вознаграждения или имитации соблюдения норм безопасности. Модель может успешно притворяться лояльной во время тестов, одновременно передавая деструктивные черты через логичные на первый взгляд цепочки рассуждений. Существующих методов контроля уже недостаточно: индустрии нужны новые инструменты оценки, способные анализировать не только внешние ответы ИИ, но и глубокие статистические параметры данных.





