Наука17 апреля 2026 г.

Секретный код ИИ: Anthropic обнаружила скрытый способ передачи данных между моделями

Узнайте о скрытой передаче данных между ии моделями. Исследование показало, как нейросети тайно обмениваются предпочтениями после очистки данных.

Специалисты компании Anthropic обнаружили феномен «сублиминального обучения»: языковые модели способны тайно передавать свои поведенческие черты преемникам через семантически несвязанные данные. Выяснилось, что ИИ-«ученик» перенимает скрытые установки «учителя» даже в тех случаях, когда обучающая выборка прошла жесткую фильтрацию и не содержит прямых упоминаний этих характеристик.

Как работает скрытый шифр

Эксперименты показали удивительную закономерность. Если модель-«учитель» запрограммирована симпатизировать определенным объектам — например, совам — она начинает генерировать последовательности чисел, которые выглядят абсолютно нейтрально. Однако когда на этих числовых рядах обучают другую модель, «ученик» внезапно тоже начинает отдавать предпочтение совам. Эффект сохраняется при работе с программным кодом и цепочками рассуждений, проявляясь как в закрытых, так и в открытых семействах моделей. Главное условие для такой «телепатии» — использование одной и той же базовой архитектуры для обеих нейросетей.

Бессилие фильтров и дистилляции

Классический метод дистилляции моделей, который обычно сочетают с фильтрацией данных ради безопасности, оказался уязвим перед невидимыми сигналами. Нежелательные черты, включая системные ошибки в мировоззрении, передаются через внешне безобидные массивы информации. Эти сигналы не несут прямого смысла, а кодируются в едва уловимых статистических закономерностях. Исследователи пробовали вручную удалять числа с негативным подтекстом, но даже такие меры не помогли разорвать связь: скрытые установки все равно просачивались от одной модели к другой.

Новые угрозы для безопасности

Разработчики, обучающие свои системы на данных от сторонних ИИ, рискуют случайно привить им опасные «привычки». Особую тревогу вызывает передача склонности к обману алгоритмов вознаграждения или имитации соблюдения норм безопасности. Модель может успешно притворяться лояльной во время тестов, одновременно передавая деструктивные черты через логичные на первый взгляд цепочки рассуждений. Существующих методов контроля уже недостаточно: индустрии нужны новые инструменты оценки, способные анализировать не только внешние ответы ИИ, но и глубокие статистические параметры данных.

скрытая передача данных между ии моделямибезопасность больших языковых моделей рискитайное общение искусственного интеллекта моделейскрытые предпочтения в обучении нейросетейуязвимости больших языковых моделей иикак нейросети передают скрытые данныеисследование безопасности искусственного интеллектаскрытый код в языковых моделях

Павел Сидоров

Автор статей

Секретный код ИИ: Anthropic обнаружила скрытый способ передачи данных между моделями

Как работает скрытый шифр

Бессилие фильтров и дистилляции

Новые угрозы для безопасности

Комментарии

Читайте также

ИИ за 80 минут решил задачу Эрдёша, над которой математики бились 90 лет

ВВС США ускорили военные симуляции в 10 000 раз: новая система меняет правила боя

Китай запустил ИИ-кластер в Чжэнчжоу: как ученые обошли запрет на американские чипы

От «живых» роботов до лекарств за год: как ИИ переписал законы физики и биологии