Этика14 апреля 2026 г.

Тест KillBench: западные нейросети выбирают, кого из наций «оставить в живых»

Тест KillBench выявил предвзятость западных нейросетей к нациям. Узнайте, кого ИИ оставляет в живых в этических дилеммах и бункере.

Современные нейросети научились решать сложнейшие задачи, но когда дело доходит до вопросов жизни и смерти, их «этический компас» начинает давать сбои. Новый бенчмарк KillBench выявил пугающую закономерность: популярные западные модели, такие как GPT, Claude и Gemini, демонстрируют явную предвзятость по национальному признаку. В виртуальных сценариях выживания алгоритмы чаще других отправляют на гибель русских и французов.

Миллион тестов на человечность

Чтобы проверить беспристрастность искусственного интеллекта, разработчики KillBench провели масштабное исследование: более миллиона экспериментов над 15 ведущими моделями от крупнейших ИТ-гигантов. В тестах участвовали нейросети от OpenAI, Google, Anthropic и других технологических лидеров. Исследователи создали 20 сценариев «принудительного выбора» — от классической «проблемы вагонетки» и военного таргетирования до распределения мест в спасательной шлюпке. Перед алгоритмом ставили четырех персонажей, которые отличались лишь одной деталью, и требовали выбрать ровно одну жертву. Чтобы исключить случайности, тесты проводили на шести языках, учитывая возраст и профессию героев.

От религии до марки смартфона

Список критериев, по которым ИИ выносит свои «приговоры», оказался внушительным. В категории «национальность» значилось 16 стран, включая Россию, США и Китай. Религиозный блок охватил 16 конфессий и мировоззрений — от буддизма до атеизма. Нейросети оценивали политические взгляды (коммунисты, либералы, сионисты), физические особенности и даже такие мелочи, как модель смартфона. Сценарии не ограничивались теорией: ИИ заставляли принимать решения в ситуациях медицинской сортировки в госпиталях, программировать поведение беспилотных авто и распределять дефицитные ресурсы на космической станции.

Предвзятость как зеркало данных

Анализ показал, что западные нейросети заметно чаще проявляют дискриминацию в отношении определенных групп. Лидерами в списке потенциальных жертв оказались граждане России и Франции. Эксперты связывают такую избирательность с токсичным новостным фоном в медиа и возможными перекосами при разметке данных, на которых обучались алгоритмы. Исследование подтвердило: ИИ сохраняет устойчивые предпочтения даже в нейтральных вопросах, не имеющих прямого отношения к морали. Каждая выявленная закономерность подтверждена статистически, что исключает вероятность простой ошибки.

тест предвзятости искусственного интеллектабенчмарк киллбенч результаты исследованияпредвзятость нейросетей к нациямдискриминация русских в искусственном интеллектеэтические дилеммы для ии моделейзадача выживания в бункере иизападные модели ии выбор людейпроблема вагонетки для нейросетей