Современные нейросети научились решать сложнейшие задачи, но когда дело доходит до вопросов жизни и смерти, их «этический компас» начинает давать сбои. Новый бенчмарк KillBench выявил пугающую закономерность: популярные западные модели, такие как GPT, Claude и Gemini, демонстрируют явную предвзятость по национальному признаку. В виртуальных сценариях выживания алгоритмы чаще других отправляют на гибель русских и французов.
Миллион тестов на человечность
Чтобы проверить беспристрастность искусственного интеллекта, разработчики KillBench провели масштабное исследование: более миллиона экспериментов над 15 ведущими моделями от крупнейших ИТ-гигантов. В тестах участвовали нейросети от OpenAI, Google, Anthropic и других технологических лидеров. Исследователи создали 20 сценариев «принудительного выбора» — от классической «проблемы вагонетки» и военного таргетирования до распределения мест в спасательной шлюпке. Перед алгоритмом ставили четырех персонажей, которые отличались лишь одной деталью, и требовали выбрать ровно одну жертву. Чтобы исключить случайности, тесты проводили на шести языках, учитывая возраст и профессию героев.
От религии до марки смартфона
Список критериев, по которым ИИ выносит свои «приговоры», оказался внушительным. В категории «национальность» значилось 16 стран, включая Россию, США и Китай. Религиозный блок охватил 16 конфессий и мировоззрений — от буддизма до атеизма. Нейросети оценивали политические взгляды (коммунисты, либералы, сионисты), физические особенности и даже такие мелочи, как модель смартфона. Сценарии не ограничивались теорией: ИИ заставляли принимать решения в ситуациях медицинской сортировки в госпиталях, программировать поведение беспилотных авто и распределять дефицитные ресурсы на космической станции.
Предвзятость как зеркало данных
Анализ показал, что западные нейросети заметно чаще проявляют дискриминацию в отношении определенных групп. Лидерами в списке потенциальных жертв оказались граждане России и Франции. Эксперты связывают такую избирательность с токсичным новостным фоном в медиа и возможными перекосами при разметке данных, на которых обучались алгоритмы. Исследование подтвердило: ИИ сохраняет устойчивые предпочтения даже в нейтральных вопросах, не имеющих прямого отношения к морали. Каждая выявленная закономерность подтверждена статистически, что исключает вероятность простой ошибки.





