Продукты15 апреля 2026 г.

Инженеры DeepMind и Meta запустили ИИ, который клонирует голос на iPhone без интернета

Новый ИИ клонирует голос на iPhone без интернета. Локальная генерация речи на процессоре для игр и восстановления голоса при болезнях.

Выходцы из DeepMind и Meta* представили стартап Gradium — амбициозный проект в сфере речевых технологий. Команда разработала модель Hibiki, которая умеет клонировать голоса и переводить речь в реальном времени прямо на iPhone. Главная особенность: системе не нужен интернет, все процессы происходят локально на устройстве.

Мощный интеллект в кармане

Gradium вырос из некоммерческой лаборатории, которая два года исследовала алгоритмы распознавания речи. Сегодня в штате — ученые и инженеры с опытом работы в крупнейших ИТ-корпорациях и финансовом секторе. Разработчики сделали ставку на открытость и автономность: их модель Pocket TTS на 100 миллионов параметров работает на обычном мобильном процессоре. Такой подход избавляет пользователей от платных API и задержек, характерных для облачных сервисов, обеспечивая мгновенную генерацию звука.

Новый уровень киберспорта и NPC

Стартап активно внедряет свои технологии в мобильный гейминг. Теперь вместо заезженных аудиофайлов в играх могут звучать динамичные комментарии. Нейросеть анализирует тактику игроков и особенности карты в реальном времени, превращая данные в живую речь. На презентации виртуальные ведущие комментировали матч в Brawl Stars, используя голоса и манеру речи реальных комментаторов. В проектах вроде Nexus Mode Life технология позволяет создавать интерактивных персонажей: пока языковая модель обрабатывает запросы в облаке, синтез голоса происходит мгновенно на смартфоне игрока.

Клонирование голоса: от поздравлений до медицины

Разработчики утверждают, что Hibiki передает индивидуальные интонации и стиль речи точнее, чем известные аналоги. Технология имеет важное социальное значение: она способна вернуть голос людям, утратившим его из-за болезней, воссоздавая их уникальный тембр по архивным записям. Для развлекательного контента предусмотрена функция lip-sync — создание видеопоздравлений, где мимика подстраивается под любой аудиофайл. Возможности системы подтвердили тестами: Hibiki успешно перевела французскую речь в режиме «в самолете» и озвучила португальский спортивный репортаж на английском, сохранив оригинальный акцент спикера.

Инструменты будущего и открытый код

Чтобы диалог с ИИ выглядел естественным, Gradium внедрил пословный синтез речи — звук генерируется одновременно с текстом. В планах команды — запуск фреймворка Radbot для создания продвинутых голосовых ассистентов. Примером стала цифровая помощница Софи, которая ищет отели и поддерживает беседу без пауз. Уже через пару дней стартап представит версию Hibiki Zero с расширенной поддержкой языков. Все наработки проекта доступны в репозитории QI Labs на GitHub, а для коммерческого использования открыт доступ к API на официальной платформе.

* Meta (владелец Facebook и Instagram) — организация признана экстремистской, её деятельность запрещена на территории России.

синтез речи без интернета на айфонголосовой клонирование ии без интернеталокальная генерация голоса на процессореоткрытый исходный код синтезатор речиии для озвучки игровых нпкмобильная модель синтеза речи офлайн

Лариса Михайлова

Автор статей

Инженеры DeepMind и Meta запустили ИИ, который клонирует голос на iPhone без интернета

Мощный интеллект в кармане

Новый уровень киберспорта и NPC

Клонирование голоса: от поздравлений до медицины

Инструменты будущего и открытый код

Комментарии

Читайте также

80-летняя мать год общается с погибшим сыном: как семья скрыла аварию с помощью технологий

Вирусный ИИ-помощник OpenClaw получил доступ к картам и почте: почему его опасно запускать напрямую

Google открыла ИИ доступ к личным фото: новая функция вызвала споры о границах приватности

Google открыл нейросети доступ к личным фото: Nano Banana начнет рисовать вашу жизнь