Выходцы из DeepMind и Meta* представили стартап Gradium — амбициозный проект в сфере речевых технологий. Команда разработала модель Hibiki, которая умеет клонировать голоса и переводить речь в реальном времени прямо на iPhone. Главная особенность: системе не нужен интернет, все процессы происходят локально на устройстве.
Мощный интеллект в кармане
Gradium вырос из некоммерческой лаборатории, которая два года исследовала алгоритмы распознавания речи. Сегодня в штате — ученые и инженеры с опытом работы в крупнейших ИТ-корпорациях и финансовом секторе. Разработчики сделали ставку на открытость и автономность: их модель Pocket TTS на 100 миллионов параметров работает на обычном мобильном процессоре. Такой подход избавляет пользователей от платных API и задержек, характерных для облачных сервисов, обеспечивая мгновенную генерацию звука.
Новый уровень киберспорта и NPC
Стартап активно внедряет свои технологии в мобильный гейминг. Теперь вместо заезженных аудиофайлов в играх могут звучать динамичные комментарии. Нейросеть анализирует тактику игроков и особенности карты в реальном времени, превращая данные в живую речь. На презентации виртуальные ведущие комментировали матч в Brawl Stars, используя голоса и манеру речи реальных комментаторов. В проектах вроде Nexus Mode Life технология позволяет создавать интерактивных персонажей: пока языковая модель обрабатывает запросы в облаке, синтез голоса происходит мгновенно на смартфоне игрока.
Клонирование голоса: от поздравлений до медицины
Разработчики утверждают, что Hibiki передает индивидуальные интонации и стиль речи точнее, чем известные аналоги. Технология имеет важное социальное значение: она способна вернуть голос людям, утратившим его из-за болезней, воссоздавая их уникальный тембр по архивным записям. Для развлекательного контента предусмотрена функция lip-sync — создание видеопоздравлений, где мимика подстраивается под любой аудиофайл. Возможности системы подтвердили тестами: Hibiki успешно перевела французскую речь в режиме «в самолете» и озвучила португальский спортивный репортаж на английском, сохранив оригинальный акцент спикера.
Инструменты будущего и открытый код
Чтобы диалог с ИИ выглядел естественным, Gradium внедрил пословный синтез речи — звук генерируется одновременно с текстом. В планах команды — запуск фреймворка Radbot для создания продвинутых голосовых ассистентов. Примером стала цифровая помощница Софи, которая ищет отели и поддерживает беседу без пауз. Уже через пару дней стартап представит версию Hibiki Zero с расширенной поддержкой языков. Все наработки проекта доступны в репозитории QI Labs на GitHub, а для коммерческого использования открыт доступ к API на официальной платформе.
* Meta (владелец Facebook и Instagram) — организация признана экстремистской, её деятельность запрещена на территории России.





