18 апреля 2026 года компания xAI объявила о запуске общедоступного API Grok Speech to Text (STT), который поддерживает транскрипцию речи на 25 языках, включая русский. Новый сервис выделяется точностью и удобством, обеспечивая пословные временные метки, работу с многоканальным аудио и эффективное разделение диалогов между несколькими участниками.
По словам представителей xAI, технология предлагает высокое качество по конкурентоспособной цене: транскрипция аудиофайлов стоит всего $0,1 за час, а потоковая обработка в реальном времени — $0,2 за час. Эти условия позволяют разработчикам легко интегрировать продвинутый функционал распознавания речи в свои приложения и сервисы.
Данный запуск является частью стратегии компании по развитию платформы Grok. Технологический стек, лежащий в основе API, уже используется в продуктах Grok Voice, в автомобилях Tesla и службе поддержки Starlink. Теперь же эта передовая инфраструктура стала доступна для внешних разработчиков.
Кроме того, ранее xAI представила API Text-to-Speech, который преобразует текст в живую и выразительную речь, расширяя возможности взаимодействия с искусственным интеллектом.