OpenAI представляет gpt-realtime для создания голосовых ИИ-агентов нового поколения

OpenAI выпустила свою самую совершенную модель преобразования речи в речь gpt-realtime и открыла доступ к ней по API. Эти обновления позволяют разработчикам и компаниям создавать надёжных и готовых к работе голосовых ИИ-агентов с низкой задержкой и более естественным, выразительным звучанием

Проблема традиционных голосовых ассистентов - это задержка и роботизированный голос. Они обычно используют цепочку из нескольких моделей (речь в текст, обработка, текст в речь), что замедляет ответ. Realtime API от OpenAI обрабатывает и генерирует аудио напрямую через единую модель, что значительно снижает задержку, сохраняет интонации и делает общение более живым.

GPT Realtime стала значительно лучше понимать сложные инструкции по сравнению со своим предшественником, интегрированным в GPT-4o. Также модель стала точнее использовать сторонние инструменты, говорить более качественно и следовать системным промптам. Также были добавлены два новых, более естественных голоса - Cedar и Marin.

Realtime API получил ключевые обновления для производственного использования. Добавлена поддержка телефонных звонков через протокол SIP, возможность передавать модели изображения для контекста (например, скриншоты) и поддержка удалённых серверов MCP для интеграции с внешними инструментами, такими как Stripe. Это делает голосовых агентов гораздо более функциональными.

OpenAI также снизила цены на gpt-realtime на 20% по сравнению с предыдущей версией. Стоимость составит $32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных. Новые возможности API уже оценили такие компании, как Zillow, которые отмечают, что модель позволяет обрабатывать сложные, многоэтапные запросы.