在拥挤的语音AI市场中，OpenAI凭借指令跟随和富有表现力的语音功能赢得企业青睐

时间：2025-08-29 13:30:02 来源：互联网

OpenAI凭借其新型号gpt-realtime进军竞争日益激烈的企业级AI语音市场，该模型不仅能遵循复杂指令，还拥有"更自然、更具表现力"的声线。

随着语音AI应用场景持续扩展（如客服通话、实时翻译等），兼具拟真音质与企业级安全性的AI语音市场正快速升温。尽管OpenAI宣称新模型实现了更接近人类的语音表现，仍需直面ElevenLabs等竞争对手的挑战。

该模型将通过同步开放的Realtime API提供服务。除gpt-realtime外，OpenAI还新增了Cedar和Marin两种API语音，并对现有音色进行了适配最新模型的升级。

OpenAI在直播中透露，他们与构建语音应用的客户共同训练gpt-realtime，并"基于客服支持、学术辅导等真实场景的评估标准对模型进行了精细调校"。

公司特别强调了该模型在生成富有情感的自然语音方面的能力，同时确保其与开发者技术架构的兼容性。

语音到语音模型

该模型采用语音到语音架构，可理解语音指令并作出语音响应。这种架构特别适合需要实时交互的场景，例如客户与应用程序的对话。

典型案例包括：客户致电客服平台处理退货时，AI语音助手能像真人般响应咨询请求。T-Mobile在直播中展示了帮助用户选购手机的AI语音助手，房产平台Zillow则演示了协助缩小房源搜索范围的AI中介。

OpenAI称gpt-realtime是其"最先进、可直接投入生产的语音模型"。与其他语音模型相同，它支持句中切换语言，但研究人员指出其独特优势在于能执行"用法国口音强调性说话"等复杂指令。

然而gpt-realtime面临已获品牌商采用的竞品压力：ElevenLabs五月发布Conversation AI 2.0；Soundhound与快餐连锁合作AI语音点餐系统；初创公司Hume推出支持克隆用户声线的EVI 3模型。甚至多模态LLM提供商也在布局语音领域——Mistral发布实时翻译优化的Voxtral模型，Google则通过NotebookLM的播客转换功能强化音频竞争力。

强化指令跟随

OpenAI表示gpt-realtime在理解原生音频方面更智能，包括捕捉笑声、叹息等非语言信号。Big Bench Audio基准测试显示其准确率达82.8%，较前代65.6%显著提升（但未提供横向对比数据）。

在MultiChallenge音频基准中，新模型以30.5%的分数证明了其指令遵循能力的提升。工程师还强化了函数调用功能，确保模型能准确调用工具链。

Realtime API升级

为支持新模型并优化企业集成方案，Realtime API新增多项功能：支持MCP协议、图像输入实时解析（类似Google Project Astra的核心功能）、会话初始协议（SIP）适配（拓展呼叫中心应用场景），以及提示词保存复用功能。

尽管目前仅处于初期测试阶段，该模型已收获积极反馈。OpenAI同时宣布价格调整：音频输入token降至每百万32美元，输出token每百万64美元，降幅达20%。

上一篇：通常情况下，如果蜡烛没有烛芯，还能持续燃烧吗蚂蚁庄园今日答案8月30日下一篇：企业数据基础设施展现韧性，Snowflake 32%的增长逆势科技行业放缓担忧

在拥挤的语音AI市场中，OpenAI凭借指令跟随和富有表现力的语音功能赢得企业青睐

语音到语音模型

强化指令跟随

Realtime API升级

相关文章

腾讯混元开源端到端 AI 模型 Hunyuan-Foley：视频 + 文字 =“电影级”音效

汽车 50 升油箱加出 67.96 升汽油，官方通报初步调查结果为重复计费

摩托罗拉 Moto G06 手机渲染图再曝：水滴屏 + 5000 万主摄 + 5100mAh 电池

限时补贴价 6.58 万元起，全新名爵 MG4 紧凑型车上市

540Hz 最快 QHD 分辨率 IPS，蚂蚁电竞发布 ANT275PQ MAX 显示器

《剑星》游戏 1.3.2 版本更新支持裸眼 3D，三星 Odyssey 3D 显示器独享

相关应用

可可语音

Task语音助手

最近更新