您的位置: 首页> 新闻资讯> 在拥挤的语音AI市场中,OpenAI凭借指令跟随和富有表现力的语音功能赢得企业青睐

在拥挤的语音AI市场中,OpenAI凭借指令跟随和富有表现力的语音功能赢得企业青睐

时间:2025-08-29 13:30:02 来源:互联网

OpenAI凭借其新型号gpt-realtime进军竞争日益激烈的企业级AI语音市场,该模型不仅能遵循复杂指令,还拥有"更自然、更具表现力"的声线。

随着语音AI应用场景持续扩展(如客服通话、实时翻译等),兼具拟真音质与企业级安全性的AI语音市场正快速升温。尽管OpenAI宣称新模型实现了更接近人类的语音表现,仍需直面ElevenLabs等竞争对手的挑战。

该模型将通过同步开放的Realtime API提供服务。除gpt-realtime外,OpenAI还新增了Cedar和Marin两种API语音,并对现有音色进行了适配最新模型的升级。

OpenAI在直播中透露,他们与构建语音应用的客户共同训练gpt-realtime,并"基于客服支持、学术辅导等真实场景的评估标准对模型进行了精细调校"。

公司特别强调了该模型在生成富有情感的自然语音方面的能力,同时确保其与开发者技术架构的兼容性。

语音到语音模型

该模型采用语音到语音架构,可理解语音指令并作出语音响应。这种架构特别适合需要实时交互的场景,例如客户与应用程序的对话。

典型案例包括:客户致电客服平台处理退货时,AI语音助手能像真人般响应咨询请求。T-Mobile在直播中展示了帮助用户选购手机的AI语音助手,房产平台Zillow则演示了协助缩小房源搜索范围的AI中介。

OpenAI称gpt-realtime是其"最先进、可直接投入生产的语音模型"。与其他语音模型相同,它支持句中切换语言,但研究人员指出其独特优势在于能执行"用法国口音强调性说话"等复杂指令。

然而gpt-realtime面临已获品牌商采用的竞品压力:ElevenLabs五月发布Conversation AI 2.0;Soundhound与快餐连锁合作AI语音点餐系统;初创公司Hume推出支持克隆用户声线的EVI 3模型。甚至多模态LLM提供商也在布局语音领域——Mistral发布实时翻译优化的Voxtral模型,Google则通过NotebookLM的播客转换功能强化音频竞争力。

强化指令跟随

OpenAI表示gpt-realtime在理解原生音频方面更智能,包括捕捉笑声、叹息等非语言信号。Big Bench Audio基准测试显示其准确率达82.8%,较前代65.6%显著提升(但未提供横向对比数据)。

在MultiChallenge音频基准中,新模型以30.5%的分数证明了其指令遵循能力的提升。工程师还强化了函数调用功能,确保模型能准确调用工具链。

Realtime API升级

为支持新模型并优化企业集成方案,Realtime API新增多项功能:支持MCP协议、图像输入实时解析(类似Google Project Astra的核心功能)、会话初始协议(SIP)适配(拓展呼叫中心应用场景),以及提示词保存复用功能。

尽管目前仅处于初期测试阶段,该模型已收获积极反馈。OpenAI同时宣布价格调整:音频输入token降至每百万32美元,输出token每百万64美元,降幅达20%。

上一篇:通常情况下,如果蜡烛没有烛芯,还能持续燃烧吗 蚂蚁庄园今日答案8月30日 下一篇:企业数据基础设施展现韧性,Snowflake 32%的增长逆势科技行业放缓担忧

相关文章

相关应用

最近更新