ChatGPT语音模式将迎双向交互升级，本周或灰度推送

OpenAI为ChatGPT推出双向音频模型Bidi 1，实现用户说话时同步处理与自然回应。

OpenAI正在为ChatGPT的语音能力酝酿一次结构性升级。据科技媒体Testing Catalog披露，一款名为GPT-Bidi-1（简称Bidi 1）的新一代双向音频模型近日已在部分用户的ChatGPT网页端和App界面中现身，预计最快本周启动灰度推送。

所谓“Bidi”，是bidirectional（双向）的缩写，直指当前语音AI长期存在的核心局限——对话必须严格轮流执行。在传统语音助手中，用户说话时AI只能等待，AI回应时用户无法插话，整个过程更像排队式问答。而Bidi 1试图打破这一结构，让AI在用户说话的过程中持续理解语义，并在适当时机同步回应，使交互更接近人与人之间的自然交流状态。

Testing Catalog的早期测试揭示了Bidi 1与当前高级语音模式之间的显著差异。该模型被集成在设置中的模型选择器里，与标准语音和高级语音模式并列。在实际交互中，当用户语速放慢或短暂停顿时，Bidi 1会以“嗯”“好的”等轻量化方式自然回应，而不是完全沉默等待。更关键的是，它允许用户随时打断当前回答并切换任务——例如让模型从1数到10之后中途要求倒数，它能够立即调整并继续执行，而不需要重新开始整个流程。

相比现有语音系统，Bidi 1在对话连续性上的改善也颇为明显。过去的语音模式往往难以稳定维持长对话上下文，容易在多轮交流后丢失前文信息，而这一问题在新模型中得到了明显缓解。同时，在用户停顿时它也不会频繁抢话，而是根据语境判断是否介入，使整体对话节奏更贴近真实交流。

在创意能力方面，Bidi 1仍保留了类似唱歌、节奏口技等互动式表达能力，但在版权内容的处理上更加严格，会直接拒绝演唱热门歌曲，不过仍可能尝试以指定风格生成原创内容。此外，实时翻译能力也被更自然地嵌入到语音对话之中。用户不再需要单独调用翻译工具，在对话过程中就可以自动完成语言转换。这一能力此前已通过API形式开放给开发者，而Bidi 1的实时翻译直接面向消费者，使跨语言交流成为默认体验之一。

从整个演进路径来看，OpenAI正逐步将语音从一个功能模块升级为一种默认交互入口。从首个原生多模态模型GPT-4o的低延迟语音对话，到Advanced Voice Mode的实时语音体验，再到Realtime API向开发者开放语音能力，Bidi 1的意义在于它开始真正触及语音交互的底层结构——对话不再是“问答轮次”，而是一个持续流动的交互过程。

据CNBC报道，OpenAI或将押注语音成为大多数人接触AI的主要形式，而非文字。Testing Catalog评论称，Bidi可能是OpenAI弥合文本模型与语音层之间差距的关键一步。此前的语音系统通常是“文本模型+语音外壳”的组合，而Bidi 1更接近于原生语音对话模型，它不再只是把文字转为语音，而是在语音流中直接进行理解与生成。这说明“对话”本身正在成为ChatGPT的主要交流方式。

目前OpenAI尚未正式发布该模型，但据媒体报道，Bidi 1预计将在本周启动逐步灰度推送，并采取分阶段开放策略，部分地区可能延后体验。同时，Codex预计将在数周后获得独立的语音能力升级，而API层面的开放则可能会更晚一些。此次升级的关键不在于语音是否更自然，而在于对话结构本身是否发生变化。当AI能够同时听、说、被打断，并持续维持语境时，人机交互的逻辑就不再是“问与答”，而更接近一种实时协作式的交流。

ChatGPT语音模式将迎双向交互升级，本周或灰度推送

延伸阅读

相关深度报道

相关每日新闻