ChatGPT語音模式將迎雙向交互升級，本週或灰度推送

OpenAI為ChatGPT推出雙向音頻模型Bidi 1，實現用戶說話時同步處理與自然回應。

OpenAI正在為ChatGPT的語音能力醞釀一次結構性升級。據科技媒體Testing Catalog披露，一款名為GPT-Bidi-1（簡稱Bidi 1）的新一代雙向音頻模型近日已在部分用戶的ChatGPT網頁端和App界面中現身，預計最快本週啟動灰度推送。

所謂“Bidi”，是bidirectional（雙向）的縮寫，直指當前語音AI長期存在的核心侷限——對話必須嚴格輪流執行。在傳統語音助手中，用戶說話時AI只能等待，AI回應時用戶無法插話，整個過程更像排隊式問答。而Bidi 1試圖打破這一結構，讓AI在用戶說話的過程中持續理解語義，並在適當時機同步回應，使交互更接近人與人之間的自然交流狀態。

Testing Catalog的早期測試揭示了Bidi 1與當前高級語音模式之間的顯著差異。該模型被集成在設置中的模型選擇器裡，與標準語音和高級語音模式並列。在實際交互中，當用戶語速放慢或短暫停頓時，Bidi 1會以“嗯”“好的”等輕量化方式自然回應，而不是完全沉默等待。更關鍵的是，它允許用戶隨時打斷當前回答並切換任務——例如讓模型從1數到10之後中途要求倒數，它能夠立即調整並繼續執行，而不需要重新開始整個流程。

相比現有語音系統，Bidi 1在對話連續性上的改善也頗為明顯。過去的語音模式往往難以穩定維持長對話上下文，容易在多輪交流後丟失前文信息，而這一問題在新模型中得到了明顯緩解。同時，在用戶停頓時它也不會頻繁搶話，而是根據語境判斷是否介入，使整體對話節奏更貼近真實交流。

在創意能力方面，Bidi 1仍保留了類似唱歌、節奏口技等互動式表達能力，但在版權內容的處理上更加嚴格，會直接拒絕演唱熱門歌曲，不過仍可能嘗試以指定風格生成原創內容。此外，實時翻譯能力也被更自然地嵌入到語音對話之中。用戶不再需要單獨調用翻譯工具，在對話過程中就可以自動完成語言轉換。這一能力此前已通過API形式開放給開發者，而Bidi 1的實時翻譯直接面向消費者，使跨語言交流成為默認體驗之一。

從整個演進路徑來看，OpenAI正逐步將語音從一個功能模塊升級為一種默認交互入口。從首個原生多模態模型GPT-4o的低延遲語音對話，到Advanced Voice Mode的實時語音體驗，再到Realtime API向開發者開放語音能力，Bidi 1的意義在於它開始真正觸及語音交互的底層結構——對話不再是“問答輪次”，而是一個持續流動的交互過程。

據CNBC報道，OpenAI或將押注語音成為大多數人接觸AI的主要形式，而非文字。Testing Catalog評論稱，Bidi可能是OpenAI彌合文本模型與語音層之間差距的關鍵一步。此前的語音系統通常是“文本模型+語音外殼”的組合，而Bidi 1更接近於原生語音對話模型，它不再只是把文字轉為語音，而是在語音流中直接進行理解與生成。這說明“對話”本身正在成為ChatGPT的主要交流方式。

目前OpenAI尚未正式發佈該模型，但據媒體報道，Bidi 1預計將在本週啟動逐步灰度推送，並採取分階段開放策略，部分地區可能延後體驗。同時，Codex預計將在數週後獲得獨立的語音能力升級，而API層面的開放則可能會更晚一些。此次升級的關鍵不在於語音是否更自然，而在於對話結構本身是否發生變化。當AI能夠同時聽、說、被打斷，並持續維持語境時，人機交互的邏輯就不再是“問與答”，而更接近一種實時協作式的交流。

ChatGPT語音模式將迎雙向交互升級，本週或灰度推送

延伸閱讀

相關深度報道

相關每日新聞