OpenAI正在為ChatGPT的語音能力醞釀一次結構性升級。據科技媒體Testing Catalog披露,一款名為GPT-Bidi-1(簡稱Bidi 1)的新一代雙向音頻模型近日已在部分用戶的ChatGPT網頁端和App界面中現身,預計最快本週啟動灰度推送。
所謂“Bidi”,是bidirectional(雙向)的縮寫,直指當前語音AI長期存在的核心侷限——對話必須嚴格輪流執行。在傳統語音助手中,用戶說話時AI只能等待,AI回應時用戶無法插話,整個過程更像排隊式問答。而Bidi 1試圖打破這一結構,讓AI在用戶說話的過程中持續理解語義,並在適當時機同步回應,使交互更接近人與人之間的自然交流狀態。
Testing Catalog的早期測試揭示了Bidi 1與當前高級語音模式之間的顯著差異。該模型被集成在設置中的模型選擇器裡,與標準語音和高級語音模式並列。在實際交互中,當用戶語速放慢或短暫停頓時,Bidi 1會以“嗯”“好的”等輕量化方式自然回應,而不是完全沉默等待。更關鍵的是,它允許用戶隨時打斷當前回答並切換任務——例如讓模型從1數到10之後中途要求倒數,它能夠立即調整並繼續執行,而不需要重新開始整個流程。
相比現有語音系統,Bidi 1在對話連續性上的改善也頗為明顯。過去的語音模式往往難以穩定維持長對話上下文,容易在多輪交流後丟失前文信息,而這一問題在新模型中得到了明顯緩解。同時,在用戶停頓時它也不會頻繁搶話,而是根據語境判斷是否介入,使整體對話節奏更貼近真實交流。
在創意能力方面,Bidi 1仍保留了類似唱歌、節奏口技等互動式表達能力,但在版權內容的處理上更加嚴格,會直接拒絕演唱熱門歌曲,不過仍可能嘗試以指定風格生成原創內容。此外,實時翻譯能力也被更自然地嵌入到語音對話之中。用戶不再需要單獨調用翻譯工具,在對話過程中就可以自動完成語言轉換。這一能力此前已通過API形式開放給開發者,而Bidi 1的實時翻譯直接面向消費者,使跨語言交流成為默認體驗之一。
從整個演進路徑來看,OpenAI正逐步將語音從一個功能模塊升級為一種默認交互入口。從首個原生多模態模型GPT-4o的低延遲語音對話,到Advanced Voice Mode的實時語音體驗,再到Realtime API向開發者開放語音能力,Bidi 1的意義在於它開始真正觸及語音交互的底層結構——對話不再是“問答輪次”,而是一個持續流動的交互過程。
據CNBC報道,OpenAI或將押注語音成為大多數人接觸AI的主要形式,而非文字。Testing Catalog評論稱,Bidi可能是OpenAI彌合文本模型與語音層之間差距的關鍵一步。此前的語音系統通常是“文本模型+語音外殼”的組合,而Bidi 1更接近於原生語音對話模型,它不再只是把文字轉為語音,而是在語音流中直接進行理解與生成。這說明“對話”本身正在成為ChatGPT的主要交流方式。
目前OpenAI尚未正式發佈該模型,但據媒體報道,Bidi 1預計將在本週啟動逐步灰度推送,並採取分階段開放策略,部分地區可能延後體驗。同時,Codex預計將在數週後獲得獨立的語音能力升級,而API層面的開放則可能會更晚一些。此次升級的關鍵不在於語音是否更自然,而在於對話結構本身是否發生變化。當AI能夠同時聽、說、被打斷,並持續維持語境時,人機交互的邏輯就不再是“問與答”,而更接近一種實時協作式的交流。