開源語音模型實現0.4秒級流式對話決策

新開源語音模型可連續監聽，每0.4秒決定是否說話，支援翻譯、轉錄和聊天。

語音 AI 的互動節奏正在被重新定義。一款名為 Audio Interaction 的全新開源語音模型正式亮相，其核心突破在於實現了真正的流式、持續性對話決策能力。與當前主流的 GPT-4o 或 Qwen3.5-Omni 等模型不同，它不再遵循“錄音-處理-響應”的回合制模式，而是像一個始終在傾聽的人類一樣，不間斷地處理傳入的音訊流。

根據釋出在 The Decoder 上的技術報道，該模型每 0.4 秒 就會做出一次關鍵決策：是開口說話，還是繼續保持沉默。這種設計使其能夠無縫地在翻譯、即時轉錄和自然聊天等多種任務間切換，無需使用者手動指定模式。更引人注目的是，它還能識別併合理處理日常環境中的非語言聲音，例如一聲咳嗽或背景中的關門聲，而不是將其誤判為需要回應的語音指令。

從產業位置來看，這一模型直接作用於 模型層，但其設計理念對 應用層 的潛在衝擊更為深遠。傳統的語音助手，無論是手機裡的 Siri 還是智慧音箱，都高度依賴雲端強大的算力進行“先聽後想”。Audio Interaction 的流式決策機制，使得更復雜的端側即時互動成為可能。它意味著未來的 AI 硬體或應用，可以更少地依賴網路往返帶來的延遲，在本地就能實現更自然、更像人的對話體驗。這對於正在探索 AI 眼鏡、耳機等可穿戴裝置的廠商而言，提供了一個極具吸引力的技術基座。

該模型以極其開放的姿態進入生態。其模型權重、完整程式碼和詳細的下載使用指南，已全部託管在 GitHub 上，並採用了商業友好的 Apache 2.0 開源協議。這為開發者和企業進行二次開發、定製化微調乃至商業化部署掃清了法律障礙。唯一暫時保留的是訓練資料，專案方表示將在後續公佈。這種“先放模型和資料，再公開訓練集”的策略，在開源社群並不罕見，它既能迅速吸引開發者試用和貢獻，也為團隊後續釋出技術論文或進行資料合規審查留出了時間視窗。

站在 AI 產業投資者的角度，這一事件雖非來自某個科技巨頭，卻精準地指向了行業競爭的下一個焦點：全雙工語音互動。當大語言模型的文本能力逐漸趨同，更自然、更低延遲、更能理解語境的語音互動，正成為模型能力差異化和應用落地體驗的關鍵戰場。Audio Interaction 的出現，證明了在開源社群，通過精巧的架構設計，而非單純依賴更大的引數規模，同樣能在特定能力上取得顯著突破。這可能會加速推動語音互動從“工具屬性”向“夥伴屬性”的演進，並催生對低功耗、高能效推理晶片的新需求，從而向上遊的 晶片層 和 基礎設施層 傳匯出新的算力需求形態。

開源語音模型實現0.4秒級流式對話決策

延伸閱讀

相關深度報道

相關每日新聞