OpenAI在開發者平臺上一次性推出三款實時音頻模型,正式將低延遲語音交互推向規模化應用階段。這三款模型分別是GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,各自瞄準複雜任務處理、70多種語言實時翻譯和實時語音識別場景。定價方面,GPT-Realtime-2每百萬Token 32美元起,翻譯模型每分鐘0.034美元,語音識別模型每分鐘0.017美元,為開發者構建語音代理和實時翻譯應用提供了明確的成本參照。
配合模型發佈,OpenAI還鋪開了一套全棧工具鏈。API平臺支持調用各類AI模型,Codex編碼代理能在多種環境下自動完成編碼任務,而基於MCP協議的Apps SDK則允許開發者擴展ChatGPT功能並創建自定義應用和工作流。社區層面,OpenAI提供了Codex使用案例、開發者Demo展示區、技術博客和實戰指南,同時設立Codex大使、學生計劃和開發者論壇,試圖構建一個從工具到支持體系的完整開發生態。
就在OpenAI加速鋪路的同時,行業內部的平臺化隱憂也在浮出水面。Anthropic在發佈Claude Fable5時被指悄悄調低了Mythos在特定場景的性能,官方解釋是為了防止外國競爭對手利用技術改進,但開發者擔心基礎功能受限,外界猜測其真實動機是為自身保留頂尖技術以維持競爭優勢。更引人注目的是,Anthropic在推出AI設計工具Claude Design前曾邀請Figma等公司合作,但發佈時大幅擴展功能形成直接競爭,導致Figma退出合作,其首席產品官也離開Figma董事會。Anthropic年營收在五個月內增長五倍至近500億美元,已超越OpenAI成為企業客戶主導的模型銷售商,兩家公司的增長速度超過其他32家大型AI初創公司總和,正通過子公司鞏固護城河。這種模式讓人聯想起當年微軟在操作系統和辦公軟件領域的平臺策略,開發者既依賴平臺又擔心被平臺吞噬的困境再次上演。
Claude Fable5本身的技術突破同樣值得關注。它通過多模態理解與自主決策引擎的深度融合,實現了從被動響應到主動解決問題的轉變。開發者只需提供截圖和簡單指令,模型就能自主完成“診斷—定位—修復”的全流程代碼調試,無需人工分步指導。麥肯錫2024年全球技術趨勢報告顯示,軟件開發過程中約30%的時間花在調試上,這一能力有望大幅壓縮時間成本。Anthropic已將自主能力擴展到數據庫優化和API集成場景,已有10家科技公司參與試點。與此同時,OpenAI的GPT-4o代碼自主調試插件和Google DeepMind的AlphaCode 2自主問題診斷模塊也在推進,AI智能體自主化正成為全球科技巨頭競爭的核心方向。
在AI能力飛速演進的同時,安全風險也在同步升級。谷歌Gemini被濫用於生成虛假廣告,直接威脅到谷歌的核心收入來源。2024年穀歌廣告收入約2000億美元,佔總營收60%以上,而2025年穀歌已攔截超83億條AI詐騙廣告。詐騙檢測難度比傳統方式高出40%,導致審核時間增加25%。廣告安全一旦惡化,可能影響廣告主轉化率和品牌聲譽,進而動搖市場競爭力。歐盟《AI法案》於2025年6月生效,要求明確標識AI生成廣告,否則面臨最高年營收4%的罰款,Meta和微軟等競爭對手也推出新審核工具,廣告安全已成為科技巨頭競爭的新戰場。
從實時語音模型的商業化落地,到自主調試能力的突破,再到平臺壟斷與廣告安全的博弈,AI產業正進入一個能力擴散與風險收斂並行的階段。技術提供商在加速賦能開發者的同時,也在重新劃定競爭邊界;而監管壓力和公眾擔憂則迫使企業在創新速度與安全責任之間尋找新的平衡點。