xAI 近日為旗下 Grok 平臺推送了一項重要更新,發佈了名為“grok-imagine-video-1.5-preview”的圖像轉視頻模型。該模型允許用戶上傳一張靜態圖片,並配合文本描述,即可生成一段具有電影質感的動態視頻,分辨率最高支持 720p。更引人注目的是,系統具備將多個生成片段自動拼接為更長連續場景的能力,這為創作者提供了更靈活的敘事工具。

此次更新並非 xAI 在多媒體生成領域的首次嘗試。此前,Grok 已集成 Aurora 圖像生成模型,能夠根據文本創作和編輯圖片。而本次新增的視頻生成功能,則讓 Grok 在多模態內容創作上邁出了關鍵一步。據公開信息,該模型目前處於預覽階段,主要面向 X 平臺上的 Grok 用戶開放,具體訪問權限可能與訂閱層級相關。xAI 並未公佈該模型的技術架構細節或訓練數據來源,但強調其在生成連貫性和視覺質量上的提升。

從產業背景看,AI 視頻生成已成為大模型廠商爭奪的下一個高地。OpenAI 的 Sora、Runway 的 Gen 系列、以及國內的可靈等產品,都在推動文本或圖像到視頻的生成能力向更高分辨率、更長時長和更精細控制演進。xAI 此次以 720p 分辨率切入,雖未達到部分競品的 1080p 標準,但其與 X 平臺社交生態的深度綁定,可能形成差異化優勢。用戶可在社交場景中即時創作並分享視頻內容,降低了使用門檻。

在“五層蛋糕”框架下,這一動態直接作用於最頂層的應用環節,並反向拉動模型層的迭代需求。對於 AI 產業投資者而言,這反映出 xAI 正試圖通過多模態應用增強 Grok 的用戶粘性,從而在馬斯克的商業生態中佔據更核心的流量入口。視頻生成對算力的消耗遠高於文本和圖像,若該功能獲得廣泛採用,可能間接推動對底層基礎設施和芯片層的需求,但短期內其商業化路徑和成本控制仍是觀察重點。此外,xAI 在模型能力上能否持續縮小與 OpenAI 等對手的差距,將影響市場對其獨立融資及估值的預期。