Google Research 在 Hugging Face 上正式發佈了 TabFM 1.0.0,一個專為結構化表格數據設計的零樣本基礎模型。該模型同時提供了基於 JAX/FlaxPyTorch 的權重版本,開發者可通過簡單的 Python 接口直接調用,無需進行任何特定於數據集的微調或超參數調優。

TabFM 的核心能力在於直接對包含數值列和類別列的混合表格數據進行分類和迴歸預測。在推理時,用戶只需將訓練樣本作為上下文傳入,模型即可在單次前向傳播中輸出對測試樣本的預測結果。分類任務支持二分類與多分類,但硬性上限為 10 個類別;迴歸任務則面向連續值目標。模型設計上兼容 pandas DataFramenumpy 數組,並可通過 JAX 利用 GPU 或 TPU 進行加速,推薦使用 bfloat16 精度以提升效率。

從架構上看,TabFM 採用了交替的行注意力與列注意力機制來捕捉特徵間的交互和樣本間的模式。其列注意力模塊基於 Set Transformer,通過傅里葉特徵和分組線性投影對每個單元格進行編碼,再利用誘導自注意力在行間聚合信息;行壓縮模塊則通過帶旋轉位置編碼的行注意力將每行總結為稠密向量;最後由一個包含 24 個因果 Transformer 塊的上下文學習轉換器對這些壓縮後的行向量進行處理,將訓練行視為上下文並生成預測。

值得關注的是,TabFM 完全基於合成數據訓練而成。Google Research 團隊利用結構因果模型動態生成了數億個合成數據集,以此規避真實工業數據常見的隱私和授權問題,並彌補高質量開源表格數據稀缺的短板。這種合成數據策略編碼了表格任務中典型的因果結構與特徵關係先驗,使模型在未見過的真實數據上仍能展現出強大的泛化能力。

在性能評估方面,TabFM 在 TabArena 基準測試的 51 個數據集(38 個分類任務,13 個迴歸任務)上進行了驗證。結果顯示,在完全零樣本、無超參數搜索的單次前向傳播設定下,TabFM 的表現已經超越了經過大量調優的傳統監督基線模型,包括梯度提升樹。此外,通過使用 `TabFMClassifier.ensemble()` 預設方案(結合特徵交叉、SVD 特徵和 NNLS 融合),模型性能還能獲得進一步提升。

在應用邊界上,Google 明確指出了該模型的若干限制:最大分類類別數不超過 10 類;內存佔用隨訓練行數線性增長;主要針對 500 個特徵以內的表格進行了優化,過寬的表可能導致性能下降;不保證在所有數據集上都能匹敵經過特定任務微調的專用模型。同時,該模型並非 Google 官方支持的產品。

許可方面,TabFM 的模型權重採用 TabFM Non-Commercial License v1.0 發佈,限制商業用途;而源代碼則以 Apache 2.0 協議在 google-research/tabfm 倉庫中開放。這種權重的非商用授權對於希望將其集成到商業產品中的企業用戶構成了明確限制,但開源代碼仍為研究社區和從業者提供了深入理解與二次開發的基礎。

對於 AI 產業而言,TabFM 的出現標誌著基礎模型正在從自然語言與視覺領域向更廣泛的企業數據場景延伸。表格數據是金融、醫療、零售、製造等行業中最為普遍的數據形式,零樣本能力的引入意味著企業可能不再需要為每個預測任務單獨訓練模型或進行復雜的特徵工程,這有望顯著降低 AI 應用落地的技術門檻與時間成本。