Google Research 在 Hugging Face 上正式发布了 TabFM 1.0.0,一个专为结构化表格数据设计的零样本基础模型。该模型同时提供了基于 JAX/Flax 和 PyTorch 的权重版本,开发者可通过简单的 Python 接口直接调用,无需进行任何特定于数据集的微调或超参数调优。
TabFM 的核心能力在于直接对包含数值列和类别列的混合表格数据进行分类和回归预测。在推理时,用户只需将训练样本作为上下文传入,模型即可在单次前向传播中输出对测试样本的预测结果。分类任务支持二分类与多分类,但硬性上限为 10 个类别;回归任务则面向连续值目标。模型设计上兼容 pandas DataFrame 和 numpy 数组,并可通过 JAX 利用 GPU 或 TPU 进行加速,推荐使用 bfloat16 精度以提升效率。
从架构上看,TabFM 采用了交替的行注意力与列注意力机制来捕捉特征间的交互和样本间的模式。其列注意力模块基于 Set Transformer,通过傅里叶特征和分组线性投影对每个单元格进行编码,再利用诱导自注意力在行间聚合信息;行压缩模块则通过带旋转位置编码的行注意力将每行总结为稠密向量;最后由一个包含 24 个因果 Transformer 块的上下文学习转换器对这些压缩后的行向量进行处理,将训练行视为上下文并生成预测。
值得关注的是,TabFM 完全基于合成数据训练而成。Google Research 团队利用结构因果模型动态生成了数亿个合成数据集,以此规避真实工业数据常见的隐私和授权问题,并弥补高质量开源表格数据稀缺的短板。这种合成数据策略编码了表格任务中典型的因果结构与特征关系先验,使模型在未见过的真实数据上仍能展现出强大的泛化能力。
在性能评估方面,TabFM 在 TabArena 基准测试的 51 个数据集(38 个分类任务,13 个回归任务)上进行了验证。结果显示,在完全零样本、无超参数搜索的单次前向传播设定下,TabFM 的表现已经超越了经过大量调优的传统监督基线模型,包括梯度提升树。此外,通过使用 `TabFMClassifier.ensemble()` 预设方案(结合特征交叉、SVD 特征和 NNLS 融合),模型性能还能获得进一步提升。
在应用边界上,Google 明确指出了该模型的若干限制:最大分类类别数不超过 10 类;内存占用随训练行数线性增长;主要针对 500 个特征以内的表格进行了优化,过宽的表可能导致性能下降;不保证在所有数据集上都能匹敌经过特定任务微调的专用模型。同时,该模型并非 Google 官方支持的产品。
许可方面,TabFM 的模型权重采用 TabFM Non-Commercial License v1.0 发布,限制商业用途;而源代码则以 Apache 2.0 协议在 google-research/tabfm 仓库中开放。这种权重的非商用授权对于希望将其集成到商业产品中的企业用户构成了明确限制,但开源代码仍为研究社区和从业者提供了深入理解与二次开发的基础。
对于 AI 产业而言,TabFM 的出现标志着基础模型正在从自然语言与视觉领域向更广泛的企业数据场景延伸。表格数据是金融、医疗、零售、制造等行业中最为普遍的数据形式,零样本能力的引入意味着企业可能不再需要为每个预测任务单独训练模型或进行复杂的特征工程,这有望显著降低 AI 应用落地的技术门槛与时间成本。