大语言模型新突破:清华LimiX-2M,结构化数据建模新标杆

AI前沿23小时前发布 yizz
1,722 0 0

为什么大语言模型在结构化数据上表现不佳?清华大学LimiX-2M的突破

引言:AI在结构化数据建模中的瓶颈

当人们惊叹于大语言模型(LLM)在代码编写、文本生成以及多模态推理等领域的突破时,却发现这些模型在结构化表格数据的处理上常常表现不尽如人意。现实世界中,电网调度、用户建模、通信日志等关键系统的数据都以表格形式存在。然而,无论是微调LLM,还是采用专门设计的深度学习架构,其性能在多数真实场景下都难以超越XGBoost、CatBoost等传统梯度提升方法。那么,为什么在非结构化数据上表现出色的现代深度学习,在结构化数据建模中会遇到瓶颈呢

LimiX-2M:清华大学的解决方案

清华大学崔鹏团队针对上述问题提出了他们的解决方案——LimiX。与其他模型只能进行单一任务不同,LimiX-2M在同时支持分类、回归、缺失值插补等任务的前提下,仅用2M的模型参数,超越了包括XGBoostCatBoost在内的经典模型,并在与AutoGluonTabPFN的对比中展现出显著优势。LimiX的开源标志着中国在表格建模领域的研究真正走到了世界前沿,在诸多性能测试上超越了Amazon AWS、Inria等顶尖机构!仅仅2M的模型体量使得快速微调和工程适配成为可能,为各领域的研究和工业应用提供了无限可能。LimiX-2M已上线始智AI-wisemodel开源社区,欢迎大家体验。

模型地址:https://www.wisemodel.cn/models/stable-ai/LimiX-2M

LimiX-2M有多强?性能评测结果

LimiX-2M究竟有多强?让我们来看看在权威评测基准上的表现:

11个权威评测基准上的平均性能

如图所示,在11个权威综合性能评测中,LimiX凭借强大的zero-shot能力强势领跑。其中,LimiX-16MLimiX-2M版本包揽分类任务冠亚军,超越业界标杆AutoGluon,并大幅领先其他基于上下文学习的基础模型与传统树模型。

BCCO和CTR23数据集上的分类和回归性能

上图展示了LimiX-2MBCCOCTR23上的测试结果:在分类任务中,LimiX-16MLimiX-2M包揽前二。在回归任务中,LimiX-16M依旧稳居榜首,LimiX-2M紧随其后,力压众多模型,位列第三。值得注意的是,所有这些成绩均在无任何任务特定微调的前提下达成!

微调后的性能提升

除了“开箱即用”模式外,LimiX还可以通过微调进一步提高模型表现。例如,将LimiX-2M和最新的PFN-V2.5analcatdata_apnea2数据集上进行微调,微调后,模型的AUC相较于微调之前提升11.4%,同时所需时间仅相当于PFN-V2.560%

此外,虽然该对比实验在H20上完成,但LimiX-2M可以在消费级显卡RTX4090上进行微调,而PFN-V2.5需要更大显存的显卡,这使得LimiX作为基础模型更具科研友好性。

LimiX-2M的优势:让科研回归创造

LimiX-2M作为一个高效、灵活、可靠的算法架构,让研究人员可以专注于科学问题本身,不再受困于算力与工程难题。其轻量、易用、可落地的特点,降低了使用门槛,加速了想法的验证与共享。具体优势包括:

  • 开箱即用,告别适配:基于上下文学习,无需训练或调参,自动完成数据预处理。
  • 一模多能,科研的“瑞士军刀”:单模型通吃分类、回归、插补等多任务,跨学科研究无缝切换。
  • 小样本友好,挖掘珍贵数据价值:在医学、生物等小样本场景下高效泛化。
  • 可解释可追溯,打开模型“黑盒”:通过检索机制揭示预测依据,提升透明度。
  • 低算力运行,资源友好的科研工具:轻量设计支持普通电脑流畅运行。
  • 本地可部署,隐私与合规双保险:完全离线运行,保障敏感数据安全。

LimiX模型是如何炼成的?

LimiX的模型结构

LimiX的设计基于Transformer架构,并针对结构化数据建模进行了优化。模型首先对特征与目标分别进行embedding,在主模块中通过样本维度与特征维度的双重注意力机制,聚焦关键样本与关键特征。提取的高维表示随后分别输入回归头和分类头,从而同时支持回归与分类任务。

LimiX的训练数据

LimiX在预训练中完全依赖生成数据,而非真实世界数据。为确保生成过程的高效与可控,模型采用基于结构因果图(SCG)的数据生成方式。初始样本在有向无环图上传播,通过边映射与节点交互模拟真实因果依赖关系,再从因果图中采样得到训练数据。该方法既保证了数据的因果多样性,又提升了可控性与泛化能力。

掩码重构机制

LimiX对数据的联合分布进行建模,以提高模型的通用性、增强对特征交互模式的建模能力。具体地,LimiX模型在模型优化目标设计中加入了掩码重构机制:在训练过程中,通过对数据进行随机掩码操作,模型将根据特征间的因果依赖关系,使用观测到的数据来重构缺失数据。

LimiX-2M的核心更新:RBF嵌入层(RaBEL

LimiX-2M仅有1.94M参数量,是LimiX-16M的八分之一,却在多个数据集基准上取得强劲、接近LimiX-16M的性能表现。它的核心革新不是 “剪枝” 或 “蒸馏”,而是一次从嵌入层重新出发的结构性更新:引入RBF(Radial Basis Function)数值嵌入机制,即RaBEL

瓶颈诊断:线性嵌入的“低秩塌陷”

TabPFN-v2LimiX-16M 乃至早期 FT-TransformerTabTransformer 等架构中,数值输入通常采用 “线性映射 + 列 ID” 方案。这种设计虽然简单高效,但存在一个系统性的问题 —— 我们称之为 “低秩塌陷”。具体来说就是:

  • 模型浅层激活高度相关,特征矩阵在奇异值分解后仅保留个位数有效秩。
  • 网络早期几乎处于 “线性近似” 状态,很难分辨出数据中更复杂的局部变化、分段趋势或者特殊分布。
  • 梯度利用率极低,使得后续层在优化中浪费大量表达能力。

研究表明,基于RBF嵌入的LimiX-2M有效秩很高,而TabPFN-v2在前几层的秩明显偏低,这说明在模型规模相当的情况下,RBF嵌入能够为网络提供更丰富、更多样的表示基础。

RaBEL:用“局部感知”取代“线性投影”

为了解决嵌入矩阵秩受限的问题,研究团队引入了RaBEL(Radial Basis Embedding Layer),其核心思想是:在嵌入阶段就引入非线性表达能力,而非依赖后续层 “补救”。

RBF(Radial Basis Function,径向基函数)是一种经典的局部核函数。通俗易懂地说,RBF就像一个 “感应器” 或 “测量点”,它只对周围特定区域内的东西有反应,离得越近,反应越强烈。它的核心价值在于局部感知和非线性转换。

由于每个RBF只关心自己那一亩三分地,模型通过组合这些局部信息,可以非常灵活地拟合出任何弯曲、复杂的数据规律(比如波浪形的曲线),而不用像线性模型那样只能画出一条死板的直线。

具体地,对于单个数值,RaBEL 将其映射为一组局部响应:其中为每列自适应的中心与带宽。这一步相当于在数轴上布置多个 “感受野”,让模型在不同取值区间形成独立激活。

随后,通过一个共享线性层将这些局部特征投影到模型维度 d,结果是非线性特征在嵌入阶段提前形成,浅层即可识别非平滑关系,从根本上解决低秩问题。

结语

轻量化、开箱即用的LimiX-2M,在科研探索和实际落地场景均有巨大潜力。它保持前代 LimiX-16M 支持分类、回归、缺失值插补等多样化能力,性能远超现有其它表格模型,同时大幅度降低了显存占用和时间消耗。LimiX-2M支持快速高效微调和适配,成本远低于现有模型,科研友好,并且可以轻松部署到端侧设备,具有巨大应用价值。

我认为:LimiX-2M的出现,就像是表格数据建模领域里的一把锋利的刻刀,它不仅打破了深度学习在结构化数据处理上的瓶颈,更以其轻量化的设计理念,为科研和工业应用带来了无限的可能。在AI技术日新月异的今天,我们更应该关注这些真正解决实际问题,降低使用门槛,让技术惠及更多人的创新成果。这才是真正的“屠龙术”,是推动AI发展的中坚力量。

#RBF嵌入

© 版权声明

相关文章