大语言模型新突破：清华LimiX-2M，结构化数据建模新标杆

为什么大语言模型在结构化数据上表现不佳？清华大学 LimiX-2M的突破

引言：AI在结构化数据建模中的瓶颈

当人们惊叹于大语言模型（LLM）在代码编写、文本生成以及多模态推理等领域的突破时，却发现这些模型在结构化表格数据的处理上常常表现不尽如人意。现实世界中，电网调度、用户建模、通信日志等关键系统的数据都以表格形式存在。然而，无论是微调LLM，还是采用专门设计的深度学习架构，其性能在多数真实场景下都难以超越XGBoost、CatBoost等传统梯度提升方法。那么，为什么在非结构化数据上表现出色的现代深度学习，在结构化数据建模中会遇到瓶颈呢？

LimiX-2M：清华大学的解决方案

清华大学崔鹏团队针对上述问题提出了他们的解决方案——LimiX。与其他模型只能进行单一任务不同，LimiX-2M在同时支持分类、回归、缺失值插补等任务的前提下，仅用2M的模型参数，超越了包括XGBoost、CatBoost在内的经典模型，并在与AutoGluon和TabPFN的对比中展现出显著优势。LimiX的开源标志着中国在表格建模领域的研究真正走到了世界前沿，在诸多性能测试上超越了Amazon AWS、Inria等顶尖机构！仅仅2M的模型体量使得快速微调和工程适配成为可能，为各领域的研究和工业应用提供了无限可能。LimiX-2M已上线始智AI-wisemodel 开源社区，欢迎大家体验。

模型地址：https://www.wisemodel.cn/models/stable-ai/LimiX-2M

LimiX-2M有多强？性能评测结果

LimiX-2M究竟有多强？让我们来看看在权威评测基准上的表现：

11个权威评测基准上的平均性能

如图所示，在11个权威综合性能评测中，LimiX凭借强大的zero-shot能力强势领跑。其中，LimiX-16M与LimiX-2M版本包揽分类任务冠亚军，超越业界标杆AutoGluon，并大幅领先其他基于上下文学习的基础模型与传统树模型。

BCCO和CTR23数据集上的分类和回归性能

上图展示了LimiX-2M在BCCO和CTR23上的测试结果：在分类任务中，LimiX-16M和LimiX-2M包揽前二。在回归任务中，LimiX-16M依旧稳居榜首，LimiX-2M紧随其后，力压众多模型，位列第三。值得注意的是，所有这些成绩均在无任何任务特定微调的前提下达成！

微调后的性能提升

除了“开箱即用”模式外，LimiX还可以通过微调进一步提高模型表现。例如，将LimiX-2M和最新的PFN-V2.5在analcatdata_apnea2数据集上进行微调，微调后，模型的AUC相较于微调之前提升11.4%，同时所需时间仅相当于PFN-V2.5的60%。

此外，虽然该对比实验在H20上完成，但LimiX-2M可以在消费级显卡RTX4090上进行微调，而PFN-V2.5需要更大显存的显卡，这使得LimiX作为基础模型更具科研友好性。

LimiX-2M的优势：让科研回归创造

LimiX-2M作为一个高效、灵活、可靠的算法架构，让研究人员可以专注于科学问题本身，不再受困于算力与工程难题。其轻量、易用、可落地的特点，降低了使用门槛，加速了想法的验证与共享。具体优势包括：

开箱即用，告别适配：基于上下文学习，无需训练或调参，自动完成数据预处理。
一模多能，科研的“瑞士军刀”：单模型通吃分类、回归、插补等多任务，跨学科研究无缝切换。
小样本友好，挖掘珍贵数据价值：在医学、生物等小样本场景下高效泛化。
可解释可追溯，打开模型“黑盒”：通过检索机制揭示预测依据，提升透明度。
低算力运行，资源友好的科研工具：轻量设计支持普通电脑流畅运行。
本地可部署，隐私与合规双保险：完全离线运行，保障敏感数据安全。

LimiX模型是如何炼成的？

LimiX的模型结构

LimiX的设计基于Transformer架构，并针对结构化数据建模进行了优化。模型首先对特征与目标分别进行embedding，在主模块中通过样本维度与特征维度的双重注意力机制，聚焦关键样本与关键特征。提取的高维表示随后分别输入回归头和分类头，从而同时支持回归与分类任务。

LimiX的训练数据

LimiX在预训练中完全依赖生成数据，而非真实世界数据。为确保生成过程的高效与可控，模型采用基于结构因果图（SCG）的数据生成方式。初始样本在有向无环图上传播，通过边映射与节点交互模拟真实因果依赖关系，再从因果图中采样得到训练数据。该方法既保证了数据的因果多样性，又提升了可控性与泛化能力。

掩码重构机制

LimiX对数据的联合分布进行建模，以提高模型的通用性、增强对特征交互模式的建模能力。具体地，LimiX模型在模型优化目标设计中加入了掩码重构机制：在训练过程中，通过对数据进行随机掩码操作，模型将根据特征间的因果依赖关系，使用观测到的数据来重构缺失数据。

LimiX-2M的核心更新：RBF嵌入层（RaBEL）

LimiX-2M仅有1.94M参数量，是LimiX-16M的八分之一，却在多个数据集基准上取得强劲、接近LimiX-16M的性能表现。它的核心革新不是 “剪枝” 或 “蒸馏”，而是一次从嵌入层重新出发的结构性更新：引入RBF（Radial Basis Function）数值嵌入机制，即RaBEL。

瓶颈诊断：线性嵌入的“低秩塌陷”

在TabPFN-v2、LimiX-16M 乃至早期 FT-Transformer、TabTransformer 等架构中，数值输入通常采用 “线性映射 + 列 ID” 方案。这种设计虽然简单高效，但存在一个系统性的问题 —— 我们称之为 “低秩塌陷”。具体来说就是：

模型浅层激活高度相关，特征矩阵在奇异值分解后仅保留个位数有效秩。
网络早期几乎处于 “线性近似” 状态，很难分辨出数据中更复杂的局部变化、分段趋势或者特殊分布。
梯度利用率极低，使得后续层在优化中浪费大量表达能力。

研究表明，基于RBF嵌入的LimiX-2M有效秩很高，而TabPFN-v2在前几层的秩明显偏低，这说明在模型规模相当的情况下，RBF嵌入能够为网络提供更丰富、更多样的表示基础。

RaBEL：用“局部感知”取代“线性投影”

为了解决嵌入矩阵秩受限的问题，研究团队引入了RaBEL（Radial Basis Embedding Layer），其核心思想是：在嵌入阶段就引入非线性表达能力，而非依赖后续层 “补救”。

RBF（Radial Basis Function，径向基函数）是一种经典的局部核函数。通俗易懂地说，RBF就像一个 “感应器” 或 “测量点”，它只对周围特定区域内的东西有反应，离得越近，反应越强烈。它的核心价值在于局部感知和非线性转换。

由于每个RBF只关心自己那一亩三分地，模型通过组合这些局部信息，可以非常灵活地拟合出任何弯曲、复杂的数据规律（比如波浪形的曲线），而不用像线性模型那样只能画出一条死板的直线。

具体地，对于单个数值，RaBEL 将其映射为一组局部响应：其中为每列自适应的中心与带宽。这一步相当于在数轴上布置多个 “感受野”，让模型在不同取值区间形成独立激活。

随后，通过一个共享线性层将这些局部特征投影到模型维度 d，结果是非线性特征在嵌入阶段提前形成，浅层即可识别非平滑关系，从根本上解决低秩问题。

结语

轻量化、开箱即用的LimiX-2M，在科研探索和实际落地场景均有巨大潜力。它保持前代 LimiX-16M 支持分类、回归、缺失值插补等多样化能力，性能远超现有其它表格模型，同时大幅度降低了显存占用和时间消耗。LimiX-2M支持快速高效微调和适配，成本远低于现有模型，科研友好，并且可以轻松部署到端侧设备，具有巨大应用价值。

我认为：LimiX-2M的出现，就像是表格数据建模领域里的一把锋利的刻刀，它不仅打破了深度学习在结构化数据处理上的瓶颈，更以其轻量化的设计理念，为科研和工业应用带来了无限的可能。在AI技术日新月异的今天，我们更应该关注这些真正解决实际问题，降低使用门槛，让技术惠及更多人的创新成果。这才是真正的“屠龙术”，是推动AI发展的中坚力量。

#RBF嵌入

文章版权归作者所有，未经允许请勿转载。

“二次元”风格是什么意思？

AI前沿

2年前

62,4930

人工智能对工作岗位的影响：一个人使用ChatGPT 取代了60名员工！

AI前沿 # AI # 人工智能 # 工作市场

2年前

20,5830

苹果公司因iPhone销量下滑，为适应中国市场和监管要求，启动“中国特供AI”计划

AI前沿 # AI # deepseek # 中国市场

11个月前

17,5450

字节跳动TRAESOLO全面开放：从零到一，AI编程智能体将如何颠覆你的开发流程？

AI前沿 # AIagent # AI开发工具 # AI编程

2个月前

7,3680

大语言模型新突破：清华LimiX-2M，结构化数据建模新标杆

为什么大语言模型在结构化数据上表现不佳？清华大学 LimiX-2M的突破

引言：AI在结构化数据建模中的瓶颈

LimiX-2M：清华大学的解决方案