TableGPT2:结构化数据处理的革命性突破
引言:为什么我们需要TableGPT2?
现有大型语言模型(LLM)在处理结构化数据方面的局限性是什么?
当前,许多大型语言模型(LLM)的设计初衷是端到端运行,不整合外部数据。这意味着什么呢?举个例子,如果你想让LLM帮你选股票,但又不提供实时市场信息,它的建议就如同无源之水,无本之木。再比如,医疗AI应用需要病人的病历和各项指标数据才能做出准确判断,缺乏这些结构化信息,AI就成了“巧妇难为无米之炊”。
什么是结构化数据?为什么它如此重要?
不仅仅是医疗和金融领域,具身智能中灵巧手的触觉信号、多个传感器的各类“觉”也都是结构化信息。据估计,全球超过70%的数据都是以结构化的表格形式存储的,包括数据库和电子表格。这些数据蕴藏着巨大的价值,是商业智能等应用的基础。
现有LLM整合外部数据的方法有哪些?它们存在什么问题?
目前常见的整合思路包括:
- 工具调用(如NL2SQL):通过自然语言查询数据库等外部数据源。
- 长上下文和新架构:通过扩展上下文窗口或采用新架构来纳入外部数据源。
但这些方法要么难以用于复杂场景,要么效率低下,不实用。
TableGPT2:应运而生的解决方案
TableGPT2是什么?它与TableGPT有什么不同?
TableGPT2是TableGPT的新一代版本。TableGPT初版引入了结构化特定领域语言(DSL)和专用表格编码器,用于管理复杂的基于表格的查询。TableGPT2在此基础上实现了巨大改进,包括:
- 扩大了数据和训练协议的规模
- 重新设计了每个组件
- 引入了提升稳健性、扩大适用性和优化商业智能应用性能的技术
TableGPT2有哪些版本?它们是如何训练的?
TableGPT2有两种配置:7B和72B版本,均基于Qwen2.5系列模型。训练过程包括:
- 持续预训练(CPT):使用超过860亿token进行持续预训练,其中80%的数据是标注良好的代码,以确保TableGPT2具有稳健的编程能力。
- 编码器训练:使用超过43.75万个表格-语言交织的样本来训练编码器。
- 监督式微调(SFT):使用236万多个高质量“查询-表格-输出”元组进行监督式微调。
这种规模在相关研究中是前所未有的,足以保证TableGPT2满足涉及结构化或表格数据的现代应用的严格要求。
TableGPT2的核心创新点是什么?
- 表格数据编码器:全新设计的编码器,重点建模表格数据的结构和内容,捕获schema层面和单元格层面的信息。
- 多模态对齐:加入单独的模态模块,专门用于读取和解释表格数据,类似于视觉-语言模型(VLM)。
- 智能体框架:提供全面的智能体工作流程运行时间框架,将TableGPT2无缝集成到企业级数据分析工具中。
TableGPT2的炼成之路:详细步骤解析
持续预训练(CPT):如何提升编程和推理能力?
- 数据构成:80%的数据是标注良好的代码,其余是包含多种领域知识(如金融、制造业、生物技术、市场技术)的推理数据和一般教科书。
- 数据处理:采用两级过滤策略。
- 文档层面:使用54个不同的类别对数据进行标注。
- token层面:利用RHO-1微调对高质量token的选择。
- 新方法:引入将代码长度和上下文窗口设置纳入考虑的新方法。
- 最终数据:包含86B token的稳健强大的预训练数据。
监督式微调(SFT):如何解决商业智能任务的局限性?
- 数据集:包含范围广泛的近乎现实的关键场景,包括多轮对话、复杂推理、工具使用和针对具体业务的查询。
- 数据质量保证:
- 人工标注和专家驱动的自动化标注流程。
- 多步骤数据过滤流程:基于规则的过滤器、GPT-4o评分、人工检查、评估。
- 数据增强:
- 查询内引入字段时进行模糊化处理。
- 通过匿名化字段名和类别值来实现表格数据增强。
- 结合单轮和多轮问答任务。
- 使用变动的提示词格式和输出结构。
- 应用后处理增强。
语义表格编码器:如何理解表格数据?
- 输入:整张表格。
- 输出:为每一列生成一组紧凑的嵌入。
- 设计原则:
- 二维注意力机制(无位置嵌入)。
- 分层特征提取过程。
- 逐列式对比学习方法。
- Q-former式适应器:将列嵌入与文本嵌入对齐。
- 特殊token:
<TB>
和</TB>
,区分表格特征和原生文本。 - 联合指令微调:增强文本信息、列嵌入和schema元数据之间的对齐程度。
智能体框架:如何实现企业级应用?
包含三个核心组件:
- 运行时间的提示词工程:准备和处理输入查询。
- 安全的代码沙箱:安全执行生成的代码。
- 智能体评估模块:评估智能体的能力和可靠性。
工作流程:
- 通过提示词工程模块准备和处理输入查询。
- 基于外部知识库使用RAG模块。
- 将经过处理的输入送入主模型。
- TableGPT2与VLM合作生成工具调用、代码等相关动作。
- 根据需求选择是否迭代。
- 最终得到输出。
TableGPT2的效果评估:超越GPT-4o?
基准测试:使用了哪些数据集?
- 已有的表格理解和推理基准:涵盖27.7K个表格和88.9K个测试样本。
- 新构建的RealTabBench:包含360个复杂数据表格和6000个真实、复杂的查询语句。
基线模型:选择了哪些模型进行对比?
- 最先进的开源通用LLM:DeepSeek-Coder-V2-Lite-16B、YiCoder-9B-Chat、Qwen2.5-Coder-7B-Instruct、Qwen2.5-7B-Instruct。
- 针对表格相关任务进行微调或专门开发的模型:TableLLM、CodeLlama-13B。
评估指标:如何评估生成结果?
- 已有基准:表格理解、表格问答(TableQA)、表格事实验证、表格到文本生成(Table2Text)、自然语言到SQL(NL2SQL)。
- RealTabBench:一致性、信息完整性和安全性。
评估结果:TableGPT2的表现如何?
- 在几乎所有基准上,TableGPT2显著优于其他LLM方法。
- 在某些基准上,TableGPT2能够媲美甚至优于GPT-4o。
- 在涉及分层结构表格的复杂数据基准(如HiTab)上,TableGPT2实现了60%以上的绝对增长。
- 在RealTabBench数据集上,TableGPT2(7B)在多项任务上均达到了新SOTA。
未来改进方向:TableGPT2的下一步是什么?
针对特定领域进行编码
如何使LLM能够快速适应企业特定的DSL或伪代码?TableGPT2采用混合输出方法,结合使用了结构DSL输出和标准编程代码。
多智能体设计
单个端到端LLM能否独立解决复杂的真实任务?TableGPT2团队关注自动化智能体系统设计,采用多个LLM的有向无环图(DAG)结构。
充分利用表格的多功能性
如何处理不规则表格(如合并单元格、不一致的行列结构、非标准的数据格式)?TableGPT2团队为规范不规则表格微调了一个单独的LLM。
总结与展望
TableGPT2在结构化数据处理领域取得了显著进展,为LLM在商业智能等领域的应用开辟了新的可能性。然而,TableGPT2尚未完全解决在实际BI环境中部署LLM的挑战,仍有很大的改进空间。
我认为:世上本没有路,走的人多了,也便成了路。TableGPT2的出现,为结构化数据处理领域指明了一条新的道路。然而,这条道路还很崎岖,需要我们不断探索和完善。正如TableGPT2团队所指出的,未来的改进方向包括特定领域编码、多智能体设计和充分利用表格的多功能性。我相信,只要我们不断努力,TableGPT2的未来将更加光明。