横扫结构化数据处理难题，AI模型再进化！

TableGPT2：结构化数据处理的革命性突破

引言：为什么我们需要TableGPT2？

现有大型语言模型（LLM）在处理结构化数据方面的局限性是什么？

当前，许多大型语言模型（LLM）的设计初衷是端到端运行，不整合外部数据。这意味着什么呢？举个例子，如果你想让LLM帮你选股票，但又不提供实时市场信息，它的建议就如同无源之水，无本之木。再比如，医疗AI应用需要病人的病历和各项指标数据才能做出准确判断，缺乏这些结构化信息，AI就成了“巧妇难为无米之炊”。

什么是结构化数据？为什么它如此重要？

不仅仅是医疗和金融领域，具身智能中灵巧手的触觉信号、多个传感器的各类“觉”也都是结构化信息。据估计，全球超过70%的数据都是以结构化的表格形式存储的，包括数据库和电子表格。这些数据蕴藏着巨大的价值，是商业智能等应用的基础。

现有LLM整合外部数据的方法有哪些？它们存在什么问题？

目前常见的整合思路包括：

工具调用（如NL2SQL）：通过自然语言查询数据库等外部数据源。
长上下文和新架构：通过扩展上下文窗口或采用新架构来纳入外部数据源。

但这些方法要么难以用于复杂场景，要么效率低下，不实用。

TableGPT2：应运而生的解决方案

TableGPT2是什么？它与TableGPT有什么不同？

TableGPT2是TableGPT的新一代版本。TableGPT初版引入了结构化特定领域语言（DSL）和专用表格编码器，用于管理复杂的基于表格的查询。TableGPT2在此基础上实现了巨大改进，包括：

扩大了数据和训练协议的规模
重新设计了每个组件
引入了提升稳健性、扩大适用性和优化商业智能应用性能的技术

TableGPT2有哪些版本？它们是如何训练的？

TableGPT2有两种配置：7B和72B版本，均基于Qwen2.5系列模型。训练过程包括：

持续预训练（CPT）：使用超过860亿token进行持续预训练，其中80%的数据是标注良好的代码，以确保TableGPT2具有稳健的编程能力。
编码器训练：使用超过43.75万个表格-语言交织的样本来训练编码器。
监督式微调（SFT）：使用236万多个高质量“查询-表格-输出”元组进行监督式微调。

这种规模在相关研究中是前所未有的，足以保证TableGPT2满足涉及结构化或表格数据的现代应用的严格要求。

TableGPT2的核心创新点是什么？

表格数据编码器：全新设计的编码器，重点建模表格数据的结构和内容，捕获schema层面和单元格层面的信息。
多模态对齐：加入单独的模态模块，专门用于读取和解释表格数据，类似于视觉-语言模型（VLM）。
智能体框架：提供全面的智能体工作流程运行时间框架，将TableGPT2无缝集成到企业级数据分析工具中。

TableGPT2的炼成之路：详细步骤解析

持续预训练（CPT）：如何提升编程和推理能力？

数据构成：80%的数据是标注良好的代码，其余是包含多种领域知识（如金融、制造业、生物技术、市场技术）的推理数据和一般教科书。
数据处理：采用两级过滤策略。
- 文档层面：使用54个不同的类别对数据进行标注。
- token层面：利用RHO-1微调对高质量token的选择。
新方法：引入将代码长度和上下文窗口设置纳入考虑的新方法。
最终数据：包含86B token的稳健强大的预训练数据。

监督式微调（SFT）：如何解决商业智能任务的局限性？

数据集：包含范围广泛的近乎现实的关键场景，包括多轮对话、复杂推理、工具使用和针对具体业务的查询。
数据质量保证：
- 人工标注和专家驱动的自动化标注流程。
- 多步骤数据过滤流程：基于规则的过滤器、GPT-4o评分、人工检查、评估。
数据增强：
- 查询内引入字段时进行模糊化处理。
- 通过匿名化字段名和类别值来实现表格数据增强。
- 结合单轮和多轮问答任务。
- 使用变动的提示词格式和输出结构。
- 应用后处理增强。

语义表格编码器：如何理解表格数据？

输入：整张表格。
输出：为每一列生成一组紧凑的嵌入。
设计原则：
- 二维注意力机制（无位置嵌入）。
- 分层特征提取过程。
- 逐列式对比学习方法。
Q-former式适应器：将列嵌入与文本嵌入对齐。
特殊token：<TB>和</TB>，区分表格特征和原生文本。
联合指令微调：增强文本信息、列嵌入和schema元数据之间的对齐程度。

智能体框架：如何实现企业级应用？

包含三个核心组件：

运行时间的提示词工程：准备和处理输入查询。
安全的代码沙箱：安全执行生成的代码。
智能体评估模块：评估智能体的能力和可靠性。

工作流程：

通过提示词工程模块准备和处理输入查询。
基于外部知识库使用RAG模块。
将经过处理的输入送入主模型。
TableGPT2与VLM合作生成工具调用、代码等相关动作。
根据需求选择是否迭代。
最终得到输出。

TableGPT2的效果评估：超越GPT-4o？

基准测试：使用了哪些数据集？

已有的表格理解和推理基准：涵盖27.7K个表格和88.9K个测试样本。
新构建的RealTabBench：包含360个复杂数据表格和6000个真实、复杂的查询语句。

基线模型：选择了哪些模型进行对比？

最先进的开源通用LLM：DeepSeek-Coder-V2-Lite-16B、YiCoder-9B-Chat、Qwen2.5-Coder-7B-Instruct、Qwen2.5-7B-Instruct。
针对表格相关任务进行微调或专门开发的模型：TableLLM、CodeLlama-13B。

评估指标：如何评估生成结果？

已有基准：表格理解、表格问答（TableQA）、表格事实验证、表格到文本生成（Table2Text）、自然语言到SQL（NL2SQL）。
RealTabBench：一致性、信息完整性和安全性。

评估结果：TableGPT2的表现如何？

在几乎所有基准上，TableGPT2显著优于其他LLM方法。
在某些基准上，TableGPT2能够媲美甚至优于GPT-4o。
在涉及分层结构表格的复杂数据基准（如HiTab）上，TableGPT2实现了60%以上的绝对增长。
在RealTabBench数据集上，TableGPT2（7B）在多项任务上均达到了新SOTA。

未来改进方向：TableGPT2的下一步是什么？

针对特定领域进行编码

如何使LLM能够快速适应企业特定的DSL或伪代码？TableGPT2采用混合输出方法，结合使用了结构DSL输出和标准编程代码。

多智能体设计

单个端到端LLM能否独立解决复杂的真实任务？TableGPT2团队关注自动化智能体系统设计，采用多个LLM的有向无环图（DAG）结构。

充分利用表格的多功能性

如何处理不规则表格（如合并单元格、不一致的行列结构、非标准的数据格式）？TableGPT2团队为规范不规则表格微调了一个单独的LLM。

总结与展望

TableGPT2在结构化数据处理领域取得了显著进展，为LLM在商业智能等领域的应用开辟了新的可能性。然而，TableGPT2尚未完全解决在实际BI环境中部署LLM的挑战，仍有很大的改进空间。

我认为：世上本没有路，走的人多了，也便成了路。TableGPT2的出现，为结构化数据处理领域指明了一条新的道路。然而，这条道路还很崎岖，需要我们不断探索和完善。正如TableGPT2团队所指出的，未来的改进方向包括特定领域编码、多智能体设计和充分利用表格的多功能性。我相信，只要我们不断努力，TableGPT2的未来将更加光明。

keywords,,,,,,,,,#自然语言处理

AI前沿 # 1 # 2 # 3 # AI # LLM # Qwen # TableGPT2 # wisemodel # 商业智能 # 开源社区 # 结构化数据

文章版权归作者所有，未经允许请勿转载。

智谱AI GLM4发布会全解析：揭秘国产AI大模型的最新进展

AI前沿 # AI大模型 # GLM4 # 国产之光

2年前

26,1150

最强编程模型：Gemini 2.5 Pro I/O，开发者盛赞，代码生成登顶！

AI前言 # AI # AI编程 # DeepMind

6个月前

13,2230

Pandora揭秘：如何用自然语言实时控制视频生成？ – 利用用户的好奇心，引发他们的探究欲

AI前沿

1年前

13,3300

AI设计提效：FLUX.1 Kontext，创意设计新纪元，效率倍增！

AI前沿 # AI设计 # Flux # keywords

4个月前

11,2510

横扫结构化数据处理难题，AI模型再进化！

TableGPT2：结构化数据处理的革命性突破

引言：为什么我们需要TableGPT2？

现有大型语言模型（LLM）在处理结构化数据方面的局限性是什么？

什么是结构化数据？为什么它如此重要？

现有LLM整合外部数据的方法有哪些？它们存在什么问题？

TableGPT2：应运而生的解决方案

TableGPT2是什么？它与TableGPT有什么不同？

TableGPT2有哪些版本？它们是如何训练的？

TableGPT2的核心创新点是什么？

TableGPT2的炼成之路：详细步骤解析

持续预训练（CPT）：如何提升编程和推理能力？

监督式微调（SFT）：如何解决商业智能任务的局限性？

语义表格编码器：如何理解表格数据？

智能体框架：如何实现企业级应用？

TableGPT2的效果评估：超越GPT-4o？

基准测试：使用了哪些数据集？

基线模型：选择了哪些模型进行对比？

评估指标：如何评估生成结果？

评估结果：TableGPT2的表现如何？

未来改进方向：TableGPT2的下一步是什么？

针对特定领域进行编码

多智能体设计

充分利用表格的多功能性

总结与展望

keywords,,,,,,,,,#自然语言处理

DeepSeek解密：这样提问，让AI无所不答！

AI 编程神器 Cursor：手把手教你从小白到高手，免费白嫖全攻略！

相关文章

智谱AI GLM4发布会全解析：揭秘国产AI大模型的最新进展

最强编程模型：Gemini 2.5 Pro I/O，开发者盛赞，代码生成登顶！

Pandora揭秘：如何用自然语言实时控制视频生成？ – 利用用户的好奇心，引发他们的探究欲

AI设计提效：FLUX.1 Kontext，创意设计新纪元，效率倍增！

热门文章

智能体

横扫结构化数据处理难题，AI模型再进化！

TableGPT2：结构化数据处理的革命性突破

引言：为什么我们需要TableGPT2？

现有大型语言模型（LLM）在处理结构化数据方面的局限性是什么？

什么是结构化数据？为什么它如此重要？

现有LLM整合外部数据的方法有哪些？它们存在什么问题？

TableGPT2：应运而生的解决方案

TableGPT2是什么？它与TableGPT有什么不同？

TableGPT2有哪些版本？它们是如何训练的？

TableGPT2的核心创新点是什么？

TableGPT2的炼成之路：详细步骤解析

持续预训练（CPT）：如何提升编程和推理能力？

监督式微调（SFT）：如何解决商业智能任务的局限性？

语义表格编码器：如何理解表格数据？

智能体框架：如何实现企业级应用？

TableGPT2的效果评估：超越GPT-4o？

基准测试：使用了哪些数据集？

基线模型：选择了哪些模型进行对比？

评估指标：如何评估生成结果？

评估结果：TableGPT2的表现如何？

未来改进方向：TableGPT2的下一步是什么？

针对特定领域进行编码

多智能体设计

充分利用表格的多功能性

总结与展望

keywords,,,,,,,,,#自然语言处理

DeepSeek解密：这样提问，让AI无所不答！

AI 编程神器 Cursor：手把手教你从小白到高手，免费白嫖全攻略！

相关文章

智谱AI GLM4发布会全解析：揭秘国产AI大模型的最新进展

最强编程模型：Gemini 2.5 Pro I/O，开发者盛赞，代码生成登顶！

Pandora揭秘：如何用自然语言实时控制视频生成？ – 利用用户的好奇心，引发他们的探究欲

AI设计提效：FLUX.1 Kontext，创意设计新纪元，效率倍增！

标签云

热门文章

智能体