横扫结构化数据处理难题,AI模型再进化!

AI前沿3周前更新 yizz
2,734 0 0
广告也精彩

TableGPT2结构化数据处理的革命性突破

引言:为什么我们需要TableGPT2

现有大型语言模型(LLM)在处理结构化数据方面的局限性是什么?

当前,许多大型语言模型(LLM)的设计初衷是端到端运行,不整合外部数据。这意味着什么呢?举个例子,如果你想让LLM帮你选股票,但又不提供实时市场信息,它的建议就如同无源之水,无本之木。再比如,医疗AI应用需要病人的病历和各项指标数据才能做出准确判断,缺乏这些结构化信息,AI就成了“巧妇难为无米之炊”。

什么是结构化数据?为什么它如此重要?

不仅仅是医疗和金融领域,具身智能中灵巧手的触觉信号、多个传感器的各类“觉”也都是结构化信息。据估计,全球超过70%的数据都是以结构化的表格形式存储的,包括数据库和电子表格。这些数据蕴藏着巨大的价值,是商业智能等应用的基础。

现有LLM整合外部数据的方法有哪些?它们存在什么问题?

目前常见的整合思路包括:

  1. 工具调用(如NL2SQL):通过自然语言查询数据库等外部数据源。
  2. 长上下文和新架构:通过扩展上下文窗口或采用新架构来纳入外部数据源。

但这些方法要么难以用于复杂场景,要么效率低下,不实用。

TableGPT2:应运而生的解决方案

TableGPT2是什么?它与TableGPT有什么不同?

TableGPT2是TableGPT的新一代版本。TableGPT初版引入了结构化特定领域语言(DSL)和专用表格编码器,用于管理复杂的基于表格的查询。TableGPT2在此基础上实现了巨大改进,包括:

  • 扩大了数据和训练协议的规模
  • 重新设计了每个组件
  • 引入了提升稳健性、扩大适用性和优化商业智能应用性能的技术

TableGPT2有哪些版本?它们是如何训练的?

TableGPT2有两种配置:7B72B版本,均基于Qwen2.5系列模型。训练过程包括:

  1. 持续预训练(CPT):使用超过860亿token进行持续预训练,其中80%的数据是标注良好的代码,以确保TableGPT2具有稳健的编程能力。
  2. 编码器训练:使用超过43.75万个表格-语言交织的样本来训练编码器。
  3. 监督式微调(SFT):使用236万多个高质量“查询-表格-输出”元组进行监督式微调。

这种规模在相关研究中是前所未有的,足以保证TableGPT2满足涉及结构化或表格数据的现代应用的严格要求。

TableGPT2的核心创新点是什么?

  • 表格数据编码器:全新设计的编码器,重点建模表格数据的结构和内容,捕获schema层面和单元格层面的信息。
  • 多模态对齐:加入单独的模态模块,专门用于读取和解释表格数据,类似于视觉-语言模型(VLM)。
  • 智能体框架:提供全面的智能体工作流程运行时间框架,将TableGPT2无缝集成到企业级数据分析工具中。

TableGPT2的炼成之路:详细步骤解析

持续预训练(CPT):如何提升编程和推理能力?

  1. 数据构成:80%的数据是标注良好的代码,其余是包含多种领域知识(如金融、制造业、生物技术、市场技术)的推理数据和一般教科书。
  2. 数据处理:采用两级过滤策略。
    • 文档层面:使用54个不同的类别对数据进行标注。
    • token层面:利用RHO-1微调对高质量token的选择。
  3. 新方法:引入将代码长度和上下文窗口设置纳入考虑的新方法。
  4. 最终数据:包含86B token的稳健强大的预训练数据。

监督式微调(SFT):如何解决商业智能任务的局限性?

  1. 数据集:包含范围广泛的近乎现实的关键场景,包括多轮对话、复杂推理、工具使用和针对具体业务的查询。
  2. 数据质量保证
    • 人工标注专家驱动的自动化标注流程
    • 多步骤数据过滤流程:基于规则的过滤器、GPT-4o评分、人工检查、评估。
  3. 数据增强
    • 查询内引入字段时进行模糊化处理。
    • 通过匿名化字段名和类别值来实现表格数据增强。
    • 结合单轮和多轮问答任务。
    • 使用变动的提示词格式和输出结构。
    • 应用后处理增强。

语义表格编码器:如何理解表格数据?

  1. 输入:整张表格。
  2. 输出:为每一列生成一组紧凑的嵌入。
  3. 设计原则
    • 二维注意力机制(无位置嵌入)。
    • 分层特征提取过程。
    • 逐列式对比学习方法。
  4. Q-former式适应器:将列嵌入与文本嵌入对齐。
  5. 特殊token<TB></TB>,区分表格特征和原生文本。
  6. 联合指令微调:增强文本信息、列嵌入和schema元数据之间的对齐程度。

智能体框架:如何实现企业级应用?

包含三个核心组件:

  1. 运行时间的提示词工程:准备和处理输入查询。
  2. 安全的代码沙箱:安全执行生成的代码。
  3. 智能体评估模块:评估智能体的能力和可靠性。

工作流程:

  1. 通过提示词工程模块准备和处理输入查询。
  2. 基于外部知识库使用RAG模块。
  3. 将经过处理的输入送入主模型。
  4. TableGPT2与VLM合作生成工具调用、代码等相关动作。
  5. 根据需求选择是否迭代。
  6. 最终得到输出。

TableGPT2的效果评估:超越GPT-4o?

基准测试:使用了哪些数据集?

  • 已有的表格理解和推理基准:涵盖27.7K个表格和88.9K个测试样本。
  • 新构建的RealTabBench:包含360个复杂数据表格和6000个真实、复杂的查询语句。

基线模型:选择了哪些模型进行对比?

  • 最先进的开源通用LLM:DeepSeek-Coder-V2-Lite-16B、YiCoder-9B-Chat、Qwen2.5-Coder-7B-Instruct、Qwen2.5-7B-Instruct。
  • 针对表格相关任务进行微调或专门开发的模型:TableLLM、CodeLlama-13B。

评估指标:如何评估生成结果?

  • 已有基准:表格理解、表格问答(TableQA)、表格事实验证、表格到文本生成(Table2Text)、自然语言到SQL(NL2SQL)。
  • RealTabBench:一致性、信息完整性和安全性。

评估结果:TableGPT2的表现如何?

  • 在几乎所有基准上,TableGPT2显著优于其他LLM方法。
  • 在某些基准上,TableGPT2能够媲美甚至优于GPT-4o。
  • 在涉及分层结构表格的复杂数据基准(如HiTab)上,TableGPT2实现了60%以上的绝对增长。
  • 在RealTabBench数据集上,TableGPT2(7B)在多项任务上均达到了新SOTA。

未来改进方向:TableGPT2的下一步是什么?

针对特定领域进行编码

如何使LLM能够快速适应企业特定的DSL或伪代码?TableGPT2采用混合输出方法,结合使用了结构DSL输出和标准编程代码。

多智能体设计

单个端到端LLM能否独立解决复杂的真实任务?TableGPT2团队关注自动化智能体系统设计,采用多个LLM的有向无环图(DAG)结构。

充分利用表格的多功能性

如何处理不规则表格(如合并单元格、不一致的行列结构、非标准的数据格式)?TableGPT2团队为规范不规则表格微调了一个单独的LLM。

总结与展望

TableGPT2在结构化数据处理领域取得了显著进展,为LLM在商业智能等领域的应用开辟了新的可能性。然而,TableGPT2尚未完全解决在实际BI环境中部署LLM的挑战,仍有很大的改进空间。

我认为:世上本没有路,走的人多了,也便成了路。TableGPT2的出现,为结构化数据处理领域指明了一条新的道路。然而,这条道路还很崎岖,需要我们不断探索和完善。正如TableGPT2团队所指出的,未来的改进方向包括特定领域编码、多智能体设计和充分利用表格的多功能性。我相信,只要我们不断努力,TableGPT2的未来将更加光明。

keywords,,,,,,,,,#自然语言处理

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!