OpenAI o3模型:ARC-AGI测试惊人突破,AI推理能力新高度!

AI前沿4周前发布 yizz
4,571 0 0
广告也精彩

OpenAI 新一代推理模型 o3:AGI 的新曙光?

1. 为什么 OpenAI 要推出 o3 模型?回顾从 o1 到 o3 的演进

1.1 o1 模型如何开启了推理模型的大门?

2023年9月,OpenAI推出了o1 模型,该模型被认为是“推理能力大幅提升”的里程碑。在此之前,GPT 系列模型虽然在问答和对话方面表现出色,但在复杂的数学、逻辑和编程任务中却显得不足。o1 模型 引入了更先进的思维链(Chain-of-Thought,CoT)推理方法,通过逐步书写和推演解决问题的过程,显著提高了模型在多项高难度任务上的正确率。这一举措引发了全球对推理模型的研究热潮,众多大模型厂商纷纷效仿。

1.2 o3 模型的诞生:它在 o1 的基础上做了哪些升级?

为了避免与英国电信运营商 O2 混淆,OpenAI 将新一代产品直接命名为o3 模型,并分为完整版(full)和迷你版(o3-mini)两个版本。o3 模型的核心依然是思维链推理,但它在以下几个方面进行了强化:

  • 多种推理模式: 提供低、中、高三种推理模式,思考时间越长,推理质量越高。
  • 完整版与 mini 版: mini 版侧重于精简和速度,可自适应思考时长;完整版则追求最优性能。
  • 适应性增强: 可以根据问题类型自动调整推理深度,更注重高难度任务下的可信度。

需要注意的是,目前o3 模型仍处于预发布阶段,尚未正式对外开放。OpenAI 计划在 2025 年 1 月底推出 o3-mini,完整版 o3 模型也将在之后发布。但即便如此,其在 ARC-AGI 基准测试上的优异表现,已经引起了广泛关注。

2. ARC-AGI 测试的突破:o3 模型如何展现 AI 的新智力高度?

2.1 什么是 ARC-AGI 测试?为什么它被认为是 AI 难以逾越的挑战?

ARC-AGI(Abstraction & Reasoning Corpus for AGI)是由著名深度学习研究者弗朗索瓦·肖莱(François Chollet)于2019年提出的一个评估人工智能通用推理能力的基准。它包含大量极其困难、从未遇到的数学和逻辑问题,要求 AI 在没有先验提示的情况下,通过少量示例找出规律并正确输出。由于其难度极高,此前包括 GPT-3、GPT-4 等模型在此基准测试上的得分都非常低,因此被视为许多大语言模型难以逾越的关卡。

2.2 o3 模型ARC-AGI 测试中取得了怎样的突破?

根据公开信息:

  • o3 模型在“高推理能力”模式下,在 ARC-AGI 数据集上获得了 87.5% 的惊人分数。
  • 在“低推理能力”模式下,也取得了 3 倍于 o1 模型的成绩。
  • 作为对比,GPT-3 为 0%,GPT-4 为 2%,GPT-4o 为 5%,即便 o1 模型 Pro 也只有 50% 左右。

这表明 o3 模型成为首个突破 ARC-AGI 基准的 AI 模型。弗朗索瓦·肖莱更新了测试报告,但强调 ARC-AGI 并不能完全证明 AGI,o3 模型在某些简单任务中仍然会犯错,它与人类智能之间仍然存在本质差距。尽管如此,o3 模型在推理能力方面的提升仍然展现了巨大的潜力。

2.3 o3 模型ARC-AGI 测试中可能使用了什么技术?

肖莱猜测,o3 模型可能在 “token 空间” 内进行搜索和执行,结合思维链,并采用深度学习与搜索的混合方式(类似 AlphaZero 的蒙特卡洛树搜索)来找到可行的解决方案。这意味着 o3 模型可能融合了“推理范式+高计算搜索”两种思路,从而在复杂任务中实现高正确率。

但是,这种能力需要高昂的计算成本。o3 模型在 “高推理模式” 下每项任务的费用可能高达 17~20 美元,而“低推理模式”下单次调用也要 5 美元左右,这对于常规应用来说仍然显得昂贵。OpenAI 表示后续将进行优化,并可能推出更多经济模式。

3. o3 模型在编程与数学领域的表现:如何展现超越人类的“智商”?

3.1 o3 模型在编程竞赛中展现了怎样的“智商”?

Codeforces 测试中,o3 模型(高推理模式)达到了 2727 分,对应的“智商”推算约为 157。相比之下,GPT-4o 的智商约为 115,o1 模型 预览版为 123,正式版为 135。o3-mini 也突破了 140。OpenAI 仅用 7 个月就使模型智商攀升 42 分,而人类按照弗林效应需要 140 年才能达到这一水平,展示了 AI 惊人的进步速度。

3.2 o3 模型在数学竞赛和博士级难题中的表现如何?

  • AIME 2024(数学竞赛)中,o3 模型 的准确率高达 96.7%(仅失一题),大幅领先 o1 模型 的 83.3% 以及 GPT-4o 的 13.4%。
  • GPQA Diamond (博士级科学难题)中,o3 模型 达到了 87.7%,比 o1 模型 多出 10 个百分点。
  • EpochAI Frontier Math 中,o3 模型 更达到了 25.2% 的新纪录,而其他模型几乎都没有超过 2%。

这些数据表明,o3 模型 在数学和复杂的科学推理中掌握了更完整、灵活的思维链技术,比前代有了显著提升。

3.3 o3-mini 模型的特点:如何实现高效推理?

o3-mini 模型 的特点是精简和高效,可以根据任务难度自动切换低、中、高三种推理强度,从而平衡推理深度、速度和成本。

  • 在中等强度下,o3-mini 模型 已经超越了完整版的 o1 模型
  • 在高强度下,o3-mini 模型 可以逼近 o3 模型 的效果,但耗时和消耗更低。
  • o3-mini 模型(低强度)的延迟低于 1 秒,可以与 GPT-4 媲美,具有很高的实际应用价值。

此外,o3-mini 模型 还提供了 API 功能集,包括函数调用和结构化输出等,对开发者非常友好。

4. 审议对齐:OpenAI 如何通过新方法提升模型安全?

4.1 现代大模型在安全方面存在什么痛点?

当前主流的大模型都采用 SFT(监督微调)+ RLHF(基于人类反馈的强化学习)的方法进行训练。但是,这种方法存在一些局限性:

  1. 模型必须即刻响应,无法在复杂或边缘问题上进行深入的安全自检。
  2. 模型只能从大量标注示例中“逆向推测”安全策略,难以准确且灵活地应用,导致对齐边界模糊。

4.2 什么是 审议对齐?它如何解决上述问题?

OpenAI 提出了 审议对齐(Deliberative Alignment)的新训练方法。这种方法让模型在生成答案之前,先明确阅读并引用相应的安全规范文本,然后将规范纳入思维链过程。简而言之,它让模型通过“阅读+推理+合规审议”三步进行自省,从而实现更精确、更灵活的安全把控。

审议对齐的核心流程包括:

  1. 训练一个纯粹的“思维链”模型。
  2. 构建包含显式思维链并引用安全规范的训练数据集。
  3. 让模型学习将安全规范纳入思维链
  4. 通过奖励模型和一个裁判大模型,鼓励模型正确引用和执行安全规范。
© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!