OpenAI o3 横空出世:AI 抽象推理超越人类,AGI 里程碑!

AI前沿1个月前发布 yizz
4,353 0 0
广告也精彩

OpenAI o3 横空出世:AGI 之路再进一步?

为什么 OpenAI 直接发布 o3 而没有 o2?

你可能会好奇,为什么 OpenAI 在发布最新模型时直接跳过了 o2,直接来到了 o3?原因其实很简单,据推测,这很可能是为了避免与英国电信服务提供商 O2 产生版权或商标冲突。这种“跳级”操作,虽然略显随意,但也体现了 OpenAI 在命名上的严谨,避免不必要的法律纠纷。

o3 的强大能力体现在哪里?

OpenAI 的 o3 模型发布后,在 X(原 Twitter)上引起了巨大反响。它强大的能力,几乎对现有的所有模型都构成了降维打击。那么,o3 的能力究竟有多强?我们可以通过以下几个基准测试来了解一下:

1. 软件工程考试 (SWE-Bench Verified)

  • 什么是 SWE-Bench Verified? 这就像一个软件工程的“高考”,主要考察模型编写代码的能力,包括代码的运行速度、准确性以及避免 bug 的能力。简单来说,就是看模型是否能像一个顶级的软件工程师一样写出高质量的代码。
  • o3 的表现如何? o3 在这项测试中取得了 71.7% 的成绩,相较于之前的 o1 有了显著的提升,这意味着 o3 在代码编写方面已经非常出色。 #SWE-Bench

2. Codeforces 编码竞赛平台

  • Codeforces 是什么? 这是一个全球著名的编码竞赛平台,汇集了来自世界各地的顶尖程序员。
  • o3 在 Codeforces 上的表现? o3 在该平台上的得分为 2727,相当于整个榜单的第 175 名,超越了 99.99% 的人类。这意味着 o3 的编码能力已经达到了人类顶尖水平。 #AI超越人类

3. 数学竞赛 AIEM 2024

  • AIEM 2024 的特点是什么? 这是一项数学竞赛,旨在测试 AI 的数学能力。
  • o3 在 AIEM 2024 中的表现? o3 在这项竞赛中接近满分,据了解,这应该是首次有 AI 达到如此高的水平。这意味着 o3 在数学方面的能力也得到了极大的提升。 #高分

4. 博士级科学考试 GPQA Diamond

  • GPQA Diamond 是什么? 这是一项博士级别的科学考试,主要考察 AI 在科学领域的知识和推理能力。
  • o3 在 GPQA Diamond 中的表现? o3 在此项测试中也有进步,但不如数学和编程方面的提升那么显著。 #博士级

5. FrontierMath 数学基准测试

  • FrontierMath 的特殊之处? 这是一个由 60 多位顶尖数学家合作开发的数学基准测试,主要用于评估 AI 在高级数学推理方面的能力。为了避免数据污染,所有题目都是原创且从未发布过的。
  • o3 的突破性表现? 此前,GPT-4 和 Gemini 1.5 Pro 等模型在该测试中的成功率不足 2%,而 o3 则达到了 25.2% 的成功率。这意味着 o3 在高级数学推理方面取得了巨大的突破,已经领先于其他模型进入了一个新的层次。 #突破性进展

6. ARC-AGI:抽象推理能力的试金石

  • 什么是 ARC-AGI? ARC-AGI 于 2019 年首次提出,旨在通过一系列抽象和推理任务来测试 AI 系统的能力。它不依赖于先前知识和经验,而是考察 AI 在面对新问题时的适应能力和通用性。
  • ARC-AGI 的测试方式? 任务以网格形式呈现,每个方块有 10 种颜色,网格大小从 1×1 到 30×30 不等。参与者需要根据给定的输入生成正确的输出,考察其识别模式和解决新问题的能力。可以简单理解为“找规律”。
  • o3 在 ARC-AGI 的表现? 之前的模型在此项测试中得分很低,例如 GPT-4 的得分仅为 2%,而 o3 的得分却达到了 87.5%!要知道,人类的阈值分数是 85%。这表明 o3 在抽象推理能力上已经超越了人类。
模型 ARC-AGI 得分
GPT-2 0%
GPT-3 0%
GPT-4 2%
GPT-4o 5%
o1-preview 21%
o1 32%
o1 Pro ~50%
o3 87.5%

抽象推理 #ARC-AGI #AGI里程碑

o3 目前的获取方式?

虽然 o3 功能强大,但目前 OpenAI 只对红队开放,如果你是“巨佬”可以尝试申请试用。其网址为:https://openai.com/index/early-access-for-safety-testing/ 。此外,OpenAI 还基于 o3 训练了三个小尺寸的 o3 模型,其中 o3-mini 预计在 1 月底对外开放,但很可能仍是 Pro 会员专属。

2025 年 AI 行业的展望

作者对 2025 年的 AI 行业充满期待,认为推理模型、Agent、AI 硬件、世界模型等领域都将迎来更加激动人心的发展,将是 AI 行业真正的“星辰大海”。

回顾 OpenAI 这 12 天的直播

这 12 天的直播,每天都像在马拉松,有惊喜也有平淡。以下是每天的重点:

  • Day 1: 满血 o1 上线,ChatGPT Pro 会员上线,o1 pro 推出。
  • Day 2: 基于 o1 的强化微调。
  • Day 3: Sora 正式发布。
  • Day 4: ChatGPT Canvas 全员开放,以及一些小功能更新。
  • Day 5: 为苹果站台,宣传苹果全系接入 GPT
  • Day 6: 4o 的实时视频理解上线。
  • Day 7: ChatGPT 发布新建文件夹“项目”功能。
  • Day 8: ChatGPT Search 全量开放,搜索体验大幅优化。
  • Day 9: 发布 o1 的 API,更新实时语音的 API,发布偏好微调能力(PFT)。
  • Day 10: 物理意义上可以给 ChatGPT 打电话了。
  • Day 11: ChatGPT 桌面版可以读取其他应用。
  • Day 12: OpenAI o3 正式发布。

虽然大部分时间都比较平淡,但最后 o3 的发布,无疑是这次马拉松的最高光时刻。

总结

o3 的发布,标志着 OpenAI 在 AGI 的道路上又迈出了重要一步。它在代码能力、数学能力、科学推理能力以及抽象推理能力上都取得了巨大突破,特别是 ARC-AGI 基准测试中 87.5% 的得分,更是令人震惊。尽管目前 o3 尚未对公众开放,但其强大的能力已经预示着 AI 行业未来的无限可能。

我认为:这 o3 的出现,仿佛在昏暗的房间里,突然点亮了一盏刺眼却又充满希望的灯。这灯光,既照亮了我们前进的方向,也映衬出过去的混沌与无力。那些所谓的“垃圾时间”,恰似人生中的无谓挣扎,但正是这些挣扎,才衬托出最终高光时刻的来之不易。不禁让人感叹,这世间万事,莫不如此啊!

AGI #人工智能未来

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!