OpenAI o3 横空出世:AGI 之路再进一步?
为什么 OpenAI 直接发布 o3 而没有 o2?
你可能会好奇,为什么 OpenAI 在发布最新模型时直接跳过了 o2,直接来到了 o3?原因其实很简单,据推测,这很可能是为了避免与英国电信服务提供商 O2 产生版权或商标冲突。这种“跳级”操作,虽然略显随意,但也体现了 OpenAI 在命名上的严谨,避免不必要的法律纠纷。
o3 的强大能力体现在哪里?
OpenAI 的 o3 模型发布后,在 X(原 Twitter)上引起了巨大反响。它强大的能力,几乎对现有的所有模型都构成了降维打击。那么,o3 的能力究竟有多强?我们可以通过以下几个基准测试来了解一下:
1. 软件工程考试 (SWE-Bench Verified)
- 什么是 SWE-Bench Verified? 这就像一个软件工程的“高考”,主要考察模型编写代码的能力,包括代码的运行速度、准确性以及避免 bug 的能力。简单来说,就是看模型是否能像一个顶级的软件工程师一样写出高质量的代码。
- o3 的表现如何? o3 在这项测试中取得了 71.7% 的成绩,相较于之前的 o1 有了显著的提升,这意味着 o3 在代码编写方面已经非常出色。 #SWE-Bench
2. Codeforces 编码竞赛平台
- Codeforces 是什么? 这是一个全球著名的编码竞赛平台,汇集了来自世界各地的顶尖程序员。
- o3 在 Codeforces 上的表现? o3 在该平台上的得分为 2727,相当于整个榜单的第 175 名,超越了 99.99% 的人类。这意味着 o3 的编码能力已经达到了人类顶尖水平。 #AI超越人类
3. 数学竞赛 AIEM 2024
- AIEM 2024 的特点是什么? 这是一项数学竞赛,旨在测试 AI 的数学能力。
- o3 在 AIEM 2024 中的表现? o3 在这项竞赛中接近满分,据了解,这应该是首次有 AI 达到如此高的水平。这意味着 o3 在数学方面的能力也得到了极大的提升。 #高分
4. 博士级科学考试 GPQA Diamond
- GPQA Diamond 是什么? 这是一项博士级别的科学考试,主要考察 AI 在科学领域的知识和推理能力。
- o3 在 GPQA Diamond 中的表现? o3 在此项测试中也有进步,但不如数学和编程方面的提升那么显著。 #博士级
5. FrontierMath 数学基准测试
- FrontierMath 的特殊之处? 这是一个由 60 多位顶尖数学家合作开发的数学基准测试,主要用于评估 AI 在高级数学推理方面的能力。为了避免数据污染,所有题目都是原创且从未发布过的。
- o3 的突破性表现? 此前,GPT-4 和 Gemini 1.5 Pro 等模型在该测试中的成功率不足 2%,而 o3 则达到了 25.2% 的成功率。这意味着 o3 在高级数学推理方面取得了巨大的突破,已经领先于其他模型进入了一个新的层次。 #突破性进展
6. ARC-AGI:抽象推理能力的试金石
- 什么是 ARC-AGI? ARC-AGI 于 2019 年首次提出,旨在通过一系列抽象和推理任务来测试 AI 系统的能力。它不依赖于先前知识和经验,而是考察 AI 在面对新问题时的适应能力和通用性。
- ARC-AGI 的测试方式? 任务以网格形式呈现,每个方块有 10 种颜色,网格大小从 1×1 到 30×30 不等。参与者需要根据给定的输入生成正确的输出,考察其识别模式和解决新问题的能力。可以简单理解为“找规律”。
- o3 在 ARC-AGI 的表现? 之前的模型在此项测试中得分很低,例如 GPT-4 的得分仅为 2%,而 o3 的得分却达到了 87.5%!要知道,人类的阈值分数是 85%。这表明 o3 在抽象推理能力上已经超越了人类。
模型 | ARC-AGI 得分 |
---|---|
GPT-2 | 0% |
GPT-3 | 0% |
GPT-4 | 2% |
GPT-4o | 5% |
o1-preview | 21% |
o1 | 32% |
o1 Pro | ~50% |
o3 | 87.5% |
抽象推理 #ARC-AGI #AGI里程碑
o3 目前的获取方式?
虽然 o3 功能强大,但目前 OpenAI 只对红队开放,如果你是“巨佬”可以尝试申请试用。其网址为:https://openai.com/index/early-access-for-safety-testing/ 。此外,OpenAI 还基于 o3 训练了三个小尺寸的 o3 模型,其中 o3-mini 预计在 1 月底对外开放,但很可能仍是 Pro 会员专属。
对 2025 年 AI 行业的展望
作者对 2025 年的 AI 行业充满期待,认为推理模型、Agent、AI 硬件、世界模型等领域都将迎来更加激动人心的发展,将是 AI 行业真正的“星辰大海”。
回顾 OpenAI 这 12 天的直播
这 12 天的直播,每天都像在马拉松,有惊喜也有平淡。以下是每天的重点:
- Day 1: 满血 o1 上线,ChatGPT Pro 会员上线,o1 pro 推出。
- Day 2: 基于 o1 的强化微调。
- Day 3: Sora 正式发布。
- Day 4: ChatGPT Canvas 全员开放,以及一些小功能更新。
- Day 5: 为苹果站台,宣传苹果全系接入 GPT。
- Day 6: 4o 的实时视频理解上线。
- Day 7: ChatGPT 发布新建文件夹“项目”功能。
- Day 8: ChatGPT Search 全量开放,搜索体验大幅优化。
- Day 9: 发布 o1 的 API,更新实时语音的 API,发布偏好微调能力(PFT)。
- Day 10: 物理意义上可以给 ChatGPT 打电话了。
- Day 11: ChatGPT 桌面版可以读取其他应用。
- Day 12: OpenAI o3 正式发布。
虽然大部分时间都比较平淡,但最后 o3 的发布,无疑是这次马拉松的最高光时刻。
总结
o3 的发布,标志着 OpenAI 在 AGI 的道路上又迈出了重要一步。它在代码能力、数学能力、科学推理能力以及抽象推理能力上都取得了巨大突破,特别是 ARC-AGI 基准测试中 87.5% 的得分,更是令人震惊。尽管目前 o3 尚未对公众开放,但其强大的能力已经预示着 AI 行业未来的无限可能。
我认为:这 o3 的出现,仿佛在昏暗的房间里,突然点亮了一盏刺眼却又充满希望的灯。这灯光,既照亮了我们前进的方向,也映衬出过去的混沌与无力。那些所谓的“垃圾时间”,恰似人生中的无谓挣扎,但正是这些挣扎,才衬托出最终高光时刻的来之不易。不禁让人感叹,这世间万事,莫不如此啊!