OpenAI 新模型 O3 和 O4-mini:Agent 能力、视觉推理与编程的未来?
OpenAI 发布了什么新模型?它们有什么特点?
在 4 月 17 日凌晨,OpenAI 正式发布了其最新的推理模型——O3 模型和 O4-mini 模型。O3 模型早在去年 12 月就已预热,当时重点强调它在解决复杂问题方面的卓越能力,显著超越了 OpenAI 第一代推理模型 O1。此次正式发布不仅强调了 O3 的能力领先性,还突出了其 Agent 能力,并强调 O3 是首个能在思维链中使用图像进行推理的模型。
- O3 模型:
- 解决复杂问题的能力强于 O1。
- 具备 Agent 能力,能自主调用工具。
- 首个能在思维链中使用图像进行推理的模型。
- O4-mini 模型:
- 在多个维度上表现不逊色于 O3,尤其是在高难度数学竞赛中表现突出。
Agent 能力是什么?O3 如何体现这种能力?
Agent 能力的核心在于自主调用工具完成任务。OpenAI 提到,O3 为了解决一个极具挑战性的任务,曾连续调用了大约 600 次工具。这表明 O3 具备高度的自主性和解决问题的能力。OpenAI 目前的 Agent 能力侧重于调用内部工具,但已通过接入 MCP 协议,为未来接入更多工具打下了基础。
举例说明:
- 研究员给 O3 一张十年前的论文图片,要求找到特定结果并与最新研究比较。O3 首先利用视觉推理能力放大图片,找到目标结果,然后进行推理计算,并使用搜索功能查找十篇论文,比较研究差异,最终给出建议。
- 研究员让 O3 根据其兴趣(水肺潜水和弹奏音乐)推荐新闻。O3 访问记忆后,找到交叉兴趣的新闻:研究人员录制健康珊瑚礁的声音,用水下扬声器播放以保护珊瑚。最后,O3 使用 OpenAI 的 Canvas 工具和数据分析工具生成博客界面。
O4-mini 的表现如何?这说明了什么?
O4-mini 在多个维度上表现出色,尤其是在高难度数学竞赛 AMI 中,结合工具的准确率达到了 99%,几乎达到评测上限。这暗示了 O4 模型在未来可能带来更惊人的表现。这与 OpenAI 研究员姚顺雨引用的图表相符,该图表显示过去几年 AI 能力的飞跃式增长。OpenAI 在 O3 模型上的训练计算量是 O1 模型的 10 倍以上,随着计算量的增加,评测成绩也持续上升,表明 Scaling Law 仍然有效,AI 能力仍在快速进化。
OpenAI 如何颠覆编程?Codex CLI 是什么?
OpenAI 计划发布一系列产品来颠覆编程。根据 OpenAI CFO 的发言,他们似乎想结合模型的 Agent 能力和极强的编程能力,打造一套编程 Agent,能够直接进行软件编程甚至测试。Codex CLI 是 OpenAI 首发的开源轻量化编程 Agent,它可以直接使用 OpenAI 的模型(包括 O3 和 O4-mini),接管本地计算机终端命令行界面,直接进行代码编写和文件移动等操作。
举例说明:
- OpenAI 展示了一个模型在虚拟机中调用工具进行编程的例子。当把 Bug 报告输入给模型后,模型可以使用终端命令行访问整个代码库,验证 Bug,浏览代码,最后找到 Bug 并成功修复。
- Codex CLI 可以根据用户提供的网页截图,自动编写代码并调用系统工具,复现类似效果,展示了意念编程的可能性。
OpenAI 的发布意味着什么?未来 AI 的发展方向是什么?
这次发布表明 OpenAI 在 Agent 等前沿方向上的布局节奏,以及将已有能力产品化的独特能力。O3 和 O4-mini 的发布再次肯定了后训练 Scaling Law 的存在。目前看来,AI 模型在未来几年仍然会出现能力的快速进化,还未到达瓶颈。OpenAI 正在押注 “编程 + Agent”,认为这可能是第一个真正释放生产力的通用智能场景。
我认为:
OpenAI 的这次发布,如同黑夜中的一道闪电,照亮了 AI 发展的未来方向。Agent 能力、视觉推理和编程的结合,预示着 AI 将从辅助工具转变为更智能、更自主的伙伴。Scaling Law 的持续有效,也让我们对 AI 的未来充满期待。然而,在欢呼技术进步的同时,我们也应警惕潜在的风险,确保 AI 的发展符合人类的利益。
, , , #O4-mini模型, , , , ,