OpenAI新模型：O3、O4-mini发布，Agent能力、颠覆编程！

OpenAI 新模型 O3 和 O4-mini：Agent 能力、视觉推理与编程的未来？

OpenAI 发布了什么新模型？它们有什么特点？

在 4 月 17 日凌晨，OpenAI 正式发布了其最新的推理模型——O3 模型和 O4-mini 模型。O3 模型早在去年 12 月就已预热，当时重点强调它在解决复杂问题方面的卓越能力，显著超越了 OpenAI 第一代推理模型 O1。此次正式发布不仅强调了 O3 的能力领先性，还突出了其 Agent 能力，并强调 O3 是首个能在思维链中使用图像进行推理的模型。

O3 模型：
- 解决复杂问题的能力强于 O1。
- 具备 Agent 能力，能自主调用工具。
- 首个能在思维链中使用图像进行推理的模型。
O4-mini 模型：
- 在多个维度上表现不逊色于 O3，尤其是在高难度数学竞赛中表现突出。

Agent 能力是什么？O3 如何体现这种能力？

Agent 能力的核心在于自主调用工具完成任务。OpenAI 提到，O3 为了解决一个极具挑战性的任务，曾连续调用了大约 600 次工具。这表明 O3 具备高度的自主性和解决问题的能力。OpenAI 目前的 Agent 能力侧重于调用内部工具，但已通过接入 MCP 协议，为未来接入更多工具打下了基础。

举例说明：

研究员给 O3 一张十年前的论文图片，要求找到特定结果并与最新研究比较。O3 首先利用视觉推理能力放大图片，找到目标结果，然后进行推理计算，并使用搜索功能查找十篇论文，比较研究差异，最终给出建议。
研究员让 O3 根据其兴趣（水肺潜水和弹奏音乐）推荐新闻。O3 访问记忆后，找到交叉兴趣的新闻：研究人员录制健康珊瑚礁的声音，用水下扬声器播放以保护珊瑚。最后，O3 使用 OpenAI 的 Canvas 工具和数据分析工具生成博客界面。

O4-mini 的表现如何？这说明了什么？

O4-mini 在多个维度上表现出色，尤其是在高难度数学竞赛 AMI 中，结合工具的准确率达到了 99%，几乎达到评测上限。这暗示了 O4 模型在未来可能带来更惊人的表现。这与 OpenAI 研究员姚顺雨引用的图表相符，该图表显示过去几年 AI 能力的飞跃式增长。OpenAI 在 O3 模型上的训练计算量是 O1 模型的 10 倍以上，随着计算量的增加，评测成绩也持续上升，表明 Scaling Law 仍然有效，AI 能力仍在快速进化。

OpenAI 如何颠覆编程？Codex CLI 是什么？

OpenAI 计划发布一系列产品来颠覆编程。根据 OpenAI CFO 的发言，他们似乎想结合模型的 Agent 能力和极强的编程能力，打造一套编程 Agent，能够直接进行软件编程甚至测试。Codex CLI 是 OpenAI 首发的开源轻量化编程 Agent，它可以直接使用 OpenAI 的模型（包括 O3 和 O4-mini），接管本地计算机终端命令行界面，直接进行代码编写和文件移动等操作。

举例说明：

OpenAI 展示了一个模型在虚拟机中调用工具进行编程的例子。当把 Bug 报告输入给模型后，模型可以使用终端命令行访问整个代码库，验证 Bug，浏览代码，最后找到 Bug 并成功修复。
Codex CLI 可以根据用户提供的网页截图，自动编写代码并调用系统工具，复现类似效果，展示了意念编程的可能性。

OpenAI 的发布意味着什么？未来 AI 的发展方向是什么？

这次发布表明 OpenAI 在 Agent 等前沿方向上的布局节奏，以及将已有能力产品化的独特能力。O3 和 O4-mini 的发布再次肯定了后训练 Scaling Law 的存在。目前看来，AI 模型在未来几年仍然会出现能力的快速进化，还未到达瓶颈。OpenAI 正在押注 “编程 + Agent”，认为这可能是第一个真正释放生产力的通用智能场景。

我认为：

OpenAI 的这次发布，如同黑夜中的一道闪电，照亮了 AI 发展的未来方向。Agent 能力、视觉推理和编程的结合，预示着 AI 将从辅助工具转变为更智能、更自主的伙伴。Scaling Law 的持续有效，也让我们对 AI 的未来充满期待。然而，在欢呼技术进步的同时，我们也应警惕潜在的风险，确保 AI 的发展符合人类的利益。

, , , #O4-mini模型, , , , ,