OpenAI新模型:O3、O4-mini发布,Agent能力、颠覆编程!

AI前言6天前更新 yizz
3,145 0 0
广告也精彩

OpenAI 新模型 O3 和 O4-mini:Agent 能力、视觉推理编程的未来?

OpenAI 发布了什么新模型?它们有什么特点?

在 4 月 17 日凌晨,OpenAI 正式发布了其最新的推理模型——O3 模型和 O4-mini 模型。O3 模型早在去年 12 月就已预热,当时重点强调它在解决复杂问题方面的卓越能力,显著超越了 OpenAI 第一代推理模型 O1。此次正式发布不仅强调了 O3 的能力领先性,还突出了其 Agent 能力,并强调 O3 是首个能在思维链中使用图像进行推理的模型。

  • O3 模型
    • 解决复杂问题的能力强于 O1。
    • 具备 Agent 能力,能自主调用工具。
    • 首个能在思维链中使用图像进行推理的模型。
  • O4-mini 模型
    • 在多个维度上表现不逊色于 O3,尤其是在高难度数学竞赛中表现突出。

Agent 能力是什么?O3 如何体现这种能力?

Agent 能力的核心在于自主调用工具完成任务。OpenAI 提到,O3 为了解决一个极具挑战性的任务,曾连续调用了大约 600 次工具。这表明 O3 具备高度的自主性和解决问题的能力。OpenAI 目前的 Agent 能力侧重于调用内部工具,但已通过接入 MCP 协议,为未来接入更多工具打下了基础。

举例说明:

  • 研究员给 O3 一张十年前的论文图片,要求找到特定结果并与最新研究比较。O3 首先利用视觉推理能力放大图片,找到目标结果,然后进行推理计算,并使用搜索功能查找十篇论文,比较研究差异,最终给出建议。
  • 研究员让 O3 根据其兴趣(水肺潜水和弹奏音乐)推荐新闻。O3 访问记忆后,找到交叉兴趣的新闻:研究人员录制健康珊瑚礁的声音,用水下扬声器播放以保护珊瑚。最后,O3 使用 OpenAICanvas 工具数据分析工具生成博客界面。

O4-mini 的表现如何?这说明了什么?

O4-mini 在多个维度上表现出色,尤其是在高难度数学竞赛 AMI 中,结合工具的准确率达到了 99%,几乎达到评测上限。这暗示了 O4 模型在未来可能带来更惊人的表现。这与 OpenAI 研究员姚顺雨引用的图表相符,该图表显示过去几年 AI 能力的飞跃式增长。OpenAIO3 模型上的训练计算量是 O1 模型的 10 倍以上,随着计算量的增加,评测成绩也持续上升,表明 Scaling Law 仍然有效,AI 能力仍在快速进化。

OpenAI 如何颠覆编程?Codex CLI 是什么?

OpenAI 计划发布一系列产品来颠覆编程。根据 OpenAI CFO 的发言,他们似乎想结合模型的 Agent 能力和极强的编程能力,打造一套编程 Agent,能够直接进行软件编程甚至测试。Codex CLIOpenAI 首发的开源轻量化编程 Agent,它可以直接使用 OpenAI 的模型(包括 O3O4-mini),接管本地计算机终端命令行界面,直接进行代码编写和文件移动等操作。

举例说明:

  • OpenAI 展示了一个模型在虚拟机中调用工具进行编程的例子。当把 Bug 报告输入给模型后,模型可以使用终端命令行访问整个代码库,验证 Bug,浏览代码,最后找到 Bug 并成功修复。
  • Codex CLI 可以根据用户提供的网页截图,自动编写代码并调用系统工具,复现类似效果,展示了意念编程的可能性。

OpenAI 的发布意味着什么?未来 AI 的发展方向是什么?

这次发布表明 OpenAIAgent 等前沿方向上的布局节奏,以及将已有能力产品化的独特能力。O3O4-mini 的发布再次肯定了后训练 Scaling Law 的存在。目前看来,AI 模型在未来几年仍然会出现能力的快速进化,还未到达瓶颈。OpenAI 正在押注 “编程 + Agent”,认为这可能是第一个真正释放生产力的通用智能场景。

我认为:

OpenAI 的这次发布,如同黑夜中的一道闪电,照亮了 AI 发展的未来方向。Agent 能力、视觉推理和编程的结合,预示着 AI 将从辅助工具转变为更智能、更自主的伙伴。Scaling Law 的持续有效,也让我们对 AI 的未来充满期待。然而,在欢呼技术进步的同时,我们也应警惕潜在的风险,确保 AI 的发展符合人类的利益。

, , , #O4-mini模型, , , , ,

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!