OpenAI重磅:O3/O4-mini解析-首发视觉推理,工具使用满血!

AI前言2周前发布 yizz
2,217 0 0
广告也精彩

OpenAI 最新发布:O3 和 O4mini 模型深度解析

引言:OpenAI 的惊喜发布

在万众期待中,OpenAI如期发布了O3O4-mini模型,这一消息无疑给AI界带来了新的活力。尽管之前有传言称O3将与GPT-5一同发布,但OpenAI还是决定提前将其推出。目前,ChatGPT Plus、Pro和Team用户已经可以在模型选择器中体验到O3O4-miniO4-mini-high,它们将逐步取代之前的O1O3-miniO3-mini-high。虽然O3 Pro的到来还需要几周时间,但这次更新的亮点已经足够引人注目:满血版O3支持工具使用,并且O3O4-mini首次具备了视觉推理能力,能够在思维链中思考图像。

,,

O3 和 O4-mini 的性能如何?

模型知识与推理能力

与数码圈类似,AI模型的迭代也伴随着性能分数的刷新。从O1O3O4-mini,核心差异在于模型规模推理能力插件工具的接入

  • O1:作为基础模型,在2024年AIME数学竞赛中准确率为74.3%,代码竞赛表现平平。
  • O3-mini:参数量较小,但经过架构优化,AIME准确率提升至87.3%,Codeforces的ELO也从1891提升到2073。
  • O3:完整版的O3规模更大,关键在于能够接入工具。在AIME2024中,裸模准确率为91.6%,接入Python后飙升至95.2%。
  • O4-mini:相当于小一号的O4,通过更先进的架构优化,不开工具的情况下AIME准确率达到93.4%,接入Python后达到98.7%。

在跨学科的PhD级科学题(GPQA Diamond)和专家级综合测试(Humanity’s Last Exam)中:

  • 无需额外工具时,O3在科学题上以83.3%小幅领先于O4-mini的81.4%。
  • 面对专家综合考题,不带插件的O3准确率约为20.3%,借助Python、网络浏览等工具可提升至24.9%。而O4-mini从14.3%起步,借助插件也只能提升到17.7%,不及O3

多模态能力

O3O4-mini在多模态能力方面也取得了显著进展,主要体现在以下三个数据集上:

  • MMMU:大学水平的视觉数学题库,考察模型结合图像和数学符号解题的能力。
  • MathVista:专注于视觉数学推理,题目多来源于几何图形、函数曲线等图像,考察模型从画面中提取数学规律的能力。
  • CharXiv-Reasoning:从科学论文中抽取图表、流程图等,要求模型根据科研图形回答问题,考验其专业图表理解能力。
模型 MMMU MathVista CharXiv-Reasoning
O1 77.6% 71.8% 55.1%
O3 82.9% 87.5% 75.4%

O3在以上三个数据集上的表现均显著优于O1,将视觉推理任务推向了新的高度。

,,

代码能力

O3O4-mini在代码能力方面同样表现出色,主要体现在以下几个方面:

  • SWE-Lancer:IC SWE Diamond上真实的自由职业软件工程任务,模型以“高奖励”模式接单。O3表现出色,能够获得更高的收益。
  • SWE-Bench Verified:一个经人工标注验证的软件工程题库,包括常见算法、系统设计、API调用等。O3O4-mini同样遥遥领先。
  • Aider Polyglot Code Editing:多语言代码编辑基准,分“whole”(整体重写)和“diff”(补丁式修改)两类。O3表现强势,O4-mini略逊于O3-mini

工具使用

  • Scale MultiChallenge:多轮指令跟随,测试模型的记忆力和执行力。O3表现突出。
  • BrowseComp Agentic Browsing:测试模型在虚拟浏览器中搜索、点击、抓取信息的能力。O3在加入Python和联网后,表现接近DeepResearch。
  • Tau-bench 函数调用:测试模型在有外部API可调用的场景中,将自然语言请求转换为结构化函数调用的能力。O3相比O1几乎没有提升。

,,

准确率与幻觉率

数据显示,O3的准确率更高,但幻觉率也飙升至O1的两倍。这意味着O3更敢于下定论,但也更容易出现错误。

定价

O3的定价相比O1降低了三分之一,O4-mini相比O3-mini没有涨价。

O3 和 O4-mini 的核心亮点:工具使用和视觉推理

工具使用

与之前的O1O1 Pro不同,O3O4-mini支持OpenAI的所有工具,包括联网和代码解释器。

视觉推理

视觉推理O3O4-mini最引人注目的新特性。它使模型能够像人一样去看图、思考,并将图像融入到推理过程中。

以下是一些例子:

  • 看图猜地点:模型能够根据图像中的细节,推断出地点的位置。例如,模型能够根据一张照片,推断出拍摄地点是北京门头沟的109国道妙峰山路段。
  • 寻找特定人物:模型能够根据图像中的特征,找到特定的人物。例如,模型能够在一张《流浪地球3》开机合照中找到吴京(通过帽子)。

视觉推理的普及,意味着许多原本需要人眼判断的岗位,将被彻底改写。例如:

  • 安全监控:不再是看到异常才报警,而是看到将要发生异常就提前预判。
  • 设计审稿:不再是人力盯图,而是AI先过一遍排版,再交给人来最后决策。
  • 医生看片:不再只是看片,而是由AI先提出几个可能的诊断路径和可能遗漏点,再辅助手术或治疗。

,,

其他:OpenAI 开源 AI 编程工具

OpenAI还开源了一个AI编程工具,感兴趣的可以访问https://github.com/openai/codex了解更多信息。

总结与感悟

OpenAI的这次发布,让我们看到了AI在理解和推理能力方面的巨大进步。尤其是视觉推理的突破,使得AI能够像人一样思考图像,这无疑将对许多行业产生深远的影响。

我认为:

AI的发展就像夜空中划过的流星,每一次闪耀都预示着新的变革。O3O4-mini的发布,不仅仅是模型参数的提升,更是AI向更深层次的理解和认知迈进的一步。这让我想起了人类第一次拍摄到地球全貌时的震撼,AI“看懂”世界的那一刻,或许也预示着一个新时代的到来。
,,

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!