OpenAI 正式发布了新模型 OpenAI o1，相较于GPT4o，在数学、编码和科学推理等多个领域表现出色

OpenAI 模型 o1 的发布与意义

OpenAI o1 是什么?

大半夜的，OpenAI 抽象了整整快半年的新模型。在没有任何预告下，正式登场。正式版名称不叫草莓，草莓只是内部的一个代号。 正式名字是：OpenAI o1。这是 OpenAI 对复杂逻辑和推理任务的一次重大进展，代表了新一代的 AI 能力。由于这一进步，OpenAI 将计数器重置为 1，并启用了新命名：OpenAI o1。

o1 模型的性能如何？

o1 的性能在多个领域全面碾压此前的 GPT4o：
– AIME 2024 数学竞赛，GPT4o 的准确率为 13.4%，o1 预览版为 56.7%，o1 正式版高达 83.3%。
– 代码竞赛，GPT4o 的准确率为 11.0%，o1 预览版为 62%，o1 正式版为 89%。
– 博士级科学问题 (GPQA Diamond)，GPT4o 的准确率为 56.1%，人类专家水平是 69.7%，而 o1 的准确率达到了恐怖的 78%。

为什么 o1 能取得这样的成就？

o1 模型取得成功的关键在于：Self-play RL（自我对弈强化学习）。
– 通过自我对弈，o1 可以磨练其思维链并完善所使用的策略。它学会了如何识别和纠正自己的错误，将复杂的步骤分解为更简单的步骤。
– 除了自我纠正错误，它还学会了尝试不同的方法。这种方式类似于人类的慢思考，反复思考、拆解、理解、推理，最终给出答案。

o1 模型对现实的影响是什么？

Enhanced 推理能力在科学、编码、数学等领域极度有用：
– 比如，o1 可以被医疗研究人员用来注释细胞测序数据。
– 物理学家可以用它生成量子光学所需的复杂数学公式。
– 开发人员可以用它构建并执行多步骤工作流。

新一代的数据飞轮：
– 答案正确时，整个逻辑链变成一个包含正负奖励的训练示例的小型数据集。以 OpenAI 的用户级别，未来进化速度会更快。

如何使用 o1 模型？

o1 已逐步向所有 ChatGPT Plus 和 Team 用户开放：
– 分为两个模型，o1 预览版和 o1-mini。o1-mini 是更小更快更便宜的版本，适合需要推理但不需要广泛世界知识的场景。
– o1 预览版每周 30 条，o1-mini 每周 50 条。由于每周限制条数，可以看出 o1 模型的价格昂贵。