OpenAI 模型 o1 的发布与意义
OpenAI o1 是什么?
大半夜的,OpenAI 抽象了整整快半年的新模型。在没有任何预告下,正式登场。正式版名称不叫草莓,草莓只是内部的一个代号。 正式名字是:OpenAI o1。这是 OpenAI 对复杂逻辑和推理任务的一次重大进展,代表了新一代的 AI 能力。由于这一进步,OpenAI 将计数器重置为 1,并启用了新命名:OpenAI o1。
o1 模型的性能如何?
o1 的性能在多个领域全面碾压此前的 GPT4o:
– AIME 2024 数学竞赛,GPT4o 的准确率为 13.4%,o1 预览版为 56.7%,o1 正式版高达 83.3%。
– 代码竞赛,GPT4o 的准确率为 11.0%,o1 预览版为 62%,o1 正式版为 89%。
– 博士级科学问题 (GPQA Diamond),GPT4o 的准确率为 56.1%,人类专家水平是 69.7%,而 o1 的准确率达到了恐怖的 78%。
为什么 o1 能取得这样的成就?
o1 模型取得成功的关键在于:Self-play RL(自我对弈强化学习)。
– 通过自我对弈,o1 可以磨练其思维链并完善所使用的策略。它学会了如何识别和纠正自己的错误,将复杂的步骤分解为更简单的步骤。
– 除了自我纠正错误,它还学会了尝试不同的方法。这种方式类似于人类的慢思考,反复思考、拆解、理解、推理,最终给出答案。
o1 模型对现实的影响是什么?
Enhanced 推理能力在科学、编码、数学等领域极度有用:
– 比如,o1 可以被医疗研究人员用来注释细胞测序数据。
– 物理学家可以用它生成量子光学所需的复杂数学公式。
– 开发人员可以用它构建并执行多步骤工作流。
新一代的数据飞轮:
– 答案正确时,整个逻辑链变成一个包含正负奖励的训练示例的小型数据集。以 OpenAI 的用户级别,未来进化速度会更快。
如何使用 o1 模型?
o1 已逐步向所有 ChatGPT Plus 和 Team 用户开放:
– 分为两个模型,o1 预览版和 o1-mini。o1-mini 是更小更快更便宜的版本,适合需要推理但不需要广泛世界知识的场景。
– o1 预览版每周 30 条,o1-mini 每周 50 条。由于每周限制条数,可以看出 o1 模型的价格昂贵。
使用步骤:
- 确认你的账户类型:只有 ChatGPT Plus 和 Level 5 开发者才能使用 o1 预览版。
- 进入 ChatGPT 界面,选择 o1 模型进行对话。
- 输入你的问题,模型将会思考后给出详细答案。
价格及限制
API 的价格:
– o1 预览版:每百万输入 15 美元,每百万输出 60 美元。
– o1-mini:每百万输入 3 美元,每百万输出 12 美元。
输出成本高于输入成本的四倍,对比 GPT4o 的分别是 5 美元和 15 美元。
Prompt 提示优化:
- 保持提示简单直接:模型擅长理解和响应简短、清晰的指令。
- 避免思路链提示:这些模型在内部进行推理,不需要提示它们逐步思考或解释你的推理。
- 使用分隔符:使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分,帮助模型适当地解释不同的部分。
- 限制附加上下文:提供附加上下文或文档时,仅包含最相关的信息,以防止模型过度复杂化.