OpenAI 草莓模型全面解读
本文将对 OpenAI 新发布的「草莓」进行全面解读,包括其效果与特性、价格与限制、实现原理及一些判断,并给出详细的分析。
效果与特性
什么是草莓模型?
OpenAI 于 2023 年 9 月 13 日发布了 o1 系列模型,包括 o1-preview 和 o1-mini,官方称其为「草莓」。该模型特别针对 STEM(理工科)领域进行了优化,在多个基准测试中表现优异。
草莓模型的表现如何?
从测试结果来看,草莓模型在绝大多数重推理任务中显著优于 GPT-4o,尤其在物理、生物和化学问题的准确性上表现出色。在 STEM 领域的基准测试(如 GPQA)中超越了人类博士水平的准确性。
在 数学能力 评估中,草莓模型在 AIME考试中达到 74% 的平均得分,相较于 GPT-4o 的 12%。通过优化后的得分更是达到了 93%。
使用草莓模型有哪些注意事项?
然而,草莓模型仍存在一些限制和坑点。例如:
– 在 ChatGPT 中不支持联网、画图等功能。
– 在 API 中不支持 system、tool 等字段以及 json mode、结构化输出等方法。
– 计费方式可能存在迷惑性,中间思考过程所消耗的 token 都会被计费,导致成本高企。
价格与限制
如何访问草莓模型?
目前,草莓模型可通过 ChatGPT 网页版或 API 进行访问:
– o1-preview:128k 上下文,32k 最大输出,推理能力强,复杂问题专用,训练数据截至 2023 年 10 月。
– o1-mini:128k 上下文,64k 最大输出,更快速更经济,擅长编程、数学和科学,训练数据截至 2023 年 10 月。
具体使用限制是什么?
对于 ChatGPT 网页版,目前仅 Plus 和 Team 用户可以访问:
– o1-preview:每周 30 条
– o1-mini:每周 50 条
对于 API 用户,Tier 5(支付金额超过 1000 美金)可以访问,每分钟最多 20 并发,且价格昂贵。
需要注意的是,经测试,草莓模型不支持以下内容并会产生错误:
– system 字段:400 报错
– tools 字段:400 报错
– 图片输入:400 报错
– json_object 输出:500 报错
– structured 输出:400 报错
– logprobs 输出:403 报错
– stream 输出:400 报错
实现原理
草莓模型的工作机制是什么?
草莓模型在回答过程中会经历多次对话,根据对对话的评估进行后续生成。整个过程包括先思考再总结输出,最长思考步骤为 128k tokens。但在 API 调用时,中间的思考并不会返回。
例如,当问题是「安徽牛肉板面,为什么是石家庄特产?」时,会产生 896 tokens 的推理。然而,实际返回仅 23 tokens 的内容,其余为系统消耗的推理内容。
使用草莓模型的开销如何?
以显著的例子来看,草莓模型的费用高昂。例如,使用 o1 模型回答「你好」这样的小问题,产生了 471 tokens,而使用 GPT-4o 仅产生 9 tokens。草莓模型完成相同任务的开销是 GPT-4o 的 258 倍。对于非极端问题,草莓模型的开销也高达 40 倍。
一些判断
首先,这次发布的「草莓」模型,更像是一个工程优化而不是模型优化。其训练数据和时间同 4o 非常相似,很有可能是对 4o 进行微调后得出的 agent。
在实际测试中发现,「草莓」模型并不能很好地完成任务:在语言识别、意图识别以及指令遵循方面表现不佳。即便在 o1-preview 模型下,结果也不令人满意。在很多情况下,其表现不如已经存在的公开工程化版本。
最后的想法
“我认为,当前草莓模型的发布更像是一次工程性实验,而非突破性的进步。其高昂的使用成本与实际性能的落差,令人质疑其商业化可行性。作为AI从业者,不希望看到技术平台背离实际用户需求,希望未来的模型优化能更多立足实用性,不再只是技术性炫耀。”