OpenAI推出全新草莓模型:200 美元/月的 ChatGPT Pro会员为技术爆发铺路

AI前沿1个月前发布 wanglu852
2,024 0 0
广告也精彩

OpenAI的全新模型草莓上线:揭秘ChatGPT Pro会员

什么是草莓模型?OpenAI新模型有何特别之处?

半夜十点,The Information透露了一个新闻,OpenAI的新模型——草莓(Strawberry)要来了。此后两个小时,我的好朋友@solitude(在美国东部时间)告知我,ChatGPT Pro会员已经上线,每月售价200美元。他第一时间付了款,我查看了自己的账号,果然什么也没有;于是,我借用了他刚付费的Pro账号,进行了一番体验。

目前,ChatGPT的会员分为三个档次:Plus、Team和Pro。这种划分方式感觉像是学习了苹果公司的命名方式,不会后面还出现一个ChatGPT Pro Max吧?然而,非常遗憾的是,和高昂的价格相比,目前的Pro会员并没有提供新的功能或模型。唯一的区别是GPT-4o使用次数几乎是无限的,我在短时间内测了几百条,依旧畅通无阻。而对应的ChatGPT Plus会员,GPT-4o的使用额度为80条/3小时。

The Information的新闻来看,ChatGPT Pro会员的推出,主要是为即将上线的全新模型草莓(Strawberry)准备的。

草莓模型究竟是什么?它凭什么卖200美元?

草莓模型基于新的Self-play RL(自我对弈强化学习)范式,特别是在数学和代码能力上表现优异,并且具备自主为用户执行浏览器、系统操作级别的新智能。这种范式与传统大模型的不同之处在于,草莓模型能够进行更深入的因果性学习,而不仅仅是相关性学习。

1. 大模型的局限性

现有模型存在的问题
边际收益递减:目前通过增加计算量、模型参数和数据集大小来提升模型性能的方法已经遇到了瓶颈。
相关性学习的局限:大模型主要是通过记忆已有的数据和反馈,没有进行真正的因果关系的学习,导致很多推理过程出现错误。

2. Self-play RL的优势

Self-play RL引入新范式,类似于下围棋的方式,让模型在与自己不断对弈中学习和进化。具体来说,它有以下几个步骤:
模型跟自己博弈:不断尝试不同的策略,从中寻找最优解。
思维链(Chain of Thought):记录每一步推理过程,通过对每一步进行评估和打分,改进推理质量。
使用文字评价:模型在自我评估过程中,不仅仅记录评分,还会详细说明每一步的优缺点,类似于老师批改作业的方式。

3. 草莓模型的特点

  • 数学和代码能力(强到爆炸):因为数学和代码的结果比较明确,能够通过Self-play RL快速验证其正确性,因此在这两个领域表现尤为突出。
  • 自主执行操作:草莓模型可以自主进行浏览器和系统级的操作,进一步提升用户体验。

草莓模型的未来与挑战

虽然草莓模型有很大的潜力,但也面临一些挑战。首先是推理成本高,一次复杂任务的消耗是非常大的;其次是训练成本和时间周期较长。但正因为这些原因,草莓模型售价高昂。

结合未来的一些趋势,OpenAI一直强调草莓模型是为下一代大模型合成数据而准备的。草莓模型将作为Self-play RL的载体,以更加智能和独立的方式不断进化。

总结与看法

我认为,在现有大模型的边际效应递减的情况下,Self-play RL是突破瓶颈的有效方法。通过这种方式,模型不仅能记住数据,还能真正理解数据背后的因果关系,从而具备自主学习和改进的能力。草莓模型的发布,预示着大模型领域即将迎来一轮新的技术爆发周期,未来,可期。

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!