Grok 4 发布:知识推理能力大跃进,代码能力仍需加强?
1. Grok 4 为何姗姗来迟?发布会现场为何略显尴尬?
原本预计的马斯克 Grok 4 发布会,在北京时间中午 11 点才开始,比预计时间晚了一个小时。整个发布会过程略显仓促,准备不足,甚至让马斯克本人都显得有些紧张。这或许暗示着 Grok 4 在发布前仍存在一些需要完善的地方。
2. Grok 4 有哪些版本?训练量有多大?
本次发布会推出了两个模型:Grok 4 和 Grok 4 Heavy。据称,Grok 4 的训练量是 Grok 2 的 100 倍,在强化学习上的计算量是现有任何模型的 10 倍。如此巨大的训练量,也预示着 Grok 4 在能力上会有显著提升。
3. Grok 4 在“人类最后的考试”中表现如何?
在“人类最后的考试 (Humanity’s Last Exam, HLE)”中,Grok 4 拿到了 38.6% 的成绩;而 Grok 4 Heavy 借助多智能体技术,将成绩提升至 44.4%,刷新了最高纪录。
4. Grok 4 在学科竞赛中表现如何?
官方公布了 GPQA、AIME25、HMMT25、USAMO25 等学科赛题的测试结果。Grok 4 Heavy 在其中 4 项夺冠,尤其在 AIME25 与 HMMT25 中,分别获得了 100% 和 96.7% 的近满分表现。这表明 Grok 4 在知识推理和解题能力上具有显著优势。
5. Grok 4 的代码能力如何?
尽管 Grok 4 在知识推理方面表现出色,但实测表明其代码能力相对较弱。这可能意味着 Grok 4 在处理复杂编程任务时,仍有提升空间。
6. Grok 4 如何整合工具使用能力?
Grok 4 在训练阶段就深度整合了工具使用能力,例如代码解释器、搜索引擎等,并将这些工具直接纳入训练流程。这种整合方式使得 Grok 4 能够更好地利用外部资源,从而提升整体性能。
7. Grok 4 在商业模拟场景中的表现如何?
为了测试 Grok 4 的长任务能力,官方设计了一个名为“Vending-Bench”的商业模拟场景,要求 AI 像人一样经营自动售货机业务。测试结果显示,Grok 4 的平均净资产为 $4684.15,是第二名 Claude 4 的两倍。这证明 Grok 4 在处理复杂、长期的任务时,具有更强的能力。
8. Grok 4 在 ARC-AGI v2 评测中的表现如何?
在 ARC-AGI v2 评测中,Grok 4 达到了 SOTA(State-of-the-art),准确率为 15.9%,几乎是第二名 Claude 4 (8.6%) 的两倍。同时,Grok 4 的单位成本推理效率也达到了业界最佳水平。
9. Grok 4 的定价策略是怎样的?
Grok 4 采用了分级定价策略:
- Free:只能使用 Grok 3,无法使用 Grok 4。
- SuperGrok(30 美元/月):可以使用 Grok 4,拥有 128k Token,以及更多的接口额度。
- SuperGrok Heavy(300 美元/月):独享 Grok 4 Heavy,可以提前试用新特性,并获得专属技术支持。
10. Grok 的未来发展规划是怎样的?
根据官方规划,Grok 将在 8 月推出代码模型,9 月上线多模态智能代理,10 月发布视频生成模型。
11. 总结:Grok 4 的优缺点是什么?
总的来说,Grok 4 在知识推理能力上表现出色,但在代码能力方面仍有不足。其强大的长任务处理能力和高效的推理效率,使其在某些特定场景下具有显著优势。
12. 个人看法
我认为:马斯克这次的 Grok 4 发布,颇有些“重文轻武”的味道。知识推理能力固然重要,但在实际应用中,代码能力同样不可或缺。如果 Grok 想要在 AI 领域占据一席之地,还需要在代码能力方面下更大的功夫。否则,即使知识再渊博,也难以转化为实际的生产力,终究是纸上谈兵。
, , ,