Grok 4发布：知识推理能力飞跃，代码能力仍需提升，马斯克AI新篇章？

AI前沿12个月前发布 yizz

Grok 4 发布：知识推理能力大跃进，代码能力仍需加强？

1. Grok 4 为何姗姗来迟？发布会现场为何略显尴尬？

原本预计的马斯克 Grok 4 发布会，在北京时间中午 11 点才开始，比预计时间晚了一个小时。整个发布会过程略显仓促，准备不足，甚至让马斯克本人都显得有些紧张。这或许暗示着 Grok 4 在发布前仍存在一些需要完善的地方。

2. Grok 4 有哪些版本？训练量有多大？

本次发布会推出了两个模型：Grok 4 和 Grok 4 Heavy。据称，Grok 4 的训练量是 Grok 2 的 100 倍，在强化学习上的计算量是现有任何模型的 10 倍。如此巨大的训练量，也预示着 Grok 4 在能力上会有显著提升。

3. Grok 4 在“人类最后的考试”中表现如何？

在“人类最后的考试 (Humanity’s Last Exam, HLE)”中，Grok 4 拿到了 38.6% 的成绩；而 Grok 4 Heavy 借助多智能体技术，将成绩提升至 44.4%，刷新了最高纪录。

4. Grok 4 在学科竞赛中表现如何？

官方公布了 GPQA、AIME25、HMMT25、USAMO25 等学科赛题的测试结果。Grok 4 Heavy 在其中 4 项夺冠，尤其在 AIME25 与 HMMT25 中，分别获得了 100% 和 96.7% 的近满分表现。这表明 Grok 4 在知识推理和解题能力上具有显著优势。

5. Grok 4 的代码能力如何？

尽管 Grok 4 在知识推理方面表现出色，但实测表明其代码能力相对较弱。这可能意味着 Grok 4 在处理复杂编程任务时，仍有提升空间。

6. Grok 4 如何整合工具使用能力？

Grok 4 在训练阶段就深度整合了工具使用能力，例如代码解释器、搜索引擎等，并将这些工具直接纳入训练流程。这种整合方式使得 Grok 4 能够更好地利用外部资源，从而提升整体性能。

7. Grok 4 在商业模拟场景中的表现如何？

为了测试 Grok 4 的长任务能力，官方设计了一个名为“Vending-Bench”的商业模拟场景，要求 AI 像人一样经营自动售货机业务。测试结果显示，Grok 4 的平均净资产为 $4684.15，是第二名 Claude 4 的两倍。这证明 Grok 4 在处理复杂、长期的任务时，具有更强的能力。

8. Grok 4 在 ARC-AGI v2 评测中的表现如何？

在 ARC-AGI v2 评测中，Grok 4 达到了 SOTA（State-of-the-art），准确率为 15.9%，几乎是第二名 Claude 4 (8.6%) 的两倍。同时，Grok 4 的单位成本推理效率也达到了业界最佳水平。

9. Grok 4 的定价策略是怎样的？

Grok 4 采用了分级定价策略：

Free：只能使用 Grok 3，无法使用 Grok 4。
SuperGrok（30 美元/月）：可以使用 Grok 4，拥有 128k Token，以及更多的接口额度。
SuperGrok Heavy（300 美元/月）：独享 Grok 4 Heavy，可以提前试用新特性，并获得专属技术支持。

10. Grok 的未来发展规划是怎样的？

根据官方规划，Grok 将在 8 月推出代码模型，9 月上线多模态智能代理，10 月发布视频生成模型。

11. 总结：Grok 4 的优缺点是什么？

总的来说，Grok 4 在知识推理能力上表现出色，但在代码能力方面仍有不足。其强大的长任务处理能力和高效的推理效率，使其在某些特定场景下具有显著优势。

12. 个人看法

我认为：马斯克这次的 Grok 4 发布，颇有些“重文轻武”的味道。知识推理能力固然重要，但在实际应用中，代码能力同样不可或缺。如果 Grok 想要在 AI 领域占据一席之地，还需要在代码能力方面下更大的功夫。否则，即使知识再渊博，也难以转化为实际的生产力，终究是纸上谈兵。

, , ,

AI前沿 # AIME25 # Grok # Grok4 # Heavy # 人工智能 # 人类最后的考试 # 知识推理 # 马斯克

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

2024年中国家电及消费电子博览会开幕 AI工智能成为本届焦点

2024年中国家电及消费电子博览会开幕 AI工智能成为本届焦点

AI前沿 # 2024年 # 人工智能 # 全球家电企业

2年前

23,3190

百度文心、阿里千问、讯飞星火大模型都免费了！掌门chat免费使用国内各大模型API,具体操作方法如下！

百度文心、阿里千问、讯飞星火大模型都免费了！掌门chat免费使用国内各大模型API,具体操作方法如下！

2年前

25,5180

颠覆传统协作模式：PromptX引领新时代智能语音交互革命

颠覆传统协作模式：PromptX引领新时代智能语音交互革命

AI前沿 # Agent框架 # PromptX # voice

11个月前

26,6510

2026年3月16日AI前沿：AI行业最新动态

2026年3月16日AI前沿：AI行业最新动态

3个月前

29,8650

error: Content is protected !!