Grok 4 发布会:马斯克称其为“世界上最智能的 AI”,性能对标 o3?
1. 什么是 Grok 4?它有哪些亮点?
Grok 4 是 马斯克 旗下 xAI 公司发布的最新一代 推理模型,旨在对标 OpenAI 的 o3。马斯克在发布会上称 Grok 4 是“世界上最智能的 AI”,并表示其进化速度“远超任何人类”。
- 卓越的推理能力: 在 SAT 和 GRE 等高难度考试中取得近乎完美的成绩,即使面对从未见过的考题也能轻松应对。
- 指数级增长的性能: 从 Grok 2 到 Grok 4,每一代模型的训练计算量增加约 10 倍,总增幅达 100 倍。
- 大量投入推理计算: 除了预训练计算,还大量投入在 推理(RL compute) 计算上,以增强思考与解决问题的能力。
2. Grok 4 在基准测试中的表现如何?什么是“人类最终考试”?
Grok 4 在多个顶级基准测试中表现全面超越所有竞争对手,包括 Claude Opus 4 与 Gemini 2.5 Pro。
- “人类最终考试”(Humanity’s Last Exam): 这是一个超高难度的基准测试,包含 2500 个专家级问题,涵盖上百个学科。据称,没有任何人类能在所有领域达到博士后水平,但 Grok 4 实现了这一点。
3. Grok 4 有哪些实际应用能力演示?
发布会中展示了 Grok 4 的一些实际应用能力,包括:
- 现实世界预测: 在预测平台 Polymarket 上分析 2025 年 MLB 世界大赛冠军,结合赔率和 FanGraphs 的数据计算出自己的概率,识别出市场赔率与实际概率之间的差异。
- 多模态与主观理解: 在 X 平台上找出“xAI 员工最古怪的头像”,表明 Grok 4 能够理解“古怪”这样的主观概念,并搜索和分析图片。
- 信息整合与摘要: 整合 “人类最终考试” 分数变化的 X 帖子时间线,提取关键事件并按时间排序。
- 代码与可视化生成: 根据一个物理学提示,Grok 4 生成了一个关于两个黑洞碰撞并产生引力波的 HTML 动画,展示了其将复杂科学概念转化为代码和动态可视化的能力。
4. Grok 4 的语音模式有哪些改进?什么是 SuperGrok Heavy?
Grok 4 的语音模式迎来重大改进:
- 端到端延迟减半: 对话更流畅。
- 五种全新的声音: 包括史诗感的“Sal”和带有丰富情感的英音“Eve”。
SuperGrok Heavy 是一个付费等级(每月300美元),允许用户调用 Grok 4 Heavy,它会像一个“学习小组”一样,并行启动多个智能体(agents)共同解决复杂问题,通过比较和筛选,最终得出最佳答案。
5. Grok 4 在新锐 Bench Mark 中的表现如何?
- ARC-AGI: 在 ARC-AGI 榜单中,Grok 4 在 v1 中超过 o3,在 v2 中两倍于 o3。(注意,比不上 o3-pro)
- Vending-Bench: 在商业场景模拟 “自动售货机基准测试”(Vending-Bench) 中,Grok 4 的表现远超其他前沿模型,其创造的净值是第二名(Claude Opus 4)的两倍以上。
6. xAI 公司对 Grok 的未来有哪些展望?
- 八月: 推出专用的 编码模型。
- 九月: 推出 多模态智能体。
- 十月: 推出 视频生成模型。
预测:AI 将在今年晚些时候或明年发现真正有用的新技术,甚至可能在 1-2 年内发现新的物理学原理。
7. 如何使用 Grok 4?
Grok 4 需要订阅才能使用,SuperGrok 订阅费用为 $30/月 起。 访问 https://grok.com/ 了解更多信息。
感悟
我认为:马斯克这次发布的 Grok 4,颇有“语不惊人死不休”的味道。一方面,他极力强调 Grok 4 的智能程度和进化速度,另一方面,又通过各种基准测试和实际应用演示来佐证自己的观点。这种高调的宣传方式,既能吸引眼球,也能引发人们对 AI 发展方向的思考。至于 Grok 4 是否真的如马斯克所说的那样“世界上最智能的 AI”,还需要时间来检验。不过,可以肯定的是,AI 领域的竞争将会越来越激烈,而最终受益的,还是我们这些用户。
,
© 版权声明
文章版权归作者所有,未经允许请勿转载。