Grok 4发布:马斯克称最智能AI,性能对标o3?

AI前沿11小时前发布 yizz
2,052 0 0
广告也精彩

Grok 4 发布会:马斯克称其为“世界上最智能的 AI”,性能对标 o3

1. 什么是 Grok 4?它有哪些亮点?

Grok 4马斯克 旗下 xAI 公司发布的最新一代 推理模型,旨在对标 OpenAIo3。马斯克在发布会上称 Grok 4 是“世界上最智能的 AI”,并表示其进化速度“远超任何人类”。

  • 卓越的推理能力:SATGRE 等高难度考试中取得近乎完美的成绩,即使面对从未见过的考题也能轻松应对。
  • 指数级增长的性能:Grok 2Grok 4,每一代模型的训练计算量增加约 10 倍,总增幅达 100 倍。
  • 大量投入推理计算: 除了预训练计算,还大量投入在 推理(RL compute) 计算上,以增强思考与解决问题的能力。

2. Grok 4 在基准测试中的表现如何?什么是“人类最终考试”?

Grok 4 在多个顶级基准测试中表现全面超越所有竞争对手,包括 Claude Opus 4Gemini 2.5 Pro

  • “人类最终考试”(Humanity’s Last Exam): 这是一个超高难度的基准测试,包含 2500 个专家级问题,涵盖上百个学科。据称,没有任何人类能在所有领域达到博士后水平,但 Grok 4 实现了这一点。

3. Grok 4 有哪些实际应用能力演示?

发布会中展示了 Grok 4 的一些实际应用能力,包括:

  • 现实世界预测: 在预测平台 Polymarket 上分析 2025 年 MLB 世界大赛冠军,结合赔率和 FanGraphs 的数据计算出自己的概率,识别出市场赔率与实际概率之间的差异。
  • 多模态与主观理解:X 平台上找出“xAI 员工最古怪的头像”,表明 Grok 4 能够理解“古怪”这样的主观概念,并搜索和分析图片。
  • 信息整合与摘要: 整合 “人类最终考试” 分数变化的 X 帖子时间线,提取关键事件并按时间排序。
  • 代码与可视化生成: 根据一个物理学提示,Grok 4 生成了一个关于两个黑洞碰撞并产生引力波的 HTML 动画,展示了其将复杂科学概念转化为代码和动态可视化的能力。

4. Grok 4 的语音模式有哪些改进?什么是 SuperGrok Heavy?

Grok 4 的语音模式迎来重大改进:

  • 端到端延迟减半: 对话更流畅。
  • 五种全新的声音: 包括史诗感的“Sal”和带有丰富情感的英音“Eve”。

SuperGrok Heavy 是一个付费等级(每月300美元),允许用户调用 Grok 4 Heavy,它会像一个“学习小组”一样,并行启动多个智能体(agents)共同解决复杂问题,通过比较和筛选,最终得出最佳答案。

5. Grok 4 在新锐 Bench Mark 中的表现如何?

  • ARC-AGI:ARC-AGI 榜单中,Grok 4 在 v1 中超过 o3,在 v2 中两倍于 o3。(注意,比不上 o3-pro)
  • Vending-Bench: 在商业场景模拟 “自动售货机基准测试”(Vending-Bench) 中,Grok 4 的表现远超其他前沿模型,其创造的净值是第二名(Claude Opus 4)的两倍以上。

6. xAI 公司对 Grok 的未来有哪些展望?

  • 八月: 推出专用的 编码模型
  • 九月: 推出 多模态智能体
  • 十月: 推出 视频生成模型

预测:AI 将在今年晚些时候或明年发现真正有用的新技术,甚至可能在 1-2 年内发现新的物理学原理。

7. 如何使用 Grok 4?

Grok 4 需要订阅才能使用,SuperGrok 订阅费用为 $30/月 起。 访问 https://grok.com/ 了解更多信息。

感悟

我认为:马斯克这次发布的 Grok 4,颇有“语不惊人死不休”的味道。一方面,他极力强调 Grok 4 的智能程度和进化速度,另一方面,又通过各种基准测试和实际应用演示来佐证自己的观点。这种高调的宣传方式,既能吸引眼球,也能引发人们对 AI 发展方向的思考。至于 Grok 4 是否真的如马斯克所说的那样“世界上最智能的 AI”,还需要时间来检验。不过,可以肯定的是,AI 领域的竞争将会越来越激烈,而最终受益的,还是我们这些用户。

,

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!