Grok 3震撼发布:马斯克宣称其为“地球上最聪明的人工智能”
一、Grok 3发布会回顾:AI界新王登基?
1. 发布会背景与亮点
- 发布时间:北京时间中午12点,这场备受期待的发布会终于拉开帷幕。
- 马斯克预热:马斯克此前在X平台和迪拜世界政府峰会上多次强调Grok 3的强大推理能力,称其“优于任何已发布模型”。
- 发布会阵容:马斯克携四位团队成员(其中两位是华人)共同亮相,展示Grok 3的各项功能。
2. Grok 3与GPT的迭代对比
- Grok迭代速度:从2023年xAI成立并发布33B的Grok 0,到同年11月的Grok 1,再到2024年的Grok 1.5、Grok 2和首个多模态模型Grok-1.5V,以及如今的Grok 3,迭代速度惊人。
- 马斯克观点:Grok仅用两年多时间就达到了GPT五六年的能力水平。
3. 十万卡集群Colossus:Grok 3背后的算力支撑
- 建设背景:马斯克不满数据中心供应商18-24个月的交付周期,决定自建GPU集群。
- 建设速度:仅用122天建成第一阶段(10万块NVIDIA H100 GPU),后扩展至20万块GPU(新增5万块H100与5万块H200),又训练了92天。
- 电力支持:由田纳西河流域管理局(TVA)提供超过100兆瓦的电力。
二、Grok 3核心能力解读:跑分、推理与Agent
1. Grok 3:全面领先的Benchmarks跑分
- 内部测试:在数学、科学和代码三个领域,Grok 3的跑分均位列第一。
- Chatbot Arena竞技场:Grok 3以惊人的高分(1400+)拿下第一,成为目前唯一超过1400分的模型,远超Gemini 2.0。
2. Grok 3 Reasoning:专为推理而生
- 模型定位:可能是类似DeepSeek v3和DeepSeek R1的两套模型,也可能是混合模型(待实测验证)。
- 跑分对比:在数学、科学和代码领域,Grok 3 Reasoning均领先于o3 mini和DeepSeek R1,尤其是对o3 mini形成碾压。
- AIME2025测试:五天前完成测试,分数最高。
- 可调参数:类似o1 pro,允许Grok 3用更长时间推理,得出更优结论。
- 展示案例:
- 动态宇宙模型:思考114秒,效果出色,似乎预示着马斯克离火星更近一步。
- 俄罗斯方块游戏代码:演示流畅,但具体实测效果待验证。
3. Agent工具DeepSearch:深度搜索还是研究?
- 定位:类似OpenAI Deep Research的翻版,但更偏向于搜索而非研究,与OpenAI Deep Research的成品和质量有差距,更像Perplexity。
- Demo演示:
- 点击左侧答案显示进度条,思考时间不长。
- 右侧显示模型摘要,展示正在浏览的网站并交叉验证不同来源。
- 支持同时提问多个问题并运行。
三、发布会QA与未来展望
1. 关键问题解答
- Q:何时发布Grok 3?
A: X上的预先订阅用户可最早体验,预计一周后陆续发布,建议关注Grok动态。 - Q:新的网址?
A: grok.com - Q:有语音功能吗?
A: 有(支持语音转文字,是否支持语音通话待确认)。
2. 马斯克的承诺与未来计划
- Grok 3功能上线:一周后陆续上线Grok 3的所有功能,包括推理模型、DeepResearch和App端。
- 开源计划:未来将开源上一代模型Grok 2。
四、总结与感悟
我认为: 这场发布会,与其说是技术展示,不如说是马斯克对OpenAI的“全面宣战”。Grok 3的各项跑分数据固然亮眼,但实际应用效果仍需时间检验。DeepSearch的定位略显模糊,与OpenAI Deep Research的差距也较为明显。不过,马斯克一向以行动迅速著称,Grok系列的迭代速度也确实令人惊叹。AI领域的竞争日趋白热化,新王能否真正登基,还需拭目以待。但无论如何,这场发布会都为AI领域注入了新的活力与变数。
#OpenAI
© 版权声明
文章版权归作者所有,未经允许请勿转载。