Kimi K2:国产开源模型超越DeepSeek,问鼎全球开源第一?
Kimi K2 凭什么火爆全网?
最近,Kimi K2 模型在全球开源领域引起了巨大轰动,甚至超越了 DeepSeek,登顶全球开源模型榜首。这一消息迅速引爆了国内外社区,引发了广泛关注和讨论。那么,Kimi K2 究竟有何过人之处,能够取得如此亮眼的成绩呢?
Kimi K2 在全球竞技场上的表现如何?
Kimi K2 在竞技场上的排名情况如下:
- 开源第一,总榜第五:紧追 马斯克 Grok 4 等顶尖闭源模型。
- 连续多轮对话并列第一:与 o3 并列第一,Grok 4 位列第四。
- 编程能力第二:与 GPT 4.5、Grok 4 持平。
- 应对复杂提示词能力第二:与 o3、4o 位于同一梯队。
值得注意的是,总榜 TOP 10 中,只有两款开源模型,且都来自中国,分别是 Kimi K2 和 DeepSeek R1。
Kimi K2 在开源社区的受欢迎程度如何?
Kimi K2 在开源社区获得了极高的关注度和下载量:
- GitHub 标星 5.6K
- Hugging Face 下载量近 10 万
甚至连 AI 搜索引擎明星创企 Perplexity CEO 也亲自为它站台,并透露 Perplexity 计划接下来基于 K2 模型进行后训练。由于访问的用户太多了,导致 Kimi 官方也出来发公告,表示 API 过慢。
Kimi K2 的架构之争:为何选择 DeepSeek V3?
在 Kimi K2 取得巨大成功的同时,关于其架构的讨论也甚嚣尘上,其中最受关注的问题是:Kimi K2 是否采用了 DeepSeek V3 架构?
Kimi 团队如何回应架构质疑?
Kimi 团队成员回应称,Kimi K2 确实继承了 DeepSeek V3 的架构,但后续进行了一系列参数调整。
- 最初的尝试:团队尝试了各种架构方案,结果发现 V3 架构是最优选择。
- 是否为了不同而不同?:团队经过深思熟虑,认为没有必要为了不同而不同。
- 选择 V3 的理由:
- V3 架构已经过大规模验证,无需强行“标新立异”。
- 团队训练和推理资源有限,V3 架构符合成本预算。
Kimi K2 在 V3 架构上做了哪些改进?
Kimi K2 在 DeepSeek V3 架构的基础上,进行了以下四点改进:
- 增加专家数量:在激活参数量不变的情况下,增加 MoE 总参数有助于 loss 下降。
- 注意力头 head 数减半:减少 head 数节省的成本,刚好抵消 MoE 参数变大带来的开销,且效果影响很小。
- 只保留第一层 Dense:只保留第一层为 dense,其余都用 MoE,结果对推理几乎无影响。
- 专家无分组:通过自由路由 + 动态重排 (EPLB) 可以应对负载不均衡,同时让专家组合更灵活,模型能力更强。
最终,Kimi K2 在相同专家数量下,总参数增大到 1.5 倍,但理论的 prefill 和 decode 耗时都更小,是一种更“精打细算”的结构调优。
开源模型崛起:打破性能弱的刻板印象?
Kimi K2 的成功,也反映了一个明显的趋势:开源模型正在崛起,逐渐打破了“开源 = 性能弱”的刻板印象。
开源模型与闭源模型的差距正在缩小?
榜单上的整体排名显示,开源模型不仅排名在上升,而且与闭源模型的分数差距也越来越小。模型 TOP 10 总分均为 1400+,开源和闭源几乎可以看成位于同一起跑线。Kimi K2 的总分已经非常接近 Grok 4、GPT 4.5 等顶尖闭源模型。
行业人士如何看待开源模型的崛起?
越来越多的行业人士表达了对开源崛起的判断:
- 艾伦人工智能研究所研究科学家 Tim Dettmers:开源击败闭源将变得越来越普遍。
- Perplexity CEO:开源模型将在塑造 AI 能力的全球扩散路径中扮演重要角色,它们对于因地制宜地定制和本地化 AI 体验至关重要。
在已经逐渐崛起的开源模型领域,TOP 10 中唯二开源、且都是国产模型的含金量还在上升。
我认为:
开源模型的崛起是人工智能发展的重要趋势,它打破了技术垄断,降低了使用门槛,促进了技术的普及和创新。Kimi K2 的成功,不仅是中国开源力量的崛起,也为全球开源社区注入了新的活力。然而,开源模型的发展也面临着诸多挑战,例如安全问题、商业模式等,需要全社会共同努力,才能推动开源模型健康发展。