Kimi K2 Thinking:推理能力炸裂,搜索编程实测,AI领域新星?

AI前沿2小时前发布 yizz
2,090 0 0

# **Kimi K2 Thinking 模型体验:推理、搜索与编程能力评测**

## **Kimi K2 Thinking 模型是什么?**

**Kimi** 最近推出了 **K2 Thinking** 模型,这是一个**开源**且具有**思考能力**的 **Thinking Agent**。作者在实际使用后发现,**K2-thinking** 在 **搜索** 和 **编程** 方面的能力显著提升。虽然在实际编程过程中,搜索能力可能会造成轻微卡顿,等待时间稍长,但 **token 消耗** 降低了不少,三个案例的花费仅为五块钱左右。

## **K2 Thinking 模型有哪些亮点功能?**

* **在线编辑:** 支持基本样式选择。
* **办公套件:** 提供 Word 文档编辑器、Excel 数据处理等功能。
* **英语学习平台:** 可以创建英语学习平台(后文会详细介绍)。
* **多平台使用:** 既可以在客户端体验,也能在 Claude code 中使用。

## **K2 Thinking 推理性能如何?**

### **什么是 HLE 基准?**

**HLE(Humanity’s Last Exam)** 被誉为“人类最后一场闭卷考试”,由全球近千名专家联合打造。它包含 3000 道高难度题目的 **多模态基准测试**,旨在挑战 AI 的极限,并为技术发展轨迹与风险治理提供关键标尺。与传统 AI 测试基准不同,**HLE** 没有参考答案,题目来源于全球 50 个国家、500 多家机构的专家原创,难度达到研究生水平,完全依靠模型自身实力。

### **K2 Thinking 在 HLE 中的表现如何?**

据 Kimi 官方描述,**Kimi K2 Thinking** 在 **HLE** 中表现强劲。全球顶尖模型(如 **GPT-4o**、**Claude 3.5**)在 **HLE** 上的平均准确率不足 5%,错误答案的置信度高达 80% 以上,暴露了非常大的幻觉问题。

### **案例分析:K2 Thinking 推理能力实测**

#### **案例一:帕尔米拉铭文翻译**

* **题目:** 翻译墓碑上的帕尔米拉语铭文。
* **难度:** 图片语言翻译,尤其针对生僻语言,难度较高。
* **K2 Thinking 表现:** 在不联网的情况下,十几秒内完成翻译,理解和解释直白易懂。
* **GPT-5 Thinking 表现:** 仅给出翻译,缺乏中文语境下的理解,翻译等于没翻译。
* **结论:** **K2-Thinking** 的理解和解释更加直白易懂。

#### **案例二:伯克利物理学难题**

* **题目:** 加州大学伯克利分校凯文教授提出的物理学问题,涉及复杂的力学分析。
* **K2 Thinking 表现:** 一次性给出正确答案,但思考过程较长,等待时间过久。
* **GPT-5 Thinking 表现:** 需要切换到特定模式才能给出正确答案,不同模式下答案不一致。
* **结论:** **K2-Thinking** 的确定性更高,但思考过程太长,等待时间过久。

#### **案例三:斯坦福化学难题**

* **题目:** 斯坦福大学 Noah B 教授提出的化学领域的元素问题,研究生水平以上难度。
* **K2 Thinking 表现:** 快速给出答案,智商不亚于研究生水平,推理过程人性化,回答结果契合用户心理预期。
* **GPT-5 Thinking 表现:** 快速给出答案,结果准确。
* **结论:** 两者都答对了,但 **K2-Thinking** 的推理过程更加人性化,回答结果更契合用户的心理预期,解释更通俗易懂。

## **K2 Thinking 搜索与浏览总结能力如何?**

### **与 GPT5 模型对比**

面对复杂问题,**深度搜索** 的能力非常重要。在 OpenAI 发布的 **BrowseComp** 基准测试中,**Kimi K2 Thinking** 超过了 **GPT5** 模型。该模型还能做出多达上百步的“思考 → 搜索 → 浏览网页 → 思考 → 编程”动态循环。

### **案例分析:K2 Thinking 搜索能力实测**

#### **案例一:复杂的足球比赛检索**

* **题目:** 找出在 1990 年至 1994 年期间,由巴西裁判执法的比赛,其中两支球队共收到四张黄牌(每队两张),其中三张黄牌不是在上半场发出的,并且有四次换人,其中一次是在比赛前 25 分钟因伤换人。
* **K2 Thinking 表现:** 答案准确。
* **GPT-5 Thinking 表现:** 给出的信息更准确,条理更清晰。
* **结论:** **GPT-5 Thinking** 更加优秀,信息更准确,条理更清晰。

#### **案例二:全网检索小众论文**

* **题目:** 找一篇在 2023 年 6 月之前发表的研究论文,该论文涉及文化传统、科学过程和烹饪创新,并由三位作者共同撰写。其中一位作者是来自西孟加拉邦的助理教授,另一位拥有博士学位。
* **K2 Thinking 表现:** 进行多轮搜索和思考验证,但最终没有找到论文。
* **GPT-5 Thinking 表现:** 找到了论文。
* **结论:** **GPT-5** 胜出,这可能与信源和网络问题有关,因为该论文在海外发布,非常小众。

## **K2 Thinking Agentic 编程能力如何?**

### **如何在 Claude code 中使用 K2 Thinking?**

1. 打开 **CC-swith** 插件,它可以无缝切换多个模型厂商。
2. 切换到 **K2 Thinking** 模型,无需自己修改配置。
3. 在 VS Code 中打开终端。
4. 输入 `/model` 查看当前模型。
5. 按下 Tab 键开启思考模式(右下角)。

### **案例分析:K2 Thinking 编程能力实测**

#### **案例一:搭建英语学习网站**

* **任务:** 创建一个高中英语的学习网站,包含每日打卡、每日一词、课程库资源等功能。
* **K2 Thinking 表现:** 生成了一个自带数据库、可交互、完成度达到 95% 的英语学习网站,包含课程检索功能。

#### **案例二:创建网页版 Office 套件**

* **任务:** 使用 `document-skills` 创建一个网页版的 Office 套件,包含 Word、PPT、Excel、PDF 的基本操作。
* **K2 Thinking 表现:** 创建了一个包含 Word 文档在线编辑器、Excel 表格编辑器、PPT 编辑器和 PDF 编辑器的网页版办公套件。

## **总结**

**Kimi K2 Thinking** 的 **Agentic 编程能力** 和 **深度推理能力** 令人印象深刻,尤其是在理解复杂需求并将其分解执行方面。它生成的答案和代码完成度非常高(达到 95%),且在 **HLE** 测试中展现的“人性化”理解力优于 **GPT-5 Thinking**。虽然在搜索和编程过程中会有些许卡顿,但考虑到其极高的性价比,**K2 Thinking** 绝对是目前 AI 领域一个强有力的竞争者。

我认为:这 **K2 Thinking** 虽有瑕疵,然其开源之举,犹如黑暗中的火种,为 AI 发展带来一丝希望。其在推理、搜索、编程方面的表现,亦如一个初出茅庐的少年,虽有不足,但潜力无限。望其未来能不断精进,为人类带来更多福祉,否则,不过是又一场技术的喧嚣罢了。

#keywords, #Kimi, #K2Thinking,#人工智能

© 版权声明
chatgpt4.0

相关文章