DeepSeek R2猜想:万亿参数模型融合,开源社区探索大模型新方向

AI前言1天前发布 yizz
1,873 0 0
广告也精彩

DeepSeek R2 传闻与开源社区的融合探索:大模型的新方向?

DeepSeek R2 真的要来了吗? 万亿参数海量数据 背后的猜想

最近,关于 DeepSeek 即将发布 R2 的传闻甚嚣尘上。传闻中,R2 拥有 1.2T 万亿参数,并使用 5.2PB 的训练数据,甚至还提到能够 高效利用华为芯片。虽然这些信息的真假难辨,但如果有一半属实,都足以令人震惊。

HuggingFace 创始人建议大家关注官方账号的更新提醒,以便第一时间获取官方信息。但与此同时,社区已经开始行动起来,试图在 DeepSeek V3-0324 的基础上进行创新。

为什么大家会相信 R2 即将发布?这可能与 R1 和 V3 之间发布的时间间隔有关。现在,开源社区已经开始尝试为 V3-0324 加入更深度的思考能力。

DeepSeek-R1TChimera:融合 R1 和 V3 优势的新模型

DeepSeek-R1T-Chimera 模型横空出世,它由德国团队 TNG Technology Consulting 打造。这个新模型的能力与原版 R1 相当,但速度更快,输出 token 减少了 40%,并且基于 MIT 协议开放权重。

简单来说,R1T-Chimera 相当于拥有接近 R1 的能力和接近 V3-0324 的速度,结合了两者的优点。

R1T-Chimera 是如何实现的? 模型融合 的奥秘

R1T-Chimera 并非通过微调或蒸馏实现,而是通过 DeepSeek V3-0324R1 两个模型融合而成。具体来说,它选用了 V3-0324 的共享专家 (shared experts) 加上 R1V3-0324 的路由专家 (routing experts) 的混合体。

TNG 团队表示,融合结果令人惊讶,R1T-Chimera 不仅没有表现出融合模型的缺陷,反而拥有比原版 R1 更紧凑有序的思考过程。

虽然目前还没有详细的技术报告或模型融合方法公布,但我们可以通过实际测试来验证它的性能。

R1T-Chimera 实测:7 米甘蔗如何通过 2 米高 1 米宽的门?

我们使用了一个经典的 AI 难题:“7 米长的甘蔗如何通过 2 米高 1 米宽的门?”

原版 R1 用了 13 秒得出结论,而 R1T-Chimera 则思考了 101 秒,最终计算出可以通过。虽然它仍然无法像人类一样直观地理解三维空间,让甘蔗与门垂直,但它通过计算夹角与投影得出了结论。

R1T-Chimera 在 100 秒内是如何一步步思考出答案的?

通过展开推理 token 可以发现,在简单计算二维方案不可行后,它就想到了三维方案。

在后续的思考中,它也陷入了一些误区,例如旋转甘蔗、弯曲甘蔗、计算“门的厚度”等。

但最终,它通过 “揣摩出题人心理” 走进了正确的路线。

最终给出的答案非常严谨。

虽然人类直觉上就能想到把甘蔗垂直起来通过这个方法,但仔细一想,题目中确实没有给出“门后有多少空间这个条件”。

模型融合:大模型的新趋势?

除了 R1T-Chimera,KIMI K1.5 的技术报告中也探索了模型融合方法,例如将长思维链 (long-cot) 模型和短思维链 (short-cot) 模型融合,直接对两个模型的权重取平均值,无需重新训练。

不过,这种简单融合方法的效果不如论文中提出的 Long2short 强化学习方法。

另一个在模型融合上有经验的团队是 Transformer 作者 Llion Jones 创办的 Sakana AI,他们早在 2024 年初就结合进化算法提出了以 block 为单位的融合方法。

随着更多团队跟进这一路线,模型融合 会不会成为 2025 年大模型的一大技术趋势?

如何体验 R1T-Chimera?

总结

DeepSeek R2 的传闻引发了人们对大模型发展的关注。无论 R2 是否真的存在,开源社区已经开始积极探索新的可能性,R1T-Chimera 模型就是其中的一个例子。通过 模型融合,我们可以将不同模型的优势结合起来,创造出更强大、更高效的模型。未来,模型融合 有望成为大模型发展的重要趋势。

我认为:这世上本没有路,走的人多了,便也成了路。大模型亦是如此,与其仰望 DeepSeek R2 的高山,不如脚踏实地,在开源社区的沃土中,用融合与创新,开辟属于我们自己的道路。

感悟:

我认为:正如那句老话,真的假不了,假的真不了。与其苦苦追寻 R2 的身影,不如沉下心来,看看开源社区的探索。毕竟,真正的创新往往不是来自高高在上的象牙塔,而是源于无数普通人的智慧与努力。这 R1T-Chimera 的出现,不正说明了这一点吗?

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!