MiniMax M1:上下文能力比肩Gemini 2.5 Pro的开源新星?
AI六小虎的复苏:MiniMax带着M1王者归来?
不知道大家是否还记得曾经风光无限的AI六小虎?最近似乎沉寂了许久。而就在昨天深夜,MiniMax突然在X上预告了一整周的发布计划,打响了AI界的第一炮,而第一个项目,便是开源的推理模型MiniMax M1。这个选择深夜发布的操作,真是让人摸不着头脑。
MiniMax M1的性能究竟如何?
直接说结论:MiniMax M1的上下文能力,在目前的开源模型中绝对是顶尖水平,甚至可以媲美Gemini 2.5 Pro。简直是新一代的开源模型之光!
当然,在AIME 2024逻辑数学题、LiveCodeBench编程题和SWE-bench Verified代码补全等测试中,MiniMax M1的表现只能说是中规中矩,有强有弱。但在TAU-bench(需要理解任务目标和推理动机的场景)测试中,M1的准确率达到了62.8%,开始接近顶尖开源模型。
MRCR(4-needle)测试:MiniMax M1一战封神
最令人震惊的是在MRCR (4-needle) 测试中,MiniMax M1 直接登顶,与 Gemini 2.5 Pro 并驾齐驱。熟悉 Gemini 2.5 Pro 的人都知道,它的上下文处理能力非常强大。而 MiniMax M1 作为一个开源模型,能够达到这种水平,实属不易。
MRCR (4-needle)测试是什么?
MRCR 全称 Multi-Round Co-reference Resolution,即多轮共指消解。简单来说,就是考察模型在处理较长的、多轮对话时,能否准确理解用户意图,并区分用户指的是哪一次对话、哪一个内容。
举个例子:用户与AI进行多轮对话,要求AI写诗、谜语、文章等。在对话中,会穿插多个类似的话题(比如多首关于企鹅的诗)。然后让AI回头去找某一次特定的话,比如用户要求“再重复一遍第二首写企鹅的诗”,此时模型必须精准识别“第二首”指的具体是哪一次回答的内容。
4-needle 指的是在同一段超长上下文中同时埋下 4 个“针”(关键信息片段),然后在后续对话里以交错的方式把这 4 根针全部翻出来。
在这种高难度的测试下,MiniMax-M1 几乎超越了所有其他模型,仅与 Gemini 2.5 Pro 存在细微差距。
MiniMax M1背后的技术秘密:Lightning Attention
MiniMax-01基座模型:M1的强大基石
MiniMax M1 优秀的上下文处理能力,得益于他们之前开源的基座模型 MiniMax-01。
Lightning Attention:线性注意力机制的威力
得益于 MiniMax-01 Lightning Attention 线性注意力机制的应用,M1 的时间和空间复杂度随序列长度增加呈近似线性增长,不像传统 Transformer 那样呈平方级膨胀。这意味着在处理长文本时,M1 更加高效。
在推理生成长度为 64K token 时,Lightning Attention 机制使得 M1 的 FLOPs 消耗不到 DeepSeek R1 的一半。当生成长度达到 100K token 时,M1 仅消耗其约 25% 的 FLOPs。
参数与上下文长度:MoE架构与百万字上下文
MiniMax-M1 与之前开源的基座模型 MiniMax-01 一样,都采用了 456B 参数的 MoE 架构,实际激活 45.9B。最长上下文长度达到了 100 万字,是 DeepSeek-R1 的 8 倍。
此次开源了两个上下文长度的推理模型,分别是 40K 和 80K。需要注意的是,这里的 80K 和 40K 指的是 Extended Thinking 的上限,而非上下文长度。
- GitHub: https://github.com/MiniMax-AI/MiniMax-M1
- Hugging Face: https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1
MiniMax M1的实际应用体验:超乎想象的强大
MiniMax官网体验:初探M1的强大之处
MiniMax M1 已经在 MiniMax 官网上线,可以直接体验。
网站链接:https://chat.minimaxi.com/
将 MiniMax-M1 的技术报告扔进去,让它逐字翻译,结果竟然连图片、公式和表格都能完整地翻译出来,虽然部分图表有丢失,但整体效果已经非常出色。更令人惊喜的是,它还会自作主张地省略掉参考文献,简直太懂用户的心了。
高级翻译测试:精准理解与灵活应用
在翻译测试中,我尝试让 MiniMax-M1 将文档翻译成中文,并在括号里标注符合大学六级英语水平的英文词汇或短语,它都完美地完成了任务,上下文准确性令人惊叹。
聊天记录分析:精准识别与样式重构
我还将一周的微信群聊天记录导入 MiniMax-M1,让它找出绛烨的聊天记录。它不仅准确识别出了绛烨的微信ID,还扒出了他的所有聊天记录,甚至做了样式重构,链接可以直接点击,简直太神奇了。
文字冒险游戏:身临其境的沉浸式体验
由于超长且精准的上下文能力,你可以与 MiniMax-M1 玩真正的文字冒险游戏,因为它能记住你的出身,记住一切。
长篇小说总结:轻松应对海量信息
我将包含 34 个刘慈欣小说的故事合集扔给 MiniMax-M1,让它为每个故事写一段总结和推荐语。MiniMax-M1 出色地完成了任务,充分展现了超长上下文的魅力。而如果换成 DeepSeek,可能只能阅读 8% 的内容。
挑战极限:MiniMax M1的不足之处
当然,MiniMax-M1 也并非完美无缺。当我让它数本草纲目里一共有多少种药材时,它最终给出的答案是 400 种,而正确答案是 1892 种。不过,考虑到这个任务的难度,也情有可原。
写作、编程与数学:综合能力测试
在写作方面,MiniMax-M1 表现中规中矩。数学方面,虽然没有进行完整的测试,但目前测试的两道高考大题都做对了。
在编程方面,MiniMax-M1 生成的前端页面审美还有待提高,略显直男审美。例如,在生成飞书多维表格的可视化网页时,Gemini 生成的页面更加美观。
总结与展望:MiniMax的未来之路
总的来说,MiniMax M1 确实带来了一些惊喜,它的一些新特性很有意思,也拔高了开源领域的模型水平。
期待未来几天 MiniMax 能够继续推出更多有意思的产品。以我对 MiniMax 的了解,视频模型应该很快就会更新了,毕竟 Video 01-Director 已经发布很久了。此外,或许还会推出音乐模型,这也很符合 MiniMax 的气质。
希望 MiniMax 能够继续努力,让 AI 的这一把火烧得更热烈些。
我认为: MiniMax M1的出现,无疑给开源大模型领域注入了一剂强心针。它在上下文理解能力上的突破,让我们看到了国产AI的巨大潜力。然而,我们也要清醒地认识到,M1并非完美,在某些特定任务上仍有不足。未来的AI之路还很长,需要更多像MiniMax这样的企业不断探索和创新,才能真正实现AI技术的普及和应用。