Llama 4 发布:Meta 的 AI 战略新方向?
Llama 4 有哪些新特性?
Meta 发布了 Llama 4,这次并没有追求参数量的“遥遥领先”,而是通过三款模型来重新布局,分别是 Scout、Maverick 和 Behemoth。这种策略转变意味着什么?
Scout:轻量级专家模型,主打部署
- 参数量: 109B 参数,17B 激活
- 架构: 16 专家 MoE (Mixture of Experts)
- 上下文长度: 10M token
- 适用场景: 文档分析、多轮对话、代码等
- 特点: 可部署在单张 H100 上,轻量级,注重实用性。
Scout 就像一个精干的特种兵,虽然体型不大,但身手敏捷,能完成各种复杂任务。 它特别适合在资源有限的环境中部署,例如边缘设备或小型服务器。
Maverick:对标 GPT-4o 的主力模型
- 参数量: 400B 参数,17B 激活
- 架构: 128 专家 MoE
- 上下文长度: 1M token
- 特点: 推理时仅激活两个专家,性能不逊色于 GPT-4o,但推理成本仅为其十分之一。
Maverick 是一个全能选手,它在各种任务上的表现都非常出色,甚至可以与 GPT-4o 相媲美。 更重要的是,它的推理成本非常低,这意味着我们可以用更少的钱获得同样强大的 AI 能力。
Behemoth:不部署的训练模型,能力之源
- 参数量: 2T 参数,288B 激活
- 架构: 16 专家 MoE
- 特点: 不部署、不开放,仅用于训练阶段,为 Scout 和 Maverick 生成训练数据。
Behemoth 就像一个经验丰富的导师,它拥有强大的知识储备和推理能力,但它并不直接参与实际任务,而是专注于培养 Scout 和 Maverick 的能力。
Llama 4 的架构有何变化?
Llama 4 最大的变化之一是采用了 MoE (Mixture of Experts) 架构。Llama 3 即使是 400B 的模型也是 Dense 架构,而 Llama 4 则全面转向 MoE。
什么是 MoE 架构?
简单来说,MoE 架构就像一个专家团队,每个专家擅长不同的领域。当模型接收到输入时,它会根据输入的内容选择合适的专家来处理。
举个例子: 假设我们要训练一个 AI 模型来回答各种问题。我们可以训练多个专家,一个擅长回答历史问题,一个擅长回答科学问题,一个擅长回答技术问题。当用户提问时,模型会先判断问题属于哪个领域,然后选择相应的专家来回答。
MoE 架构的优势
- 提高模型能力密度: 在相同的计算开销下,MoE 模型可以拥有更大的参数量,从而提高模型的能力。
- 降低推理成本: 推理时只需要激活部分专家,从而降低推理成本。
MoE 架构的挑战
- 调度复杂: 如何选择合适的专家是一个难题。
- 专家平衡: 如何保证每个专家都得到充分的训练是一个挑战。
Llama 4 如何实现多模态?
Llama 4 在多模态方面也取得了重要进展,它采用了 原生多模态架构。
原生多模态架构的优势
在 Llama 3 时代,图像输入需要依赖外挂 encoder,与语言模型拼接。而在 Llama 4 时代,图像可以直接作为 token 输入,参与语言上下文建模。这意味着图文不是模型之后拼出来的,而是在训练中就一体建模的语境单位。
这种结构带来的提升非常直接:
- Maverick 在 DocVQA 拿下 94.4,超过 GPT-4o(92.8)
- ChartQA 达到 90.0,MathVista 73.7,均高于 GPT-4o
- 推理成本却仅为 GPT-4o 的十分之一
原生多模态架构的应用
即使是轻量级模型 Scout,在 DocVQA、ChartQA 上也打出了高于同尺寸模型(甚至部分大模型)的稳定表现。
Llama 4 的训练策略有何不同?
Llama 4 的训练策略也发生了转变,Meta 不再执着于“最强模型”上线,而是选择把最大资源投入到训练系统本身。
大模型是过程,而非终点
Behemoth 的全部作用,是生成训练数据,为 Scout 和 Maverick 提供能力示范,并通过轻量 DPO 和 RLHF 进一步优化行为。
这种策略转变意味着: Meta 更加注重模型的训练过程,而不是仅仅追求模型的参数量和能力。
总结:Llama 4 的战略意义
Llama 4 并没有带来参数最大、能力最强的单点突破。但它用一个更完整、更分工明确的体系,回应了模型设计正在发生的变化:Scout 是部署,Maverick 是交付,Behemoth 是理解力的源头。与其说是一次产品发布,更像是宣告一次路线调整。
我认为:Llama 4 的发布,并非是孤立的事件,而是 Meta 在 AI 领域战略调整的一个缩影。它预示着 AI 模型的未来发展方向:从追求单一模型的强大,转向构建一个完整、高效的 AI 体系。这是一种更加务实、更加可持续的发展模式,也更符合 AI 技术发展的客观规律。正如那句老话所说:“路漫漫其修远兮,吾将上下而求索。” 在 AI 的道路上,没有终点,只有不断探索和前进。
, , , , ,