Meta发布Llama 3.1 超大参数 405b 模型：开源人工智能的新纪元

AI前沿1年前 (2024)发布 wanglu852

8,785 0 0

Meta 发布 Llama 3.1：开源人工智能的未来之路

在2024年7月23日，北京时间23点，Meta公司正式发布了其最新的开源模型——Llama 3.1。此版本包含三种尺寸：8B、70B 和 405B，其中405B是迄今为止最强的开源人工智能模型，其最大上下文长度提升至128k，超越了GPT-4等同行，显示出其卓越的性能。

Llama 3.1 的特点有哪些？

新模型与尺寸

Llama 3.1不仅继承了之前8B和70B版本的优势，还在推理能力和上下文长度方面进行了显著提升，达到了128K上下文长度。这意味着在处理复杂问题时，模型的数据理解能力和响应质量得到了显著增强。

405B 的优势

405B模型堪称此次发布的重头戏，其表现已经与顶尖竞争对手如GPT-4和Claude 3.5相当，甚至在某些评分上获得更高评价。这一突破使得更多开发者能够利用其强大的推理和生成能力，满足更复杂的应用需求。

如何高效训练和微调 Llama 3.1？

训练数据与方法

Llama 3.1使用了超过15万亿的公开数据进行训练，运用了1.6万个H100 GPU，选择了仅解码器的transformer模型架构来确保训练的稳定性。

微调过程

微调是通过监督微调(SFT)、拒绝抽样(RS)和直接偏好优化(DPO)进行的。使用合成数据生成的SFT示例经过多轮迭代，以实现更高质量的训练效果。

为什么开源人工智能是未来的方向？

扎克伯格的观点

在发布会中，Meta的CEO扎克伯格表示，开源人工智能是未来的方向，这与过去科技公司对于闭源软件的坚持形成鲜明对比。他指出，开放生态系统能够推动创新，确保技术安全。

社区的力量

开源AI不仅提升了模型的可自定义性，也允许开发者根据自身需求训练相应的模型。这样的策略将可防止过度依赖于某一个闭源供应商，并避免被锁定在特定的技术生态中。

如何参与开源生态的建设？

加入 Llama 生态

Meta正在积极与多家公司合作，包括亚马逊、Databricks 和 Nvidia，以建设一个广泛的开源生态系统。开发者可以在主要云平台上运行Llama 3.1，并在上面进行微调与定制。

建立宽广的合作

通过与Scale.AI、Dell、Deloitte等公司合作，Meta期望帮助企业更好地利用Llama，并以用户数据训练定制模型。

我认为：

我认为，Llama 3.1的发布不仅是Meta在人工智能领域的一次技术突破，更是广泛推动开源AI发展的重要一步。开源不仅为开发者提供了一个灵活且可控的技术平台，还能将人工智能的好处带给更广泛的社会。这一变化可能会使技术的应用与进步更加普遍，避免技术被少数公司所垄断，促进经济和社会的进一步发展。

随着Llama生态的不断壮大，未来的人工智能将更加安全、开放和高效，这对整体社会的利益都是有利的。