NVIDIA通过加速Meta Llama 3上的推理功能扩大了其应用范围

AI前沿1年前 (2024)发布 wanglu852

11,768 0 0

概述

2024年4月18日，Ankit Patel报道，NVIDIA宣布其平台的优化措施，以加速Meta Llama 3——最新一代的大型语言模型（LLM）。这一开放模型结合了NVIDIA的加速计算技术，使开发者、研究人员和企业能够在广泛的应用程序中负责任地进行创新。

NVIDIA AI上的训练

Meta工程师在包含24,576个NVIDIA H100 Tensor Core GPU的计算机集群上训练了Llama 3，这些GPU通过RoCE和NVIDIA Quantum-2 InfiniBand网络连接。Meta最近还计划将其基础设施扩展到350,000个H100 GPU，以进一步推进生成性AI的最新发展。

将Llama 3投入使用

目前，Llama 3的版本已经通过NVIDIA GPU加速，并可在云端、数据中心、边缘计算和个人电脑上使用。开发者可以通过浏览器在ai.nvidia.com上尝试Llama 3。它被打包为一个带有标准应用程序编程接口的NVIDIA NIM微服务，可以部署在任何地方。

企业可以使用NVIDIA NeMo——一个开源的LLM框架，它是安全支持的NVIDIA AI Enterprise平台的一部分——用自己的数据对Llama 3进行微调。定制模型可以用NVIDIA TensorRT-LLM优化推理，并通过NVIDIA Triton Inference Server部署。

将Llama 3带到设备和个人电脑上

Llama 3还可以在NVIDIA Jetson Orin上运行，适用于机器人和边缘计算设备，如Jetson AI Lab中的交互式代理。此外，NVIDIA RTX和GeForce RTX GPU也可加速在工作站和个人电脑上对Llama 3进行推理。这些系统为开发者提供了一个超过1亿个NVIDIA加速系统的目标。

获取Llama 3的最佳性能

部署聊天机器人LLM的最佳实践需要平衡低延迟、良好的阅读速度和最佳的GPU使用以降低成本。这样的服务需要以大约用户阅读速度两倍的速度交付tokens（对LLM来说大致相当于词汇），即大约10 tokens/秒。

根据这些指标，单个NVIDIA H200 Tensor Core GPU在使用70亿参数版本的Llama 3进行初步测试时，生成了约3000 tokens/秒——足以同时服务约300个用户。

这意味着单个装有八个H200 GPU的NVIDIA HGX服务器可以提供24000 tokens/秒，通过同时支持2400多个用户来进一步优化成本。

对于边缘设备，拥有80亿参数的Llama 3版本在Jetson AGX Orin上可生成高达40 tokens/秒，在Jetson Orin Nano上为15 tokens/秒。

推动社区模型

作为一个活跃的开源贡献者，NVIDIA致力于优化帮助用户解决最棘手挑战的社区软件。开源模型还促进了AI透明度，并让用户广泛分享有关AI安全性和韧性的工作。

了解更多关于NVIDIA AI推理平台的信息，包括NIM、TensorRT-LLM和Triton如何使用最先进的技术（如低秩适配）来加速最新LLM。

感悟

NVIDIA通过优化其技术平台，将Meta Llama 3这样的大型语言模型推向实际应用，不仅显著提升了模型推理性能，也为开发者和企业提供了强大的工具，以实现AI技术在各个领域的创新应用。这表明了硬件和软件协同进步对于AI领域发展的重要性。同时，NVIDIA对开源社区的贡献也强调了知识共享与合作在推动技术前沿中的作用。这种跨界合作是实现技术突破、优化成本效益并确保AI应用安全与透明度的关键。

标签
NVIDIA, Meta Llama 3, GPU, AI推理, 大型语言模型, 开源, TensorRT-LLM, Triton, Jetson Orin