路易莎·克劳福德
2024 年 9 月 24 日 10:02
NVIDIA 的 Llama 3.1-Nemotron-51B 以卓越的准确性和效率在 AI 领域树立了新的基准,可在单个 GPU 上实现高工作负载。
NVIDIA 宣布发布突破性的语言模型 Llama 3.1-Nemotron-51B,该模型有望在 AI 性能方面实现前所未有的准确性和效率。新模型源自 Meta 的 Llama-3.1-70B,采用新颖的神经架构搜索 (NAS) 方法,显著提高了其准确性和效率。据 NVIDIA 技术博客称,即使在高工作负载下,该模型也可以安装在单个 NVIDIA H100 GPU 上,使其更易于使用且更具成本效益。
卓越的吞吐量和工作负载效率
Llama 3.1-Nemotron-51B 模型的性能优于其前代产品,推理速度提高了 2.2 倍,同时保持了几乎相同的准确度。由于内存占用减少且架构优化,这种效率允许单个 GPU 在推理过程中处理 4 倍的工作负载。
优化每美元的准确度
采用大型语言模型 (LLM) 面临的一个重大挑战是推理成本。Llama 3.1-Nemotron-51B 模型通过在准确性和效率之间提供平衡的权衡来解决此问题,使其成为从边缘系统到云数据中心等各种应用的经济高效的解决方案。此功能对于通过 Kubernetes 和 NIM 蓝图部署多个模型特别有利。
使用 NVIDIA NIM 简化推理
Nemotron 模型使用 TensorRT-LLM 引擎进行了优化,以提高推理性能,并打包为 NVIDIA NIM 推理微服务。此设置简化并加速了在 NVIDIA 加速基础设施(包括云、数据中心和工作站)中部署生成式 AI 模型。
底层——使用 NAS 构建模型
Llama 3.1-Nemotron-51B-Instruct 模型采用高效的 NAS 技术和训练方法开发而成,可以创建针对特定 GPU 优化的非标准 Transformer 模型。该方法包括一个块蒸馏框架,用于并行训练各种块变体,确保高效准确的推理。
量身定制法学硕士课程以满足不同需求
NVIDIA 的 NAS 方法允许用户在准确率和效率之间选择最佳平衡点。例如,Llama-3.1-Nemotron-40B-Instruct 变体的创建是为了优先考虑速度和成本,与母模型相比,其速度提高了 3.2 倍,但准确率略有下降。
详细结果
Llama 3.1-Nemotron-51B-Instruct 模型已根据多项行业标准进行了基准测试,在各种场景中均表现出色。其吞吐量是参考模型的两倍,在多种用例中都具有成本效益。
Llama 3.1-Nemotron-51B-Instruct 模型为希望以经济高效的方式利用高精度基础模型的用户和公司提供了一系列新的机会。它在精度和效率之间的平衡使其成为建筑商的一个有吸引力的选择,并展示了 NAS 方法的有效性,NVIDIA 计划将该方法扩展到其他模型。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news