卡罗琳·毕晓普(Caroline Bishop)
2025年8月19日16:37
NVIDIA的新Nemotron Nano 2 9B型号为Edge AI应用程序提供了卓越的准确性和效率,具有混合体系结构和可配置的思维预算。
NVIDIA推出了Nemotron Nano 2 9B,这是一种尖端模型,旨在以高准确性和效率来增强边缘AI性能。根据Hugging Face的说法,这个新版本是Nemotron家族的一部分,重点是为企业级AI应用程序提供出色的推理能力。
高级混合体系结构
Nemotron Nano 2 9B采用了混合变压器– Mamba架构,该结合了两种技术的优势以优化吞吐量并保持准确性。这种设计使该模型可以生成比同行快六倍的代币,从而适合低延迟环境。该模型的可配置思维预算通过允许开发人员根据其特定需求调整准确性,吞吐量和成本来进一步提高效率。
关键功能和应用
NANO 2 9B具有90亿个参数,适用于各种应用程序,包括客户服务,支持聊天机器人和分析副本。它的混合体系结构支持高吞吐量,对于边缘的实时应用至关重要。该模型可以通过拥抱面访问,NVIDIA计划通过NVIDIA NIM进行高吞吐量和低潜伏期的部署。
通过思考预算的效率
创新的思维预算功能使用户能够限制用于推理的代币数量,并可能在不损害准确性的情况下将成本降低多达60%。此功能对于具有严格响应时间要求的应用程序特别有益,例如客户服务聊天机器人和资源有限的边缘设备。
开发和优化
Nemotron Nano 2是使用复杂的训练后过程开发的,该过程包括监督的微调和加强学习,以确保在一系列任务中的稳健性能。该模型还经历了一个压缩过程,以适合硬件约束,同时保持高吞吐量和准确性。
入门
有兴趣利用Nemotron Nano 2 9B的开发人员可以通过探索拥抱面孔的模型开始。该模型的开源性质鼓励进一步的开发和定制,以满足特定的企业需求。 NVIDIA在发布其他技术资源和数据集以帮助开发人员的情况下,很明显。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: