扎克·安德森
2024 年 8 月 16 日 03:03
NVIDIA 发布 TensorRT 模型优化器 v0.15,通过缓存扩散和扩展的 AI 模型支持等新功能提供增强的推理性能。
NVIDIA 推出了 NVIDIA TensorRT 模型优化器的最新 v0.15 版本,这是一款尖端的量化工具包,旨在增强量化、稀疏性和剪枝等模型优化技术。据 NVIDIA 技术博客称,此更新旨在降低模型复杂性并优化生成式 AI 模型的推理速度。
缓存扩散
新版本包括对缓存扩散的支持,该支持基于之前建立的 8 位训练后量化 (PTQ) 技术。此功能通过重复使用之前去噪步骤的缓存输出来加速扩散模型的推理。DeepCache 和块缓存等方法无需额外训练即可优化推理速度。该机制利用了连续去噪步骤之间高级特征的时间一致性,使其与 DiT 和 UNet 等模型兼容。
开发人员可以通过在模型优化器中使用单个“cachify”实例和扩散管道来启用缓存扩散。例如,在 NVIDIA H100 Tensor Core GPU 上的稳定扩散 XL (SDXL) 模型中启用缓存扩散可使每秒图像处理速度提高 1.67 倍。当同时启用 FP8 时,这种加速会进一步提高。
使用 NVIDIA NeMo 进行量化感知训练
量化感知训练 (QAT) 模拟神经网络训练期间的量化效果,以在量化后恢复模型精度。此过程涉及计算缩放因子并将模拟量化损失纳入微调过程。模型优化器使用自定义 CUDA 内核进行模拟量化,实现较低精度的模型权重和激活,从而实现高效的硬件部署。
模型优化器 v0.15 扩展了 QAT 集成支持,包括 NVIDIA NeMo,这是一个用于开发自定义生成式 AI 模型的企业级平台。这种对 NeMo 模型的一流支持允许用户直接使用原始训练管道对模型进行微调。有关更多详细信息,请参阅 NeMo GitHub 存储库中的 QAT 示例。
QLoRA 工作流程
量化低秩自适应 (QLoRA) 是一种微调技术,可减少模型训练期间的内存使用量和计算复杂度。它将量化与低秩自适应 (LoRA) 相结合,使大型语言模型 (LLM) 微调更加容易。模型优化器现在使用 NF4 数据类型支持 NVIDIA NeMo 的 QLoRA 工作流程。对于 Alpaca 数据集上的 Llama 13B 模型,QLoRA 可以将峰值内存使用量减少 29-51%,同时保持模型准确性。
扩展对 AI 模型的支持
最新版本还扩展了对更广泛的 AI 模型套件的支持,包括 Stability.ai 的 Stable Diffusion 3、Google 的 RecurrentGemma、Microsoft 的 Phi-3、Snowflake 的 Arctic 2 和 Databricks 的 DBRX。有关更多详细信息,请参阅 Model Optimizer GitHub 存储库中提供的示例脚本和支持矩阵。
立即开始
NVIDIA TensorRT 模型优化器可与 NVIDIA TensorRT-LLM 和 TensorRT 无缝集成以进行部署。它可在 PyPI 上以 nvidia-modelopt 形式安装。访问 NVIDIA TensorRT 模型优化器 GitHub 页面,获取推理优化的示例脚本和方案。还提供全面的文档。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news