TEAL 引入免训练激活稀疏性以提高 LLM 效率

By Amelia On 9 月 1, 2024

扎克·安德森
2024 年 9 月 1 日 08:34

TEAL 提供了一种无需训练的激活稀疏性方法，显著提高了大型语言模型 (LLM) 的效率，同时最大限度地减少了性能下降。

TEAL（LLM 中的无训练激活稀疏性）是一种突破性的方法，无需额外训练即可提高大型语言模型 (LLM) 的效率。据 together.ai 称，该方法对整个模型的隐藏状态应用幅度修剪，在最小化性能下降的情况下实现 40-50% 的激活稀疏性。这项创新允许将更少的权重转移到片上内存，解决 LLM 推理的内存限制性质，并在单批次解码中转化为 1.53-1.8 倍的挂钟加速。

背景

LLM 以其庞大的规模而闻名，这在推理过程中带来了挑战，主要是由于将参数从设备内存传输到寄存器的速度限制。已经开发了各种技术，例如量化、权重稀疏性和推测解码，以解决这一“内存墙”。激活稀疏性利用隐藏状态中的零值，是一种较少探索的方法，可避免在解码期间传输不必要的权重通道。

像 OPT-175B 这样的旧模型表现出较高的激活稀疏性，这使得 DejaVu 等方法能够显著提高速度。然而，像 LLaMA 这样的新模型已经转向 SwiGLU 变体，这使得应用此类方法变得更加困难。最近的研究试图“恢复”表现出激活稀疏性的模型，但这需要在大量数据集上进行大量的重新训练。

激励研究：法学硕士 (LLM) 中激活的分布特性

研究表明，LLM 中的隐藏状态会表现出异常值，并且以零为中心，跨层分布形状相似。具体而言，MLP 和注意块之前的状态呈高斯形状，而中间状态呈拉普拉斯形状。这表明，许多低幅度激活可以在模型性能下降可忽略不计的情况下进行修剪，这一概念也在其他研究中得到观察，例如 CATS。

青色

TEAL 通过稀疏化模型中的每个张量引入了优化，在稀疏度为 25% 时实现接近零的性能下降，在稀疏度为 40% 时性能下降最小。在稀疏度为 50% 时，Llama-3 变体的性能下降程度略高于旧版 Llama-2 和 Mistral 变体。TEAL 通过稀疏化每个张量并选择通过输入进行稀疏化，从而实现优于 CATS 的性能，从而降低了错误率。

硬件感知加速

为了对实际加速进行基准测试，TEAL 与 GPT-Fast 集成，在 40% 和 50% 稀疏度下分别实现了高达 1.53 倍和 1.8 倍的显著加速。虽然内核在 0% 稀疏度下比 cuBLAS 更快，但仍有进一步优化的空间。

与量化的兼容性

TEAL 还展示了与量化的兼容性，量化是另一种高效 LLM 推理技术。将激活稀疏性和量化相结合，可以解锁将内存传输到 GPU 寄存器的新机制，从而实现更高的推理速度。

应用

TEAL 最直接的应用是加速资源受限边缘设置中的推理，尤其是在单批次场景中。它还通过更高效地提供模型服务来帮助 Together AI 等推理提供商，后者在大量 GPU 上托管了 100 多个开源模型。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news

AI blockchain Crypto LLM news TEAL 引入免训练激活稀疏性以提高效率