The news is by your side.

TEAL 引入免训练激活稀疏性以提高 LLM 效率

54


扎克·安德森
2024 年 9 月 1 日 08:34

TEAL 提供了一种无需训练的激活稀疏性方法,显著提高了大型语言模型 (LLM) 的效率,同时最大限度地减少了性能下降。




TEAL(LLM 中的无训练激活稀疏性)是一种突破性的方法,无需额外训练即可提高大型语言模型 (LLM) 的效率。据 together.ai 称,该方法对整个模型的隐藏状态应用幅度修剪,在最小化性能下降的情况下实现 40-50% 的激活稀疏性。这项创新允许将更少的权重转移到片上内存,解决 LLM 推理的内存限制性质,并在单批次解码中转化为 1.53-1.8 倍的挂钟加速。

背景

LLM 以其庞大的规模而闻名,这在推理过程中带来了挑战,主要是由于将参数从设备内存传输到寄存器的速度限制。已经开发了各种技术,例如量化、权重稀疏性和推测解码,以解决这一“内存墙”。激活稀疏性利用隐藏状态中的零值,是一种较少探索的方法,可避免在解码期间传输不必要的权重通道。

像 OPT-175B 这样的旧模型表现出较高的激活稀疏性,这使得 DejaVu 等方法能够显著提高速度。然而,像 LLaMA 这样的新模型已经转向 SwiGLU 变体,这使得应用此类方法变得更加困难。最近的研究试图“恢复”表现出激活稀疏性的模型,但这需要在大量数据集上进行大量的重新训练。

激励研究:法学硕士 (LLM) 中激活的分布特性

研究表明,LLM 中的隐藏状态会表现出异常值,并且以零为中心,跨层分布形状相似。具体而言,MLP 和注意块之前的状态呈高斯形状,而中间状态呈拉普拉斯形状。这表明,许多低幅度激活可以在模型性能下降可忽略不计的情况下进行修剪,这一概念也在其他研究中得到观察,例如 CATS。

青色

TEAL 通过稀疏化模型中的每个张量引入了优化,在稀疏度为 25% 时实现接近零的性能下降,在稀疏度为 40% 时性能下降最小。在稀疏度为 50% 时,Llama-3 变体的性能下降程度略高于旧版 Llama-2 和 Mistral 变体。TEAL 通过稀疏化每个张量并选择通过输入进行稀疏化,从而实现优于 CATS 的性能,从而降低了错误率。

硬件感知加速

为了对实际加速进行基准测试,TEAL 与 GPT-Fast 集成,在 40% 和 50% 稀疏度下分别实现了高达 1.53 倍和 1.8 倍的显著加速。虽然内核在 0% 稀疏度下比 cuBLAS 更快,但仍有进一步优化的空间。

与量化的兼容性

TEAL 还展示了与量化的兼容性,量化是另一种高效 LLM 推理技术。将激活稀疏性和量化相结合,可以解锁将内存传输到 GPU 寄存器的新机制,从而实现更高的推理速度。

应用

TEAL 最直接的应用是加速资源受限边缘设置中的推理,尤其是在单批次场景中。它还通过更高效地提供模型服务来帮助 Together AI 等推理提供商,后者在大量 GPU 上托管了 100 多个开源模型。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news