艾丽斯·科尔曼
2024 年 9 月 18 日 03:29
Mistral AI 推出了 Pixtral 12B,这是一种最先进的多模式模型,擅长文本和图像任务,在指令遵循和推理方面具有显著的表现。
Mistral AI 已正式推出 Pixtral 12B,这是该公司首款多模式模型,旨在无缝处理文本和图像数据。据 Mistral AI 称,该模型已获得 Apache 2.0 许可。
Pixtral 12B 的主要特点
Pixtral 12B 凭借其原生多模态能力脱颖而出,使用交错图像和文本数据进行训练。该模型集成了一个新的 400M 参数视觉编码器和一个基于 Mistral Nemo 的 12B 参数多模态解码器。这种架构使其能够支持可变的图像大小和宽高比,并在其 128K 标记的长上下文窗口内处理多幅图像。
性能方面,Pixtral 12B 在多模态任务中表现出色,在纯文本基准测试中保持了最佳性能。它在 MMMU 推理基准测试中取得了 52.5% 的成绩,超越了几个较大的模型。
绩效与评估
Pixtral 12B 是 Mistral Nemo 12B 的直接替代品,可提供一流的多模式推理能力,同时不会影响文本功能(如指令遵循、编码和数学)。该模型使用一致的评估工具对各种数据集进行评估,其表现优于 Claude 3 Haiku 等开放和封闭模型。值得注意的是,在多模式基准测试中,Pixtral 甚至达到或超过了 LLaVa OneVision 72B 等大型模型的性能。
在指令跟踪方面,Pixtral 尤其出色,文本 IF-Eval 和 MT-Bench 的相对改进率比最接近的开源模型高出 20%。它在多模式指令跟踪基准测试中也表现强劲,优于 Qwen2-VL 7B 和 Phi-3.5 Vision 等模型。
架构和功能
Pixtral 12B 的架构旨在优化速度和性能。视觉编码器以原始分辨率和宽高比对图像进行标记,将其转换为图像中每个 16×16 块的图像标记。然后,这些标记被展平以创建一个序列,并在行之间和图像末尾添加 (IMG BREAK) 和 (IMG END) 标记。这使模型能够准确理解复杂的图表和文档,同时为较小的图像提供快速的推理速度。
Pixtral 的最终架构由两个组件组成:视觉编码器和多模态变换器解码器。该模型经过训练,可以在交错的图像和文本数据上预测下一个文本标记,从而允许其在 128K 个标记的大上下文窗口中处理任意数量、任意大小的图像。
实际应用
Pixtral 12B 在各种实际应用中都表现出色,包括复杂图形推理、图表理解和多图像指令跟踪。例如,它可以将来自多个表格的信息合并到单个 markdown 表格中,或生成 HTML 代码以根据图像提示创建网站。
如何访问 Pixtral
用户可以通过 Le Chat(Mistral AI 的对话聊天界面)或 La Plateforme(允许通过 API 调用进行集成)轻松试用 Pixtral。对于有兴趣在其应用程序中利用 Pixtral 功能的用户,我们提供详细的文档。
对于喜欢在本地运行 Pixtral 的用户,可以通过 mistral-inference 库或 vLLM 库访问该模型,后者可提供更高的服务吞吐量。文档中提供了有关设置和使用的详细说明。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news