Mistral AI 推出 Pixtral 12B：一种突破性的多模态模型

艾丽斯·科尔曼
2024 年 9 月 18 日 03:29

Mistral AI 推出了 Pixtral 12B，这是一种最先进的多模式模型，擅长文本和图像任务，在指令遵循和推理方面具有显著的表现。

Mistral AI 已正式推出 Pixtral 12B，这是该公司首款多模式模型，旨在无缝处理文本和图像数据。据 Mistral AI 称，该模型已获得 Apache 2.0 许可。

Pixtral 12B 的主要特点

Pixtral 12B 凭借其原生多模态能力脱颖而出，使用交错图像和文本数据进行训练。该模型集成了一个新的 400M 参数视觉编码器和一个基于 Mistral Nemo 的 12B 参数多模态解码器。这种架构使其能够支持可变的图像大小和宽高比，并在其 128K 标记的长上下文窗口内处理多幅图像。

性能方面，Pixtral 12B 在多模态任务中表现出色，在纯文本基准测试中保持了最佳性能。它在 MMMU 推理基准测试中取得了 52.5% 的成绩，超越了几个较大的模型。

绩效与评估

Pixtral 12B 是 Mistral Nemo 12B 的直接替代品，可提供一流的多模式推理能力，同时不会影响文本功能（如指令遵循、编码和数学）。该模型使用一致的评估工具对各种数据集进行评估，其表现优于 Claude 3 Haiku 等开放和封闭模型。值得注意的是，在多模式基准测试中，Pixtral 甚至达到或超过了 LLaVa OneVision 72B 等大型模型的性能。

在指令跟踪方面，Pixtral 尤其出色，文本 IF-Eval 和 MT-Bench 的相对改进率比最接近的开源模型高出 20%。它在多模式指令跟踪基准测试中也表现强劲，优于 Qwen2-VL 7B 和 Phi-3.5 Vision 等模型。

架构和功能

Pixtral 12B 的架构旨在优化速度和性能。视觉编码器以原始分辨率和宽高比对图像进行标记，将其转换为图像中每个 16×16 块的图像标记。然后，这些标记被展平以创建一个序列，并在行之间和图像末尾添加 (IMG BREAK) 和 (IMG END) 标记。这使模型能够准确理解复杂的图表和文档，同时为较小的图像提供快速的推理速度。

Pixtral 的最终架构由两个组件组成：视觉编码器和多模态变换器解码器。该模型经过训练，可以在交错的图像和文本数据上预测下一个文本标记，从而允许其在 128K 个标记的大上下文窗口中处理任意数量、任意大小的图像。

实际应用

Pixtral 12B 在各种实际应用中都表现出色，包括复杂图形推理、图表理解和多图像指令跟踪。例如，它可以将来自多个表格的信息合并到单个 markdown 表格中，或生成 HTML 代码以根据图像提示创建网站。

如何访问 Pixtral

用户可以通过 Le Chat（Mistral AI 的对话聊天界面）或 La Plateforme（允许通过 API 调用进行集成）轻松试用 Pixtral。对于有兴趣在其应用程序中利用 Pixtral 功能的用户，我们提供详细的文档。

对于喜欢在本地运行 Pixtral 的用户，可以通过 mistral-inference 库或 vLLM 库访问该模型，后者可提供更高的服务吞吐量。文档中提供了有关设置和使用的详细说明。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news

Mistral AI 推出 Pixtral 12B：一种突破性的多模态模型

Pixtral 12B 的主要特点

绩效与评估

架构和功能

实际应用

如何访问 Pixtral

Related Posts

“命令女人进行性剥削就像订购外卖一样容易”：如何在线出售贩运受害者|英国新闻

AI驱动的工具彻底改变了对幽灵渔网的检测

为什么纽蒙特公司（NEM）周五坠毁

BOE的Greene警告通货膨胀敏感性，工资价格螺旋的风险

集会后的美元稳定，重点转移到美国 – 中国贸易谈判

高管们汇聚在华盛顿停止特朗普的外国投资税

在美国 – 中国贸易谈判之前为期两天的损失后，黄金稳定