AI共同为LLM请求启动了成本效益的批量API

By Amelia On 6 月 12, 2025

詹姆斯·丁
6月11日，2025年19:34

AI一起引入了批处理API，该API用于处理大型语言模型请求，将成本降低了50％。该服务为非紧急工作负载提供了可扩展的异步处理。

AI一起发布了其新批量API，该服务旨在以大大降低的成本处理大量大型语言模型（LLM）请求。根据AI的说法，批处理API承诺以实时推理成本的一半提供企业级的性能，这使其成为企业和开发人员的有吸引力的选择。

为什么要批处理处理？

批处理处理允许处理不需要立即响应的AI工作负载，例如合成数据生成和离线摘要。通过在非高峰时间内不同步处理这些请求，用户可以从降低的成本中受益，同时保持可靠的产出。大多数批次在几个小时内完成，最大处理窗口为24小时。

与实时API呼叫相比，批处理API的非紧急工作负载可降低50％的成本，使用户能够扩展AI推断而无需增加预算。

用户可以在单个批处理文件中提交多达50,000个请求，其中批处理操作的速率限制与实时使用情况分开。该服务包括从验证到完成的各个阶段的实时进度跟踪。

请求将作为JSONL文件上传，并通过批处理API监视进度。完成处理后，可以下载结果。

批处理API支持15个高级模型，包括DeepSeek-Ai和Meta-Lalama系列，这些系列量身定制，以处理各种复杂的任务。

批处理API在专用速率限制下运行，每个型号允许多达1000万个令牌和每个批次文件的50,000个请求，每个输入文件的最大大小为100MB。

用户从介绍性的50％折扣中受益，没有前期承诺。最佳批量尺寸从1,000到10,000个请求不等，模型选择应基于任务复杂性。每30-60秒建议监视以进行更新。

要开始使用批处理API，用户应升级到最新 together Python客户端，查看批处理API文档，并探索在线可用的示例食谱。现在，所有用户都可以使用该服务，为LLM请求的批量处理提供了可观的成本节省。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：