詹姆斯·丁
6月11日,2025年19:34
AI一起引入了批处理API,该API用于处理大型语言模型请求,将成本降低了50%。该服务为非紧急工作负载提供了可扩展的异步处理。
AI一起发布了其新批量API,该服务旨在以大大降低的成本处理大量大型语言模型(LLM)请求。根据AI的说法,批处理API承诺以实时推理成本的一半提供企业级的性能,这使其成为企业和开发人员的有吸引力的选择。
为什么要批处理处理?
批处理处理允许处理不需要立即响应的AI工作负载,例如合成数据生成和离线摘要。通过在非高峰时间内不同步处理这些请求,用户可以从降低的成本中受益,同时保持可靠的产出。大多数批次在几个小时内完成,最大处理窗口为24小时。
关键好处
节省50%的成本
与实时API呼叫相比,批处理API的非紧急工作负载可降低50%的成本,使用户能够扩展AI推断而无需增加预算。
大规模处理
用户可以在单个批处理文件中提交多达50,000个请求,其中批处理操作的速率限制与实时使用情况分开。该服务包括从验证到完成的各个阶段的实时进度跟踪。
简单集成
请求将作为JSONL文件上传,并通过批处理API监视进度。完成处理后,可以下载结果。
支持的模型
批处理API支持15个高级模型,包括DeepSeek-Ai和Meta-Lalama系列,这些系列量身定制,以处理各种复杂的任务。
它如何工作
- 准备您的请求:在JSONL文件中格式请求,每个请求都带有唯一标识符。
- 上传并提交:使用文件API上传批处理并创建作业。
- 监视进度:通过各种处理阶段跟踪工作。
- 下载结果:检索结构化结果,并单独记录任何错误。
速率限制和规模
批处理API在专用速率限制下运行,每个型号允许多达1000万个令牌和每个批次文件的50,000个请求,每个输入文件的最大大小为100MB。
定价和最佳实践
用户从介绍性的50%折扣中受益,没有前期承诺。最佳批量尺寸从1,000到10,000个请求不等,模型选择应基于任务复杂性。每30-60秒建议监视以进行更新。
入门
要开始使用批处理API,用户应升级到最新 together
Python客户端,查看批处理API文档,并探索在线可用的示例食谱。现在,所有用户都可以使用该服务,为LLM请求的批量处理提供了可观的成本节省。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: