xLLM发布记录--机器学习平台-火山引擎

文档中心

导航

xLLM发布记录

最近更新时间：2025.04.21 15:31:44首次发布时间：2025.03.28 11:21:11

涉及地域：若无特别说明，以下功能都会在 华北2(北京)、华北3(北京2)、华东4(大同)、华东2(上海)、华南1(广州)、亚太东南(柔佛) 几个地域发布。

版本	说明	更新日期	上线状态
v2282	新功能：同时支持 DeepSeek R1/V3 及 V3-0324，以及标准 function call 能力 Decode 角色支持 DP (Data Parallel) 推理支持 dynamic spec-decoding 单卡吞吐性能提升：Prefill 可达到1000 TPS以上; 在TPOT 50ms要求下，Decode可达到 500 TPS（Prefill 1000 TPS 对应 Prefill 在 9K 长度以内，Decode 500 TPS 对应在 3K 长度请求的 200 并发下可以达到。）配置更新： R1模型默认开启 Reasoning parser，即思考内容在回复的“reasoning_content”内。设置环境变量XLLM_DISABLE_REASONING_PARSER，可使思考内容保持在“content”字段内。最大上下文长度默认设置为 128K，最大生成长度默认为 16K。修复：修复流式请求结尾返回" data: [DONE]"	2025/4/24	可用
v1965	reasonning 可配置日志对齐输出 requestid 兼容 streaming response 分隔符	2025/3/20	可用
v1964	支持chunk-wise prefill，prefill tps 提升了30% 支持 prefix cache 能力修复低流量 crash 问题	2025/3/04	可用
R1	支持 DeepSeek-R1 模型推理	2025/2	已下线