v2282
新功能:
同时支持 DeepSeek R1/V3 及 V3-0324,以及标准 function call 能力
Decode 角色支持 DP (Data Parallel) 推理
支持 dynamic spec-decoding
单卡吞吐性能提升:Prefill 可达到1000 TPS以上; 在TPOT 50ms要求下,Decode可达到 500 TPS(Prefill 1000 TPS 对应 Prefill 在 9K 长度以内,Decode 500 TPS 对应在 3K 长度请求的 200 并发下可以达到。)
配置更新:
R1模型默认开启 Reasoning parser,即思考内容在回复的“reasoning_content”内。设置环境变量XLLM_DISABLE_REASONING_PARSER,可使思考内容保持在“content”字段内。
最大上下文长度默认设置为 128K,最大生成长度默认为 16K。
修复:
2025/4/24
可用
v1965
reasonning 可配置
日志对齐输出 requestid
兼容 streaming response 分隔符
2025/3/20
v1964
支持chunk-wise prefill,prefill tps 提升了30%
支持 prefix cache 能力
修复低流量 crash 问题
2025/3/04