You need to enable JavaScript to run this app.
导航
xLLM发布记录
最近更新时间:2025.04.21 15:31:44首次发布时间:2025.03.28 11:21:11
我的收藏
有用
有用
无用
无用
  • 涉及地域:若无特别说明,以下功能都会在 华北2(北京)华北3(北京2)华东4(大同)华东2(上海)华南1(广州)亚太东南(柔佛) 几个地域发布。
版本说明更新日期上线状态

v2282

新功能:

  • 同时支持 DeepSeek R1/V3 及 V3-0324,以及标准 function call 能力

  • Decode 角色支持 DP (Data Parallel) 推理

  • 支持 dynamic spec-decoding

  • 单卡吞吐性能提升:Prefill 可达到1000 TPS以上; 在TPOT 50ms要求下,Decode可达到 500 TPS(Prefill 1000 TPS 对应 Prefill 在 9K 长度以内,Decode 500 TPS 对应在 3K 长度请求的 200 并发下可以达到。)

配置更新:

  • R1模型默认开启 Reasoning parser,即思考内容在回复的“reasoning_content”内。设置环境变量XLLM_DISABLE_REASONING_PARSER,可使思考内容保持在“content”字段内。

  • 最大上下文长度默认设置为 128K,最大生成长度默认为 16K。

修复:

  • 修复流式请求结尾返回" data: [DONE]"

2025/4/24

可用

v1965

  • reasonning 可配置

  • 日志对齐输出 requestid

  • 兼容 streaming response 分隔符

2025/3/20

可用

v1964

  • 支持chunk-wise prefill,prefill tps 提升了30%

  • 支持 prefix cache 能力

  • 修复低流量 crash 问题

2025/3/04

可用

R1支持 DeepSeek-R1 模型推理2025/2已下线