KTransformers

启动服务

KTransformers serving 有两条公开启动路径:

路径适用场景
kt run <model>模型已经在 KT 内置 registry 中,希望使用模型默认参数。
python -m sglang.launch_server ... --kt-*需要显式路径、自定义 placement、tensor parallel 或模型实验参数。

Registry 启动

先安装推理包:

pip install kt-kernel sglang-kt

查看或搜索已注册模型:

kt model list
kt model search minimax

启动已注册模型:

kt run m2.1

实际占用 GPU/CPU 内存前,先做 dry run:

kt run m2.1 --dry-run

Registry 条目会携带模型默认参数,例如 --kt-method、attention backend、parser options、token limits 和 placement defaults。不要把某个 registry 默认值直接套到另一个 checkpoint;先看 支持矩阵

手动 SGLang-KT 启动

需要完整控制时使用手动启动:

python -m sglang.launch_server \
  --host 0.0.0.0 \
  --port 30000 \
  --model-path /path/to/model \
  --served-model-name my-model \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --kt-weight-path /path/to/kt-weights \
  --kt-method FP8 \
  --kt-cpuinfer 64 \
  --kt-threadpool-count 2 \
  --kt-num-gpu-experts 32 \
  --disable-shared-experts-fusion

--kt-method--kt-weight-path 必须匹配精确权重格式。不要跨模型家族复制启动命令,除非已经核对模型页和支持矩阵。

启动后

继续阅读: