启动服务

KTransformers serving 有两条公开启动路径：

路径	适用场景
`kt run <model>`	模型已经在 KT 内置 registry 中，希望使用模型默认参数。
`python -m sglang.launch_server ... --kt-*`	需要显式路径、自定义 placement、tensor parallel 或模型实验参数。

Registry 启动

先安装推理包：

pip install kt-kernel sglang-kt

查看或搜索已注册模型：

kt model list
kt model search minimax

启动已注册模型：

kt run m2.1

实际占用 GPU/CPU 内存前，先做 dry run：

kt run m2.1 --dry-run

Registry 条目会携带模型默认参数，例如 --kt-method、attention backend、parser options、token limits 和 placement defaults。不同 checkpoint 使用前，请先看支持矩阵。

手动 SGLang-KT 启动

需要完整控制时使用手动启动：

python -m sglang.launch_server \
  --host 0.0.0.0 \
  --port 30000 \
  --model-path /path/to/model \
  --served-model-name my-model \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --kt-weight-path /path/to/kt-weights \
  --kt-method FP8 \
  --kt-cpuinfer 64 \
  --kt-threadpool-count 2 \
  --kt-num-gpu-experts 32 \
  --disable-shared-experts-fusion

--kt-method 和 --kt-weight-path 需要匹配精确权重格式。跨模型家族复制启动命令前，请先核对模型页和支持矩阵。

启动后

继续阅读：