启动服务
KTransformers serving 有两条公开启动路径:
| 路径 | 适用场景 |
|---|---|
kt run <model> | 模型已经在 KT 内置 registry 中,希望使用模型默认参数。 |
python -m sglang.launch_server ... --kt-* | 需要显式路径、自定义 placement、tensor parallel 或模型实验参数。 |
Registry 启动
先安装推理包:
pip install kt-kernel sglang-kt
查看或搜索已注册模型:
kt model list
kt model search minimax
启动已注册模型:
kt run m2.1
实际占用 GPU/CPU 内存前,先做 dry run:
kt run m2.1 --dry-run
Registry 条目会携带模型默认参数,例如 --kt-method、attention backend、parser options、token limits 和 placement defaults。不要把某个 registry 默认值直接套到另一个 checkpoint;先看 支持矩阵。
手动 SGLang-KT 启动
需要完整控制时使用手动启动:
python -m sglang.launch_server \
--host 0.0.0.0 \
--port 30000 \
--model-path /path/to/model \
--served-model-name my-model \
--trust-remote-code \
--tensor-parallel-size 1 \
--kt-weight-path /path/to/kt-weights \
--kt-method FP8 \
--kt-cpuinfer 64 \
--kt-threadpool-count 2 \
--kt-num-gpu-experts 32 \
--disable-shared-experts-fusion
--kt-method 和 --kt-weight-path 必须匹配精确权重格式。不要跨模型家族复制启动命令,除非已经核对模型页和支持矩阵。
启动后
继续阅读: