KTransformers

首次启动推理服务

先安装推理包:

pip install kt-kernel sglang-kt

方式一:已注册模型

模型已经在内置 registry 中时,优先使用 kt run

kt run m2.1

其他已注册示例包括 DeepSeek V3 / R1 / V3.2、DeepSeek V4-Flash、Kimi K2 Thinking、MiniMax M2 / M2.1。registry 默认值会包含模型对应的 --kt-method、attention backend 和 serving 参数。

方式二:手动 SGLang-KT 启动

需要完整控制模型路径和 KT 参数时,使用 SGLang launch 路径:

python -m sglang.launch_server \
  --model-path /path/to/model \
  --served-model-name my-model \
  --tensor-parallel-size 1 \
  --kt-weight-path /path/to/kt-weights \
  --kt-method FP8 \
  --kt-num-gpu-experts 1 \
  --disable-shared-experts-fusion

--kt-method 应来自对应模型页或支持矩阵。不要直接把其他模型家族的 method 复制过来使用,必须先确认权重格式和硬件 backend。

下一步