首次启动推理服务

先安装推理包：

pip install kt-kernel sglang-kt

方式一：已注册模型

模型已经在内置 registry 中时，优先使用 kt run：

kt run m2.1

其他已注册示例包括 DeepSeek V3 / R1 / V3.2、DeepSeek V4-Flash、Kimi K2 Thinking、MiniMax M2 / M2.1。registry 默认值会包含模型对应的 --kt-method、attention backend 和 serving 参数。

方式二：手动 SGLang-KT 启动

需要完整控制模型路径和 KT 参数时，使用 SGLang launch 路径：

python -m sglang.launch_server \
  --model-path /path/to/model \
  --served-model-name my-model \
  --tensor-parallel-size 1 \
  --kt-weight-path /path/to/kt-weights \
  --kt-method FP8 \
  --kt-num-gpu-experts 1 \
  --disable-shared-experts-fusion

--kt-method 建议来自对应模型页或支持矩阵。从其他模型家族复制 method 前，需要先确认权重格式和硬件 backend。

下一步

支持矩阵
推理概览
启动服务
发送请求
AMX 后端