首次启动推理服务
先安装推理包:
pip install kt-kernel sglang-kt
方式一:已注册模型
模型已经在内置 registry 中时,优先使用 kt run:
kt run m2.1
其他已注册示例包括 DeepSeek V3 / R1 / V3.2、DeepSeek V4-Flash、Kimi K2 Thinking、MiniMax M2 / M2.1。registry 默认值会包含模型对应的 --kt-method、attention backend 和 serving 参数。
方式二:手动 SGLang-KT 启动
需要完整控制模型路径和 KT 参数时,使用 SGLang launch 路径:
python -m sglang.launch_server \
--model-path /path/to/model \
--served-model-name my-model \
--tensor-parallel-size 1 \
--kt-weight-path /path/to/kt-weights \
--kt-method FP8 \
--kt-num-gpu-experts 1 \
--disable-shared-experts-fusion
--kt-method 应来自对应模型页或支持矩阵。不要直接把其他模型家族的 method 复制过来使用,必须先确认权重格式和硬件 backend。