推理

当前 KTransformers 推理路径使用 kt-kernel 执行 CPU expert，使用 sglang-kt 提供 serving。

pip install kt-kernel sglang-kt

用户路径

路径	适用场景
`kt run <model>`	模型在 KT 内置 registry 中，并且希望使用模型默认参数。
`python -m sglang.launch_server ... --kt-*`	需要显式控制模型路径、tensor parallel、expert placement 或 serving 参数。

需要逐步启动和请求示例时，阅读启动服务和发送请求。

--kt-method 应来自具体模型页或支持矩阵。当前公开 method 包括 BF16、FP8、FP8_PERCHANNEL、RAWINT4、GPTQ_INT4、AMXINT4、AMXINT8、MXFP4 和 LLAMAFILE。

不同模型家族之间不能直接复用 method 名称。同一个精度名可能对应不同权重布局、CPU ISA backend、attention backend 或包版本限制。

使用 local_chat.py、ktransformers/server/main.py、balance_serve、旧 GGUF integrated-framework 命令或旧 optimize-rule 路径的教程都属于历史材料，除非已经明确重写为 SGLang-KT。