推理
当前 KTransformers 推理路径使用 kt-kernel 执行 CPU expert,使用 sglang-kt 提供 serving。
pip install kt-kernel sglang-kt
用户路径
| 路径 | 适用场景 |
|---|---|
kt run <model> | 模型在 KT 内置 registry 中,并且希望使用模型默认参数。 |
python -m sglang.launch_server ... --kt-* | 需要显式控制模型路径、tensor parallel、expert placement 或 serving 参数。 |
Method 选择
--kt-method 应来自具体模型页或支持矩阵。当前公开 method 包括 BF16、FP8、FP8_PERCHANNEL、RAWINT4、GPTQ_INT4、AMXINT4、AMXINT8、MXFP4 和 LLAMAFILE。
不同模型家族之间不能直接复用 method 名称。同一个精度名可能对应不同权重布局、CPU ISA backend、attention backend 或包版本限制。
Legacy 入口
使用 local_chat.py、ktransformers/server/main.py、balance_serve、旧 GGUF integrated-framework 命令或旧 optimize-rule 路径的教程都属于历史材料,除非已经明确重写为 SGLang-KT。