KTransformers

推理

当前 KTransformers 推理路径使用 kt-kernel 执行 CPU expert,使用 sglang-kt 提供 serving。

pip install kt-kernel sglang-kt

用户路径

路径适用场景
kt run <model>模型在 KT 内置 registry 中,并且希望使用模型默认参数。
python -m sglang.launch_server ... --kt-*需要显式控制模型路径、tensor parallel、expert placement 或 serving 参数。

需要逐步启动和请求示例时,阅读 启动服务发送请求

Method 选择

--kt-method 应来自具体模型页或支持矩阵。当前公开 method 包括 BF16FP8FP8_PERCHANNELRAWINT4GPTQ_INT4AMXINT4AMXINT8MXFP4LLAMAFILE

不同模型家族之间不能直接复用 method 名称。同一个精度名可能对应不同权重布局、CPU ISA backend、attention backend 或包版本限制。

Legacy 入口

使用 local_chat.pyktransformers/server/main.pybalance_serve、旧 GGUF integrated-framework 命令或旧 optimize-rule 路径的教程都属于历史材料,除非已经明确重写为 SGLang-KT。

高级主题