KTransformers

支持矩阵

检查日期:2026-05-10 Asia/Shanghai。

把具体教程当作当前支持前,请先查看本矩阵。只有模型家族、checkpoint、KT method/backend、硬件类别、serving 或 training 入口都匹配时,才应写成支持。

这些状态标签背后的文档规则见 模型状态规则。验证步骤见 Runtime Smoke Checklist

状态

状态含义
Current代码入口存在,文档接口与当前仓库一致。
Current, narrow在明确模型、硬件、包版本或 backend 约束下支持。
Needs smoke代码或文档存在,但生产口径前需要复跑精确 runtime tuple。
Needs reconciliation存在多条看起来当前可用的路径,需要统一后才能在官网推荐其中一条。
当前不支持不作为当前 KTransformers 能力宣传。
支持方向项目方向成立,但具体模型文档仍需要硬件验证。
Legacy依赖旧 local_chat.pyktransformers/server/main.pybalance_servekt_optimize_rule 路径。

推理 Method

Method状态备注
BF16Current用于已明确文档化的原生 BF16 MoE expert 推理。
FP8CurrentDeepSeek、MiniMax、Qwen、GLM 等页面使用的原生 FP8 路径。
FP8_PERCHANNELCurrent, narrowper-channel FP8,不能泛化到所有 FP8 checkpoint。
RAWINT4Current / Needs smokeKimi 风格原生 INT4 路径;后端行为随 CPU ISA 变化。
GPTQ_INT4Needs smoke当前推理 method,但不是通用 INT4 推荐。
AMXINT4CurrentAMX 转换后 INT4 expert 权重。
AMXINT8CurrentAMX 转换后 INT8 expert 权重。
MXFP4Current, narrowDeepSeek V4-Flash 专用。
LLAMAFILECurrent, secondaryGGUF / llamafile 兼容 backend。

推理模型

模型/家族精度入口状态
DeepSeek V4-FlashMXFP4kt run deepseek-v4-flashNeeds smoke
DeepSeek V3.2registry 为 FP8;教程路径为 AMXINT4kt run deepseek-v3.2 或模型教程Needs reconciliation
DeepSeek V3-0324 / R1-0528registry 默认 AMXINT4kt run deepseek-v3 / kt run deepseek-r1Current / Needs docs
Kimi K2 ThinkingRAWINT4kt run kimi-k2-thinkingCurrent / Needs smoke
Kimi K2.5RAWINT4手动 SGLang-KT 教程Needs smoke
MiniMax M2 / M2.1FP8kt run m2 / kt run m2.1Current / Needs smoke
MiniMax M2.5FP8手动 SGLang-KT 教程Needs smoke
Qwen3 / Qwen3.5 / Qwen3-Coder-NextBF16FP8GPTQ_INT4 examples模型教程和 AVX2 文档Needs smoke
GLM-5 / GLM-5.1BF16FP8FP8_PERCHANNEL模型教程Needs smoke
Ascend NPU 旧页面旧 server 或 local_chat 路径历史文档当前不支持
Intel xPU 旧页面旧 server 或旧 Docker 路径历史文档当前不支持
ROCm 旧页面local_chat 路径历史文档Legacy
AMD CPU 路径AMD BLIS / CPU 侧路径AMD 机器到位后补硬件专用文档支持方向 / 待 AMD 验证

微调 Backend

当前 KT SFT 指通过 LLaMA-Factory 运行 MoE LoRA SFT。KT backend 名称描述的是 CPU expert 执行方式,不是训练全局 mixed precision。

KT backend实际 method状态备注
AMXBF16AMXBF16_SFTCurrent使用 BF16 expert checkpoint。
AMXINT8AMXINT8_SFTCurrent使用已准备的 INT8 expert 权重。
AMXINT4AMXINT4_SFTCurrent / Needs smoke需要说明权重准备路径。
AMX*_SkipLoRASkipLoRA SFT variantsAdvanced不是 quick start 默认路径。
AMXINT4_1* / KGroup*历史 enum 级名称Do not advertise当前公开 SFT backend map 不暴露这些选项。

微调模型

模型/家族示例Backend状态
DeepSeek V2 Litedeepseek_v2_lora_sft_kt.yamlAMXBF16AMXINT8AMXINT4Current / Needs smoke
DeepSeek V3-0324 BF16deepseek_v3_lora_sft_kt.yamlAMXBF16AMXINT8AMXINT4Current / Needs smoke
Qwen3-235B-A22Bqwen3moe_lora_sft_kt.yamlAMXBF16AMXINT8AMXINT4Current / Needs smoke
Qwen3.5-397B-A17Bqwen3_5moe_lora_sft_kt.yaml优先 AMXINT8,BF16/INT4 按场景Needs smoke
Kimi K2 / K2.5 SFT旧 Kimi SFT guide旧分支或 optimize-rule 路径当前不支持
DPO旧 DPO tutorial历史路径未确认 / 需要验证

当前验证证据

sapphire4 类本地集群状态中已有以下证据,可用于谨慎描述,但不能替代新的模型级 release gate:

领域证据
硬件 preflightsapphire4 类硬件上 kt doctor 通过:8 x NVIDIA GeForce RTX 4090、Intel Xeon Platinum 8488C、AMX/AVX512、2 个 NUMA node。默认 home 模型路径仍有磁盘空间 warning。
CLI preflightinference 环境中 kt --helpkt version 可用。该用户配置下 kt model list 没有注册模型,所以 registry alias 仍需要按环境配置。
SFT 环境kt-post1-sglangpost2-finalgate-py312-20260430 可 import torch 2.9.1+cu130kt_kernel 0.6.1.post1ktransformers 0.6.1.post1 和 KT Accelerate plugin。
Qwen SFTQwen3-235B 历史 smoke 达到 global_step=2train_loss=2.0366,且有 adapter 产物。Qwen3.5 历史 smoke 达到 global_step=2train_loss=11.4336,且有 adapter 产物。
DeepSeek SFTDeepSeek V2 BF16 历史 smoke 达到 global_step=1train_loss=2.5078
DeepSeek 推理DeepSeek-V3 SGLang-KT 历史 smoke 中 /model_info/generate 均返回 HTTP 200。
Kimi 推理现有 Kimi-K2.5 服务的 /model_info 可通,但生成质量仍需要新的 smoke。
MiniMax / GLM模型目录存在,但尚未找到同等级别的当前 smoke 结果。

文档规则

支持声明应写成精确 tuple:

模型族 + checkpoint + KT method/backend + 硬件类别 + serving/training 入口 + 包/版本限制

除非当前源码存在入口且 runtime smoke 已记录,否则不要把历史教程升级成当前支持。

相关页面: