支持矩阵

本矩阵用于确认哪些模型组合已经完成当前口径的验证。模型家族、checkpoint、KT method/backend、硬件类别、serving 或 training 入口都匹配时，矩阵里的结果才可直接参考。

状态标签的含义见模型状态说明。在不同硬件、backend 或包版本上使用前，请重新做最小 serving 或 training smoke。

状态

状态	含义
Current	代码入口存在，文档接口与当前仓库一致。
Current, narrow	在明确模型、硬件、包版本或 backend 约束下支持。
Verified	已在指定硬件类别和命令上跑通，并有 `command.sh`、日志、监控和 `metrics.json`。
Blocked	已按当前路线测试，但未能 server ready 或未进入训练 step；页面会显示失败阶段和 blocker。
Needs smoke	代码或文档存在，但用于当前环境前需要重新验证目标组合。
Needs reconciliation	存在多条看起来当前可用的路径，需要统一后再给出推荐。
当前不支持	不作为当前 KTransformers 能力宣传。
支持方向	项目方向成立，但具体模型文档仍需要硬件验证。
Legacy	依赖旧 `local_chat.py`、`ktransformers/server/main.py`、`balance_serve` 或 `kt_optimize_rule` 路径。

推理 Method

Method	状态	备注
`BF16`	Current	用于已明确文档化的原生 BF16 MoE expert 推理。
`FP8`	Current	DeepSeek、MiniMax、Qwen、GLM 等页面使用的原生 FP8 路径。
`FP8_PERCHANNEL`	Current, narrow	per-channel FP8，只适用于匹配的 checkpoint。
`RAWINT4`	Current / Needs smoke	Kimi 风格原生 INT4 路径；后端行为随 CPU ISA 变化。
`GPTQ_INT4`	Needs smoke	当前推理 method，但不是通用 INT4 推荐。
`AMXINT4`	Current	AMX 转换后 INT4 expert 权重。
`AMXINT8`	Current	AMX 转换后 INT8 expert 权重。
`MXFP4`	Current, narrow	DeepSeek V4-Flash 专用。
`LLAMAFILE`	Current, secondary	GGUF / llamafile 兼容 backend。

推理模型

Inference 摘要使用 Prefill TPS 和 Decode TPS。如果两个最高值来自不同 sweep 或不同 GPU expert 数量，模型页会把它们标成两条独立实验。

模型/家族	精度 / method	验证入口	主指标	状态
Qwen3-30B-A3B	`AMXINT8`	手动 SGLang-KT，单卡 24GB GPU	Prefill 3367.97 TPS（GE30）；Decode 85.96 TPS（GE20）	Verified；GE30 默认，GE20 只作为 decode-best 变体
DeepSeek-V2-Lite	`AMXINT8`	手动 SGLang-KT，单卡 24GB GPU	Prefill 26558.49 TPS（GE40）；Decode 118.35 TPS（GE35）	Verified；Prefill/Decode 来自两条命令变体
MiniMax-M2	`FP8`	手动 SGLang-KT，单卡 24GB GPU	GE10 Prefill 127.71 TPS / Decode 22.13 TPS	Verified；GE10 默认，GE0 低显存，GE20/GE30 不推荐
MiniMax-M2.5	`FP8`	手动 SGLang-KT，单卡 24GB GPU	GE10 Prefill 128.50 TPS / Decode 21.71 TPS	Verified；GE10 默认，GE0 低显存，GE20/GE30 不推荐
Qwen3-235B-A22B-Instruct-2507	`AMXINT8`	手动 SGLang-KT，单卡 24GB GPU	GE0 Prefill 550.95 TPS / Decode 16.64 TPS	Verified，低 GPU expert baseline；GE5/GE10 置灰 OOM
Qwen3.5-397B-A17B	BF16 raw smoke	新环境能识别 `qwen3_5_moe`，但 BF16 原始权重在单卡 24GB GPU 上模型加载 OOM	无 TPS	Blocked；需要量化/KT 权重、多卡或更大显存
DeepSeek V4-Flash	`MXFP4`/`FP8` 诊断路径	test-only shim 能到 DSV4 loader，最终 CPUInfer `load_weights_task` segfault	无 TPS	Blocked；server 未 ready
DeepSeek-V3.2	`FP8`	GE0/0.95 只能 1024-token tiny smoke ready	tiny smoke Prefill 1.78 / Decode 5.23 TPS，不进主表	Boundary evidence；主推荐置灰
Kimi-K2.5	`RAWINT4`	能进入模型加载，单卡 24GB GPU 卡在 `lm_head` CUDA OOM	无 TPS	Blocked
GLM current candidates	`NVFP4`/overlay 诊断	GLM-4.7/5.1 FP8 权重未发现；GLM-4.5 tmp 被量化配置和 capability 阻塞	无 TPS	Blocked
Ascend NPU 旧页面	旧 server 或 `local_chat` 路径	历史文档	无 TPS	当前不支持
Intel xPU 旧页面	旧 server 或旧 Docker 路径	历史文档	无 TPS	当前不支持
ROCm 旧页面	旧 `local_chat` 路径	历史文档	无 TPS	Legacy
AMD CPU 路径	AMD BLIS / CPU 侧路径	等待公开硬件验证组合	无 TPS	支持方向 / 待 AMD 验证

微调 Backend

当前 KT SFT 指通过 LLaMA-Factory 运行 MoE LoRA SFT。KT backend 名称描述的是 CPU expert 执行方式，不是训练全局 mixed precision。

KT backend	实际 method	状态	备注
`AMXBF16`	`AMXBF16_SFT`	Current	使用 BF16 expert checkpoint。
`AMXINT8`	`AMXINT8_SFT`	Current	使用已准备的 INT8 expert 权重。
`AMXINT4`	`AMXINT4_SFT`	Current / Needs smoke	需要说明权重准备路径。
`AMX*_SkipLoRA`	SkipLoRA SFT variants	Advanced	不是 quick start 默认路径。
`AMXINT4_1` / `KGroup`	历史 enum 级名称	Internal / historical	当前用户可选 backend 不包含这些选项。

微调模型

Training 摘要使用端到端 Training TPS。不同模型和硬件组合的训练结果只在相同配置下直接可比。

模型/家族	Backend / recipe	主指标	状态
Qwen3-30B-A3B	AMXINT8 LoRA SFT，1 GPU	32.45 Training TPS	Verified；starter route，20-step stability 为主表值
DeepSeek-V2-Lite	BF16/KT LoRA SFT，4 GPU FSDP2	23.32 Training TPS	Verified with caveat；依赖 `KT_FORCE_FUSED_EXPERT_LORA=1` 和 training shim
Qwen3-235B-A22B	BF16/KT LoRA SFT，4 GPU FSDP2	1.27 Training TPS	Verified，advanced/high-RAM
Qwen3.5-397B-A17B	BF16/KT LoRA SFT，4 GPU FSDP2	1.14 Training TPS	Verified，advanced/high-RAM；约 924GB system used RAM，依赖 Conv3D guard shim
MiniMax-M2	BF16/KT LoRA SFT smoke	无 TPS	Blocked；remote code / Transformers API 不兼容
MiniMax-M2.5	BF16/KT LoRA SFT smoke	无 TPS	Blocked；缺标准 `model.safetensors` / `pytorch_model.bin` 训练入口
Kimi-K2.5	LLaMA-Factory preflight	无 TPS	Blocked；缺 `kimi_k25` 模板
GLM current candidates	NVFP4/PTQ 诊断	无 TPS	Blocked；FSDP2/PTQ、`quant_method`、`modelopt_fp4`/shape mismatch 阻塞
DeepSeek V4-Flash	LLaMA-Factory preflight	无 TPS	Blocked；训练栈不识别 `deepseek_v4`
DeepSeek-V3.2	LLaMA-Factory preflight	无 TPS	Blocked；训练栈不识别 `deepseek_v32`
DPO	旧 DPO tutorial	无	未确认 / 需要验证

如何阅读验证范围

矩阵中的每一行都对应一个精确组合：

模型族 + checkpoint + KT method/backend + 硬件类别 + serving/training 入口 + 包/版本限制

如果你的模型路径、backend、硬件或包版本不同，请先用当前源码入口完成最小验证，再比较 Prefill/Decode TPS 或 Training TPS。