支持矩阵
检查日期:2026-05-10 Asia/Shanghai。
把具体教程当作当前支持前,请先查看本矩阵。只有模型家族、checkpoint、KT method/backend、硬件类别、serving 或 training 入口都匹配时,才应写成支持。
这些状态标签背后的文档规则见 模型状态规则。验证步骤见 Runtime Smoke Checklist。
状态
| 状态 | 含义 |
|---|---|
| Current | 代码入口存在,文档接口与当前仓库一致。 |
| Current, narrow | 在明确模型、硬件、包版本或 backend 约束下支持。 |
| Needs smoke | 代码或文档存在,但生产口径前需要复跑精确 runtime tuple。 |
| Needs reconciliation | 存在多条看起来当前可用的路径,需要统一后才能在官网推荐其中一条。 |
| 当前不支持 | 不作为当前 KTransformers 能力宣传。 |
| 支持方向 | 项目方向成立,但具体模型文档仍需要硬件验证。 |
| Legacy | 依赖旧 local_chat.py、ktransformers/server/main.py、balance_serve 或 kt_optimize_rule 路径。 |
推理 Method
| Method | 状态 | 备注 |
|---|---|---|
BF16 | Current | 用于已明确文档化的原生 BF16 MoE expert 推理。 |
FP8 | Current | DeepSeek、MiniMax、Qwen、GLM 等页面使用的原生 FP8 路径。 |
FP8_PERCHANNEL | Current, narrow | per-channel FP8,不能泛化到所有 FP8 checkpoint。 |
RAWINT4 | Current / Needs smoke | Kimi 风格原生 INT4 路径;后端行为随 CPU ISA 变化。 |
GPTQ_INT4 | Needs smoke | 当前推理 method,但不是通用 INT4 推荐。 |
AMXINT4 | Current | AMX 转换后 INT4 expert 权重。 |
AMXINT8 | Current | AMX 转换后 INT8 expert 权重。 |
MXFP4 | Current, narrow | DeepSeek V4-Flash 专用。 |
LLAMAFILE | Current, secondary | GGUF / llamafile 兼容 backend。 |
推理模型
| 模型/家族 | 精度 | 入口 | 状态 |
|---|---|---|---|
| DeepSeek V4-Flash | MXFP4 | kt run deepseek-v4-flash | Needs smoke |
| DeepSeek V3.2 | registry 为 FP8;教程路径为 AMXINT4 | kt run deepseek-v3.2 或模型教程 | Needs reconciliation |
| DeepSeek V3-0324 / R1-0528 | registry 默认 AMXINT4 | kt run deepseek-v3 / kt run deepseek-r1 | Current / Needs docs |
| Kimi K2 Thinking | RAWINT4 | kt run kimi-k2-thinking | Current / Needs smoke |
| Kimi K2.5 | RAWINT4 | 手动 SGLang-KT 教程 | Needs smoke |
| MiniMax M2 / M2.1 | FP8 | kt run m2 / kt run m2.1 | Current / Needs smoke |
| MiniMax M2.5 | FP8 | 手动 SGLang-KT 教程 | Needs smoke |
| Qwen3 / Qwen3.5 / Qwen3-Coder-Next | BF16、FP8、GPTQ_INT4 examples | 模型教程和 AVX2 文档 | Needs smoke |
| GLM-5 / GLM-5.1 | BF16、FP8、FP8_PERCHANNEL | 模型教程 | Needs smoke |
| Ascend NPU 旧页面 | 旧 server 或 local_chat 路径 | 历史文档 | 当前不支持 |
| Intel xPU 旧页面 | 旧 server 或旧 Docker 路径 | 历史文档 | 当前不支持 |
| ROCm 旧页面 | 旧 local_chat 路径 | 历史文档 | Legacy |
| AMD CPU 路径 | AMD BLIS / CPU 侧路径 | AMD 机器到位后补硬件专用文档 | 支持方向 / 待 AMD 验证 |
微调 Backend
当前 KT SFT 指通过 LLaMA-Factory 运行 MoE LoRA SFT。KT backend 名称描述的是 CPU expert 执行方式,不是训练全局 mixed precision。
| KT backend | 实际 method | 状态 | 备注 |
|---|---|---|---|
AMXBF16 | AMXBF16_SFT | Current | 使用 BF16 expert checkpoint。 |
AMXINT8 | AMXINT8_SFT | Current | 使用已准备的 INT8 expert 权重。 |
AMXINT4 | AMXINT4_SFT | Current / Needs smoke | 需要说明权重准备路径。 |
AMX*_SkipLoRA | SkipLoRA SFT variants | Advanced | 不是 quick start 默认路径。 |
AMXINT4_1* / KGroup* | 历史 enum 级名称 | Do not advertise | 当前公开 SFT backend map 不暴露这些选项。 |
微调模型
| 模型/家族 | 示例 | Backend | 状态 |
|---|---|---|---|
| DeepSeek V2 Lite | deepseek_v2_lora_sft_kt.yaml | AMXBF16、AMXINT8、AMXINT4 | Current / Needs smoke |
| DeepSeek V3-0324 BF16 | deepseek_v3_lora_sft_kt.yaml | AMXBF16、AMXINT8、AMXINT4 | Current / Needs smoke |
| Qwen3-235B-A22B | qwen3moe_lora_sft_kt.yaml | AMXBF16、AMXINT8、AMXINT4 | Current / Needs smoke |
| Qwen3.5-397B-A17B | qwen3_5moe_lora_sft_kt.yaml | 优先 AMXINT8,BF16/INT4 按场景 | Needs smoke |
| Kimi K2 / K2.5 SFT | 旧 Kimi SFT guide | 旧分支或 optimize-rule 路径 | 当前不支持 |
| DPO | 旧 DPO tutorial | 历史路径 | 未确认 / 需要验证 |
当前验证证据
sapphire4 类本地集群状态中已有以下证据,可用于谨慎描述,但不能替代新的模型级 release gate:
| 领域 | 证据 |
|---|---|
| 硬件 preflight | sapphire4 类硬件上 kt doctor 通过:8 x NVIDIA GeForce RTX 4090、Intel Xeon Platinum 8488C、AMX/AVX512、2 个 NUMA node。默认 home 模型路径仍有磁盘空间 warning。 |
| CLI preflight | inference 环境中 kt --help 和 kt version 可用。该用户配置下 kt model list 没有注册模型,所以 registry alias 仍需要按环境配置。 |
| SFT 环境 | kt-post1-sglangpost2-finalgate-py312-20260430 可 import torch 2.9.1+cu130、kt_kernel 0.6.1.post1、ktransformers 0.6.1.post1 和 KT Accelerate plugin。 |
| Qwen SFT | Qwen3-235B 历史 smoke 达到 global_step=2、train_loss=2.0366,且有 adapter 产物。Qwen3.5 历史 smoke 达到 global_step=2、train_loss=11.4336,且有 adapter 产物。 |
| DeepSeek SFT | DeepSeek V2 BF16 历史 smoke 达到 global_step=1、train_loss=2.5078。 |
| DeepSeek 推理 | DeepSeek-V3 SGLang-KT 历史 smoke 中 /model_info 和 /generate 均返回 HTTP 200。 |
| Kimi 推理 | 现有 Kimi-K2.5 服务的 /model_info 可通,但生成质量仍需要新的 smoke。 |
| MiniMax / GLM | 模型目录存在,但尚未找到同等级别的当前 smoke 结果。 |
文档规则
支持声明应写成精确 tuple:
模型族 + checkpoint + KT method/backend + 硬件类别 + serving/training 入口 + 包/版本限制
除非当前源码存在入口且 runtime smoke 已记录,否则不要把历史教程升级成当前支持。
相关页面: