微调模型教程

这个页面汇总 Training 路线的当前状态。具体模型的 Training TPS、命令和 blocker 仍以对应模型页为准。

当前已测路线

模型	路线	页面状态
Qwen3-30B-A3B	AMXINT8 LoRA SFT 20-step	进入 Qwen 模型页 Training 主表，starter route
Qwen3-235B-A22B	BF16/KT LoRA SFT 12-step	进入 Qwen 模型页 Training 主表，advanced/high-RAM
Qwen3.5-397B-A17B	BF16/KT LoRA SFT 20-step	进入 Qwen 模型页 Training 主表，advanced/high-RAM
DeepSeek-V2-Lite	BF16/KT LoRA SFT 12-step fused expert LoRA	进入 DeepSeek 模型页 Training 主表，并带 caveat

主题	状态
MiniMax-M2/M2.5 Training	已测 smoke 失败：M2 remote code / Transformers API 不兼容，M2.5 缺标准训练权重入口。
Kimi K2.5 Training	已测 preflight 失败：缺 `kimi_k25` LLaMA-Factory 模板。
GLM current Training	已测失败：PTQ/FSDP2、`quant_method`、`modelopt_fp4`/shape mismatch 阻塞。
DeepSeek V4-Flash Training	已测 preflight 失败：当前训练栈不识别 `deepseek_v4`。
DeepSeek-V3.2 Training	已测 preflight 失败：当前训练栈不识别 `deepseek_v32`。
DPO	当前 KT 集成下尚未确认。
旧 `kt_optimize_rule` 教程	历史材料；需要按当前 LLaMA-Factory 配置重写和复测后再进入当前路径。

完整训练 case 会记录：

模型 checkpoint + 源精度 + 目标 KT backend + 转换步骤 + 硬件组合 + 启动命令 + 验证结果

Training 摘要使用 Training TPS。如果只有 smoke 成功但没有 effective_tokens_per_sec，它只代表链路证据，不作为主表吞吐数据。