微调概览

微调是 KTransformers 的一等工作流，和推理服务并列。文档入口按模型组织：先进入模型页，再在同一个模型页里选择 Inference 或 Training。本区解释训练方法、backend、权重准备和通用 LLaMA-Factory 形态；具体模型的 Training TPS、命令和 blocker 以模型页为准。

这个方向的目标是让大 MoE 模型真正变成本地可拥有、可修改的模型。GPU 负责 attention、shared path 和剩余 LoRA 计算，KT 的 CPU expert backend 负责把大规模 expert 权重放在系统内存侧执行，避免 GPU 显存成为唯一瓶颈。

从哪里开始

目标	页面
跑通第一个 SFT 示例	首次运行 LoRA SFT
理解 LLaMA-Factory 配置形态	通过 LLaMA-Factory 运行 LoRA SFT
选择 `AMXBF16`、`AMXINT8` 或 `AMXINT4`	SFT backend 与精度
准备 BF16、INT8 或 INT4 expert 权重	权重准备
查看 DeepSeek 模型的训练主表和 blocker	DeepSeek 模型页
查看 Qwen 模型的训练主表和 blocker	Qwen 模型页
理解 DeepSeek SFT 通用注意事项	DeepSeek SFT
理解 Qwen SFT 通用注意事项	Qwen SFT
查看哪些模型教程属于当前支持	微调模型教程
查看旧页面或实验功能	Legacy 与实验性 SFT
查看 DPO 状态	DPO 状态

当前公开范围

当前公开微调路径是：

LLaMA-Factory training YAML
  + use_kt: true
  + Accelerate KT config
  + ktransformers[sft]

公开 KT SFT backend 名称包括：

Backend	作用
`AMXBF16`	BF16 expert backend。
`AMXINT8`	使用已准备 KT 权重的 INT8 expert backend。
`AMXINT4`	使用已准备 KT 权重的 INT4 expert backend。

SkipLoRA 变体可用于高级实验，但不是默认入门路径。

当前不作为主线的内容

旧 kt-sft、自动 patch、kt_optimize_rule 或旧 Kimi SFT 教程属于历史材料。按当前 LLaMA-Factory 集成重新验证后，才适合进入当前训练路径。

准确的模型、启动参数、TPS 和 blocker 状态见支持矩阵和各模型页。