微调概览
微调是 KTransformers 的一等工作流,和推理服务并列。当前公开路径聚焦于通过 LLaMA-Factory 运行 MoE LoRA SFT:在本地异构工作站上训练小型 adapter,再沿着同一套 KTransformers 本地推理方向进行部署。
这个方向的目标是让大 MoE 模型真正变成本地可拥有、可修改的模型。GPU 负责 attention、shared path 和剩余 LoRA 计算,KT 的 CPU expert backend 负责把大规模 expert 权重放在系统内存侧执行,避免 GPU 显存成为唯一瓶颈。
从哪里开始
| 目标 | 页面 |
|---|---|
| 跑通第一个 SFT 示例 | 首次运行 LoRA SFT |
| 理解 LLaMA-Factory 配置形态 | 通过 LLaMA-Factory 运行 LoRA SFT |
选择 AMXBF16、AMXINT8 或 AMXINT4 | SFT backend 与精度 |
| 准备 BF16、INT8 或 INT4 expert 权重 | 权重准备 |
| 微调 DeepSeek MoE 模型 | DeepSeek SFT |
| 微调 Qwen MoE 模型 | Qwen SFT |
| 查看哪些模型教程属于当前支持 | 微调模型教程 |
| 查看旧页面或实验功能 | Legacy 与实验性 SFT |
| 查看 DPO 状态 | DPO 状态 |
当前公开范围
当前公开微调路径是:
LLaMA-Factory training YAML
+ use_kt: true
+ Accelerate KT config
+ ktransformers[sft]
公开 KT SFT backend 名称包括:
| Backend | 作用 |
|---|---|
AMXBF16 | BF16 expert backend。 |
AMXINT8 | 使用已准备 KT 权重的 INT8 expert backend。 |
AMXINT4 | 使用已准备 KT 权重的 INT4 expert backend。 |
SkipLoRA 变体可用于高级实验,但不是默认入门路径。
当前不作为主线的内容
旧 kt-sft、自动 patch、kt_optimize_rule 或旧 Kimi SFT 教程都不应作为当前公开路径使用。除非已经按当前 LLaMA-Factory 集成重新验证并重写,否则只保留为历史材料。
准确的模型和 backend 状态见支持矩阵。