KTransformers

微调概览

微调是 KTransformers 的一等工作流,和推理服务并列。当前公开路径聚焦于通过 LLaMA-Factory 运行 MoE LoRA SFT:在本地异构工作站上训练小型 adapter,再沿着同一套 KTransformers 本地推理方向进行部署。

这个方向的目标是让大 MoE 模型真正变成本地可拥有、可修改的模型。GPU 负责 attention、shared path 和剩余 LoRA 计算,KT 的 CPU expert backend 负责把大规模 expert 权重放在系统内存侧执行,避免 GPU 显存成为唯一瓶颈。

从哪里开始

目标页面
跑通第一个 SFT 示例首次运行 LoRA SFT
理解 LLaMA-Factory 配置形态通过 LLaMA-Factory 运行 LoRA SFT
选择 AMXBF16AMXINT8AMXINT4SFT backend 与精度
准备 BF16、INT8 或 INT4 expert 权重权重准备
微调 DeepSeek MoE 模型DeepSeek SFT
微调 Qwen MoE 模型Qwen SFT
查看哪些模型教程属于当前支持微调模型教程
查看旧页面或实验功能Legacy 与实验性 SFT
查看 DPO 状态DPO 状态

当前公开范围

当前公开微调路径是:

LLaMA-Factory training YAML
  + use_kt: true
  + Accelerate KT config
  + ktransformers[sft]

公开 KT SFT backend 名称包括:

Backend作用
AMXBF16BF16 expert backend。
AMXINT8使用已准备 KT 权重的 INT8 expert backend。
AMXINT4使用已准备 KT 权重的 INT4 expert backend。

SkipLoRA 变体可用于高级实验,但不是默认入门路径。

当前不作为主线的内容

kt-sft、自动 patch、kt_optimize_rule 或旧 Kimi SFT 教程都不应作为当前公开路径使用。除非已经按当前 LLaMA-Factory 集成重新验证并重写,否则只保留为历史材料。

准确的模型和 backend 状态见支持矩阵