KTransformers

DPO 状态

DPO 目前不写成当前 KT 微调支持。

当前公开微调板块应继续聚焦通过 LLaMA-Factory 运行 MoE LoRA SFT。只有下面路径确认后,才能加入 DPO:

项目必需证据
训练入口当前 LLaMA-Factory 命令,而不是旧 patch 路径。
KT backend明确映射到当前 KT SFT 代码的 kt_config backend。
模型精确 checkpoint;如需要,包含已准备好的 expert 权重。
运行结果在具名机器和环境上完成 smoke。
输出Adapter 文件和至少一个最小训练后 sanity check。

在此之前,旧 DPO 页面只作为历史参考,不作为用户操作说明。