DPO 状态
DPO 目前不写成当前 KT 微调支持。
当前公开微调板块应继续聚焦通过 LLaMA-Factory 运行 MoE LoRA SFT。只有下面路径确认后,才能加入 DPO:
| 项目 | 必需证据 |
|---|---|
| 训练入口 | 当前 LLaMA-Factory 命令,而不是旧 patch 路径。 |
| KT backend | 明确映射到当前 KT SFT 代码的 kt_config backend。 |
| 模型 | 精确 checkpoint;如需要,包含已准备好的 expert 权重。 |
| 运行结果 | 在具名机器和环境上完成 smoke。 |
| 输出 | Adapter 文件和至少一个最小训练后 sanity check。 |
在此之前,旧 DPO 页面只作为历史参考,不作为用户操作说明。