DPO 状态

DPO 目前不属于当前 KT 微调支持范围。

当前公开微调板块聚焦通过 LLaMA-Factory 运行 MoE LoRA SFT。DPO 进入当前路径前，需要先补齐目标环境验证信息：

项目	需要确认的信息
训练入口	当前 LLaMA-Factory 命令；旧 patch 路径只作为历史参考。
KT backend	明确映射到当前 KT SFT 代码的 `kt_config` backend。
模型	精确 checkpoint；如需要，包含已准备好的 expert 权重。
运行结果	在目标硬件和软件环境上完成最小训练验证。
输出	Adapter 文件和至少一个最小训练后 sanity check。

在此之前，旧 DPO 页面只作为历史参考，不作为用户操作说明。