SFT Backend 与精度
当前 KT SFT 使用 AMX CPU expert backend。Backend 名称描述的是 expert 权重在 CPU 侧的执行方式,不等同于训练全局 mixed precision。
Backend 概览
| Backend | 适用场景 | 权重要求 |
|---|---|---|
AMXBF16 | 希望使用 BF16 expert 执行。 | BF16 expert checkpoint。 |
AMXINT8 | 希望比 BF16 更节省 CPU 内存。 | 已准备好的 KT INT8 expert 权重。 |
AMXINT4 | 希望使用当前 KT SFT 中压缩最激进的路径。 | 已准备好的 KT INT4 expert 权重。 |
DeepSeek V3 FP8 Checkpoint
DeepSeek V3 系列公开 checkpoint 常见发布格式是 FP8。当前 KT SFT 不是原生 FP8 SFT,而是下面三种 AMX SFT backend 之一:
| 目标 backend | 需要准备的内容 |
|---|---|
AMXBF16 | 先把原始 FP8 模型转换成 BF16 checkpoint,再走 BF16 expert 路径。 |
AMXINT8 | 从源 checkpoint 准备 KT INT8 expert 权重。 |
AMXINT4 | 从源 checkpoint 准备 KT INT4 expert 权重。 |
使用 BF16 时,需要先走经过验证的 FP8 到 BF16 转换路径。上游 DeepSeek 文档里有 fp8_cast_bf16.py;KT 也有 CPU 侧 expert 转换脚本用于 AMX INT8/INT4 准备。实验记录里应写清转换脚本、源 checkpoint、输出 checkpoint,以及 checksum 或文件数量。
Kimi SFT
Kimi SFT 暂不属于当前公开 KT SFT 支持页面。旧 Kimi SFT 材料在当前 LLaMA-Factory 路径实现并完成 smoke 之前,只作为历史材料保留。
DPO
DPO 目前不升级为当前 KT SFT 支持声明。发布任何 DPO 结论前,先看 DPO 状态。