KTransformers

SFT Backend 与精度

当前 KT SFT 使用 AMX CPU expert backend。Backend 名称描述的是 expert 权重在 CPU 侧的执行方式,不等同于训练全局 mixed precision。

Backend 概览

Backend适用场景权重要求
AMXBF16希望使用 BF16 expert 执行。BF16 expert checkpoint。
AMXINT8希望比 BF16 更节省 CPU 内存。已准备好的 KT INT8 expert 权重。
AMXINT4希望使用当前 KT SFT 中压缩最激进的路径。已准备好的 KT INT4 expert 权重。

DeepSeek V3 FP8 Checkpoint

DeepSeek V3 系列公开 checkpoint 常见发布格式是 FP8。当前 KT SFT 不是原生 FP8 SFT,而是下面三种 AMX SFT backend 之一:

目标 backend需要准备的内容
AMXBF16先把原始 FP8 模型转换成 BF16 checkpoint,再走 BF16 expert 路径。
AMXINT8从源 checkpoint 准备 KT INT8 expert 权重。
AMXINT4从源 checkpoint 准备 KT INT4 expert 权重。

使用 BF16 时,需要先走经过验证的 FP8 到 BF16 转换路径。上游 DeepSeek 文档里有 fp8_cast_bf16.py;KT 也有 CPU 侧 expert 转换脚本用于 AMX INT8/INT4 准备。实验记录里应写清转换脚本、源 checkpoint、输出 checkpoint,以及 checksum 或文件数量。

Kimi SFT

Kimi SFT 暂不属于当前公开 KT SFT 支持页面。旧 Kimi SFT 材料在当前 LLaMA-Factory 路径实现并完成 smoke 之前,只作为历史材料保留。

DPO

DPO 目前不升级为当前 KT SFT 支持声明。发布任何 DPO 结论前,先看 DPO 状态