权重准备

KTransformers SFT 的 backend 选择需要和模型权重格式匹配。AMXBF16、AMXINT8、AMXINT4 不是可以随意套在同一个 checkpoint 目录上的开关。

准备矩阵

目标 backend	输入 checkpoint	训练侧预期
`AMXBF16`	BF16 expert checkpoint。	模型路径指向 BF16 expert。
`AMXINT8`	优先使用 BF16 或已经验证过的源精度。FP8 输入需要额外精度检查。	`kt_weight_path` 指向已准备的 INT8 expert 权重。
`AMXINT4`	优先使用 BF16 或已经验证过的源精度。FP8 输入更激进，需要单独 smoke。	`kt_weight_path` 指向已准备的 INT4 expert 权重。

源 checkpoint、目标 backend、转换命令、输出目录和文件数量需要一起记录。若源模型是 FP8，需要说明走的是 FP8 -> BF16 -> SFT，还是 FP8 -> KT INT8/INT4 expert 准备。

DeepSeek V3 系列 SFT 常见三条路线：

路线	使用方式
FP8 -> BF16 -> `AMXBF16`	先把 FP8 checkpoint 转成 BF16，再使用 BF16 KT SFT backend。
FP8/BF16 -> `AMXINT8`	准备 KT INT8 expert 权重，并设置 `kt_weight_path`。有 BF16 源权重时优先用 BF16。
FP8/BF16 -> `AMXINT4`	准备 KT INT4 expert 权重，并设置 `kt_weight_path`。这是更高压缩路线，需要单独 smoke 记录。

这不是原生 FP8 微调。当前公开 KT SFT backend 是 AMX BF16/INT8/INT4。

每个准备好的权重目录至少记录：