权重准备
KTransformers SFT 的 backend 选择必须和模型权重格式匹配。不要把 AMXBF16、AMXINT8、AMXINT4 当成可以随意套在同一个 checkpoint 目录上的开关。
准备矩阵
| 目标 backend | 输入 checkpoint | 训练侧预期 |
|---|---|---|
AMXBF16 | BF16 expert checkpoint。 | 模型路径指向 BF16 expert。 |
AMXINT8 | 优先使用 BF16 或已经验证过的源精度。FP8 输入需要额外精度检查。 | kt_weight_path 指向已准备的 INT8 expert 权重。 |
AMXINT4 | 优先使用 BF16 或已经验证过的源精度。FP8 输入更激进,需要单独 smoke。 | kt_weight_path 指向已准备的 INT4 expert 权重。 |
源 checkpoint、目标 backend、转换命令、输出目录和文件数量应一起记录。若源模型是 FP8,需要写清走的是 FP8 -> BF16 -> SFT,还是 FP8 -> KT INT8/INT4 expert 准备。
DeepSeek V3 FP8 源权重
DeepSeek V3 系列 SFT 教程必须明确三条路线:
| 路线 | 文档应如何描述 |
|---|---|
FP8 -> BF16 -> AMXBF16 | 先把 FP8 checkpoint 转成 BF16,再使用 BF16 KT SFT backend。 |
FP8/BF16 -> AMXINT8 | 准备 KT INT8 expert 权重,并设置 kt_weight_path。有 BF16 源权重时优先用 BF16。 |
FP8/BF16 -> AMXINT4 | 准备 KT INT4 expert 权重,并设置 kt_weight_path。这是更高压缩路线,需要单独 smoke 记录。 |
不要把这写成原生 FP8 微调。当前公开 KT SFT backend 是 AMX BF16/INT8/INT4。
Smoke 记录
每个准备好的权重目录至少记录:
- 源模型路径和 revision
- 转换脚本和命令
- 目标 backend
- 输出路径和文件数量
- training YAML 和 Accelerate config
- 前几步训练、loss,以及 adapter 输出文件