KTransformers

权重准备

KTransformers SFT 的 backend 选择必须和模型权重格式匹配。不要把 AMXBF16AMXINT8AMXINT4 当成可以随意套在同一个 checkpoint 目录上的开关。

准备矩阵

目标 backend输入 checkpoint训练侧预期
AMXBF16BF16 expert checkpoint。模型路径指向 BF16 expert。
AMXINT8优先使用 BF16 或已经验证过的源精度。FP8 输入需要额外精度检查。kt_weight_path 指向已准备的 INT8 expert 权重。
AMXINT4优先使用 BF16 或已经验证过的源精度。FP8 输入更激进,需要单独 smoke。kt_weight_path 指向已准备的 INT4 expert 权重。

源 checkpoint、目标 backend、转换命令、输出目录和文件数量应一起记录。若源模型是 FP8,需要写清走的是 FP8 -> BF16 -> SFT,还是 FP8 -> KT INT8/INT4 expert 准备。

DeepSeek V3 FP8 源权重

DeepSeek V3 系列 SFT 教程必须明确三条路线:

路线文档应如何描述
FP8 -> BF16 -> AMXBF16先把 FP8 checkpoint 转成 BF16,再使用 BF16 KT SFT backend。
FP8/BF16 -> AMXINT8准备 KT INT8 expert 权重,并设置 kt_weight_path。有 BF16 源权重时优先用 BF16。
FP8/BF16 -> AMXINT4准备 KT INT4 expert 权重,并设置 kt_weight_path。这是更高压缩路线,需要单独 smoke 记录。

不要把这写成原生 FP8 微调。当前公开 KT SFT backend 是 AMX BF16/INT8/INT4。

Smoke 记录

每个准备好的权重目录至少记录:

  • 源模型路径和 revision
  • 转换脚本和命令
  • 目标 backend
  • 输出路径和文件数量
  • training YAML 和 Accelerate config
  • 前几步训练、loss,以及 adapter 输出文件