KTransformers

Qwen SFT

Qwen MoE SFT 属于当前 KTransformers 通过 LLaMA-Factory 运行 SFT 的方向。以当前 examples 为准,只发布已经完成 smoke 的 backend 路线。

示例

模型示例建议发布顺序
Qwen3-235B-A22Bexamples/ktransformers/train_lora/qwen3moe_lora_sft_kt.yaml先验证 AMXBF16,有准备权重后再验证 INT8/INT4。
Qwen3.5-397B-A17Bexamples/ktransformers/train_lora/qwen3_5moe_lora_sft_kt.yaml先写 AMXINT8,BF16/INT4 分别记录后再加入。

Backend 写法

沿用和 DeepSeek 一样的 backend 语言:

Backend文档规则
AMXBF16BF16 expert checkpoint 路径。
AMXINT8kt_weight_path 指向已准备的 INT8 expert 权重。
AMXINT4kt_weight_path 指向已准备的 INT4 expert 权重,需要单独验证。

除非三个 backend 都有权重准备路径和 smoke 结果,否则不要暗示某个模型教程已经支持全部三种路线。

验证状态

Qwen SFT 页面应记录:

  • 模型 checkpoint 和 revision
  • training YAML
  • Accelerate config
  • kt_config
  • 使用 INT8 或 INT4 时的 kt_weight_path
  • 前几步训练和 adapter 输出文件