Qwen SFT

Qwen MoE SFT 属于当前 KTransformers 通过 LLaMA-Factory 运行 SFT 的方向。模型级的 Training TPS、启动命令和 blocker 以 Qwen 模型页为准；本页只解释横向 SFT 写法。

当前验证结论

模型	模型页 Training 状态
Qwen3-30B-A3B	AMXINT8 LoRA SFT 20-step 通过，`Training TPS=32.45`，starter route
Qwen3-235B-A22B	BF16/KT LoRA SFT 12-step 通过，`Training TPS=1.27`，advanced/high-RAM
Qwen3.5-397B-A17B	BF16/KT LoRA SFT 20-step 通过，`Training TPS=1.14`，advanced/high-RAM，依赖当前兼容补丁

示例来源

模型	示例	适用说明
Qwen3-30B-A3B	已验证训练配置	starter route，适合从小规模验证开始
Qwen3-235B-A22B	`examples/ktransformers/train_lora/qwen3moe_lora_sft_kt.yaml` 方向	advanced/high-RAM 路线，需要关注硬件和内存压力
Qwen3.5-397B-A17B	`examples/ktransformers/train_lora/qwen3_5moe_lora_sft_kt.yaml` 方向	advanced/high-RAM 路线，依赖当前兼容补丁，系统内存压力约 924GB

Backend 写法

沿用和 DeepSeek 一样的 backend 语言：

Backend	权重要求
`AMXBF16`	BF16 expert checkpoint 路径。
`AMXINT8`	`kt_weight_path` 指向已准备的 INT8 expert 权重。
`AMXINT4`	`kt_weight_path` 指向已准备的 INT4 expert 权重，需要单独验证。

不同 backend 需要对应的权重准备路径和目标环境验证。一个模型通过某个 backend，不代表另外两个 backend 也已经可用。

使用提示

使用 INT8/INT4 backend 时，确认 kt_weight_path 指向已经准备好的 expert 权重。
先用短步数训练确认 loss logging 和 adapter 产物，再拉长训练。
模型页中的 Training 摘要使用端到端 Training TPS，不同硬件和包版本需要重新验证。