Qwen SFT
Qwen MoE SFT 属于当前 KTransformers 通过 LLaMA-Factory 运行 SFT 的方向。以当前 examples 为准,只发布已经完成 smoke 的 backend 路线。
示例
| 模型 | 示例 | 建议发布顺序 |
|---|---|---|
| Qwen3-235B-A22B | examples/ktransformers/train_lora/qwen3moe_lora_sft_kt.yaml | 先验证 AMXBF16,有准备权重后再验证 INT8/INT4。 |
| Qwen3.5-397B-A17B | examples/ktransformers/train_lora/qwen3_5moe_lora_sft_kt.yaml | 先写 AMXINT8,BF16/INT4 分别记录后再加入。 |
Backend 写法
沿用和 DeepSeek 一样的 backend 语言:
| Backend | 文档规则 |
|---|---|
AMXBF16 | BF16 expert checkpoint 路径。 |
AMXINT8 | kt_weight_path 指向已准备的 INT8 expert 权重。 |
AMXINT4 | kt_weight_path 指向已准备的 INT4 expert 权重,需要单独验证。 |
除非三个 backend 都有权重准备路径和 smoke 结果,否则不要暗示某个模型教程已经支持全部三种路线。
验证状态
Qwen SFT 页面应记录:
- 模型 checkpoint 和 revision
- training YAML
- Accelerate config
kt_config- 使用 INT8 或 INT4 时的
kt_weight_path - 前几步训练和 adapter 输出文件