KTransformers

DeepSeek SFT

DeepSeek 是 KTransformers SFT 的核心模型家族。当前文档应聚焦 DeepSeek V2 Lite 和 DeepSeek V3 系列通过 LLaMA-Factory 运行 MoE LoRA SFT。

示例

模型示例Backend 备注
DeepSeek V2 Liteexamples/ktransformers/train_lora/deepseek_v2_lora_sft_kt.yaml可作为 AMXBF16AMXINT8AMXINT4 smoke 候选。
DeepSeek V3-0324examples/ktransformers/train_lora/deepseek_v3_lora_sft_kt.yamlFP8 源 checkpoint 必须先转换或准备权重,再进入 AMX SFT。

必须说明的精度关系

每个 DeepSeek V3 SFT 教程都必须包含这张表:

SFT backendDeepSeek V3 源权重应如何使用
AMXBF16使用 BF16 checkpoint。如果原始发布是 FP8,需要先转成 BF16。
AMXINT8准备 KT INT8 expert 权重,并让 kt_weight_path 指向该目录。
AMXINT4准备 KT INT4 expert 权重,并让 kt_weight_path 指向该目录。

训练 mixed precision 仍可以是 BF16,即便 expert backend 选择 INT8 或 INT4。

验证状态

DeepSeek V2 Lite 和 DeepSeek V3 SFT 在 sapphire4 或等效硬件 tuple 记录前,都应保持 "Current / Needs smoke":

LLaMA-Factory commit + Python/torch 版本 + 模型路径 + 目标 backend + 转换路径 + 命令 + loss 轨迹 + adapter 产物