DeepSeek SFT
DeepSeek 是 KTransformers SFT 的核心模型家族。当前文档应聚焦 DeepSeek V2 Lite 和 DeepSeek V3 系列通过 LLaMA-Factory 运行 MoE LoRA SFT。
示例
| 模型 | 示例 | Backend 备注 |
|---|---|---|
| DeepSeek V2 Lite | examples/ktransformers/train_lora/deepseek_v2_lora_sft_kt.yaml | 可作为 AMXBF16、AMXINT8、AMXINT4 smoke 候选。 |
| DeepSeek V3-0324 | examples/ktransformers/train_lora/deepseek_v3_lora_sft_kt.yaml | FP8 源 checkpoint 必须先转换或准备权重,再进入 AMX SFT。 |
必须说明的精度关系
每个 DeepSeek V3 SFT 教程都必须包含这张表:
| SFT backend | DeepSeek V3 源权重应如何使用 |
|---|---|
AMXBF16 | 使用 BF16 checkpoint。如果原始发布是 FP8,需要先转成 BF16。 |
AMXINT8 | 准备 KT INT8 expert 权重,并让 kt_weight_path 指向该目录。 |
AMXINT4 | 准备 KT INT4 expert 权重,并让 kt_weight_path 指向该目录。 |
训练 mixed precision 仍可以是 BF16,即便 expert backend 选择 INT8 或 INT4。
验证状态
DeepSeek V2 Lite 和 DeepSeek V3 SFT 在 sapphire4 或等效硬件 tuple 记录前,都应保持 "Current / Needs smoke":
LLaMA-Factory commit + Python/torch 版本 + 模型路径 + 目标 backend + 转换路径 + 命令 + loss 轨迹 + adapter 产物