KTransformers

DeepSeek 模型

DeepSeek 是 KTransformers 推理和 SFT 的核心模型家族。推理和微调使用不同 method 与包路径,文档里必须分开写。

推理

模型入口Method状态
DeepSeek V4-Flashkt run deepseek-v4-flashMXFP4Needs smoke;窄路径。
DeepSeek V3.2kt run deepseek-v3.2 或手动教程registry 使用 FP8;旧教程使用 AMXINT4需要统一口径并 smoke。
DeepSeek V3-0324 / R1-0528kt run deepseek-v3 / kt run deepseek-r1registry 默认 AMXINT4Current / Needs docs。

微调

DeepSeek SFT。DeepSeek V3 公开 checkpoint 可能是 FP8,但当前 KT SFT 使用 AMXBF16AMXINT8AMXINT4,不是原生 FP8 SFT。

文档来源

需要谨慎迁移的 GitHub 来源:

  • doc/en/DeepSeek-V4-Flash.md
  • doc/en/kt-kernel/deepseek-v3.2-sglang-tutorial.md
  • doc/en/SFT/KTransformers-Fine-Tuning_Quick-Start.md
  • doc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md