DeepSeek 模型
DeepSeek 是 KTransformers 推理和 SFT 的核心模型家族。推理和微调使用不同 method 与包路径,文档里必须分开写。
推理
| 模型 | 入口 | Method | 状态 |
|---|---|---|---|
| DeepSeek V4-Flash | kt run deepseek-v4-flash | MXFP4 | Needs smoke;窄路径。 |
| DeepSeek V3.2 | kt run deepseek-v3.2 或手动教程 | registry 使用 FP8;旧教程使用 AMXINT4 | 需要统一口径并 smoke。 |
| DeepSeek V3-0324 / R1-0528 | kt run deepseek-v3 / kt run deepseek-r1 | registry 默认 AMXINT4 | Current / Needs docs。 |
微调
见 DeepSeek SFT。DeepSeek V3 公开 checkpoint 可能是 FP8,但当前 KT SFT 使用 AMXBF16、AMXINT8 或 AMXINT4,不是原生 FP8 SFT。
文档来源
需要谨慎迁移的 GitHub 来源:
doc/en/DeepSeek-V4-Flash.mddoc/en/kt-kernel/deepseek-v3.2-sglang-tutorial.mddoc/en/SFT/KTransformers-Fine-Tuning_Quick-Start.mddoc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md