精度与量化
KTransformers 的 method 名称描述的是 KT expert 执行路径和预期权重格式,不是可以任意替换的通用精度标签。
Method 概览
| Method | 权重格式 / backend | 适用场景 |
|---|---|---|
BF16 | 原生 BF16 expert 权重 | 优先质量和简单性,且硬件支持该路径。 |
FP8 | 原生 FP8 expert 权重 | 模型家族提供兼容 FP8 checkpoint。 |
FP8_PERCHANNEL | Per-channel FP8 | 精确模型页说明必须使用 per-channel FP8。 |
RAWINT4 | CPU/GPU 路径共享的原生 INT4 权重 | Kimi 风格原生 INT4 模型路径。 |
GPTQ_INT4 | GPTQ INT4 checkpoint 路径 | 仅用于明确文档化 GPTQ_INT4 的示例。 |
AMXINT8 | 转换后的 AMX INT8 expert 权重 | Intel AMX CPU 路径,且已经准备 CPU 权重。 |
AMXINT4 | 转换后的 AMX INT4 expert 权重 | Intel AMX CPU 路径,且 INT4 质量/性能可接受。 |
MXFP4 | DeepSeek V4-Flash 原生 MXFP4 | 窄模型专用路径。 |
LLAMAFILE | GGUF / llamafile backend | 偏兼容性的 CPU backend。 |
Weight Path 规则
--kt-weight-path 必须指向所选 method 需要的 CPU 侧权重:
BF16、FP8、RAWINT4:通常是同一原生 checkpoint 或模型特定原生权重路径。AMXINT8、AMXINT4:转换后的 KT CPU expert 权重。LLAMAFILE:GGUF 权重目录。MXFP4:DeepSeek V4-Flash 的精确权重布局。
转换边界
不能因为存在转换脚本就直接宣称某个量化路径已支持。公开文档还需要说明:
- 源 checkpoint 格式
- 转换命令和输出目录布局
- 选择的
--kt-method - CPU ISA 要求
- smoke 结果或 "Needs smoke" 状态