KTransformers

精度与量化

KTransformers 的 method 名称描述的是 KT expert 执行路径和预期权重格式,不是可以任意替换的通用精度标签。

Method 概览

Method权重格式 / backend适用场景
BF16原生 BF16 expert 权重优先质量和简单性,且硬件支持该路径。
FP8原生 FP8 expert 权重模型家族提供兼容 FP8 checkpoint。
FP8_PERCHANNELPer-channel FP8精确模型页说明必须使用 per-channel FP8。
RAWINT4CPU/GPU 路径共享的原生 INT4 权重Kimi 风格原生 INT4 模型路径。
GPTQ_INT4GPTQ INT4 checkpoint 路径仅用于明确文档化 GPTQ_INT4 的示例。
AMXINT8转换后的 AMX INT8 expert 权重Intel AMX CPU 路径,且已经准备 CPU 权重。
AMXINT4转换后的 AMX INT4 expert 权重Intel AMX CPU 路径,且 INT4 质量/性能可接受。
MXFP4DeepSeek V4-Flash 原生 MXFP4窄模型专用路径。
LLAMAFILEGGUF / llamafile backend偏兼容性的 CPU backend。

Weight Path 规则

--kt-weight-path 必须指向所选 method 需要的 CPU 侧权重:

  • BF16FP8RAWINT4:通常是同一原生 checkpoint 或模型特定原生权重路径。
  • AMXINT8AMXINT4:转换后的 KT CPU expert 权重。
  • LLAMAFILE:GGUF 权重目录。
  • MXFP4:DeepSeek V4-Flash 的精确权重布局。

转换边界

不能因为存在转换脚本就直接宣称某个量化路径已支持。公开文档还需要说明:

  • 源 checkpoint 格式
  • 转换命令和输出目录布局
  • 选择的 --kt-method
  • CPU ISA 要求
  • smoke 结果或 "Needs smoke" 状态

相关页面