KTransformers

CPU/GPU 要求

KTransformers serving 同时依赖 GPU 显存和 CPU expert 吞吐。可用配置是 GPU、CPU ISA、内存容量、NUMA 拓扑、模型 checkpoint 和 KT method 的组合。

基线要求

组件建议
OS当前公开包主线为 Linux x86-64。
Pythonkt-kernel wheel 支持 Python 3.10、3.11、3.12。
GPU当前 serving 主线是 NVIDIA Ampere 或更新架构。
CPU兼容路径最低 AVX2;高吞吐路径通常需要 AVX512 或 AMX。
内存大型 MoE 模型需要较大系统内存;具体取决于 method 和 CPU 权重格式。
NUMA多 socket 系统需要调 --kt-threadpool-count 和 CPU placement。

当前硬件范围

平台官网状态
NVIDIA GPU + x86 CPU当前主文档路径。类似 sapphire4 的 NVIDIA/AMX 机器是当前验证目标。
AMD CPU 路径支持方向保留;只有在 AMD 机器上记录具体 tuple 后才发布模型声明。
Ascend NPU当前公开支持中不包含。
Intel xPU当前公开支持中不包含。
ROCm暂只作为历史文档,等当前包路径验证后再提升。

规划规则

先从模型支持 tuple 开始:

模型 + method + CPU backend + GPU 数量 + 系统内存 + 包版本

再调:

  • --kt-cpuinfer
  • --kt-threadpool-count
  • --kt-num-gpu-experts
  • 如适用,再调 prefill threshold 和 deferred experts

生产声明边界

除非至少有一个模型/method tuple 在该硬件类别上跑过 smoke,否则不要写“支持硬件 X”。硬件支持应是具体声明,不是泛化声明。