CPU/GPU 要求
KTransformers serving 同时依赖 GPU 显存和 CPU expert 吞吐。可用配置是 GPU、CPU ISA、内存容量、NUMA 拓扑、模型 checkpoint 和 KT method 的组合。
基线要求
| 组件 | 建议 |
|---|---|
| OS | 当前公开包主线为 Linux x86-64。 |
| Python | kt-kernel wheel 支持 Python 3.10、3.11、3.12。 |
| GPU | 当前 serving 主线是 NVIDIA Ampere 或更新架构。 |
| CPU | 兼容路径最低 AVX2;高吞吐路径通常需要 AVX512 或 AMX。 |
| 内存 | 大型 MoE 模型需要较大系统内存;具体取决于 method 和 CPU 权重格式。 |
| NUMA | 多 socket 系统需要调 --kt-threadpool-count 和 CPU placement。 |
当前硬件范围
| 平台 | 官网状态 |
|---|---|
| NVIDIA GPU + x86 CPU | 当前主文档路径。类似 sapphire4 的 NVIDIA/AMX 机器是当前验证目标。 |
| AMD CPU 路径 | 支持方向保留;只有在 AMD 机器上记录具体 tuple 后才发布模型声明。 |
| Ascend NPU | 当前公开支持中不包含。 |
| Intel xPU | 当前公开支持中不包含。 |
| ROCm | 暂只作为历史文档,等当前包路径验证后再提升。 |
规划规则
先从模型支持 tuple 开始:
模型 + method + CPU backend + GPU 数量 + 系统内存 + 包版本
再调:
--kt-cpuinfer--kt-threadpool-count--kt-num-gpu-experts- 如适用,再调 prefill threshold 和 deferred experts
生产声明边界
除非至少有一个模型/method tuple 在该硬件类别上跑过 smoke,否则不要写“支持硬件 X”。硬件支持应是具体声明,不是泛化声明。