KTransformers

Benchmark 与 Profiling

性能声明必须可复现。不要只给单个 tokens/s 数字而不说明 runtime tuple 和 workload 形态。

必填元数据

  • 模型和 checkpoint
  • KT method 和权重路径类型
  • CPU SKU、物理核心数、NUMA 数
  • GPU SKU/数量和显存
  • 包版本
  • 启动命令
  • 请求形态:输入 tokens、输出 tokens、concurrency、batch 行为
  • 测的是 prefill、decode 还是端到端吞吐

指标

分开报告这些指标:

指标含义
Prefill tokens/sprompt 处理吞吐。
Decode tokens/sprefill 后的生成吞吐。
End-to-end latency某个请求形态下的用户可见延迟。
Peak memory测试负载下的 CPU RAM 和 GPU VRAM。

对比规则

与其他 runtime 对比时,应对齐:

  • 模型 checkpoint
  • 量化 / 精度
  • 输入和输出长度
  • concurrency
  • 硬件
  • 服务启动参数

任何字段不同,都应标注为方向性观察,而不是严格 benchmark。