Benchmark 与 Profiling
性能声明必须可复现。不要只给单个 tokens/s 数字而不说明 runtime tuple 和 workload 形态。
必填元数据
- 模型和 checkpoint
- KT method 和权重路径类型
- CPU SKU、物理核心数、NUMA 数
- GPU SKU/数量和显存
- 包版本
- 启动命令
- 请求形态:输入 tokens、输出 tokens、concurrency、batch 行为
- 测的是 prefill、decode 还是端到端吞吐
指标
分开报告这些指标:
| 指标 | 含义 |
|---|---|
| Prefill tokens/s | prompt 处理吞吐。 |
| Decode tokens/s | prefill 后的生成吞吐。 |
| End-to-end latency | 某个请求形态下的用户可见延迟。 |
| Peak memory | 测试负载下的 CPU RAM 和 GPU VRAM。 |
对比规则
与其他 runtime 对比时,应对齐:
- 模型 checkpoint
- 量化 / 精度
- 输入和输出长度
- concurrency
- 硬件
- 服务启动参数
任何字段不同,都应标注为方向性观察,而不是严格 benchmark。