Benchmark 与 Profiling

性能声明必须可复现。不要只给单个 tokens/s 数字而不说明 runtime tuple 和 workload 形态。

必填元数据

模型和 checkpoint
KT method 和权重路径类型
CPU SKU、物理核心数、NUMA 数
GPU SKU/数量和显存
包版本
启动命令
请求形态：输入 tokens、输出 tokens、concurrency、batch 行为
测的是 prefill、decode 还是端到端吞吐

指标

分开报告这些指标：

指标	含义
Prefill tokens/s	prompt 处理吞吐。
Decode tokens/s	prefill 后的生成吞吐。
End-to-end latency	某个请求形态下的用户可见延迟。
Peak memory	测试负载下的 CPU RAM 和 GPU VRAM。

对比规则

与其他 runtime 对比时，应对齐：

模型 checkpoint
量化 / 精度
输入和输出长度
concurrency
硬件
服务启动参数

任何字段不同，都应标注为方向性观察，而不是严格 benchmark。