Expert Placement
KTransformers serving 会把部分 MoE expert 计算放到 CPU,同时把选定 expert 常驻 GPU。Placement 会影响显存占用、延迟和长上下文行为。
主要控制项
| 控制项 | 作用 |
|---|---|
--kt-num-gpu-experts | 放在 GPU 上的 expert 数量。 |
--kt-expert-placement-strategy | 初始 placement 策略,例如 uniform、frequency、front-loading、random。 |
--kt-enable-dynamic-expert-update | 根据 runtime routing 统计更新 placement。 |
--kt-max-deferred-experts-per-token | 允许 deferred expert 执行以做流水。 |
--kt-gpu-prefill-token-threshold | 控制原生精度路径何时切换 prefill 行为。 |
保守默认值
- 使用
kt run时,先采用 registry defaults。 - 手动启动时,没有模型激活统计就使用
uniform。 - 只有确认 VRAM 余量后,再增加
--kt-num-gpu-experts。 - 对 deferred expert 的激进取值,在质量检查通过前保持 experimental。
Dynamic Update
Dynamic expert update 对 routing 分布偏斜的 workload 可能有帮助,但它对 workload 敏感。支持声明应包含:
- 模型和 checkpoint
- prompt 长度范围
- batch/concurrency 形态
- GPU expert 数量
- 是否启用 dynamic update
- 质量和延迟观察结果