KTransformers

Expert Placement

KTransformers serving 会把部分 MoE expert 计算放到 CPU,同时把选定 expert 常驻 GPU。Placement 会影响显存占用、延迟和长上下文行为。

主要控制项

控制项作用
--kt-num-gpu-experts放在 GPU 上的 expert 数量。
--kt-expert-placement-strategy初始 placement 策略,例如 uniformfrequencyfront-loadingrandom
--kt-enable-dynamic-expert-update根据 runtime routing 统计更新 placement。
--kt-max-deferred-experts-per-token允许 deferred expert 执行以做流水。
--kt-gpu-prefill-token-threshold控制原生精度路径何时切换 prefill 行为。

保守默认值

  • 使用 kt run 时,先采用 registry defaults。
  • 手动启动时,没有模型激活统计就使用 uniform
  • 只有确认 VRAM 余量后,再增加 --kt-num-gpu-experts
  • 对 deferred expert 的激进取值,在质量检查通过前保持 experimental。

Dynamic Update

Dynamic expert update 对 routing 分布偏斜的 workload 可能有帮助,但它对 workload 敏感。支持声明应包含:

  • 模型和 checkpoint
  • prompt 长度范围
  • batch/concurrency 形态
  • GPU expert 数量
  • 是否启用 dynamic update
  • 质量和延迟观察结果

相关页面