Expert Placement

KTransformers serving 会把部分 MoE expert 计算放到 CPU，同时把选定 expert 常驻 GPU。Placement 会影响显存占用、延迟和长上下文行为。

主要控制项

控制项	作用
`--kt-num-gpu-experts`	放在 GPU 上的 expert 数量。
`--kt-expert-placement-strategy`	初始 placement 策略，例如 `uniform`、`frequency`、`front-loading`、`random`。
`--kt-enable-dynamic-expert-update`	根据 runtime routing 统计更新 placement。
`--kt-max-deferred-experts-per-token`	允许 deferred expert 执行以做流水。
`--kt-gpu-prefill-token-threshold`	控制原生精度路径何时切换 prefill 行为。

Dynamic expert update 对 routing 分布偏斜的 workload 可能有帮助，但它对 workload 敏感。完整实验记录通常包含：