异构推理

KTransformers 面向工作站级别的前沿 MoE 模型推理，把模型中不同部分映射到更适合执行它们的硬件上。

核心方向

主题	文档位置
SGLang-KT serving 路径	推理概览和启动服务
CPU expert backend	精度与量化
GPU expert 数量和放置	Expert placement
长上下文 prefill 策略	Layerwise Prefill
AMX 执行	AMX 后端

迁移边界

旧 GitHub 教程可能提到 local_chat.py、ktransformers/server/main.py 或 balance_serve。这些应视为历史实现路径。当前公开推理文档应使用 kt run，或使用带 --kt-* 参数的 python -m sglang.launch_server。

性能结论只有在写清模型、method、硬件、命令和 profiling 方法后，才应放进技术页。