异构推理
KTransformers 面向工作站级别的前沿 MoE 模型推理,把模型中不同部分映射到更适合执行它们的硬件上。
核心方向
| 主题 | 文档位置 |
|---|---|
| SGLang-KT serving 路径 | 推理概览 和 启动服务 |
| CPU expert backend | 精度与量化 |
| GPU expert 数量和放置 | Expert placement |
| 长上下文 prefill 策略 | Layerwise Prefill |
| AMX 执行 | AMX 后端 |
迁移边界
旧 GitHub 教程可能提到 local_chat.py、ktransformers/server/main.py 或 balance_serve。这些应视为历史实现路径。当前公开推理文档应使用 kt run,或使用带 --kt-* 参数的 python -m sglang.launch_server。
性能结论只有在写清模型、method、硬件、命令和 profiling 方法后,才应放进技术页。