KTransformers

异构推理

KTransformers 面向工作站级别的前沿 MoE 模型推理,把模型中不同部分映射到更适合执行它们的硬件上。

核心方向

主题文档位置
SGLang-KT serving 路径推理概览启动服务
CPU expert backend精度与量化
GPU expert 数量和放置Expert placement
长上下文 prefill 策略Layerwise Prefill
AMX 执行AMX 后端

迁移边界

旧 GitHub 教程可能提到 local_chat.pyktransformers/server/main.pybalance_serve。这些应视为历史实现路径。当前公开推理文档应使用 kt run,或使用带 --kt-* 参数的 python -m sglang.launch_server

性能结论只有在写清模型、method、硬件、命令和 profiling 方法后,才应放进技术页。