KTransformers 文档
KTransformers(发音为 Quick Transformers)是一个灵活的、以 Python 为核心的框架,旨在帮助你体验先进的内核优化和 Transformers 模型的放置/并行策略。
快速开始
- 安装指南 - 安装 KTransformers,实现 CPU-GPU 混合 MoE 推理
- 优化技术
- AMX 后端 - 了解 AMX 后端架构、权重转换与 SGLang 启动流程
- Layerwise Prefill - 了解长上下文预填充优化路径与调参建议