KTransformers 文档
KTransformers 是一个面向大型 MoE 模型的 CPU-GPU 异构计算项目,覆盖推理服务和 LoRA 微调。文档按任务优先组织:先选择正确包路径,再进入推理或微调,跑通模型后再看模型教程、技术背景、硬件边界和命令参考。
当前公开入口
| 任务 | 公开包组合 | 主要入口 |
|---|---|---|
| 推理服务 | kt-kernel sglang-kt | kt run 或带 --kt-* 参数的 python -m sglang.launch_server |
| LoRA SFT | 通过 LLaMA-Factory 使用 ktransformers[sft] | 带 use_kt: true 的 LLaMA-Factory training YAML 和 Accelerate KT 配置 |
旧 local_chat.py、ktransformers/server/main.py、balance_serve、kt_optimize_rule 路径属于历史入口,除非页面明确说明已经重新验证,否则不作为当前主线。
快速开始
- 安装指南 - 为推理或微调选择包组合。
- 首次启动推理服务 - 从
kt run或手动 SGLang-KT 启动开始。 - 首次运行 LoRA SFT - 从 LLaMA-Factory KT examples 开始。
推理
- 推理概览 - serving 路径和 method 选择。
- 启动服务 - 在 registry 启动和手动启动之间选择。
- 发送请求 - 使用 cURL、Python requests 或 OpenAI client。
- OpenAI-compatible API - SGLang-KT 的 endpoint 和 client 行为。
- 常用模型入口 - DeepSeek、Kimi、MiniMax、Qwen、GLM 从哪里开始。
微调
- 微调概览 - 把 LoRA SFT 作为 KTransformers 的一等工作流。
- 通过 LLaMA-Factory 运行 LoRA SFT - 当前公开 SFT 入口和配置形态。
- SFT backend 与精度 -
AMXBF16、AMXINT8、AMXINT4。 - 权重准备 - BF16、INT8、INT4 和 DeepSeek V3 FP8 源 checkpoint。
- DeepSeek SFT 与 Qwen SFT - 当前模型教程状态。
高级功能
- 服务启动参数 - KT 专用启动参数和调参规则。
- 精度与量化 -
BF16、FP8、RAWINT4、AMXINT4、AMXINT8、MXFP4、LLAMAFILE。 - Expert placement - GPU expert 数量、deferred experts 和动态更新。
- AMX 后端 - AMX 架构、权重转换与启动流程。
- Layerwise Prefill - 长上下文 prefill 加速原理和调参策略。
支持模型与硬件
技术工作
- 技术工作 - 和用户操作指南分开的系统背景。
- 异构推理 - CPU-GPU MoE 执行方向。
- 本地微调 - 从本地推理到本地 LoRA SFT。
- 演讲与幻灯片 - GOSIM 2026 和公开材料。
- GitHub 文档迁移地图 - 哪些内容迁移到官网,哪些只作为历史材料。
开发者与命令参考
- Runtime smoke checklist - 升级支持状态前必须验证的内容。
- Benchmark 与 profiling - 可复现的性能报告口径。
- CLI 参考 -
kt命令面。 - 故障排查 - 常见安装、serving 和 SFT 问题。