KTransformers 文档

KTransformers 是一个面向大型 MoE 模型的 CPU-GPU 异构计算项目，覆盖推理服务和 LoRA 微调。文档先帮你选择模型家族，再在同一个模型视角下查看 Inference、Training、技术背景、硬件边界和命令参考。

当前公开入口

任务	公开包组合	主要入口
推理服务	`kt-kernel sglang-kt`	`kt run` 或带 `--kt-*` 参数的 `python -m sglang.launch_server`
LoRA SFT	通过 LLaMA-Factory 使用 `ktransformers[sft]`	带 `use_kt: true` 的 LLaMA-Factory training YAML 和 Accelerate KT 配置

旧 local_chat.py、ktransformers/server/main.py、balance_serve、kt_optimize_rule 路径属于历史入口，除非页面明确说明已经重新验证，否则不作为当前主线。

快速开始

安装指南 - 为推理或微调选择包组合。
首次启动推理服务 - 从 kt run 或手动 SGLang-KT 启动开始。
首次运行 LoRA SFT - 从 LLaMA-Factory KT examples 开始。

推理

推理概览 - serving 路径和 method 选择。
启动服务 - 在 registry 启动和手动启动之间选择。
发送请求 - 使用 cURL、Python requests 或 OpenAI client。
OpenAI-compatible API - SGLang-KT 的 endpoint 和 client 行为。
常用模型入口 - DeepSeek、Kimi、MiniMax、Qwen、GLM 从哪里开始。

微调

微调概览 - 把 LoRA SFT 作为 KTransformers 的一等工作流。
通过 LLaMA-Factory 运行 LoRA SFT - 当前公开 SFT 入口和配置形态。
SFT backend 与精度 - AMXBF16、AMXINT8、AMXINT4。
权重准备 - BF16、INT8、INT4 和 DeepSeek V3 FP8 源 checkpoint。
DeepSeek SFT 与 Qwen SFT - 当前模型教程状态。

高级功能

服务启动参数 - KT 专用启动参数和调参规则。
精度与量化 - BF16、FP8、RAWINT4、AMXINT4、AMXINT8、MXFP4、LLAMAFILE。
Expert placement - GPU expert 数量、deferred experts 和动态更新。
AMX 后端 - AMX 架构、权重转换与启动流程。
Layerwise Prefill - 长上下文 prefill 加速原理和调参策略。

支持模型与硬件

支持矩阵 - 模型、精度、backend 和验证状态。
文本生成模型 - 各模型家族入口。
模型状态说明 - 如何阅读 Current、Needs smoke、Legacy 等状态。
硬件平台状态 - CPU/GPU 要求和已知边界。

技术工作

技术工作 - 和用户操作指南分开的系统背景。
异构推理 - CPU-GPU MoE 执行方向。
本地微调 - 从本地推理到本地 LoRA SFT。
演讲与幻灯片 - GOSIM 2026 和公开材料。
GitHub 文档阅读地图 - GitHub 旧资料和当前页面的对应关系。

命令与排错参考

CLI 参考 - kt 命令面。
故障排查 - 常见安装、serving 和 SFT 问题。