常用模型入口
本页用于选择模型家族入口。精确支持声明以 支持矩阵 为准;单个模型页面在升级支持状态前仍可能需要 runtime smoke。
| 模型家族 | 当前入口 | 说明 |
|---|---|---|
| DeepSeek V4-Flash | kt run deepseek-v4-flash 或手动 MXFP4 启动 | 窄路径;发布生产口径前要确认包版本和 attention 条件。 |
| DeepSeek V3.2 | registry FP8 路径为 kt run deepseek-v3.2;教程仍有 AMXINT4 路径 | registry default 和教程 method 需要统一或解释。 |
| DeepSeek V3 / R1 | kt run deepseek-v3、kt run deepseek-r1 | 当前 registry 存在;不要复制旧 server 路径的 DeepSeek 页面。 |
| Kimi K2 Thinking | kt run kimi-k2-thinking 或 RAWINT4 手动启动 | 后端相关行为需要保守表述,直到 smoke 记录补齐。 |
| MiniMax M2 / M2.1 | kt run m2、kt run m2.1 | Registry 包含 parser defaults 和 tensor-parallel 约束。 |
| MiniMax M2.5 | 手动 SGLang-KT 教程 | 在像 registry 模型一样宣传前需要 smoke。 |
| Qwen3 / Qwen3.5 / Qwen3-Coder-Next | BF16、FP8 或 GPTQ_INT4 手动示例 | 按精确 checkpoint 和 CPU backend 选择 method。 |
| GLM-5 / GLM-5.1 | BF16、FP8 或 FP8_PERCHANNEL 手动示例 | transformers 版本约束也属于支持 tuple 的一部分。 |
复制命令规则
只有下面这些字段全部匹配时,才能直接复制命令:
模型家族 + checkpoint + KT method + CPU ISA/backend + GPU 数量 + 包版本
任何字段变化,都应把原命令当作起点,并重新跑 smoke checklist。