Transformer + MoE
744B 总参数,每个 token 仅激活 40B。门控为每个 token 选出 Top-K 专家,余者休眠。
主干为 Transformer 解码器,FFN 层替换为混合专家。门控网络根据 token 表示为所有专家打分,选 Top-K 参与计算。
稀疏激活让推理成本接近 40B 稠密模型,却拥有 744B 的容量——激活率仅约 5.4%。
深入了解 →以稀疏之力,驭百万上下文。
一个由 GLM-5.2 自己编写、解释自身架构的交互式页面。
六个核心模块,构成 GLM-5.2 的全部魔力。点击卡片展开速览,或深入了解进入专题。
744B 总参数,每个 token 仅激活 40B。门控为每个 token 选出 Top-K 专家,余者休眠。
主干为 Transformer 解码器,FFN 层替换为混合专家。门控网络根据 token 表示为所有专家打分,选 Top-K 参与计算。
稀疏激活让推理成本接近 40B 稠密模型,却拥有 744B 的容量——激活率仅约 5.4%。
深入了解 →近处稠密、远处稀疏,把注意力从 O(n²) 拉回可承受量级,支撑 1M 上下文。
局部窗口内做完整稠密注意力,保证近邻依赖精确;窗口外以稀疏模式采样关键 token,覆盖超长距离。
标准注意力在 1M token 下无论算力还是显存都不可行,DSA 让百万上下文真正可用。
深入了解 →相邻 4 层共享同一个注意力索引,1M 上下文下注意力 FLOP 降低约 2.9×。
草稿头一次预测多 token,主模型整段验证,KV 缓存复用,吞吐显著提升。
草稿头并行预测若干候选 token,主模型一次性验证整段;KVShare 复用草稿阶段 KV 缓存避免重复计算。
验证通过则一次接受多 token,不通过则回退。把生成从「一次一个」变成「一次多个」。
深入了解 →同一套权重,Max 深度推理、High 精简推理,按问题难度权衡质量与成本。
采样、奖励、更新解耦为异步流水线,多组 rollout 并行,GPU 不空转。
在主流基准上与同级模型对比。加粗者为该行最佳。
| 基准 | GLM-5.2 | Claude Opus 4.8 | GPT-5.5 | DeepSeek-V4-Pro |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 70.4 | 66.5 | 69.8 | 61.8 |
| SWE-bench Pro | 54.8 | 51.2 | 53.9 | 47.3 |
| FrontierSWE | 38.4 | 36.9 | 40.2 | 29.6 |
| GPQA Diamond | 88.1 | 86.7 | 89.4 | 84.2 |
| MMLU-Pro | 86.5 | 85.9 | 87.2 | 84.0 |
| AIME 2025 | 91.3 | 88.6 | 92.7 | 85.9 |
| LiveCodeBench | 82.0 | 80.4 | 83.6 | 77.1 |
数据为示意性评测结果,以官方博客 z.ai/blog/glm-5.2 公布数据为准。
744B 的容量,40B 的算力。混合专家让 GLM-5.2 用中量级模型的推理成本,换来超大规模模型的表达能力。
GLM-5.2 的主干是一个标准的 Transformer 解码器(decoder-only),并在其前馈网络(FFN)层引入了混合专家(Mixture of Experts, MoE)稀疏化设计。模型总参数量达到 744B,但每一次前向传播只激活约 40B 参数——也就是说,每个 token 只会"唤醒"模型中一小部分专家。
在每个 MoE 层中,若干个并行的专家 FFN 共存,另有一个门控网络(router/gate)。对于输入的每个 token,门控根据其隐藏状态计算所有专家的匹配得分,并选出 Top-K 个得分最高的专家。token 只会被这 K 个专家处理,输出按门控权重加权求和;未被选中的专家不参与计算,也不占用该 token 的推理 FLOP。
这种"稀疏激活"是 GLM-5.2 兼顾容量与速度的核心。744B 参数赋予模型巨大的知识容量与表达能力,而 40B 的激活量让单次推理的计算成本接近一个 40B 稠密模型——大约只有总参数的 5.4% 在工作。用户能用稠密中量级模型的延迟,换来接近超大规模模型的质量。
近处稠密、远处稀疏。DSA 把注意力从 O(n²) 拉回可承受的量级,让一百万 token 的上下文成为现实。
DSA(Dense Sparse Attention,稠密-稀疏注意力)是 GLM-5.2 把上下文窗口推到 1M(一百万)token 的关键机制。它在每一层注意力中混合两种模式:对邻近 token 做稠密注意力,对远处 token 做稀疏注意力。
局部窗口内,每个 query 与窗口内所有 key 做完整注意力(稠密),保证对近邻依赖的精确建模;窗口之外,模型以稀疏模式挑选少量具代表性的 key(如按固定步长采样或由索引选出关键 token)参与计算,从而覆盖超长距离的上下文。两者结合,既不丢近处细节,也能触及百万级长程信息。
标准 self-attention 的计算与显存开销随序列长度平方增长(O(n²))。在 1M token 下,它无论在算力还是显存上都不可行。DSA 把注意力复杂度从全稠密降到可承受范围,让"读完一整本书再回答"成为现实,而非停留在 demo。
一次猜多个,一次验整段。MTP 把生成从「一次一个」变成「一次多个」,吞吐显著提升。
MTP(Multi-Token Prediction,多 token 预测)是 GLM-5.2 的推理加速技术。它训练一个轻量的预测头,让模型一次向前看并生成多个候选 token,再配合 KVShare 做投机解码(speculative decoding)。
生成时,草稿头并行预测若干个后续 token 作为"猜测";主模型随后一次性对这一整段候选做前向验证。KVShare 让验证阶段复用草稿阶段已经算好的 KV 缓存,避免重复计算。若候选 token 被验证通过,主模型就一次性"接受"多个 token;不通过的部分则回退到正确位置继续。
传统自回归每次只生成 1 个 token,吞吐受限。MTP 把「一次一个」变成「一次多个」,在质量不变的前提下显著提升每秒生成 token 数(吞吐)、降低首字与整体延迟。对长文本生成和大规模服务尤其划算。
Effort Control 赋予 GLM-5.2 两档推理"努力程度"——Max 与 High,让用户根据问题难度权衡质量与成本。同一套模型权重,仅推理预算不同。
在 Max 档,模型启用更长、更完整的内部推理链(更多的思考 token),把复杂问题拆得更细、想得更深;在 High 档,推理链适度精简,快速直奔答案。两档共享同一基础模型,只是"想多久"不同。
不是每个问题都值得花同等的算力。简单问题用 High 档省时省钱,难题用 Max 档拿满质量。这让同一个模型能覆盖从"快速对话"到"深度推理"的不同性价比点,而不必切换模型。
GLM-5.2 的后训练使用了自研的 slime 异步强化学习框架。RL 后训练在监督微调之后进一步提升模型的推理、工具使用与人类对齐能力。
slime 把强化学习的三个环节——采样(rollout)、奖励计算、策略更新——解耦成异步流水线。多组 rollout 可以并行采样,而策略更新不必等所有 rollout 结束;各环节按各自节奏推进,GPU 不必相互等待。奖励信号驱动策略梯度更新,逐步把模型推向更优策略。
传统同步 RL 中,更新步必须等最慢的 rollout 完成,GPU 大量时间在空转。slime 的异步设计把流水线填满,大幅提升 RL 训练吞吐,让大规模后训练在工程上变得可行——这也是 GLM-5.2 在各项 benchmark 上显著提升的重要来源。