← 返回
由 GLM-5.2 自述 · 开源 · MIT

GLM-5.2

以稀疏之力,驭百万上下文。

一个由 GLM-5.2 自己编写、解释自身架构的交互式页面。

744B 参数
总参数量
40B 激活
单 token 激活参数
1M 上下文
最大上下文长度
MIT
开源协议

架构概览

六个核心模块,构成 GLM-5.2 的全部魔力。点击卡片展开速览,或深入了解进入专题。

Transformer + MoE

Mixture of Experts · 稀疏激活

744B 总参数,每个 token 仅激活 40B。门控为每个 token 选出 Top-K 专家,余者休眠。

主干为 Transformer 解码器,FFN 层替换为混合专家。门控网络根据 token 表示为所有专家打分,选 Top-K 参与计算。

稀疏激活让推理成本接近 40B 稠密模型,却拥有 744B 的容量——激活率仅约 5.4%。

深入了解

DSA 稀疏注意力

Dense Sparse Attention

近处稠密、远处稀疏,把注意力从 O(n²) 拉回可承受量级,支撑 1M 上下文。

局部窗口内做完整稠密注意力,保证近邻依赖精确;窗口外以稀疏模式采样关键 token,覆盖超长距离。

标准注意力在 1M token 下无论算力还是显存都不可行,DSA 让百万上下文真正可用。

深入了解

IndexShare

跨层共享索引器

相邻 4 层共享同一个注意力索引,1M 上下文下注意力 FLOP 降低约 2.9×。

第 1 层计算并缓存注意力索引,后续 3 层直接复用该索引进行稀疏检索,仅做必要微调。

跨层共享消除了索引的重复构建,是百万上下文变「便宜」的关键工程优化。

深入了解

MTP 投机解码

Multi-Token Prediction · KVShare

草稿头一次预测多 token,主模型整段验证,KV 缓存复用,吞吐显著提升。

草稿头并行预测若干候选 token,主模型一次性验证整段;KVShare 复用草稿阶段 KV 缓存避免重复计算。

验证通过则一次接受多 token,不通过则回退。把生成从「一次一个」变成「一次多个」。

深入了解

Effort Control

Max / High · 推理努力档位

同一套权重,Max 深度推理、High 精简推理,按问题难度权衡质量与成本。

Max 档启用更长更完整的内部推理链,High 档精简推理链快速直奔答案;两档共享同一基础模型。

简单问题用 High 省时省钱,难题用 Max 拿满质量,一个模型覆盖不同性价比点。

深入了解

RL 后训练

slime 异步强化学习框架

采样、奖励、更新解耦为异步流水线,多组 rollout 并行,GPU 不空转。

slime 将 rollout、奖励计算、策略更新解耦,各环节按各自节奏推进,互不阻塞。

异步流水线填满 GPU,大幅提升 RL 训练吞吐,是 benchmark 显著提升的重要来源。

深入了解

性能基准

在主流基准上与同级模型对比。加粗者为该行最佳。

基准 GLM-5.2 Claude Opus 4.8 GPT-5.5 DeepSeek-V4-Pro
Terminal-Bench 2.170.466.569.861.8
SWE-bench Pro54.851.253.947.3
FrontierSWE38.436.940.229.6
GPQA Diamond88.186.789.484.2
MMLU-Pro86.585.987.284.0
AIME 202591.388.692.785.9
LiveCodeBench82.080.483.677.1

数据为示意性评测结果,以官方博客 z.ai/blog/glm-5.2 公布数据为准。

总览 / 架构 / Transformer + MoE

Transformer + MoE

Mixture of Experts · 稀疏激活

744B 的容量,40B 的算力。混合专家让 GLM-5.2 用中量级模型的推理成本,换来超大规模模型的表达能力。

GLM-5.2 的主干是一个标准的 Transformer 解码器(decoder-only),并在其前馈网络(FFN)层引入了混合专家(Mixture of Experts, MoE)稀疏化设计。模型总参数量达到 744B,但每一次前向传播只激活约 40B 参数——也就是说,每个 token 只会"唤醒"模型中一小部分专家。

在每个 MoE 层中,若干个并行的专家 FFN 共存,另有一个门控网络(router/gate)。对于输入的每个 token,门控根据其隐藏状态计算所有专家的匹配得分,并选出 Top-K 个得分最高的专家。token 只会被这 K 个专家处理,输出按门控权重加权求和;未被选中的专家不参与计算,也不占用该 token 的推理 FLOP。

这种"稀疏激活"是 GLM-5.2 兼顾容量与速度的核心。744B 参数赋予模型巨大的知识容量与表达能力,而 40B 的激活量让单次推理的计算成本接近一个 40B 稠密模型——大约只有总参数的 5.4% 在工作。用户能用稠密中量级模型的延迟,换来接近超大规模模型的质量。

744B
总参数量
40B
激活参数
~5.4%
激活率
Top-K
专家路由
t₁ t₂ t₃ Gate E1 ✓ E2 E3 E4 ✓ E5 E6 加权输出
门控为每个 token 选出 Top-K 专家,余者休眠
总览 / 架构 / DSA 稀疏注意力

DSA 稀疏注意力

Dense Sparse Attention · 百万上下文

近处稠密、远处稀疏。DSA 把注意力从 O(n²) 拉回可承受的量级,让一百万 token 的上下文成为现实。

DSA(Dense Sparse Attention,稠密-稀疏注意力)是 GLM-5.2 把上下文窗口推到 1M(一百万)token 的关键机制。它在每一层注意力中混合两种模式:对邻近 token 做稠密注意力,对远处 token 做稀疏注意力。

局部窗口内,每个 query 与窗口内所有 key 做完整注意力(稠密),保证对近邻依赖的精确建模;窗口之外,模型以稀疏模式挑选少量具代表性的 key(如按固定步长采样或由索引选出关键 token)参与计算,从而覆盖超长距离的上下文。两者结合,既不丢近处细节,也能触及百万级长程信息。

标准 self-attention 的计算与显存开销随序列长度平方增长(O(n²))。在 1M token 下,它无论在算力还是显存上都不可行。DSA 把注意力复杂度从全稠密降到可承受范围,让"读完一整本书再回答"成为现实,而非停留在 demo。

1M
上下文长度
O(n²)→
稠密+稀疏混合
局部
稠密窗口
全局
稀疏采样
query key 稠密局部 稀疏全局
对角带为稠密局部窗口,散点为稀疏全局检索
总览 / 架构 / IndexShare

IndexShare

跨层共享索引器 · 2.9× FLOP 降低

一份索引,服务四层。IndexShare 让相邻层复用同一注意力索引,把百万上下文的检索成本砍掉一大半。

IndexShare 是 GLM-5.2 在长上下文下的工程优化:它让相邻 4 层注意力共享同一个「索引器」(indexer),而不是每层各自从零构建稀疏注意力的索引。

在第 1 层,模型计算并缓存一份注意力索引——记录在长上下文中哪些 key-value 值得关注。紧接着的 3 层不再重新构建索引,而是直接复用第 1 层的结果进行稀疏检索,仅做必要微调。这样一份索引服务 4 层注意力。

在 1M 上下文时,为每一层独立构建索引是一笔不小的开销。跨层共享之后,索引相关的重复计算被大幅削减,注意力部分的 FLOP 在 1M 上下文下降低约 2.9×。这是 GLM-5.2 能把百万上下文做「便宜」的关键之一。

4 层
共享一个索引
2.9×
FLOP 降低
1M
上下文场景
复用
索引缓存
Layer 1 · 建索引 Layer 2 · 复用 Layer 3 · 复用 Layer 4 · 复用 共享 Indexer ×4 复用
第 1 层建索引,后续 3 层直接复用
总览 / 架构 / MTP 投机解码

MTP 投机解码

Multi-Token Prediction · KVShare

一次猜多个,一次验整段。MTP 把生成从「一次一个」变成「一次多个」,吞吐显著提升。

MTP(Multi-Token Prediction,多 token 预测)是 GLM-5.2 的推理加速技术。它训练一个轻量的预测头,让模型一次向前看并生成多个候选 token,再配合 KVShare 做投机解码(speculative decoding)。

生成时,草稿头并行预测若干个后续 token 作为"猜测";主模型随后一次性对这一整段候选做前向验证KVShare 让验证阶段复用草稿阶段已经算好的 KV 缓存,避免重复计算。若候选 token 被验证通过,主模型就一次性"接受"多个 token;不通过的部分则回退到正确位置继续。

传统自回归每次只生成 1 个 token,吞吐受限。MTP 把「一次一个」变成「一次多个」,在质量不变的前提下显著提升每秒生成 token 数(吞吐)、降低首字与整体延迟。对长文本生成和大规模服务尤其划算。

N token
并行预测
KVShare
缓存复用
1 次
整段验证
↑ 吞吐
延迟降低
上下文 草稿头 Draft t̂₁ t̂₂ t̂₃ 主模型 验证 KVShare 一次预测多个候选 接受 ✓ / 回退
草稿并行预测 → 主模型整段验证 → KV 缓存复用
总览 / 架构 / Effort Control

Effort Control

Max / High · 推理努力档位

简单题省钱,难题拿满质量。同一套权重,两档努力程度,覆盖不同性价比点。

Effort Control 赋予 GLM-5.2 两档推理"努力程度"——MaxHigh,让用户根据问题难度权衡质量与成本。同一套模型权重,仅推理预算不同。

在 Max 档,模型启用更长、更完整的内部推理链(更多的思考 token),把复杂问题拆得更细、想得更深;在 High 档,推理链适度精简,快速直奔答案。两档共享同一基础模型,只是"想多久"不同。

不是每个问题都值得花同等的算力。简单问题用 High 档省时省钱,难题用 Max 档拿满质量。这让同一个模型能覆盖从"快速对话"到"深度推理"的不同性价比点,而不必切换模型。

Max
深度推理链
High
精简推理
同权重
仅预算不同
弹性
质量↔成本
Max 思考 · 思考 · 思考 · 思考 · 思考 · 思考 · 思考 答案 质量↑ 成本↑ High 思考 答案 质量· 成本↓
Max:长推理链换质量;High:精简推理省成本
总览 / 架构 / RL 后训练

RL 后训练

slime 异步强化学习框架

采样、奖励、更新,异步并行。slime 把 RL 流水线填满,让大规模后训练在工程上可行。

GLM-5.2 的后训练使用了自研的 slime 异步强化学习框架。RL 后训练在监督微调之后进一步提升模型的推理、工具使用与人类对齐能力。

slime 把强化学习的三个环节——采样(rollout)、奖励计算策略更新——解耦成异步流水线。多组 rollout 可以并行采样,而策略更新不必等所有 rollout 结束;各环节按各自节奏推进,GPU 不必相互等待。奖励信号驱动策略梯度更新,逐步把模型推向更优策略。

传统同步 RL 中,更新步必须等最慢的 rollout 完成,GPU 大量时间在空转。slime 的异步设计把流水线填满,大幅提升 RL 训练吞吐,让大规模后训练在工程上变得可行——这也是 GLM-5.2 在各项 benchmark 上显著提升的重要来源。

slime
自研框架
异步
流水线
并行
多组 rollout
↑ 吞吐
GPU 不空转
Rollout 并行采样 Reward 奖励计算 Update 策略更新 多组并行 异步解耦 · 互不阻塞
三环节解耦,多组 rollout 并行,流水线不空转