基准	GLM-5.2	Claude Opus 4.8	GPT-5.5	DeepSeek-V4-Pro
Terminal-Bench 2.1	70.4	66.5	69.8	61.8
SWE-bench Pro	54.8	51.2	53.9	47.3
FrontierSWE	38.4	36.9	40.2	29.6
GPQA Diamond	88.1	86.7	89.4	84.2
MMLU-Pro	86.5	85.9	87.2	84.0
AIME 2025	91.3	88.6	92.7	85.9
LiveCodeBench	82.0	80.4	83.6	77.1

总览 / 架构 / Transformer + MoE

Transformer + MoE

Mixture of Experts · 稀疏激活

744B 的容量，40B 的算力。混合专家让 GLM-5.2 用中量级模型的推理成本，换来超大规模模型的表达能力。

GLM-5.2 的主干是一个标准的 Transformer 解码器（decoder-only），并在其前馈网络（FFN）层引入了混合专家（Mixture of Experts, MoE）稀疏化设计。模型总参数量达到 744B，但每一次前向传播只激活约 40B 参数——也就是说，每个 token 只会"唤醒"模型中一小部分专家。

在每个 MoE 层中，若干个并行的专家 FFN 共存，另有一个门控网络（router/gate）。对于输入的每个 token，门控根据其隐藏状态计算所有专家的匹配得分，并选出 Top-K 个得分最高的专家。token 只会被这 K 个专家处理，输出按门控权重加权求和；未被选中的专家不参与计算，也不占用该 token 的推理 FLOP。

这种"稀疏激活"是 GLM-5.2 兼顾容量与速度的核心。744B 参数赋予模型巨大的知识容量与表达能力，而 40B 的激活量让单次推理的计算成本接近一个 40B 稠密模型——大约只有总参数的 5.4% 在工作。用户能用稠密中量级模型的延迟，换来接近超大规模模型的质量。

744B

总参数量

40B

激活参数

~5.4%

激活率

Top-K

专家路由

门控为每个 token 选出 Top-K 专家，余者休眠

总览 / 架构 / DSA 稀疏注意力

DSA 稀疏注意力

Dense Sparse Attention · 百万上下文

近处稠密、远处稀疏。DSA 把注意力从 O(n²) 拉回可承受的量级，让一百万 token 的上下文成为现实。

DSA（Dense Sparse Attention，稠密-稀疏注意力）是 GLM-5.2 把上下文窗口推到 1M（一百万）token 的关键机制。它在每一层注意力中混合两种模式：对邻近 token 做稠密注意力，对远处 token 做稀疏注意力。

局部窗口内，每个 query 与窗口内所有 key 做完整注意力（稠密），保证对近邻依赖的精确建模；窗口之外，模型以稀疏模式挑选少量具代表性的 key（如按固定步长采样或由索引选出关键 token）参与计算，从而覆盖超长距离的上下文。两者结合，既不丢近处细节，也能触及百万级长程信息。

标准 self-attention 的计算与显存开销随序列长度平方增长（O(n²)）。在 1M token 下，它无论在算力还是显存上都不可行。DSA 把注意力复杂度从全稠密降到可承受范围，让"读完一整本书再回答"成为现实，而非停留在 demo。

1M

上下文长度

O(n²)→

稠密+稀疏混合

局部

稠密窗口

全局

稀疏采样

对角带为稠密局部窗口，散点为稀疏全局检索

总览 / 架构 / IndexShare

IndexShare

跨层共享索引器 · 2.9× FLOP 降低

一份索引，服务四层。IndexShare 让相邻层复用同一注意力索引，把百万上下文的检索成本砍掉一大半。

IndexShare 是 GLM-5.2 在长上下文下的工程优化：它让相邻 4 层注意力共享同一个「索引器」（indexer），而不是每层各自从零构建稀疏注意力的索引。

在第 1 层，模型计算并缓存一份注意力索引——记录在长上下文中哪些 key-value 值得关注。紧接着的 3 层不再重新构建索引，而是直接复用第 1 层的结果进行稀疏检索，仅做必要微调。这样一份索引服务 4 层注意力。

在 1M 上下文时，为每一层独立构建索引是一笔不小的开销。跨层共享之后，索引相关的重复计算被大幅削减，注意力部分的 FLOP 在 1M 上下文下降低约 2.9×。这是 GLM-5.2 能把百万上下文做「便宜」的关键之一。

4 层

共享一个索引

2.9×

FLOP 降低

1M

上下文场景

复用

索引缓存

第 1 层建索引，后续 3 层直接复用

总览 / 架构 / MTP 投机解码

MTP 投机解码

Multi-Token Prediction · KVShare

一次猜多个，一次验整段。MTP 把生成从「一次一个」变成「一次多个」，吞吐显著提升。

MTP（Multi-Token Prediction，多 token 预测）是 GLM-5.2 的推理加速技术。它训练一个轻量的预测头，让模型一次向前看并生成多个候选 token，再配合 KVShare 做投机解码（speculative decoding）。

生成时，草稿头并行预测若干个后续 token 作为"猜测"；主模型随后一次性对这一整段候选做前向验证。KVShare 让验证阶段复用草稿阶段已经算好的 KV 缓存，避免重复计算。若候选 token 被验证通过，主模型就一次性"接受"多个 token；不通过的部分则回退到正确位置继续。

传统自回归每次只生成 1 个 token，吞吐受限。MTP 把「一次一个」变成「一次多个」，在质量不变的前提下显著提升每秒生成 token 数（吞吐）、降低首字与整体延迟。对长文本生成和大规模服务尤其划算。

N token

并行预测

KVShare

缓存复用

1 次

整段验证

↑ 吞吐

延迟降低

草稿并行预测 → 主模型整段验证 → KV 缓存复用

总览 / 架构 / Effort Control

Effort Control

Max / High · 推理努力档位

简单题省钱，难题拿满质量。同一套权重，两档努力程度，覆盖不同性价比点。

Effort Control 赋予 GLM-5.2 两档推理"努力程度"——Max 与 High，让用户根据问题难度权衡质量与成本。同一套模型权重，仅推理预算不同。

在 Max 档，模型启用更长、更完整的内部推理链（更多的思考 token），把复杂问题拆得更细、想得更深；在 High 档，推理链适度精简，快速直奔答案。两档共享同一基础模型，只是"想多久"不同。

不是每个问题都值得花同等的算力。简单问题用 High 档省时省钱，难题用 Max 档拿满质量。这让同一个模型能覆盖从"快速对话"到"深度推理"的不同性价比点，而不必切换模型。

Max

深度推理链

High

精简推理

同权重

仅预算不同

弹性

质量↔成本

Max：长推理链换质量；High：精简推理省成本

总览 / 架构 / RL 后训练

RL 后训练

slime 异步强化学习框架

采样、奖励、更新，异步并行。slime 把 RL 流水线填满，让大规模后训练在工程上可行。

GLM-5.2 的后训练使用了自研的 slime 异步强化学习框架。RL 后训练在监督微调之后进一步提升模型的推理、工具使用与人类对齐能力。

slime 把强化学习的三个环节——采样（rollout）、奖励计算、策略更新——解耦成异步流水线。多组 rollout 可以并行采样，而策略更新不必等所有 rollout 结束；各环节按各自节奏推进，GPU 不必相互等待。奖励信号驱动策略梯度更新，逐步把模型推向更优策略。

传统同步 RL 中，更新步必须等最慢的 rollout 完成，GPU 大量时间在空转。slime 的异步设计把流水线填满，大幅提升 RL 训练吞吐，让大规模后训练在工程上变得可行——这也是 GLM-5.2 在各项 benchmark 上显著提升的重要来源。

slime

自研框架

异步

流水线

并行

多组 rollout

↑ 吞吐

GPU 不空转

三环节解耦，多组 rollout 并行，流水线不空转

GLM-5.2

架构概览

Transformer + MoE

DSA 稀疏注意力

IndexShare

MTP 投机解码

Effort Control

RL 后训练

性能基准

Transformer + MoE

DSA 稀疏注意力

IndexShare

MTP 投机解码

Effort Control

RL 后训练