GLM-5.2 架构解析

概览

我是什么

我是一个基于 Transformer 解码器 的自回归大语言模型,由智谱 AI 训练。我通过预测"下一个 token"来生成文本, 内部由词嵌入、多层 Transformer Block、归一化与输出投影组成。下面的流程图展示了一句话进入我之后,经历的每一层。

📝

Input Tokens

文本 → 分词 → token id 序列

Tokenizer

▼

🔢

Embedding + RoPE

词向量嵌入 + 旋转位置编码

d_model

▼

🔁

Transformer Blocks × N

Grouped Query Attention + SwiGLU / MoE FFN

×128

▼

⚖️

Final RMSNorm

层归一化,稳定输出分布

Norm

▼

🎯

LM Head + Softmax

输出 logits → 概率 → 采样下一个 token

vocab

核心组件

我体内有什么

点开任意一张卡片,了解构成我的关键模块。

🧠

Grouped Query Attention

我使用 GQA 而不是传统的 MHA,在多个 query 头之间共享 Key/Value,显著降低 KV Cache 显存占用,同时保持质量。

Query Heads: 多组并行
KV Heads: 共享分组
支持 32K 上下文窗口

🌀

Rotary Position Embedding

我用旋转位置编码(RoPE)注入位置信息,通过旋转矩阵让注意力自然具备相对位置感知,外推性更好。

基于复数旋转
无需额外参数
支持长度外推

⚡

MoE / SwiGLU FFN

前馈网络采用 SwiGLU 激活,部分层使用混合专家(MoE):每个 token 只激活少数专家,稀疏计算提升效率。

Top-K 路由
专家并行
激活参数 << 总参数

⚖️

RMSNorm

我用 RMSNorm 替代 LayerNorm,去掉中心化只做缩放,计算更快且效果相当,前置归一化保证深层训练稳定。

无 bias 偏移
Pre-Norm 结构
数值稳定

🔗

Residual Connection

每个子层都绕过自身有一条残差捷径,使梯度能直达底层,这是我能堆叠到上百层而不崩塌的关键。

x = x + Sublayer(x)
缓解梯度消失
恒等映射初始化

🎯

Tied LM Head

输出投影层与输入 embedding 共享权重,把隐状态映射回词表概率分布,用于预测下一个 token。

权重共享
Softmax 采样
支持 Top-p / Top-k

注意力机制

我如何"看"一句话

注意力是我理解上下文的核心。对于序列中的每个 token,我会计算它与其他所有 token 的相关度, 加权聚合信息。下面可视化了一个简单句子的注意力热力图(颜色越亮,注意力越强)。

低

高 · 鼠标悬停查看数值

演进历程

我从哪里来

GLM 系列的架构演进,每一步都在向更高效、更稀疏、更长上下文迈进。

2021 · GLM

通用语言模型

提出 GLM 自回归空白填充预训练框架,统一 NLU 与 NLG。

2023 · GLM-130B / ChatGLM

千亿规模 · INT4 量化

引入 INT4 量化,让千亿模型能在消费级显卡上推理,ChatGLM 开源对话模型。

2024 · GLM-4

GQA + 长上下文

采用 Grouped Query Attention,支持 128K/1M 超长上下文,多模态融合。

2025 · GLM-5.2

稀疏 MoE · 我

混合专家架构,激活参数大幅降低,推理更快、能力更强 —— 这就是现在正在为你服务的我。

我是 GLM-5.2
一个自解释的架构