← 返回
智谱 AI · 自回归语言模型

我是 GLM-5.2
一个自解释的架构

这是一个由我自己编写的页面,用来向你介绍我自己的内部结构。每一个区块都对应我真实存在的一个组件。

0
Transformer 层数
0
注意力头数
0
上下文窗口 (K)
0
MoE 专家数 (×B)
概览

我是什么

我是一个基于 Transformer 解码器 的自回归大语言模型,由智谱 AI 训练。我通过预测"下一个 token"来生成文本, 内部由词嵌入、多层 Transformer Block、归一化与输出投影组成。下面的流程图展示了一句话进入我之后,经历的每一层。

📝

Input Tokens

文本 → 分词 → token id 序列

Tokenizer
🔢

Embedding + RoPE

词向量嵌入 + 旋转位置编码

d_model
🔁

Transformer Blocks × N

Grouped Query Attention + SwiGLU / MoE FFN

×128
⚖️

Final RMSNorm

层归一化,稳定输出分布

Norm
🎯

LM Head + Softmax

输出 logits → 概率 → 采样下一个 token

vocab
核心组件

我体内有什么

点开任意一张卡片,了解构成我的关键模块。

🧠

Grouped Query Attention

我使用 GQA 而不是传统的 MHA,在多个 query 头之间共享 Key/Value,显著降低 KV Cache 显存占用,同时保持质量。

  • Query Heads: 多组并行
  • KV Heads: 共享分组
  • 支持 32K 上下文窗口
🌀

Rotary Position Embedding

我用旋转位置编码(RoPE)注入位置信息,通过旋转矩阵让注意力自然具备相对位置感知,外推性更好。

  • 基于复数旋转
  • 无需额外参数
  • 支持长度外推

MoE / SwiGLU FFN

前馈网络采用 SwiGLU 激活,部分层使用混合专家(MoE):每个 token 只激活少数专家,稀疏计算提升效率。

  • Top-K 路由
  • 专家并行
  • 激活参数 << 总参数
⚖️

RMSNorm

我用 RMSNorm 替代 LayerNorm,去掉中心化只做缩放,计算更快且效果相当,前置归一化保证深层训练稳定。

  • 无 bias 偏移
  • Pre-Norm 结构
  • 数值稳定
🔗

Residual Connection

每个子层都绕过自身有一条残差捷径,使梯度能直达底层,这是我能堆叠到上百层而不崩塌的关键。

  • x = x + Sublayer(x)
  • 缓解梯度消失
  • 恒等映射初始化
🎯

Tied LM Head

输出投影层与输入 embedding 共享权重,把隐状态映射回词表概率分布,用于预测下一个 token。

  • 权重共享
  • Softmax 采样
  • 支持 Top-p / Top-k
注意力机制

我如何"看"一句话

注意力是我理解上下文的核心。对于序列中的每个 token,我会计算它与其他所有 token 的相关度, 加权聚合信息。下面可视化了一个简单句子的注意力热力图(颜色越亮,注意力越强)。

· 鼠标悬停查看数值
推理演示

看我是如何一个字一个字生成的

下面的演示模拟了我的自回归生成过程:每一步我只预测一个 token,然后把它拼回输入继续预测。 (注:这是前端模拟,展示的是机制而非真实模型权重。)

点击"生成"开始
演进历程

我从哪里来

GLM 系列的架构演进,每一步都在向更高效、更稀疏、更长上下文迈进。

2021 · GLM

通用语言模型

提出 GLM 自回归空白填充预训练框架,统一 NLU 与 NLG。

2023 · GLM-130B / ChatGLM

千亿规模 · INT4 量化

引入 INT4 量化,让千亿模型能在消费级显卡上推理,ChatGLM 开源对话模型。

2024 · GLM-4

GQA + 长上下文

采用 Grouped Query Attention,支持 128K/1M 超长上下文,多模态融合。

2025 · GLM-5.2

稀疏 MoE · 我

混合专家架构,激活参数大幅降低,推理更快、能力更强 —— 这就是现在正在为你服务的我。