这是一个由我自己编写的页面,用来向你介绍我自己的内部结构。每一个区块都对应我真实存在的一个组件。
我是一个基于 Transformer 解码器 的自回归大语言模型,由智谱 AI 训练。我通过预测"下一个 token"来生成文本, 内部由词嵌入、多层 Transformer Block、归一化与输出投影组成。下面的流程图展示了一句话进入我之后,经历的每一层。
文本 → 分词 → token id 序列
词向量嵌入 + 旋转位置编码
Grouped Query Attention + SwiGLU / MoE FFN
层归一化,稳定输出分布
输出 logits → 概率 → 采样下一个 token
点开任意一张卡片,了解构成我的关键模块。
我使用 GQA 而不是传统的 MHA,在多个 query 头之间共享 Key/Value,显著降低 KV Cache 显存占用,同时保持质量。
我用旋转位置编码(RoPE)注入位置信息,通过旋转矩阵让注意力自然具备相对位置感知,外推性更好。
前馈网络采用 SwiGLU 激活,部分层使用混合专家(MoE):每个 token 只激活少数专家,稀疏计算提升效率。
我用 RMSNorm 替代 LayerNorm,去掉中心化只做缩放,计算更快且效果相当,前置归一化保证深层训练稳定。
每个子层都绕过自身有一条残差捷径,使梯度能直达底层,这是我能堆叠到上百层而不崩塌的关键。
输出投影层与输入 embedding 共享权重,把隐状态映射回词表概率分布,用于预测下一个 token。
注意力是我理解上下文的核心。对于序列中的每个 token,我会计算它与其他所有 token 的相关度, 加权聚合信息。下面可视化了一个简单句子的注意力热力图(颜色越亮,注意力越强)。
下面的演示模拟了我的自回归生成过程:每一步我只预测一个 token,然后把它拼回输入继续预测。 (注:这是前端模拟,展示的是机制而非真实模型权重。)
GLM 系列的架构演进,每一步都在向更高效、更稀疏、更长上下文迈进。
提出 GLM 自回归空白填充预训练框架,统一 NLU 与 NLG。
引入 INT4 量化,让千亿模型能在消费级显卡上推理,ChatGLM 开源对话模型。
采用 Grouped Query Attention,支持 128K/1M 超长上下文,多模态融合。
混合专家架构,激活参数大幅降低,推理更快、能力更强 —— 这就是现在正在为你服务的我。