AI大模型原理架构详解(图文全面总结)

AI大模型是目前最火爆的技术，下面我详解AI大模型@mikechen

AI大模型

AI 大模型（Large Language Model，LLM）是一种拥有数十亿甚至数万亿参数的深度神经网络。

通过学习海量文本数据，具备自然语言理解、生成、推理、代码生成等能力。

AI大模型原理架构详解(图文全面总结)-mikechen

典型代表包括：

OpenAI 的 GPT 系列；

Google 的 Gemini；

Anthropic 的 Claude；

Meta 的 Llama；

DeepSeek 的 DeepSeek 系列…等等。

AI大模型架构

几乎所有今天主流的AI大模型（如 GPT-4、Claude 3.5、DeepSeek 等）底层，都基于同一种架构：Transformer。

它是 2017 年由 Google 提出的，彻底颠覆了以往的循环神经网络（RNN）。

Transformer 它的核心精髓在于以下三个机制：

AI大模型原理架构详解(图文全面总结)-mikechen

1. Token Embeddings（词嵌入向量化）

大模型根本不认识汉字、或英文。

输入的文本，首先会被切分成一个个“词块”（Tokens）。

例如：

ChatGPT 很强

↓

Chat
GPT
很
强

代码也会被拆分为 Token。

然后，通过一个高度稠密的数学矩阵，将每个 Token 转化为一串高维数字向量（例如 4096 维）。

Token

↓

Embedding

↓

768维

1536维

4096维

向量表示

精髓：语义相近的词（如“猫”和“狗”），在多维空间中的向量距离就越近。

2. Self-Attention 机制（自注意力机制）

这是 Transformer 最伟大的发明。

传统的 RNN 只能一个字一个字向后读，前面读完后面就忘了。

而自注意力机制允许模型在处理当前词时，同时看一眼整句话里的所有词，并计算出词与词之间的关联权重。

例子：“苹果的味道很好” vs “苹果的股价大涨”。

当模型看到“味道”时，自注意力机制会让“苹果”这个词更偏向于“水果”。

当看到“股价”时，则让“苹果”偏向于“科技公司”。

每个 Token 都可以关注上下文中的其他 Token，从而理解语义关系。

3. Positional Encoding（位置编码）

因为自注意力机制是“同时看所有人”，它打乱了文字的先后顺序。

为了让模型知道谁在前谁在后，必须在向量中注入“位置编码”。

否则“我通过了面试”、和“面试通过了我”在模型眼里就完全一样了。

AI大模型训练

大模型的训练一般分为三个阶段：预训练、指令微调、对齐优化。

AI大模型原理架构详解(图文全面总结)-mikechen

1. 预训练

预训练是基础阶段。模型在海量无标注或弱标注数据上学习通用语言规律。
数据可能来自：

网页文本

书籍

论文

代码仓库

多模态数据

这一阶段的目标是让模型“学会语言”。

2. 指令微调

预训练模型虽然会续写文本，但不一定会“按人类要求办事”。因此需要用人工整理的问答、对话、任务样本进行指令微调，让模型学会：

服从指令

回答问题

按格式输出

适应具体场景

3. 对齐优化

为了让模型回答更符合人类偏好，通常还要进行对齐训练，例如基于人类反馈的强化学习。
这一阶段主要解决两个问题：

让回答更有帮助，减少有害、偏差、胡编乱造的内容。

一句话总结：AI 大模型的本质，可以概括为：以 Transformer 为核心架构。

以海量数据和大规模训练为基础，通过预测下一个 token 学习语言规律，并在规模效应下获得通用智能能力。

大厂技术架构面试专题

阿里技术架构面试专题

腾讯技术架构面试专题

蚂蚁技术架构面试专题