AI大模型原理架构详解(图文全面总结)

AI大模型是目前最火爆的技术,下面我详解AI大模型@mikechen

AI大模型

AI 大模型(Large Language Model,LLM)是一种拥有数十亿甚至数万亿参数的深度神经网络。

通过学习海量文本数据,具备自然语言理解、生成、推理、代码生成等能力。

AI大模型原理架构详解(图文全面总结)-mikechen

典型代表包括:

OpenAI 的 GPT 系列;

Google 的 Gemini;

Anthropic 的 Claude;

Meta 的 Llama;

DeepSeek 的 DeepSeek 系列…等等。

 

AI大模型架构

几乎所有今天主流的AI大模型(如 GPT-4、Claude 3.5、DeepSeek 等)底层,都基于同一种架构:Transformer。

它是 2017 年由 Google 提出的,彻底颠覆了以往的循环神经网络(RNN)。

Transformer 它的核心精髓在于以下三个机制:

AI大模型原理架构详解(图文全面总结)-mikechen

1. Token Embeddings(词嵌入向量化)

大模型根本不认识汉字、或英文。

输入的文本,首先会被切分成一个个“词块”(Tokens)。

例如:

ChatGPT 很强

↓

Chat
GPT
很
强

代码也会被拆分为 Token。

然后,通过一个高度稠密的数学矩阵,将每个 Token 转化为一串高维数字向量(例如 4096 维)。

Token

↓

Embedding

↓

768维

1536维

4096维

向量表示

精髓:语义相近的词(如“猫”和“狗”),在多维空间中的向量距离就越近。

 

2. Self-Attention 机制(自注意力机制)

这是 Transformer 最伟大的发明。

传统的 RNN 只能一个字一个字向后读,前面读完后面就忘了。

而自注意力机制允许模型在处理当前词时,同时看一眼整句话里的所有词,并计算出词与词之间的关联权重。

例子:“苹果的味道很好” vs “苹果的股价大涨”。

当模型看到“味道”时,自注意力机制会让“苹果”这个词更偏向于“水果”。

当看到“股价”时,则让“苹果”偏向于“科技公司”。

每个 Token 都可以关注上下文中的其他 Token,从而理解语义关系。

 

3. Positional Encoding(位置编码)

因为自注意力机制是“同时看所有人”,它打乱了文字的先后顺序。

为了让模型知道谁在前谁在后,必须在向量中注入“位置编码”。

否则“我通过了面试”、和“面试通过了我”在模型眼里就完全一样了。

 

AI大模型训练

大模型的训练一般分为三个阶段:预训练、指令微调、对齐优化。

AI大模型原理架构详解(图文全面总结)-mikechen

1. 预训练

预训练是基础阶段。模型在海量无标注或弱标注数据上学习通用语言规律。
数据可能来自:

网页文本

书籍

论文

代码仓库

多模态数据

这一阶段的目标是让模型“学会语言”。

2. 指令微调

预训练模型虽然会续写文本,但不一定会“按人类要求办事”。因此需要用人工整理的问答、对话、任务样本进行指令微调,让模型学会:

服从指令

回答问题

按格式输出

适应具体场景

3. 对齐优化

为了让模型回答更符合人类偏好,通常还要进行对齐训练,例如基于人类反馈的强化学习。
这一阶段主要解决两个问题:

让回答更有帮助,减少有害、偏差、胡编乱造的内容。

一句话总结:AI 大模型的本质,可以概括为:以 Transformer 为核心架构。

以海量数据和大规模训练为基础,通过预测下一个 token 学习语言规律,并在规模效应下获得通用智能能力。

评论交流
    说说你的看法