大语言模型本质是基于token预测的数学系统,通过分词、嵌入、自注意力三步实现输入—计算—输出;参数即大型数字矩阵,训练与推理均为标准运算;动手验证比死记概念更有效。
大语言模型不是黑箱,它是一套可理解、可追踪的数学与工程系统。掌握其工作原理,关键在于看清“输入—计算—输出”这条主线,而不是死记术语。
它在持续预测下一个 token。比如你输入“春风又绿”,模型不会直接吐出“江南岸”,而是先算出“江”的概率最高,把它接上;再以“春风又绿江”为新输入,预测下一个最可能的字——“南”;如此循环。整个过程就像一个高速运转的自动填空机,每一步都依赖前一步的输出。
这个机制决定了两件事:
输入文本先被分词器(Tokenizer)切分成 token,比如“apple”可能是1个 token,“cannot”可能被切成 “can” + “not”。每个 token 被映射成一个固定长度的向量,这就是词嵌入(Embedding)——相当于给每个词发一张带坐标的身份证。
立即学习“Python免费学习笔记(深入)”;
这些向量进入 Transformer 后,核心动作是自注意力(Self-Attention):每个词向量会分别计算与句中所有词(包括自己)的关联强度,生成 Q(查询)、K(键)、V(值)三组向量。简单说,就是让“
他”主动去找“男孩”和“街”,看谁更相关,再加权组合信息。
你可以用这段代码快速验证注意力倾向:
from transformers import AutoTokenizer, AutoModelForCausalLM一个70亿参数的模型,本质就是一个或多个超大矩阵(比如 embedding 表是 [50257, 4096],即5万多个词 × 每个词4096维向量)。训练过程就是不断调整这些矩阵里的数字,让预测更准;推理时,就是拿输入向量在这堆矩阵里做乘法、加法、激活函数等标准运算。
你可以把它想象成一本查表+算术手册:查词向量 → 做注意力加权 → 过多层变换 → 查最后的 logits 表 → 按概率挑下一个词。
不需要记住所有矩阵名,但要清楚:每个模块输出什么、接收什么、维度是否对得上。这是调试和微调的基础。
别只读原理,马上做三件小事:
看到数字在动,模型就不再抽象了。