大模型是怎样“说话”的？｜AI原理可视化实验台

第一站 · 输入

机器不直接读文字，先把它切成 Token

类比：像把一句话切成一块块乐高积木。Token可能是字、词、词的一部分或标点。

🧩 生活类比

人读“人工智能”，看到一个概念；模型可能先看到“人｜工｜智｜能”四块编号积木。

输入任意一句话

教学追问：中英文的Token效率为何不同？这会怎样影响使用成本？

0Token

0字符

¥0.0000模拟成本

你刚刚看见了：文本先被切块，再被转换成编号。模型处理的是编号，不是“文字本身”。

第二站 · 表示

编号没有意义，模型把它放进“意义空间”

每个Token会变成一串数字——向量。意思相近的词，在空间里通常更靠近。

🗺️ 生活类比

像一张“意义地图”：猫靠近狗，苹果靠近香蕉，国王与女王共享许多方向。

点击一个词，观察它与其他词的距离和相似度。

当前词猫[0.82, 0.31, …]

向量的每一维通常不能简单解释，但整体位置能编码复杂关系。

你刚刚看见了：模型把意义变成空间关系，因此能发现相似、类别和类比关系。

第三站 · Transformer核心

注意力机制：每个词都在问“我该关注谁？”

同一个“它”，会因为上下文不同而指向不同对象。注意力让Token彼此交换信息。

🔦 生活类比

像舞台上的聚光灯：当前词会把更多光投向与自己最相关的词。

选择句子

点击句中的任意Token，观察它关注谁：

这是用于解释机制的教学模拟，不是商业模型内部真实权重。

“它”在关注谁？

你刚刚看见了：词义不是孤立固定的；上下文通过注意力改变Token的表示。

第四站 · 生成

一次只猜一个Token，连续猜出整段回答

模型为所有候选Token打分，再按概率选择一个；新Token加入上下文后，继续下一轮。

句子开头温度 Temperature 0.7

稳定、保守多样、意外

温度不是“知识多少”，而是改变候选概率的平坦程度。

当前上下文

天空之所以呈现蓝色，是因为

最关键的顿悟：长篇回答看似经过完整思考，底层却是“预测一个Token → 加回上下文 → 再预测一个”的高速循环。

第五站 · 训练

它如何学会预测？看海量文本，反复“猜错—纠正”

训练时隐藏下一个Token，让模型预测；预测越离谱，损失越大，参数就被微调一点点。

🏀 生活类比

像练习投篮：投一次、看偏差、调整动作。不是背下一份答案，而是逐渐掌握模式。

训练文本

“水在 100℃ 时会 [遮住]。”

请选择模型应该猜的下一个Token。

训练轮次 1

① 预训练从海量文本学习语言和知识模式

② 指令微调学习理解问题、按照要求回答

③ 人类反馈学习更有帮助、更安全的表达

你刚刚看见了：“学习”就是不断调整数十亿参数，让正确Token的概率越来越高。

第六站 · 局限

为什么会一本正经地胡说？因为“流畅”不等于“真实”

模型的训练目标是生成可能的文字，并不天然拥有事实核验器；信息不足时，它仍可能继续补全。

向模型提问

可靠资料库（RAG）海蓝大学校史：学校创办于2018年，首任校长为林海教授……

未连接资料语言置信感：高

点击“让模型回答”，观察有无资料时的区别。

关键区别：RAG不是让模型“更聪明”，而是在回答前把相关可靠资料放进上下文。

第七站 · 全景

现在，把完整链路装回脑中

大模型的能力与边界，都能从这条生成链路中找到原因。

1人类文字输入问题

→

2Token切块编号

→

3向量表示意义

→

4注意力结合上下文

→

5概率预测下一个

→

6循环生成回答

它为什么会写作？学到了语言模式

为什么能举一反三？向量与注意力组合关系

为什么答案不唯一？按概率选择Token

为什么可能胡说？生成目标不等于事实核验

大模型是怎样
“说话”的？

大模型不是在数据库里“找到答案”，
而是在上下文中不断预测下一个最可能的Token。

机器不直接读文字，先把它切成 Token

编号没有意义，模型把它放进“意义空间”

注意力机制：每个词都在问“我该关注谁？”

“它”在关注谁？

一次只猜一个Token，连续猜出整段回答

它如何学会预测？看海量文本，反复“猜错—纠正”

为什么会一本正经地胡说？因为“流畅”不等于“真实”

现在，把完整链路装回脑中

你真的理解了吗？

大模型不是在数据库里“找到答案”，而是在上下文中不断预测下一个最可能的Token。

机器不直接读文字，先把它切成 Token

编号没有意义，模型把它放进“意义空间”

注意力机制：每个词都在问“我该关注谁？”

“它”在关注谁？

一次只猜一个Token，连续猜出整段回答

它如何学会预测？看海量文本，反复“猜错—纠正”

为什么会一本正经地胡说？因为“流畅”不等于“真实”

现在，把完整链路装回脑中

你真的理解了吗？

大模型不是在数据库里“找到答案”，
而是在上下文中不断预测下一个最可能的Token。