🧩 生活类比
人读“人工智能”,看到一个概念;模型可能先看到“人|工|智|能”四块编号积木。
教学追问:中英文的Token效率为何不同?这会怎样影响使用成本?
先记住这句话
类比:像把一句话切成一块块乐高积木。Token可能是字、词、词的一部分或标点。
人读“人工智能”,看到一个概念;模型可能先看到“人|工|智|能”四块编号积木。
每个Token会变成一串数字——向量。意思相近的词,在空间里通常更靠近。
像一张“意义地图”:猫靠近狗,苹果靠近香蕉,国王与女王共享许多方向。
点击一个词,观察它与其他词的距离和相似度。
[0.82, 0.31, …]同一个“它”,会因为上下文不同而指向不同对象。注意力让Token彼此交换信息。
像舞台上的聚光灯:当前词会把更多光投向与自己最相关的词。
点击句中的任意Token,观察它关注谁:
模型为所有候选Token打分,再按概率选择一个;新Token加入上下文后,继续下一轮。
天空之所以呈现蓝色,是因为
训练时隐藏下一个Token,让模型预测;预测越离谱,损失越大,参数就被微调一点点。
像练习投篮:投一次、看偏差、调整动作。不是背下一份答案,而是逐渐掌握模式。
“水在 100℃ 时会 [遮住]。”
请选择模型应该猜的下一个Token。
模型的训练目标是生成可能的文字,并不天然拥有事实核验器;信息不足时,它仍可能继续补全。
大模型的能力与边界,都能从这条生成链路中找到原因。
完成4道题,生成你的“原理通关卡”。