小机器人图图的 Transformer 大冒险

✦

互动儿童绘本

小机器人图图的
Transformer 大冒险

一个关于 AI 如何理解语言的故事

点击右侧箭头或按键盘 → 开始阅读

由 AI 创作 · 2024

小猫爱吃鱼

⬇

小

猫

爱

吃

鱼

图图说：

你好呀！我是小机器人图图本书的主角，一个好奇的小机器人，这是我的好朋友豆豆！

你看这句话——电脑第一步要把它拆成一个个彩色小积木，每个积木叫做一个 TokenToken（词元）是文本的最小单位，类似于"词"或"字"（词元）！

豆豆喜欢吃鱼

👆 点击句子看它变成积木

豆豆说：

每个 Token电脑把文本切成小块后，每块就是一个 Token 积木都代表一个小小的意思。

拆好了积木，电脑就能一个一个地认识它们，然后慢慢读懂整句话啦！

小1

猫2

爱3

吃4

鱼5

⬇

吃4

小1

鱼5

猫2

爱3

可是积木打乱怎么办？"小猫爱吃鱼"变成"吃小鱼爱猫"？意思全变了！

所以给每块积木贴上编号贴纸位置编码（Positional Encoding）为每个 Token 添加位置信息——这叫做位置编码让模型知道每个词在句子中的位置。

有了编号，就算打乱了也能排回正确的顺序！

积木们排好队了。现在，每块积木都要转头看看其他积木，找到和自己最要好的伙伴！

"小"和"猫"关系最密切——它们组成"小猫"！这个交朋友的过程叫注意力机制Self-Attention：每个词关注所有其他词，计算相关性！

看！聚光灯照亮了"小猫"最重要的朋友们——"爱吃"和"鱼"跟它关系最紧密！

线条越粗，表示两个词的关系越密切。每个词都会这样"环顾四周"，找到最相关的伙伴。

一个侦探看不全所有线索！所以派出好几个小侦探，每个关注不同的东西。

红色看"是谁"，蓝色看"做什么"，绿色看"对谁做"——这叫做多头注意力Multi-Head Attention：多组注意力并行工作，捕捉不同类型的关系！

多双眼睛，看得更全面！

交完朋友，积木们要进入一座魔法加工厂啦！

原材料（信息）从左边进去，叮叮咚咚加工一番...从右边出来变成了更美味的"蛋糕"！

这座魔法工厂叫做前馈网络Feed-Forward Network：对每个位置独立进行非线性变换，增强表达能力，它让信息变得更有价值！

编码器内部流水线

Token 化

↓

位置编码

↓

注意力机制

↓

前馈网络

↓

理解完成！

把前面的步骤拼起来，就变成了 Transformer 的第一部分——编码器Encoder：负责理解输入文本，提取深层含义！

编码器像一位认真的翻译官，仔细听你说的每一句话，把意思牢牢记在心里。

编码器记好了笔记，轮到解码器Decoder：接收编码器的输出，逐步生成目标文本上场啦！

解码器是另一位翻译官，负责"说出"回答。它一边自己思考，一边偷偷看编码器的笔记。

两位翻译官合作无间，合在一起就是 TransformerTransformer 是一种基于自注意力机制的深度学习架构！

魔术师图图从帽子里变兔子啦——一次只变一只！

Transformer 也是这样，一次只"说"一个词。第一个词、第二个词...慢慢串成完整的回答！

点击"变！"按钮试试看！

Transformer 完整冒险地图

输入一句话

↓

Token 化 · 拆积木

↓

位置编码 · 贴编号

↓

注意力 · 交朋友

↓

前馈网络 · 魔法工厂

↓

编码器

→

解码器

↓

一个词一个词地输出回答

恭喜你完成了 Transformer 大冒险！

下次你跟 AI 聊天时，记得想想图图和豆豆教你的这些魔法哦！

由 AI 创作 · 2024 · 感谢阅读