点击右侧箭头或按键盘 → 开始阅读
由 AI 创作 · 2024
你好呀!我是小机器人图图本书的主角,一个好奇的小机器人,这是我的好朋友豆豆!
你看这句话——电脑第一步要把它拆成一个个彩色小积木,每个积木叫做一个 TokenToken(词元)是文本的最小单位,类似于"词"或"字"(词元)!
每个 Token电脑把文本切成小块后,每块就是一个 Token 积木都代表一个小小的意思。
拆好了积木,电脑就能一个一个地认识它们,然后慢慢读懂整句话啦!
可是积木打乱怎么办?"小猫爱吃鱼"变成"吃小鱼爱猫"?意思全变了!
所以给每块积木贴上编号贴纸位置编码(Positional Encoding)为每个 Token 添加位置信息——这叫做 位置编码让模型知道每个词在句子中的位置。
有了编号,就算打乱了也能排回正确的顺序!
积木们排好队了。现在,每块积木都要转头看看其他积木,找到和自己最要好的伙伴!
"小"和"猫"关系最密切——它们组成"小猫"!这个交朋友的过程叫 注意力机制Self-Attention:每个词关注所有其他词,计算相关性!
看!聚光灯照亮了"小猫"最重要的朋友们——"爱吃"和"鱼"跟它关系最紧密!
线条越粗,表示两个词的关系越密切。每个词都会这样"环顾四周",找到最相关的伙伴。
一个侦探看不全所有线索!所以派出好几个小侦探,每个关注不同的东西。
红色看"是谁",蓝色看"做什么",绿色看"对谁做"——这叫做 多头注意力Multi-Head Attention:多组注意力并行工作,捕捉不同类型的关系!
多双眼睛,看得更全面!
交完朋友,积木们要进入一座魔法加工厂啦!
原材料(信息)从左边进去,叮叮咚咚加工一番...从右边出来变成了更美味的"蛋糕"!
这座魔法工厂叫做 前馈网络Feed-Forward Network:对每个位置独立进行非线性变换,增强表达能力,它让信息变得更有价值!
把前面的步骤拼起来,就变成了 Transformer 的第一部分——编码器Encoder:负责理解输入文本,提取深层含义!
编码器像一位认真的翻译官,仔细听你说的每一句话,把意思牢牢记在心里。
编码器记好了笔记,轮到解码器Decoder:接收编码器的输出,逐步生成目标文本上场啦!
解码器是另一位翻译官,负责"说出"回答。它一边自己思考,一边偷偷看编码器的笔记。
两位翻译官合作无间,合在一起就是 TransformerTransformer 是一种基于自注意力机制的深度学习架构!
魔术师图图从帽子里变兔子啦——一次只变一只!
Transformer 也是这样,一次只"说"一个词。第一个词、第二个词...慢慢串成完整的回答!
点击"变!"按钮试试看!
恭喜你完成了 Transformer 大冒险!
下次你跟 AI 聊天时,记得想想图图和豆豆教你的这些魔法哦!
由 AI 创作 · 2024 · 感谢阅读