注意力机制
注意力机制
$$
Q : query(查询) \newline
K :key(键) \newline
V :value(值) \newline
\sqrt{d_{k}}: 因为QK相乘后会得到很大的梯度,使得softmax之后得到很小的梯度,\newline为解决这一问题引入\sqrt{d_{k}}(梯度小训练慢)
$$
举个例子(淘宝搜索):
- 淘宝搜索东西时,输入查询(qurey, Q)比如笔记本
- 【计算相似性】∶淘宝后台拿到这个查询Q,并用这个查询Q去和后台的所有的商品的关键字(或者title)(key,K)—一的来对比,找到物品和我们查询的相似性(或者说物品对应的相似性的权重),相似性越高,越可能推送给我们
- 【得到价值】︰并且这个时候还要考虑物品的价值(value,V),这个V不是指物品值几块钱,而是这个物品在算法中的价值。如果商家给了淘宝广告钱,或者商品物美价廉,评论好,点赞高,购买多,等等,那么算法就越有可能把物品排在前面推送给我们。
- 【计算带权重的价值】:我们拿刚刚的相似性,乘上物品在算法中的价值V,计算结果就是每件物品的最后的带相似性权重的价值,淘宝最后的算法就是返回这个带权重的价值,也就是把排好序的这些商品推送给我们。
实现方法
现在要计算Thinking和Machines之间的相关性
有了x如何计算qkv呢:
参考
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 LP瞎逼逼!
评论