imtoken官网网址下载|attention是什么意思

作者: imtoken官网网址下载
2024-03-07 17:08:44

一文看懂 Attention(本质原理+3大优点+5大类型) - 知乎

一文看懂 Attention(本质原理+3大优点+5大类型) - 知乎首发于打不死的小强切换模式写文章登录/注册一文看懂 Attention(本质原理+3大优点+5大类型)小强不断修行,体验人生的美好和不美好Attention 正在被越来越广泛的得到应用。尤其是 BERT 火爆了之后。Attention 到底有什么特别之处?他的原理和本质是什么?Attention都有哪些类型?本文将详细讲解Attention的方方面面。Attention 的本质是什么Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「从关注全部到关注重点」。Attention 机制很像人类看图片的逻辑,当我们看一张图片的时候,我们并没有看清图片的全部内容,而是将注意力集中在了图片的焦点上。大家看一下下面这张图:我们一定会看清「锦江饭店」4个字,如下图:但是我相信没人会意识到「锦江饭店」上面还有一串「电话号码」,也不会意识到「喜运来大酒家」,如下图:所以,当我们看一张图片的时候,其实是这样的:上面所说的,我们的视觉系统就是一种 Attention机制,将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。AI 领域的 Attention 机制Attention 机制最早是在计算机视觉里应用的,随后在 NLP 领域也开始应用了,真正发扬光大是在 NLP 领域,因为 2018 年 BERT 和 GPT 的效果出奇的好,进而走红。而 Transformer 和 Attention 这些核心开始被大家重点关注。如果用图来表达 Attention 的位置大致是下面的样子:这里先让大家对 Attention 有一个宏观的概念,下文会对 Attention 机制做更详细的讲解。在这之前,我们先说说为什么要用 Attention。Attention 的3大优点之所以要引入 Attention 机制,主要是3个原因:参数少速度快效果好参数少模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对算力的要求也就更小。速度快Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。效果好在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。Attention 是挑重点,就算文本比较长,也能从中间抓住重点,不丢失重要的信息。下图红色的预期就是被挑出来的重点。Attention 的原理Attention 经常会和 Encoder–Decoder 一起说,之前的文章《一文看懂 NLP 里的模型框架 Encoder-Decoder 和 Seq2Seq》 也提到了 Attention。下面的动图演示了attention 引入 Encoder-Decoder 框架下,完成机器翻译任务的大致流程。但是,Attention 并不一定要在 Encoder-Decoder 框架下使用的,他是可以脱离 Encoder-Decoder 框架的。下面的图片则是脱离 Encoder-Decoder 框架后的原理图解。小故事讲解上面的图看起来比较抽象,下面用一个例子来解释 attention 的原理:图书管(source)里有很多书(value),为了方便查找,我们给书做了编号(key)。当我们想要了解漫威(query)的时候,我们就可以看看那些动漫、电影、甚至二战(美国队长)相关的书籍。为了提高效率,并不是所有的书都会仔细看,针对漫威来说,动漫,电影相关的会看的仔细一些(权重高),但是二战的就只需要简单扫一下即可(权重低)。当我们全部看完后就对漫威有一个全面的了解了。Attention 原理的3步分解:第一步: query 和 key 进行相似度计算,得到权值第二步:将权值进行归一化,得到直接可用的权重第三步:将权重和 value 进行加权求和从上面的建模,我们可以大致感受到 Attention 的思路简单,四个字“带权求和”就可以高度概括,大道至简。做个不太恰当的类比,人类学习一门新语言基本经历四个阶段:死记硬背(通过阅读背诵学习语法练习语感)->提纲挈领(简单对话靠听懂句子中的关键词汇准确理解核心意思)->融会贯通(复杂对话懂得上下文指代、语言背后的联系,具备了举一反三的学习能力)->登峰造极(沉浸地大量练习)。这也如同attention的发展脉络,RNN 时代是死记硬背的时期,attention 的模型学会了提纲挈领,进化到 transformer,融汇贯通,具备优秀的表达学习能力,再到 GPT、BERT,通过多任务大规模学习积累实战经验,战斗力爆棚。要回答为什么 attention 这么优秀?是因为它让模型开窍了,懂得了提纲挈领,学会了融会贯通。——阿里技术想要了解更多技术细节,可以看看下面的文章或者视频:「文章」深度学习中的注意力机制「文章」遍地开花的 Attention,你真的懂吗?「文章」探索 NLP 中的 Attention 注意力机制及 Transformer 详解「视频」李宏毅 – transformer「视频」李宏毅 – ELMO、BERT、GPT 讲解Attention 的 N 种类型Attention 有很多种不同的类型:Soft Attention、Hard Attention、静态Attention、动态Attention、Self Attention 等等。下面就跟大家解释一下这些不同的 Attention 都有哪些差别。由于这篇文章《Attention用于NLP的一些小结》已经总结的很好的,下面就直接引用了:本节从计算区域、所用信息、结构层次和模型等方面对Attention的形式进行归类。1. 计算区域根据Attention的计算区域,可以分成以下几种:1)Soft Attention,这是比较常见的Attention方式,对所有key求权重概率,每个key都有一个对应的权重,是一种全局的计算方式(也可以叫Global Attention)。这种方式比较理性,参考了所有key的内容,再进行加权。但是计算量可能会比较大一些。2)Hard Attention,这种方式是直接精准定位到某个key,其余key就都不管了,相当于这个key的概率是1,其余key的概率全部是0。因此这种对齐方式要求很高,要求一步到位,如果没有正确对齐,会带来很大的影响。另一方面,因为不可导,一般需要用强化学习的方法进行训练。(或者使用gumbel softmax之类的)3)Local Attention,这种方式其实是以上两种方式的一个折中,对一个窗口区域进行计算。先用Hard方式定位到某个地方,以这个点为中心可以得到一个窗口区域,在这个小区域内用Soft方式来算Attention。2. 所用信息假设我们要对一段原文计算Attention,这里原文指的是我们要做attention的文本,那么所用信息包括内部信息和外部信息,内部信息指的是原文本身的信息,而外部信息指的是除原文以外的额外信息。1)General Attention,这种方式利用到了外部信息,常用于需要构建两段文本关系的任务,query一般包含了额外信息,根据外部query对原文进行对齐。比如在阅读理解任务中,需要构建问题和文章的关联,假设现在baseline是,对问题计算出一个问题向量q,把这个q和所有的文章词向量拼接起来,输入到LSTM中进行建模。那么在这个模型中,文章所有词向量共享同一个问题向量,现在我们想让文章每一步的词向量都有一个不同的问题向量,也就是,在每一步使用文章在该步下的词向量对问题来算attention,这里问题属于原文,文章词向量就属于外部信息。2)Local Attention,这种方式只使用内部信息,key和value以及query只和输入原文有关,在self attention中,key=value=query。既然没有外部信息,那么在原文中的每个词可以跟该句子中的所有词进行Attention计算,相当于寻找原文内部的关系。还是举阅读理解任务的例子,上面的baseline中提到,对问题计算出一个向量q,那么这里也可以用上attention,只用问题自身的信息去做attention,而不引入文章信息。3. 结构层次结构方面根据是否划分层次关系,分为单层attention,多层attention和多头attention:1)单层Attention,这是比较普遍的做法,用一个query对一段原文进行一次attention。2)多层Attention,一般用于文本具有层次关系的模型,假设我们把一个document划分成多个句子,在第一层,我们分别对每个句子使用attention计算出一个句向量(也就是单层attention);在第二层,我们对所有句向量再做attention计算出一个文档向量(也是一个单层attention),最后再用这个文档向量去做任务。3)多头Attention,这是Attention is All You Need中提到的multi-head attention,用到了多个query对一段原文进行了多次attention,每个query都关注到原文的不同部分,相当于重复做多次单层attention:最后再把这些结果拼接起来:4. 模型方面从模型上看,Attention一般用在CNN和LSTM上,也可以直接进行纯Attention计算。1)CNN+AttentionCNN的卷积操作可以提取重要特征,我觉得这也算是Attention的思想,但是CNN的卷积感受视野是局部的,需要通过叠加多层卷积区去扩大视野。另外,Max Pooling直接提取数值最大的特征,也像是hard attention的思想,直接选中某个特征。CNN上加Attention可以加在这几方面:a. 在卷积操作前做attention,比如Attention-Based BCNN-1,这个任务是文本蕴含任务需要处理两段文本,同时对两段输入的序列向量进行attention,计算出特征向量,再拼接到原始向量中,作为卷积层的输入。b. 在卷积操作后做attention,比如Attention-Based BCNN-2,对两段文本的卷积层的输出做attention,作为pooling层的输入。c. 在pooling层做attention,代替max pooling。比如Attention pooling,首先我们用LSTM学到一个比较好的句向量,作为query,然后用CNN先学习到一个特征矩阵作为key,再用query对key产生权重,进行attention,得到最后的句向量。2)LSTM+AttentionLSTM内部有Gate机制,其中input gate选择哪些当前信息进行输入,forget gate选择遗忘哪些过去信息,我觉得这算是一定程度的Attention了,而且号称可以解决长期依赖问题,实际上LSTM需要一步一步去捕捉序列信息,在长文本上的表现是会随着step增加而慢慢衰减,难以保留全部的有用信息。LSTM通常需要得到一个向量,再去做任务,常用方式有:a. 直接使用最后的hidden state(可能会损失一定的前文信息,难以表达全文)b. 对所有step下的hidden state进行等权平均(对所有step一视同仁)。c. Attention机制,对所有step的hidden state进行加权,把注意力集中到整段文本中比较重要的hidden state信息。性能比前面两种要好一点,而方便可视化观察哪些step是重要的,但是要小心过拟合,而且也增加了计算量。3)纯AttentionAttention is all you need,没有用到CNN/RNN,乍一听也是一股清流了,但是仔细一看,本质上还是一堆向量去计算attention。5. 相似度计算方式在做attention的时候,我们需要计算query和某个key的分数(相似度),常用方法有:1)点乘:最简单的方法, 2)矩阵相乘: 3)cos相似度: 4)串联方式:把q和k拼接起来, 5)用多层感知机也可以: 本文首发自 产品经理的AI知识库,原文地址:发布于 2019-11-14 18:40Attention-based Model注意力机制自然语言处理​赞同 3403​​80 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录打不死的小强产品、人工智能、运营、游戏、区块链Deep Learning收集深度学习干货好

详解深度学习中的注意力机制(Attention) - 知乎

详解深度学习中的注意力机制(Attention) - 知乎首发于人工智能切换模式写文章登录/注册详解深度学习中的注意力机制(Attention)自由技艺​​北京邮电大学 信息与通信工程博士今天我们来探讨下深度学习中的 Attention 机制,中文名为“注意力”。1 为什么要引入 Attention 机制?当我们用深度 CNN 模型识别图像时,一般是通过卷积核去提取图像的局部信息,然而,每个局部信息对图像能否被正确识别的影响力是不同的,如何让模型知道图像中不同局部信息的重要性呢?答案就是注意力机制。人类视觉注意力视觉注意力机制是人类大脑的一种天生的能力。当我们看到一幅图片时,先是快速扫过图片,然后锁定需要重点关注的目标区域。比如当我们观察上述图片时,注意力很容易就集中在了人脸、文章标题和文章首句等位置。试想,如果每个局部信息都不放过,那么必然耗费很多精力,不利于人类的生存进化。同样地,在深度学习网络中引入类似的机制,可以简化模型,加速计算。另外,利用循环神经网络去处理 NLP 任务时,长距离“记忆”能力一直是个大难题,而引入“注意力机制”也能有效缓解这一问题。2 Encoder-Decoder 框架常见的深度学习模型有 CNN、RNN、LSTM、AE 等,其实都可以归为一种通用框架 - Encoder-Decoder.Encoder-Decoder 框架在文本处理领域,有一类常见的任务就是从一个句子(Source)生成另一个句子(Target),比如翻译,其中 xi 是输入单词的向量表示,yi 表示输出单词。Source 经过 Encoder,生成中间的语义编码 C,C 经过 Decoder 之后,输出翻译后的句子。在循环神经网络中,先根据 C 生成 y1,再基于(C,y1)生成 y2,依此类推。3 Soft Attention 模型RNN 模型传统的循环神经网络中,y1、y2 和 y3 的计算都是基于同一个 C. 深入思考一下,发现这可能并不是最好的方案,因为 Source 中不同单词对 y1、y2 和 y3 的影响是不同的,所以,很自然地就有了如下思路:引入注意力机制的 Encoder-Decoder 框架上述改良模型中的 C1、C2、C3 是怎么计算的呢?其实也非常简单,就是在计算 C1、C2 和 C3 时,分别使用不同的权重向量:上述公式中的权重向量 (a11, a12, a13)、(a21, a22, a23)、(a31, a32, a33) 又是如何计算的呢?请看下图。注意力分配的概率计算上述模型中: h1 = f(Tom)、h2 = f(h1, Chase)、h3 = f(h2, Jerry).当计算出 Hi-1 之后,通过函数 F(hj,Hi-1) 获得输入语句中不同单词(Tom、Chase、Jerry)对目标单词 yi 的影响力,F 的输出再经过 Softmax 进行归一化就得到了符合概率分布取值区间的注意力分配概率。其中,F 函数的实现方法有多种,比如余弦相似度、MLP 等。Google 神经网络机器翻译系统结构图4 Attention 机制的本质现在,请你把 Source 想象成是内存里的一块存储空间,它里面存储的数据按 存储。给定 Query,然后取出对应的内容。这里与一般的 hash 查询方式不同的是,每个地址都只取一部分内容,然后对所有的 Value 加权求和。Attention 的实质:软寻址(soft addressing)公式描述如下:Attention 的计算可以分成如下三个阶段:三阶段计算 Attention 过程注意力打分机制归一化的注意力概率分配上述公式中的 Lx 表示输入语句的长度。上一节的例子中,Key 是等于 Value 的。5 Self Attention 模型可视化 Self Attention 例子在 Soft Attention 模型中,Source 和输出 Target 的内容是不同的,比如中-英机器翻译,Source 对应中文语句,Target 对应英文语句。现在有另一个任务,如上图所示:给定一个句子和句子中某个单词 making,如何找出与 making 强相关的其他单词呢?比如上图中的 more difficult(因为它们和 making 可以组成一个短语).这就用到了 Self Attention 机制,顾名思义,指的是 Source 内部元素之间或者 Target 内部元素之间发生的 Attention 机制,也可以理解为 Source = Target 这种特殊情况下的 Attention 机制,具体计算过程和 Soft Attention 是一样的。6 总结下图展示了注意力机制如何在图片描述任务(Image-Caption)中发挥作用的。图片描述任务,就是给你一张图片,请输出一句话去描述它。一般会用 CNN 来对图片进行特征提取,Decoder 部分使用 RNN 或者 LSTM 来输出描述语句。此时如果加入注意力机制,能够大大改善输出效果。图片描述任务中的注意力机制另外,在语音识别、目标物体检测等领域,注意力机制同样取得了很好的效果。实际上,Attention 机制听起来高大上,其关键就是学出一个权重分布,然后作用在特征上。这个权重可以保留所有的分量,叫加权(Soft Attention),也可以按某种采样策略选取部分分量(Hard Attention)。这个权重可以作用在原图上,如目标物体检测;也可以作用在特征图上,如 Image-Caption这个权重可以作用在空间尺度上,也可以作用于 Channel 尺度上,给不同通道的特征加权这个权重可以作用在不同时刻上,如机器翻译关注公号“那儿有一束光”,说话太难了。编辑于 2023-09-15 19:26・IP 属地北京深度学习(Deep Learning)人工智能编程学习​赞同 156​​11 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录人工智能从框架到算法,再到工

attention是什么意思_attention的翻译_音标_读音_用法_例句_爱词霸在线词典

ntion是什么意思_attention的翻译_音标_读音_用法_例句_爱词霸在线词典首页翻译背单词写作校对词霸下载用户反馈专栏平台登录attention是什么意思_attention用英语怎么说_attention的翻译_attention翻译成_attention的中文意思_attention怎么读,attention的读音,attention的用法,attention的例句翻译人工翻译试试人工翻译翻译全文简明柯林斯牛津attention高中/CET4/CET6/考研/TOEFL英 [əˈtenʃn]美 [əˈtenʃn]释义常用高考讲解n.注意(力); 兴趣,关注; 照料,维修; 殷勤int. 注意!立正!点击 人工翻译,了解更多 人工释义词态变化复数: attentions;实用场景例句全部注意注意力照料关怀殷勤立正Please pay attention (= listen carefully) to what I am saying.请注意听我讲的话。牛津词典Don't pay any attention to what they say (= don't think that it is important) .别在意他们所说的话。牛津词典She tried to attract the waiter's attention .她试图引起服务员的注意。牛津词典I tried not to draw attention to (= make people notice) the weak points in my argument.我尽量使人不察觉到我论证中的弱点。牛津词典An article in the newspaper caught my attention .报上一篇文章引起了我的注意。牛津词典I couldn't give the programme my undivided attention .我不能一心一意地关注这个方案。牛津词典(formal)It has come to my attention (= I have been informed) that…我已获悉…牛津词典(formal)He called (their) attention to the fact that many files were missing.他提请(他们)注意许多档案已经遗失这一事实。牛津词典(formal) Can I have your attention please?请注意听我讲话好吗?牛津词典Films with big stars always attract great attention .有大明星演出的电影总是引起很大的兴趣。牛津词典As the youngest child, she was always the centre of attention .身为幼女,她一直是大家关注的中心。牛津词典Small children have a very short attention span .幼儿的注意力持续时间很短。牛津词典He turned his attention back to the road again.他把注意力转回到道路上。牛津词典the report's attention to detail报告对细节的关注牛津词典The waiters stood to attention with napkins folded over their arms.服务员笔直站立着,餐巾折叠着放在他们的手臂上。柯林斯高阶英语词典Soldiers in full combat gear stood at attention...全副武装的士兵们立正站着。柯林斯高阶英语词典Other people walk along the beach at night, so I didn't pay any attention at first...入夜后还有人在沙滩上散步,起先我并没注意到。柯林斯高阶英语词典More than ever before, the food industry is paying attention to young consumers...食品工业比以往任何时候都更加关注年轻消费者。柯林斯高阶英语词典He sat at one of the round tables and tried to attract her attention.他坐在其中一张圆桌旁边,想引起她的注意。柯林斯高阶英语词典A faint aroma of coffee attracted his attention...淡淡的咖啡香味一下子吸引了他。柯林斯高阶英语词典We conclude by drawing attention to the issues around which the debate should focus.我们作总结时着重提到了辩论应该关注的一些问题。柯林斯高阶英语词典If we don't keep bringing this to the attention of the people, nothing will be done...如果我们无法让群众一直关注此事,那将一事无成。柯林斯高阶英语词典...a demanding baby who seems to want attention 24 hours a day.好像一天24小时都要人照看的难缠的宝宝柯林斯高阶英语词典The only way to escape the unwanted attentions of the local men was not to go out...避免被当地人指指点点的唯一办法就是闭门不出。柯林斯高阶英语词典The meeting was held away from the attentions of the media...会议的举行避开了媒体的关注。柯林斯高阶英语词典You have my undivided attention...我专心听你所讲。柯林斯高阶英语词典Later he turned his attention to the desperate state of housing in the province.其后,他将注意力转向了该省形势严峻的住房问题。柯林斯高阶英语词典Volume Two, subtitled 'The Lawyers', will also attract considerable attention...副标题为“律师”的第二册也将获得广泛关注。柯林斯高阶英语词典The conference may help to focus attention on the economy.此次会议可能有助于将关注焦点放在经济上。柯林斯高阶英语词典Each year more than two million household injuries need medical attention.每年有超过200万起家中受伤事件需要医疗处理。柯林斯高阶英语词典收起实用场景例句真题例句全部四级六级高考考研Where do the seeds of change come from? The Native American Indians have a saying: Pay attention to the whispers so you won't have to hear the screams.出自-2017年6月阅读原文Small signs may indicate great changes to come and therefore merit attention.出自-2017年6月阅读原文Fantasy proneness could be considered a tendency to imagine and daydream, whereas absorption is the tendency to allow your mind to become absorbed in an activity – to pay complete attention to the sensations ( ' , 感受) and the experiences.出自-2017年6月阅读原文To call people's attention to prisoners' conditions in America.出自-2015年12月阅读原文My advice is that you not pay attention to the number of steps and ingredients, because they can be deceiving.出自-2015年12月阅读原文It does not pay much attention to business startups.出自-2015年12月阅读原文Her release from prison has drawn little attention.出自-2015年12月阅读原文And the fact that they have a personal stake in the outcome makes them really pay attention.出自-2015年12月阅读原文I recommend Harvard's 2011 "Pathways to Prosperity" report for more attention to the "forgotten half" (those who do not go on to college) and ideas about how to address this issue.出自-2013年12月阅读原文Giving little attention to those having difficulty learning出自-2013年12月阅读原文That was partly due to his talents: showmanship, strategic vision, an astonishing attention to detail and a dictatorial management style which many bosses must have envied.出自-2012年12月阅读原文It fails to give boys the attention they need.出自-2011年12月阅读原文Pielke said that "climate change is an important problem requiring our utmost attention.出自-2011年6月阅读原文It deserves our closest attention出自-2011年6月阅读原文Its rough estimates are meant to draw the attention of world leaders.出自-2011年6月阅读原文I'm self-employed and need the Internet for my work, but I'm failing to accomplish my work,to take care of my home, to give attention to my children," she wrote in a message sent to the group.出自-2010年6月阅读原文Not paying attention to his driving, McLaughlin turned right on main street in 33rd street and hit Volkswagen Rabbit.出自-2013年12月听力原文It usually doesn't require any special attention.出自-2013年6月听力原文They focus too much attention on themselves出自-2013年6月听力原文For example, Americans today do not pay much attention to the proverb "Haste makes waste", because patience is not important to them.出自-2011年12月听力原文The elderly appreciated the care and attention they received.出自-2011年6月听力原文To attract the attention from the media出自-2011年6月听力原文Paying attention to every detail.出自-2010年6月听力原文Already, by paying close attention to and interacting with the world and people around him, and without any school-type formal instruction, he has done a task far more difficult, complicated and abstract than anything he will be asked to do in school, or than any of his teachers has done for years出自-2010年6月听力原文And the fact that they have a personal stake in the outcome makes them really pay attention.2015年12月四级真题(第二套)阅读 Section CFantasy proneness could be considered a tendency to imagine and daydream,whereas absorption is the tendency to allow your mind to become absorbed in an activity – to pay complete attention to the sensations and the experiences.2017年6月四级真题(第一套)阅读 Section BPay attention to the whispers so you won't have to hear the screams.2017年6月四级真题(第二套)阅读 Section BPhysical activity can improve blood flow to the brain, fueling memory, attention and creativity, which are essential to learning.2016年6月四级真题(第三套)阅读 Section AThe issue of the stresses felt by students in elite school districts has gained attention in recent years as schools in places like Newton, Massachusetts, and Palo Alto have reported a number of suicides.2018年6月四级真题(第一套)阅读 Section BYou draw in class, and that helps you pay attention?2018年12月四级真题(第一套)听力 Section BThe football team, the basketball team—that's our competition for resources, student time, attention, school dollars, parent efforts, school enthusiasm.出自-2017年6月阅读原文We, of course, need to pay attention to youngsters who are filled with discontent and hostility, but we should not allow these extreme cases to distort our view of most young people.出自-2016年6月阅读原文Mr.Wilhelm said the excess of labels made it difficult for businesses and consumers to know which labels they should pay attention to.出自-2016年6月阅读原文They do not attract the media attention the high-risk group does.出自-2016年12月阅读原文Teenagers' mental problems are getting more and more attention.出自-2016年12月阅读原文By the end of the decade, it's expected to be worth over $50 billion and generate 160 gigawatt-hours, enough to attract the attention of major companies that might not otherwise be interested in a decidedly pedestrian technology.出自-2016年12月阅读原文They may be forced to divide their attention.出自-2015年12月阅读原文The power of such simple psychology in fighting climate change is attracting attention across the political establishment.出自-2015年12月阅读原文Pay more attention to the effectiveness of their treatments.出自-2015年12月阅读原文It has aroused public attention to safety issues.出自-2015年12月阅读原文In their evolution, humans have learned to pay attention to the most urgent issues instead of long-term concerns.出自-2015年12月阅读原文For all the new attention devoted to the 1 percent, a new dataset from the Equality of Opportunity Project at Harvard and Berkeley suggests that, if we care about upward mobility overall, we're vastly exaggerating the dangers of the rich-poor gap.出自-2015年12月阅读原文Evolution has programmed humans to pay most attention to issues that will have an immediate impact.出自-2015年12月阅读原文Education has not paid enough attention to major environmental issues.出自-2015年12月阅读原文Employees who receive unfavorable evaluations must also be given attention.出自-2013年12月阅读原文The urgency of slowing down-to find the time and space to think-is nothing new, of course, and wiser souls have always reminded us that the more attention we pay to the moment, the less time and energy we have to place it in some larger context.出自-2012年12月阅读原文To be good leaders, managers must pay close attention to their own values, abilities and strengths.出自-2011年12月阅读原文Private colleges and universities generally do better, partly because they offer smaller classes and more personal attention.出自-2011年6月阅读原文If the United States wants to keep up in the global economic race, it will have to pay systematic attention to graduating minorities, not just enrolling them出自-2011年6月阅读原文they give students more attention出自-2011年6月阅读原文Whether all that attention has translated into sufficient action is another question.出自-2010年12月阅读原文Boys pay more attention to moving objects than girls.出自-2012年12月听力原文It has attracted worldwide attention.出自-2012年6月听力原文For example, Americans today do not pay much attention to the proverb "Haste makes waste", because patience is not important to them.出自-2011年12月听力原文Speak loudly enough to attract attention.出自-2011年6月听力原文That, he figured, should get his classmates' attention.出自-2010年6月听力原文"Snapping a photo directs attention, which heightens the pleasure you get from whatever you're looking at," Dehl says.2018年6月六级真题(第二套)阅读 Section CAlthough these may not seem like large effects, the impact of early attention problems continued throughout the children's academic careers.2018年12月六级真题(第一套)阅读 Section CAs fifth-graders, children with early attention problems obtained average reading scores at least 3% lower than their contemporaries' and grades at least 8% lower than those of their peers.2018年12月六级真题(第一套)阅读 Section CBy fifth grade, children with early attention difficulties had lower grades and reading achievement scores than their peers.2018年12月六级真题(第一套)阅读 Section CBy the end of the decade, it's expected to be worth over $50 billion and generate 160 gigawatt-hours, enough to attract the attention of major companies that might not otherwise be interested in a decidedly pedestrian technology.2016年12月六级真题(第一套)阅读 Section CChildren with attention problems in early childhood were 40% less likely to graduate from high school, says a new study from Duke University.2018年12月六级真题(第一套)阅读 Section CFor example, one study found healthy adults assigned to a high-fat diet for five days showed impaired attention, memory, and mood compared with a low-fat diet control group.2019年12月六级真题(第一套)阅读 Section ANicholas Carr, author of The Shallows: What the Internet Is Doing to Our Brains, wrote, "The net is designed to be an interruption system, a machine geared to dividing attention."2017年12月六级真题(第一套)阅读 Section BI found that this ability to instantly shift my attention was often a good thing, like when passing time on public transportation.2017年12月六级真题(第一套)阅读 Section BI think this is a very legitimate concern, and I appreciate their drawing our attention to it," David hill, a father of five, says.2018年12月六级真题(第三套)阅读 Section BThe technologies themselves, and their makers, are the easiest suspects to blame for our diminishing attention spans.2017年12月六级真题(第一套)阅读 Section BIndeed, when the expert pays attention to the mechanics, it is liable to disrupt performance.2019年6月六级真题(第一套)听力 Section CInstead of narrowing our focus, like negative emotions do, positive emotions affect our brains in ways that increase our awareness, attention and memory.2016年12月六级真题(第二套)听力 Section CKristi King, a diet specialist at Texas Children's Hospital, finds it's hard to get teenager patients' attention about healthy eating.2017年6月六级真题(第二套)听力 Section BOur findings suggest that even more modest attention difficulties can increase the risk of negative academic outcomes.2018年12月六级真题(第一套)阅读 Section CSmart basketball players or skilled musicians need to pay close attention to the demands of high performance, to the challenges to be overcome.2019年6月六级真题(第一套)听力 Section CSome experts even consider lying a developmental milestone, like crawling and walking, because it requires sophisticated planning, attention and the ability to see a situation from someone else5 s perspective to manipulate them.2019年12月六级真题(第一套)阅读 Section CThe children we identified as having attention difficulties were not diagnosed with attention deficit hyperactivity disorder (注意力缺乏多动症, ADHD), although some may have had the disorder.2018年12月六级真题(第一套)阅读 Section CThe results highlight the need to develop effective early interventions to help those with attention on track academically and for educators to encourage positive peer relationships, the researchers said.2018年12月六级真题(第一套)阅读 Section CThey found that early attention skills were the most consistent predictor of academic success, and that likability by peers also had a modest effect on academic performance.2018年12月六级真题(第一套)阅读 Section CThey have to give so much thought and attention to the low-level mechanics of handling the ball, or fingering the keys or reading the music, that they are unable to give any thought to the thing that matters—the game, or the music, respectively.2019年6月六级真题(第一套)听力 Section CThey're open to the tactical possibilities and the musical challenges precisely because they're freed, through skill, from the need to pay attention to the low-level details of how to play.2019年6月六级真题(第一套)听力 Section CThis refers to all the attention young people devote to their phones, tablets and laptops.2019年12月六级真题(第一套)阅读 Section BWhile companies like Facebook harvest attention to generate revenue from advertisers, other technologies have no such agenda.2017年12月六级真题(第一套)阅读 Section Bwith this study, researchers examined early academic attention and socio-emotional skills and how each contributed to academic success into young adulthood.2018年12月六级真题(第一套)阅读 Section CA boy on a bike caught my attention.2014年高考英语全国卷2 语法填空 原文According to the author, attention should be paid to how driverless cars can help deal with transportation-related problems.2018年高考英语北京卷 阅读理解 阅读D 题设Adam and Galinsky tested the effect of simply wearing a white lab coat on people's powers of attention.2017年高考英语浙江卷(11月) 阅读理解 阅读B 原文Adam and Galinsky's experiment tested the effect of clothes on their wearers' attention.2017年高考英语浙江卷(11月) 阅读理解 阅读B 题设And that's precisely why one garbage-eating Frenchman has caught our attention.2019年高考英语浙江卷 完形填空 原文Andrew Miller thinks social media needs more attention than banks mainly because it remains unknown how users' data will be taken advantage of.2016年高考英语上海卷 阅读理解 阅读C 题设At thirteen, I was diagnosed (诊断) with a kind of attention disorder.2015年高考英语重庆卷 阅读理解 阅读A 原文By paying attention to firms' data assets, antitrust regulators could avoid the size trap.2017年高考英语江苏卷 阅读理解 阅读C 题设He had my full attention and I had his.2018年高考英语全国卷3 阅读理解 阅读D 原文I expected that one toy would keep his attention for about five minutes, ten minutes, max.2018年高考英语全国卷3 阅读理解 阅读D 原文I think it would be satisfaction of enjoying things with others, meaning when you give it to others, whether it's time, attention, a gift, anything, just those moments of sharing.2016年高考英语上海卷 听力 原文Indeed, they made only half as many errors as those wearing their own clothes on the stroop test one way of measuring attention.2017年高考英语浙江卷(11月) 阅读理解 阅读B 原文Instead of introducing scientific theories, he tells a story, within which he tries to make his points, perhaps in order to keep the reader's attention.2015年高考英语湖北卷 阅读理解 阅读E 原文It can be inferred from the passage that Nigel Shadbolt doubts whether people would pay as much attention to a kitemark as they think.2016年高考英语上海卷 阅读理解 阅读C 题设It should get the attention of insurance companies.2017年高考英语天津卷 阅读理解 阅读C 选项Other organisations such as banks ask customers to sign long contracts they may not read or understand, but Miller believes social media requires special attention because it is so new.2016年高考英语上海卷 阅读理解 阅读C 原文Smith, you see, the doctor said I had attention problems.2015年高考英语重庆卷 阅读理解 阅读A 原文Suppose you're in a rush, felling tired, not paying attention to your screen, and you send an email that could get you in trouble.2017年高考英语天津卷 阅读理解 阅读A 原文Thank you for your attention, and enjoy your new term.2015年高考英语北京卷 听力 原文The author didn't finish the reading in class because he had an attention disorder.2015年高考英语重庆卷 阅读理解 阅读A 题设The idea is that white coats are associated with scientists, who are in turn though to have close attention to detail.2017年高考英语浙江卷(11月) 阅读理解 阅读B 原文The researchers note that attention should be given to "training methods that would prepare volunteers for troublesome situations or provide them with strategies for coping with the problem they do experience".2015年高考英语江苏卷 阅读理解 阅读C 原文The under-estimation was systematic: when adding two numbers, the monkeys always paid attention to the larger of the two, and then added only a fraction of the smaller number to it.2019年高考英语全国卷3 阅读理解 阅读D 原文The whip gets all of the attention, but it's mostly for show.2014年高考英语全国卷1 阅读理解 阅读C 原文They could hold their attention for long.2019年高考英语全国卷3 阅读理解 阅读D 选项They no longer paid attention to the bird and never learned what it was doing.2018年高考英语天津卷 阅读理解 阅读D 原文This creation attracted a lot of attention thanks to its mixture of modern and traditional Chinese elements.2018年高考英语全国卷3 阅读理解 阅读C 原文Translated into high school terms, this means that if everybody you hang around with is laughing at what John wore or what jane said, then you can bet that wearing or saying something similar will get you the same kind of negative attention.2016年高考英语浙江卷(6月) 阅读理解 阅读A 原文Uses of prezi in listening and speaking courses draw students' attention to speaking more fluently.2015年高考英语安徽卷 阅读理解 阅读A 原文Even today, in our industrial life, apart from certain values of industriousness and thrift, the intellectual and emotional reaction of the forms of human association under which the world's work is carried on receives little attention as compared with physical output.出自-2009年考研翻译原文The theory also seems to explain the sudden and unexpected popularity of people was wearing, promoting or developing whatever it is before anyone else paid attention.出自-2010年考研阅读原文For a social epidemic to occur,however,each person so affected,must then influence his or her own acquaintances,who must in turn influence theirs,and so on;and just how many others pay attention to each of these people has little to do with the initial influential.出自-2010年考研阅读原文For the time, attention, and money of the art-loving public, classical instrumentalists must compete not only with opera houses, dance troupes, theater companies, and museums, but also with the recorded performances of the great classical musicians of the 20th century.出自-2011年考研阅读原文Global challenges and social innovation ought to receive much more attention from scientists, especially the young ones.出自-2013年考研阅读原文These benefactors have succeeded in their chosen fields, they say, and they want to use their wealth to draw attention to those who have succeeded in science.出自-2014年考研阅读原文Second, it is surely a good thing that the money and attention come to science rather than go elsewhere.出自-2014年考研阅读原文But he noted that biomedical journals such as Annals of Internal Medicine, the Journal of the American Medical Association and The Lancetpay strong attention to statistical review.出自-2015年考研阅读原文But he noted that biomedical journals such as Annals of Internal Medicine, the Journal of the American Medical Association and The Lancet pay strong attention to statistical review.2015年考研真题(英语一)阅读理解 Section ⅡBut successive governments have presided over selling green spaces, squeezing money from local authorities and declining attention on sport in education.2017年考研真题(英语二)阅读理解 Section ⅡFor a social epidemic to occur, however, each person so affected must then influence his or her own acquaintances, who must in turn influence theirs, and so on: and just how many others pay attention to each of these people has little to do with the initi2010年考研真题(英语一)阅读理解 Section ⅡFor the time, attention, and money of the art-loving public, classical instrumentalists must compete not only with opera houses, dance troupes, theater companies, and museums, but also with the recorded performances of the great classical musicians of the2011年考研真题(英语一)阅读理解 Section ⅡImagine you are pouring your heart out to someone and they are just busy on their phone, and if you ask for their attention you get the response "I can multitask".2018年考研真题(英语二)阅读理解 Section ⅡIn a social situation, eye contact with another person can show that you are paying attention in a friendly way.2020年考研真题(英语一)阅读理解 Section ⅡIn addition, new digital technologies have allowed more rapid trading of equities, quicker use of information, and thus shortens attention spans in financial markers.2019年考研真题(英语一)阅读理解 Section ⅡIn adulthood, looking someone else in a pleasant way can be a complimentary sign of paying attention.2020年考研真题(英语一)阅读理解 Section ⅡThe child becomes increasingly distressed as she tries to capture her mother's attention.2017年考研真题(英语二)阅读理解 Section ⅡIn many such cases, a cursory search for causes finds that some small group of people was wearing, promoting, or developing whatever it is before anyone else paid attention.2010年考研真题(英语一)阅读理解 Section ⅡIt can catch someone's attention in a crowded room, "eye contact and smile" can signal availability and confidence, a common-sense notion supported in studies by psychologist Monica Moore.2020年考研真题(英语一)阅读理解 Section ⅡIt is hard to shove for attention billionaire-pound infrastructure projects, so it is inevitable that the attention is focused elsewhere.2014年考研真题(英语二)阅读理解 Section ⅡNow that members of Generation Z are graduating college this spring the most commonly-accepted definition says this generation was born after 1995, give or take a year-the attention has been rising steadily in recent weeks.2020年考研真题(英语二)阅读理解 Section ⅡOur findings indicate that people do not only feel different when they are the centre of attention but that their brain reactions also differ.2020年考研真题(英语一)阅读理解 Section ⅡParents would be looking at their emails while the children would be making excited bids for their attention.2017年考研真题(英语二)阅读理解 Section ⅡThe Web-based program allows you to systematically improve your memory and attention skills.2014年考研真题(英语一)完形填空 Section ⅠThis argument has attracted a lot of attention, via the success of the book Race Against the Machine, by Erik Brynjolfsson and Andrew McAfee, who both hail from MTI's Center for Digital Business.2014年考研真题(英语二)阅读理解 Section ⅡWhen women do break through to the summit of corporate power—as, for example, Sheryl Sandberg recently did at Facebook—they attract massive attention precisely because they remain the exception to the rule.2013年考研真题(英语二)阅读理解 Section Ⅱ收起真题例句英英释义Noun1. the process whereby a person concentrates on some features of the environment to the (relative) exclusion of others2. the work of caring for or attending to someone or something;"no medical care was required""the old car needed constant attention"3. a general interest that leads people to want to know more;"She was the center of attention"4. a courteous act indicating affection;"she tried to win his heart with her many attentions"5. the faculty or power of mental concentration;"keeping track of all the details requires your complete attention"6. a motionless erect stance with arms at the sides and feet together; assumed by military personnel during drill or review;"the troops stood at attention"收起英英释义词根词缀词根: tent=stretch,表示"伸展,趋向"adj.attentive 注意的;有礼貌的at加强+tent伸展,趋向+ive……的→伸展出去的→注意的,有礼貌的intentional 有意图的, 故意的intention[n.意图,意向,目的]+al表形容词→adj.有意图的, 故意的pretentious 做作的,自抬身价的pre前+tent伸展,趋向+ious……的→提前摆出一种姿态→做作的adv.attentively 注意地, 留意地attentive[adj.注意的;有礼貌的]+ly表副词→adv.注意地, 留意地n.attention 注意,注意力;立正;特别照顾;照料at加强+tent伸展,趋向+ion表名词→伸展出去→注意;照料extent 广度,宽度,长度;程度,限度ex出+tent伸展,趋向→伸出去的范围→广度,宽度intention 意图,意向,目的intent[adj.目不转睛的,热切的 n.意图]+ion表名词→n.意图,意向,目的tent 帐篷tent伸展,趋向→伸展开用来遮雨,阳光等→帐篷同义词n.照料;关照;殷勤carecourtesyconsiderationconcernthoughtfulnesspoliteness其他释义studycourtesycareapplicationconsiderationconcernthoughtfulnesspoliteness反义词n.注意;专心;关注inattentionindifferencecarelessness其他释义inattention行业词典体育立正   医学注意:对环境的一部分或一方面的选择性警觉   对一种刺激的选择性反应   心理学注意   释义词态变化实用场景例句真题例句英英释义词根词缀同义词反义词行

小白都能看懂的超详细Attention机制详解 - 知乎

小白都能看懂的超详细Attention机制详解 - 知乎首发于雅正冲蛋的ML之路切换模式写文章登录/注册小白都能看懂的超详细Attention机制详解雅正冲蛋爱好机器学习的本科生我们都知道对于人类来说注意力是非常重要的一件事;有了注意的能力我们才能在一个比较复杂的环境中把有限的注意力放到重要的地方。在这一节中,我们将了解如何使得我们的网络也具有产生注意力的能力和这样的注意力能够给网络表现带来怎样的改变。为什么要有Attention让我们从循环神经网络的老大难问题——机器翻译问题入手。我们知道,普通的用目标语言中的词语来代替原文中的对应词语是行不通的,因为从语言到另一种语言时词语的语序会发生变化。比如英语的“red”对应法语的“rouge”,英语的“dress”对应法语“robe”,但是英语的“red dress”对应法语的“robe rouge”。为了解决这个问题,我们创造了Encoder-Decoder结构的循环神经网络。它先通过一个Encoder循环神经网络读入所有的待翻译句子中的单词,得到一个包含原文所有信息的中间隐藏层,接着把中间隐藏层状态输入Decoder网络,一个词一个词的输出翻译句子。这样子无论输入中的关键词语有着怎样的先后次序,由于都被打包到中间层一起输入后方网络,我们的Encoder-Decoder网络都可以很好地处理这些词的输出位置和形式了。但是问题在于,中间状态由于来自于输入网络最后的隐藏层,一般来说它是一个大小固定的向量。既然是大小固定的向量,那么它能储存的信息就是有限的,当句子长度不断变长,由于后方的decoder网络的所有信息都来自中间状态,中间状态需要表达的信息就越来越多。如果句子的信息是在太多,我们的网络就有点把握不住了。比如现在你可以尝试把下面这句话一次性记住并且翻译成中文:It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, it was the epoch of belief, it was the epoch of incredulity, it was the season of Light, it was the season of Darkness, it was the spring of hope, it was the winter of despair, we had everything before us, we had nothing before us, we were all going direct to Heaven, we were all going direct the other way — in short, the period was so far like the present period, that some of its noisiest authorities insisted on its being received, for good or for evil, in the superlative degree of comparison only.- A Tale of Two Cities, Charles Dickens.别说翻译了,对于人类而言,光是记住这个句子就有着不小的难度。如果不能一边翻译一边回头看,我们想要翻译出这个句子是相当不容易的。Encoder-Decoder网络就像我们的短时记忆一样,存在着容量的上限,在语句信息量过大时,中间状态就作为一个信息的瓶颈阻碍翻译了。可惜我们不能感受到Encoder-Decoder网络在翻译这个句子时的无奈。但是我们可以从人类这种翻译不同句子时集中注意力在不同的语句段的翻译方式中受到启发,得到循环神经网络中的Attention机制。Attention机制我们现在把Encoder网络中的隐藏层记为 h^{(t)} ,把Decoder网络中的隐藏层记为 H^{(t)} ,第t t 个输出词记为 y^{(t)} ,我们原先的Decoder网络中的式子就可以写做:H^{(t)}=f(H^{(t-1)},y^{(t-1)}) 我们要使得网络在翻译不同的句子时可以注意到并利用原文中不同的词语和语句段,那我们就可以把Decoder网络式子写作:H^{(t)}=f(H^{(t-1)},y^{(t-1)},C_t)其中 C_t 指的是在时刻t的上下文向量(Context Vector)。我们把它定义为所有的原文隐藏层值 h^{(t)} 加权平均的结果 C_t=\sum_{i=1}^{T_x}\alpha_{ti}h^{(t)} ,而如何分配权重就体现了输出这个 H^{(t)} 的时候应该给哪些原文词语更高的注意力。我们给 h^{(t)} 分配的权重就叫做全局对齐权重(Global Alignment Weights)全局对齐权重全局对齐权重 \alpha_k 很好的体现了在计算第 k 个输出词语时,应该给所有的 h^{(t)} 怎样的权重,其中 a_{ki} 就代表着计算第k个输出词语时, h^{(i)} 分配到的权重大小。于是我们的 C_k=\sum_{i=1}^{T_x}\alpha_{ki}h^{(i)} 。翻译一个句子的时候,每一步的 C_k 都应该是不同的,下图展示的是把法语句子“L’accord sur l’Espace économique européen a été signé en août 1992.” 翻译成英语句子“The agreement on the European Economic Area was signed in August 1992.”时,每一个输出英文词汇的 \alpha_k 构成的对齐矩阵:上图中,每一列就代表着输出一个英语单词时,它的 \alpha_k 权重是如何分布于原文向量 h^{(t)} 中的,图中越亮的像素块对于着越大的权重。这个图告诉了我们几个重要信息:在预测每一个词语的时候,权重只会在少数几个词上表现出比较高的词,一般不会多于3-4个词语被同时赋予比较高的注意力;通常来说,在上一时间刻中被分配很大权重的 h^{(t)} ,在下一层中并不一定也会有高权重。连续输出几个词语时,注意力会快速地在不同原文词语之间切换。很多时候,输出文本中的第 k 个词的注意力也集中在输入文本的第 k 个词上,就像是图中从左上到右下的这一条对角的亮带。于是乎我们的带有Attention的Encoder-Decoder网络的迭代过程就是如下几步:Encoder网络按照原来的方法计算出 h^{(1)},h^{(2)},\cdots,h^{(T_x)} ;计算Decoder网络,对于第 k 个输出词语:计算出得到C_k所需要的 h^{(1)},h^{(2)},\cdots,h^{(T_x)} 的权重 a_{k} ;计算 C_k : C_k=\alpha_{k1}h^{(1)}+\alpha_{k2}h^{(2)}+\cdots+\alpha_{kT_x}h^{(T_x)} ;将H^{(k-1)},y^{k-1},C_k 代入f(H^{(k-1)},y^{(k-1)},C_k) 计算出 H^{(k)} ,再将 H^{(k)} 代入你的网络中计算出 y^{(k)} 。如果 k=1 ,那么我们就令初始 H^{(0)}=h^{(T_x)},y^{(0)}=0 。k:=k+1 后重复上述步骤,直到网络输出为止。现在我们只剩下一个问题没有解决了:如何计算出 \alpha_k 呢?如何计算权重计算函数计算 a_k 的时候,我们很自然的就会想到: a_k 也可以使用一个小神经网络计算出来,而由于 a_{kt} 表达的含义是我们在输出到第 k 个词,也就是面对 H^{(k-1)} 时,应该给 h^{(t)} 分配多少的权重,我们可以设计一个以 H^{(i-1)},h^{(j)} 为输入的网络:\begin{align} e_{ij} &= \text{score}(H^{(i-1)},h^{(j)})\\ \alpha_{ij} &= \frac {\exp(e_{ij})}{\sum_{k=1}^{T_x}\exp(e_{ik})} \iff \alpha_{i}=SoftMax(e_i) \end{align} 这里我们称 e_{ij} 为associated energy,并对它使用了SoftMax函数得到最终的 a_i,表示第i个输出词时需要的注意力权重。由于 a_{kj} 和 h^{(j)} 一起构成了 C_k 被代入Decoder网络 f(H^{(k-1)},y^{(k-1)},C_k) 中进行计算并被监督 ,因此 \nabla f(C_k) 是可以计算的,梯度顺着 \nabla f(C_k)\rightarrow \nabla f(a_{ij})\rightarrow\nabla J(e_{ij}) ,我们知道这里的权重计算函数是可以被梯度下降优化的。各种权重计算函数计算我们需要的 e_{ij} 具体来说有以下广泛使用的方法:(*):相对于点积模型添加了一个缩放分母 \frac 1{\sqrt{d_H}} ,这主要是由于当输入的矩阵的绝对值太大的时候,softmax函数的梯度会变的过小以至于影响到梯度下降,因此适当减小输入矩阵的大小来解决这个问题。Attention 种类之前我们了解了不同种类的权重计算函数,而从更大的视角来看,我们的Attention方法分为几个变体:Soft-Attention,Hard-Attention,Global-Attention,Local-Attention,Self-Attention。接下来让我们一个个介绍。Soft Attention我们之前学习的Attention机制就是Soft Attention,它的计算公式我们已经熟悉:\begin{align} e_{kj} &= \text{score}(H^{(k-1)},h^{(j)})\\ \alpha_{kj} &= \frac {\exp(e_{kj})}{\sum_{i=1}^{T_x}\exp(e_{ki})} \iff \alpha_{i}=SoftMax(e_k)\\ C_k&=\sum_{i=1}^{T_x}\alpha_{ki}h^{(i)} \end{align} 下图是完整的Soft Attention工作示意图。Hard AttentionHard Attention不使用加权平均的方法,对于每个待选择的输入隐藏层,它要么完全采纳进入上下文向量,要么彻底抛弃。具体如何选择需要注意的隐藏层呢,有两种实现方式:直接选择最高权重( \alpha_{ki} )的隐藏层;按照 \alpha_{ki} 的分布来对隐藏层进行随机采样获得一个隐藏层。硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导,因此无法使用在反向传播算法进行训练。为了使用反向传播算法,一般使用软性注意力来代替硬性注意力。Global Attention\Local Attention我们之前了解的所有Attention机制都是Global Attention,我们把Encoder网络中的所有输入都代入计算全局对齐权重,作为候选加入C_k。但是如果我们需要翻译的文本是一片很长的论文,那么太多的输入候选隐藏层可能会降低算法的运行速度,如果我们可以首先挑选出可能比较有用的一批隐藏层,只对它们进行Attention计算,就可以大大加速算法。如何预选择出比较有用的隐藏层呢,是这样操作的:我们首先对于第 t 个位置的输出词语,我们在原文中找到它的一个对齐位置 p_t 我们在对齐位置 p_t 前后个扩张 D 个长度,得到一个范围 [p_t-D,p_t+D] ,这个范围就是我们现在的 C_t 所能够接触到的所有可以参与Attention计算的隐藏层范围了。而这个参数 D 我们靠经验选定,好吧其实就是超参数。完成了,现在我们的局部对齐权重 \alpha_t \in \mathbb R^{2D+1} ,只作用在原文中 [p_t-D,p_t+D] 范围内的单词对应隐藏层上,在任何原文任务中都是一样的长度了。但是如何找到一个合适的 p_t 呢,这里有两种办法:p_t=t ,也就是认为对于第 t 个输出词,在原文的对应位置t附近计算Attention;p_t=T_x\sigma(v^T_p\tanh(W_ph_t)) ,其中 v_p^T,W_p 是可学习参数,由于使用了sigmoid激活函数,现在 p_t\in(0,Tx) 。这就得到 p_t 了,但是如果我们现在直接固定范围从 [\lfloor p_t\rfloor-D,\lfloor p_t\rfloor+D] 之间选择参与Attention运算的隐藏层,那么我们无法求得p_t的偏导数,也就无法优化它了。因此我们采用一个更“软”一些的方法:我们取下 [\lfloor p_t\rfloor-D,\lfloor p_t\rfloor+D] 范围的 h_t ,按照如下方法计算它们的局部对齐权重:\alpha_t(s)=SoftMax(\text{Score}(H_t,h))\exp\left(-\frac{(s-p_t)^2}{2\sigma^2}\right) 其中 SoftMax(\text{Score}(H_t,h)) 就是之前的 \alpha ,显然我们是给这个窗口内的隐藏层值乘上了一个符合正太分布的因子,根据经验设置 \sigma=D/2 , s 是指 h_t 在整段文本里排到第几位。下图展示的是使用第二种方式确定 p_t 的Local Attention方法。Self Attention自监督(Self-Attention)英文也有叫Intra- Attention的,简单来说相比于在输出Hk和输入h之间寻找对齐关系的其他Attention方法,Self-Attention可以在一段文本内部寻找不同部分之间的关系来构建这段文本的表征。因此它多用于非seq2seq任务,因为通常Encoder-Decoder网络只能构建在seq2seq任务中,对于非seq2seq问题原先的Attention就没有办法排上用场了。自监督方法非常适合于解决阅读理解,文本摘要和建立文本蕴含关系的任务。上图显示的就是当算法处理到红色字的表征时,它应该给文中其他文字的表征多大的注意力权重。接下来我们就会学习怎么实现一个Self-Attention过程,不过在此之前,我们需要先切换一下视角。切换视角——从Hhc到QKV在我们介绍的几个权重计算函数中,在现在使用比较多的主要是点积模型和缩放点积模型。我们可以理解加性模型和乘法模型 h_iWH_j 做的事——比较输入信息和当前隐藏层,得到要对哪些输入分配更多注意力的权重;但是在点积模型 h_i^TH_j 中我们直接将两者做了点积,这有什么意义呢?这就需要我们使用寻址的视角来审视Attention的工作原理:既然我们在Decoder网络输出的任何时候都能够自由的访问输入的序列信息,那么这时我们Decoder隐藏层 H_k 就没有必要再储存关于输入序列的信息细节了。而我们在点积模型中又通过 h_i^TH_k 设置对不同 h_i 的权重,很显然,我们现在的 H_k 就承担着在不同的 h_i 之间如何分配注意力的角色——因此我们给原先的 H_k 一个新的名字 Q ,代表查询(Query);而我们的 h_t 就记为 K ,代表查询的目标键(Key)。如果把这个过程比喻成使用Query在数据库中按照Key进行筛选,那应该还差一个Key对应的值Value,这里我们还没有定义Value是什么。在之前的情况中(也就是NLP的一般应用中),查询的Key和Value是同一个东西,我们按照Key的值分配权重,而最后也是把Key而不是Value加权平均就得到最终上下文向量 C_k ,那么如果我们的Key和Value不是同一个值,记Encoder网络中第t步得到的键为 k_t ,值为 v_t ,我们的权重计算函数就可以写作:\begin{align} \textbf{Attention}((K,V),q)&=\sum_{i=1}^N \alpha_iv_i\\ &=\sum_{i=1}^N\frac{\exp(\text{score}(k_i,q))}{\sum_{j=1}^N\exp(\text{score}(k_j,q))}v_i \end{align} 注意在这里我们按照Key分配权重但是最终把Value进行加权平均。但是一个问题是,什么时候我们的Key和Value会不同呢?Self-Attention中的Key和Value就是不同的。Self-Attention 实现下面这张制作精美的图很简单地演示了如何计算Self-Attention,图中计算的是处理第一个单词时应该对全文三个单词分别分配多大的注意力:我们对于一段文本中的单词 W_i ,经过词嵌入处理后变成了 X_i\in\mathbb{R}^n ,我们用三个矩阵 W_Q,W_k,W_v 分别乘以X得到三个表征Query: Q_i=W_QX_i ,Key: K_i=W_kX_i ,Value: V_i=W_VX_i 。接下来我们分别对三个词计算全局对齐权重,这里我只演示计算 X_1 眼中其他词的权重:首先我们取出 X_1 的查询 Q_1 ,对所有的其他 K 计算,其中 \sqrt {d_k} 代表Key的长度, e_{ij},\alpha_{ij} 都是标量:\begin{align} e_{1i}&=\frac{Q_1K^T_i}{\sqrt{d_k}}\\ a_{1i}&=\frac{\exp(e_{1i})}{\sum_{j=1}^{d_k}\exp(e_{1j})}\iff a_i=SoftMax(e_1) \end{align} 上述公式中的 Q_1K_i^T 正如同我们的 h_j^TH_i 一样,计算了给出查询Query的情况下,应该如何给不同的输入隐藏层打分。最后我们把V按照这个权重求和,就得到我们的Attention值了。\text{Attention}(K,Q_1,V)=\sum_{i=1}^{d_k}a_{1i}V_i 如你所见,这个公式是可以向量化的,也就是Self-Attention是可以利用并行计算的优势的!\text{Attention}(K,Q,V)=SoftMax(\frac{QK^T}{\sqrt{d_k}})V 可能讲到这你对具体的计算还是有点懵。懵就对了,我们将在下节教程中在Transformer模型中详细演示如何计算自注意力,那时我们才能最好的理解Self-Attention。Attention 带来的算法改进Attention机制为机器翻译任务带来了曙光,具体来说,它能够给机器翻译任务带来以下的好处:Attention显著地提高了翻译算法的表现。它可以很好地使Decoder网络注意原文中的某些重要区域来得到更好的翻译。Attention解决了信息瓶颈问题。原先的Encoder-Decoder网络的中间状态只能存储有限的文本信息,现在它已经从繁重的记忆任务中解放出来了,它只需要完成如何分配注意力的任务即可。Attention减轻了梯度消失问题。Attention在网络后方到前方建立了连接的捷径,使得梯度可以更好的传递。Attention提供了一些可解释性。通过观察网络运行过程中产生的注意力的分布,我们可以知道网络在输出某句话时都把注意力集中在哪里;而且通过训练网络,我们还得到了一个免费的翻译词典(soft alignment)!还是如下图所示,尽管我们未曾明确地告诉网络两种语言之间的词汇对应关系,但是显然网络依然学习到了一个大体上是正确的词汇对应表。Attention 代表了一种更为广泛的运算。我们之前学习的是Attention机制在机器翻译问题上的应用,但是实际上Attention还可以使用于更多任务中。我们可以这样描述Attention机制的广义定义:给定一组向量Value和一个查询Query,Attention是一种分配技术,它可以根据Query的需求和内容计算出Value的加权和。Attention,在这种意义下可以被认为是大量信息的选择性总结归纳,或者说是在给定一些表示(query)的情况下,用一个固定大小的表示( C_k )来表示任意许多其他表示集合的方法(Key)。Attention is All You Need之前的Self-Attention我们只介绍了其实现而没有给出具体的应用场景,这是因为留给这篇笔记的空间已经不多了。它的应用——Transformer,另需要一整篇笔记来介绍,Transformer是深度学习历史上的一个里程碑,值得我们细细说道。想看就能看懂的Transformer详解和形象化解释参考资料:[1] Understanding Attention In Deep Learning https://towardsdatascience.com/attaining-attention-in-deep-learning-a712f93bdb1e[2] 目前主流的Attention 方法有哪些 https://www.zhihu.com/question/68482809[3] Attention? Attention! https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html#self-attention[4] Natural Language Processing with Deep Learning CS224N/Ling284 https://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture08-nmt.pdf[5] Global Attention / Local Attention https://zhuanlan.zhihu.com/p/80692530[6] Ashish Vaswani et. al Attention Is All You Need https://arxiv.org/abs/1706.03762[7] Jianpeng Cheng et. al Long Short-Term Memory-Networks for Machine Reading https://arxiv.org/pdf/1601.06733.pdf[8] Illustrated: Self-Attention https://towardsdatascience.com/illustrated-self-attention-2d627e33b20a#570c发布于 2021-06-15 19:29Attention-based Model深度学习(Deep Learning)Transformer​赞同 395​​25 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录雅正冲蛋的ML之路收集我在深度地学习深度学习时遇到的各种坑和各种想法推荐系统笔记推荐算

ATTENTION中文(简体)翻译:剑桥词典

ATTENTION中文(简体)翻译:剑桥词典

词典

翻译

语法

同义词词典

+Plus

剑桥词典+Plus

Shop

剑桥词典+Plus

我的主页

+Plus 帮助

退出

剑桥词典+Plus

我的主页

+Plus 帮助

退出

登录

/

注册

中文 (简体)

查找

查找

英语-中文(简体)

attention 在英语-中文(简体)词典中的翻译

attentionnoun [ U ] uk

Your browser doesn't support HTML5 audio

/əˈten.ʃən/ us

Your browser doesn't support HTML5 audio

/əˈten.ʃən/

attention noun [U]

(NOTICE)

Add to word list

Add to word list

B1 notice, thought, or interest

注意,留心;考虑;关心

Ladies and gentlemen, could I have your attention, please?

女士们、先生们,请大家注意一下好吗?

They're organizing a campaign to draw people's attention to the environmentally harmful effects of using their cars.

他们正在组织一场运动,目的是使人们意识到开车对环境造成的危害。

Wait a moment and I'll give you my full/undivided attention (= I'll listen to and think about only you).

等一下,过一会儿我就可以全神贯注听你说了。

After an hour, my attention started to wander (= I stopped taking notice).

一小时后,我开始走神儿了。

 get/attract/catch someone's attention

B2 to make someone notice you

吸引…的注意

I knocked on the window to get her attention.

我敲了敲窗,以使她注意到我。

 pay attention (to something/someone)

B1 to watch, listen to, or think about something or someone carefully or with interest

集中注意力(于…)

If you don't pay attention now, you'll get it all wrong later.

如果你现在不注意,后面就会错得一塌糊涂。

Don't pay any attention to Nina - she doesn't know what she's talking about.

别理睬尼娜——她都不知道自己在说什么。

He wasn't paying attention to the safety instructions.

他没有注意安全指示。

 the centre of attention

the thing or person that a lot of people notice

焦点

He likes telling jokes and being the centre of attention at parties.

他喜欢讲笑话,成为派对上的焦点。

 turn your attention(s) to something/someone

to start to think about or consider a particular thing or person

开始关注…

Many countries are starting to turn their attention to new forms of energy.

许多国家现在已开始把注意力转到新型能源上来。

更多范例减少例句The war has diverted attention away from the country's economic problems.Please excuse me from the rest of the meeting - I've just received a phone call that requires my immediate attention.He neglects that poor dog - he never takes him for walks or gives him any attention.I prodded her in the back to get her attention.Pay attention to what she's saying because she won't explain it a second time.

attention noun [U]

(CARE)

special care or treatment

特别护理;特别处理

The paintwork will need a little attention.

油漆活需要特别下些功夫。

If symptoms persist, seek medical attention.

如果症状不减轻,请马上就医。

attention noun [U]

(WAY OF STANDING)

(especially in the armed forces) a way of standing, with the feet together, arms by your sides, head up, and shoulders back, and not moving

(尤指军队中的)立正(姿势)

soldiers standing at/to attention

立正站立的士兵

(attention在剑桥英语-中文(简体)词典的翻译 © Cambridge University Press)

attention的例句

attention

Some students might benefit from explicit attention to the analogical relationships of the literal to the metaphorical elements.

来自 Cambridge English Corpus

More recently however, increasing attention has been paid to the psychological aspects of space.

来自 Cambridge English Corpus

Thus, it might partially accommodate the strong intuitions that some have, that certain objects ' demand ' our love and attention.

来自 Cambridge English Corpus

The 28 color photographs add to the explanations in the text, and the numerous diagrams and geologic maps, all in colour, deserve much attention.

来自 Cambridge English Corpus

To this end it is disappointing that the book has paid only scant attention to the psychological processes in the disorder.

来自 Cambridge English Corpus

The concept of value orientations has received much attention in sociological and psychological literature over the past forty years.

来自 Cambridge English Corpus

This paper examines reactive focus on for m as a way of focusing students' attention on their own output.

来自 Cambridge English Corpus

The persistence of attention-deficit/hyperactivity disorder into young adulthood as a function of reporting source and definition of disorder.

来自 Cambridge English Corpus

示例中的观点不代表剑桥词典编辑、剑桥大学出版社和其许可证颁发者的观点。

B1,B2,B1

attention的翻译

中文(繁体)

注意, 注意,留心, 考慮…

查看更多内容

西班牙语

atención, atención [feminine]…

查看更多内容

葡萄牙语

atenção, atendimento, assistência…

查看更多内容

更多语言

in Marathi

日语

土耳其语

法语

加泰罗尼亚语

in Dutch

in Tamil

in Hindi

in Gujarati

丹麦语

in Swedish

马来语

德语

挪威语

in Urdu

in Ukrainian

俄语

in Telugu

阿拉伯语

in Bengali

捷克语

印尼语

泰语

越南语

波兰语

韩语

意大利语

सूचना, विचार किंवा स्वारस्य…

查看更多内容

注意, 注目, 注目(ちゅうもく)…

查看更多内容

dikkat, özen, itina…

查看更多内容

attention [feminine], assistance [feminine], attention…

查看更多内容

atenció…

查看更多内容

aandacht, verzorging, houding…

查看更多内容

அறிவிப்பு, சிந்தனை அல்லது ஆர்வம்…

查看更多内容

ध्यान…

查看更多内容

ધ્યાન…

查看更多内容

opmærksomhed, behandling, pleje…

查看更多内容

uppmärksamhet, vård, givakt…

查看更多内容

perhatian, rawatan, berdiri tegak…

查看更多内容

die Aufmerksamkeit, die Behandlung, stillstehen…

查看更多内容

oppmerksomhet [masculine], omsorg [masculine], tilsyn [neuter]…

查看更多内容

توجہ, دھیان…

查看更多内容

увага, піклування, струнко…

查看更多内容

внимание, уход…

查看更多内容

శ్రద్ద/ధ్యాస…

查看更多内容

انْتِباه…

查看更多内容

মনোযোগ…

查看更多内容

pozornost, pozor, ošetření…

查看更多内容

perhatian, perawatan, sikap sempurna…

查看更多内容

ความสนใจ, การดูแล, การยืนตรงของนายทหาร…

查看更多内容

sự chú ý, sự chăm sóc, sự tập trung…

查看更多内容

uwaga, opieka, troska…

查看更多内容

관심, 주의…

查看更多内容

attenzione, cure, attenti…

查看更多内容

需要一个翻译器吗?

获得快速、免费的翻译!

翻译器工具

attention的发音是什么?

在英语词典中查看 attention 的释义

浏览

attend to someone/something

attendance

attendant

attendee

attention

attention deficit hyperactivity disorder

attention span

attentive

attentively

attention更多的中文(简体)翻译

全部

attention span

attention deficit hyperactivity disorder

attention grabber, at grabber

attention-deficit/hyperactivity disorder, at attention deficit hyperactivity disorder

pay attention (to something)

undivided attention

centre of attention

查看全部意思»

惯用语

come to someone's attention/notice idiom

repay someone's effort, time, attention, etc. idiom

查看全部惯用语意思»

“每日一词”

veggie burger

UK

Your browser doesn't support HTML5 audio

/ˈvedʒ.i ˌbɜː.ɡər/

US

Your browser doesn't support HTML5 audio

/ˈvedʒ.i ˌbɝː.ɡɚ/

a type of food similar to a hamburger but made without meat, by pressing together small pieces of vegetables, seeds, etc. into a flat, round shape

关于这个

博客

Forget doing it or forget to do it? Avoiding common mistakes with verb patterns (2)

March 06, 2024

查看更多

新词

stochastic parrot

March 04, 2024

查看更多

已添加至 list

回到页面顶端

内容

英语-中文(简体)例句翻译

©剑桥大学出版社与评估2024

学习

学习

学习

新词

帮助

纸质书出版

Word of the Year 2021

Word of the Year 2022

Word of the Year 2023

开发

开发

开发

词典API

双击查看

搜索Widgets

执照数据

关于

关于

关于

无障碍阅读

剑桥英语教学

剑桥大学出版社与评估

授权管理

Cookies与隐私保护

语料库

使用条款

京ICP备14002226号-2

©剑桥大学出版社与评估2024

剑桥词典+Plus

我的主页

+Plus 帮助

退出

词典

定义

清晰解释自然的书面和口头英语

英语

学习词典

基础英式英语

基础美式英语

翻译

点击箭头改变翻译方向。

双语词典

英语-中文(简体)

Chinese (Simplified)–English

英语-中文(繁体)

Chinese (Traditional)–English

英语-荷兰语

荷兰语-英语

英语-法语

法语-英语

英语-德语

德语-英语

英语-印尼语

印尼语-英语

英语-意大利语

意大利语-英语

英语-日语

日语-英语

英语-挪威语

挪威语-英语

英语-波兰语

波兰语-英语

英语-葡萄牙语

葡萄牙语-英语

英语-西班牙语

西班牙语-英语

English–Swedish

Swedish–English

半双语词典

英语-阿拉伯语

英语-孟加拉语

英语-加泰罗尼亚语

英语-捷克语

英语-丹麦语

English–Gujarati

英语-印地语

英语-韩语

英语-马来语

英语-马拉地语

英语-俄语

English–Tamil

English–Telugu

英语-泰语

英语-土耳其语

英语-乌克兰语

English–Urdu

英语-越南语

翻译

语法

同义词词典

Pronunciation

剑桥词典+Plus

Shop

剑桥词典+Plus

我的主页

+Plus 帮助

退出

登录 /

注册

中文 (简体)  

Change

English (UK)

English (US)

Español

Русский

Português

Deutsch

Français

Italiano

中文 (简体)

正體中文 (繁體)

Polski

한국어

Türkçe

日本語

Tiếng Việt

हिंदी

தமிழ்

తెలుగు

关注我们

选择一本词典

最近的词和建议

定义

清晰解释自然的书面和口头英语

英语

学习词典

基础英式英语

基础美式英语

语法与同义词词典

对自然书面和口头英语用法的解释

英语语法

同义词词典

Pronunciation

British and American pronunciations with audio

English Pronunciation

翻译

点击箭头改变翻译方向。

双语词典

英语-中文(简体)

Chinese (Simplified)–English

英语-中文(繁体)

Chinese (Traditional)–English

英语-荷兰语

荷兰语-英语

英语-法语

法语-英语

英语-德语

德语-英语

英语-印尼语

印尼语-英语

英语-意大利语

意大利语-英语

英语-日语

日语-英语

英语-挪威语

挪威语-英语

英语-波兰语

波兰语-英语

英语-葡萄牙语

葡萄牙语-英语

英语-西班牙语

西班牙语-英语

English–Swedish

Swedish–English

半双语词典

英语-阿拉伯语

英语-孟加拉语

英语-加泰罗尼亚语

英语-捷克语

英语-丹麦语

English–Gujarati

英语-印地语

英语-韩语

英语-马来语

英语-马拉地语

英语-俄语

English–Tamil

English–Telugu

英语-泰语

英语-土耳其语

英语-乌克兰语

English–Urdu

英语-越南语

词典+Plus

词汇表

选择语言

中文 (简体)  

English (UK)

English (US)

Español

Русский

Português

Deutsch

Français

Italiano

正體中文 (繁體)

Polski

한국어

Türkçe

日本語

Tiếng Việt

हिंदी

தமிழ்

తెలుగు

内容

英语-中文(简体) 

 

Noun 

attention (NOTICE)

get/attract/catch someone's attention

pay attention (to something/someone)

the centre of attention

turn your attention(s) to something/someone

attention (CARE)

attention (WAY OF STANDING)

例句

Translations

语法

所有翻译

我的词汇表

把attention添加到下面的一个词汇表中,或者创建一个新词汇表。

更多词汇表

前往词汇表

对该例句有想法吗?

例句中的单词与输入词条不匹配。

该例句含有令人反感的内容。

取消

提交

例句中的单词与输入词条不匹配。

该例句含有令人反感的内容。

取消

提交

史上最直白之Attention详解(原理+代码)_attention代码-CSDN博客

>

史上最直白之Attention详解(原理+代码)_attention代码-CSDN博客

史上最直白之Attention详解(原理+代码)

izeh

已于 2022-09-23 10:45:16 修改

阅读量4.7k

收藏

59

点赞数

9

文章标签:

深度学习

自然语言处理

机器学习

于 2022-09-17 21:19:44 首次发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/weixin_44048622/article/details/126906918

版权

目录

为什么要了解Attention机制Attention 的直观理解图解深度学习中的Attention机制总结

为什么要了解Attention机制

  在自然语言处理领域,近几年最火的是什么?是BERT!谷歌团队2018提出的用于生成词向量的BERT算法在NLP的11项任务中取得了非常出色的效果,堪称2018年深度学习领域最振奋人心的消息。而Transformer的Encoder部分是 BERT 模型的核心组成部分,Transformer中最为巧妙的结构又是attention机制,这次咱们从Attention机制的原理写这篇博客既是对我自己学习的一个总结,也希望或许能对你有所帮助!!!

Attention 的直观理解

  Attention 机制直观理解很像人类看图片的逻辑,当我们看一张图片的时候,我们并没有看清图片的全部内容,而是将注意力集中在了图片的焦点上。大家看一下下面这张图:   我们一定会看清「锦江饭店」4个字,如下图:   但是我相信没人会第一时间去关注「路上的行人」也不会意识到路的尽头还有一个「優の良品」,所以,当我们看一张图片的时候,其实是这样的:   而我们上面所说的,通过引入我们的视觉系统这种关注图片中的突出信息的例子,就是我们深度学习中Attention机制的最直观的理解,在深度学习中Attention机制就是通过矩阵运算的方式将模型的注意力集中在输入信息重点特征上,从而节省资源,快速获得最有效的信息。

图解深度学习中的Attention机制

  来拿seq2seq的模型来举例子,一般的基于seq2seq的翻译模型模型如下图:   机器翻译场景中,输入的中文句子为:我是一个学生,Encoder-Decoder框架通过encoding得出了一个包含中文句子全部信息的H6向量,并通过H6逐步生成中文单词:”I“、”am“、”a“、”student“。在翻译”student“这个单词的时候,分心模型里面每个英文单词对于翻译目标单词”student“的贡献程度是相同的,这很显然是不合道理的。显然”学生“对于翻译成”student“更为重要。   那么它会存在什么问题呢?类似RNN无法捕捉长序列的道理,没有引入Attention机制在输入句子较短时影响不大,但是如果输入句子比较长,此时所有语义通过一个中间语义向量表示,单词自身的信息避免不了会消失,也就是会丢失很多细节信息,这也是为何引入Attention机制的原因。例如上面的例子,如果引入Attention的话,在翻译”student“的时候,会体现出英文单词对于翻译当前中文单词的不同程度影响,比如给出类似下面的概率分布:           (我,0.2)           (是,0.1)           (一个,0.2)           (学生,0.5)   那么attention机制是通过什么方式来对于输入信息实现这种功能的能,答案是引入所谓的q、k、v三个矩阵并进行运算实现的,Attention有很多不同种类,本文具体以self-attention的来讲解Attention机制的实现过程(self-Attention中的Q是对自身(self)输入的变换,而在传统的Attention中,Q来自于外部):1、在self-attention中,会有三种矩阵向量,即Q(Query)查询向量、K(key)键值向量、V(value)值向量。它们是通过X乘以三个不同的权值矩阵

W

Q

W_Q

WQ​、

W

k

W_k

Wk​、

W

v

W_v

Wv​具体操作步骤如下:   注意,这里的每个单词都会通过这三个向量产生这三种矩阵,而这三种向量是怎么把每个单词联系起来的呢? 答案是在进行Attention运算时,首先会把当前单词产生的q(查询矩阵)和所有的k(键值矩阵进行相乘)得到一个中间结果,最后把自己的v(值矩阵)向量乘上这个中间结果矩阵,得到一个含有句子所有词语上下文信息的新向量。   q,k,v这三个向量在通过反向传播不断的学习,而逐步习得句子中那些信息是模型需要关注的重要特征。

  self-Attention的实现代码:

# Muti-head Attention 机制的实现

from math import sqrt

import torch

import torch.nn

class Self_Attention(nn.Module):

# input : batch_size * seq_len * input_dim

# q : batch_size * input_dim * dim_k

# k : batch_size * input_dim * dim_k

# v : batch_size * input_dim * dim_v

def __init__(self,input_dim,dim_k,dim_v):

super(Self_Attention,self).__init__()

self.q = nn.Linear(input_dim,dim_k)

self.k = nn.Linear(input_dim,dim_k)

self.v = nn.Linear(input_dim,dim_v)

self._norm_fact = 1 / sqrt(dim_k)

def forward(self,x):

Q = self.q(x) # Q: batch_size * seq_len * dim_k

K = self.k(x) # K: batch_size * seq_len * dim_k

V = self.v(x) # V: batch_size * seq_len * dim_v

atten = nn.Softmax(dim=-1)(torch.bmm(Q,K.permute(0,2,1))) * self._norm_fact # Q * K.T() # batch_size * seq_len * seq_len

output = torch.bmm(atten,V) # Q * K.T() * V # batch_size * seq_len * dim_v

return output

  Self-Attention可以通过qkv矩阵的计算过程中直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来,所以远距离依赖特征之间的距离被极大缩短,有利于有效地利用这些特征。除此外,Self-Attention对于增加计算的并行性也有直接帮助作用。正好弥补了RNN机制的两个缺点,这就是为何Self-Attention现在被广泛使用的主要原因。

总结

  Attention机制笔者认为是Transformer模型中最出彩的设计,效果很好的同时可解释性也很强,在笔者后续的文章中会向大家再介绍大名鼎鼎的Transformer和BERT。希望看到这里,能帮助小伙伴你搞懂Attention机制,这样才能更好的理解后续的Transformer和BERT模型。

关注博主即可阅读全文

优惠劵

izeh

关注

关注

9

点赞

59

收藏

觉得还不错?

一键收藏

知道了

2

评论

史上最直白之Attention详解(原理+代码)

Attention机制笔者认为是Transformer模型中最出彩的设计,本文希望可以更好的帮助大家理解Attention机制究竟是如何在模型中起作用的

复制链接

扫一扫

一文看懂 Attention(本质原理+3大优点+5大类型)

guozhihao12345的博客

10-24

2829

Attention 正在被越来越广泛的得到应用。尤其是 BERT 火爆了之后。

Attention 到底有什么特别之处?他的原理和本质是什么?Attention都有哪些类型?本文将详细讲解Attention的方方面面。

Attention 的本质是什么

Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「从关注全部到关注重点」。

Attention的本质

Attention 机制很像人类看图片的逻辑,当我们...

Attention(注意力机制代码)

07-16

Attention.zip文件中总结了几种关于注意力机制的代码,有keras和tensorflow,还有PyTorch框架的

2 条评论

您还未登录,请先

登录

后发表或查看评论

Attention机制介绍(原理+代码)

热门推荐

sun_xiao_kai的博客

07-14

2万+

直接进入正题吧,在介绍Attention机制之前需要知道什么是seq2seq模型,也就是Encoder-Decoder模型,下面对seq2seq进行简单的介绍。

1、seq2seq模型

作为RNN模型的一种变体:N vs M,此结构又称为Encoder-Decoder模型,也就是我们常说的seq2seq模型。seq2seq模型的出现解决了许多应用的问题,比如解决了传统的序列等长的问题,在机器翻译等...

时间卷积融合注意力机制(TCN-Attention)预测程序代码【 Matlab代码】

前程算法屋的博客

12-10

69

时间卷积融合注意力机制(TCN-Attention)预测程序代码【 Matlab代码】

关于attention的学习(原理+代码)

qq_43522986的博客

06-29

4838

关于attention的原理关键问题+torch.nn.MultiheadAttention代码逐行阅读

三种Attention公式

jessican_uestc的博客

01-07

3126

Attention机制(一)基本原理及应用

black_soil的专栏

06-05

3537

提纲:

1. 动机

2. 发展过程

3. 应用点

4. 代码实现

1. 动机

1.1 人类的视觉注意力

视觉注意力机制是人类视觉所特有的大脑信号处理机制,人类通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多的注意力资源,以获得更多所需要关注目标的细节信息,而抑制其他无用信息。

这是人类利用有限的注意力资源从大量信息中快速筛选...

关于Attention的超详细讲解

WGS.

05-08

1万+

文章目录一、动物的视觉注意力二、快速理解Attention思想三、从Encoder-Decoder框架中理解为什么要有Attention机制四、Attention思想步骤五、Self-Attention5.1 Self-Attention的计算步骤5.2 根据代码进一步理解Q、K、V5.3 再来一个例子理解六、缩放点积中为什么要除以根号dk6.1 为什么比较大的输入会使得softmax的梯度变得很小?6.2 维度与点积大小的关系是怎么样的,为什么使用维度的根号来放缩?七、Multi-Head Attenti

深度学习算法--Attention(注意力机制)

Western_europe

11-11

7704

最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介绍了注意力模型在图像及语音等领域的典型应用场景。

注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理

【NLP相关】attention的代码实现

Chaos的博客

03-06

1155

Attention模型是现今机器学习领域中非常热门的模型之一,它可以用于自然语言处理、计算机视觉、语音识别等领域。本文将介绍Attention模型的代码实现。

Attention及其pytorch代码实现

m0_50896529的博客

11-09

1万+

基于RNN的Seq2Seq的基本假设:原始序列的最后一个隐含状态(一个向量)包含了该序列的全部信息。(这显然是不合理的)

Seg2Seg问题:记忆长序列能力不足

解决:当要生成一个目标语言单词的时候,不光考虑前一个时刻的状态和已经生成的单词,还要考虑当前要生成的单词和源句子中的哪些单词更加相关,即更关注源句子中的哪些词,这种做法就叫做注意力机制(Attention)

Attention

Luong等人在2015年发布的Effective Approaches to Attention-bas.

Transformer学习总结附TF2.0代码实现

qq_43079023的博客

12-01

5237

Transformer学习总结 TF2.0代码实现Transformer1.Transformer理论详解1.1 transformer总体架构1.2 输入部分如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML ...

GRU-Attention多模型比较.zip

05-13

2 对数据进行清洗,并告知清洗方法

3 将最有优的预测方案与其他方法进行比较,显示出其构建模型的优越性,例如最终,注意力机制的gru神经网络与lstm、svr、神经网络进行比较,得出注意力机制的GRU神经网络效果最好

4参与比较的模型其预测结果要以图的形式展现

wenzuoyinshiyan3

gpu-attention-mse: 6124.498347838368

gpu-attention-rmse: 78.25917420876844

gpu-attention-r2: 0.2341441452949955

lstm-mse: 131972.16113071027

lstm-rmse: 363.27972848854404

lstm-r2: -15.502845869115102

BP_mse: 4545.954265780895

BP_rmse: 67.42369216959936

BP_r2: 0.4409765028724697

SVR_mse: 6420.551494229659

有问题请关注私聊,包此代码的答疑服务,基本秒回,不满意加球球包退款,可接受定制服务

史上最直白的ICA教程

12-11

史上最直白的ICA教程,免积分,求人品。

史上最直白的lda教程

12-16

史上最直白的lda教程的pdf文档,0积分下载。求rp。

史上最直白的logistic regression教程整理稿

11-22

史上最直白的logistic regression教程整理稿。讲4篇博文整理成一个完整的pdf文档。且修改成学术语境。

史上最直白的pca教程

11-27

史上最直白的pca教程,整理文档,一个完整的pdf文件。

363套史上最全中文NLP资源

03-29

都2022年了,你还找不到中文NLP资源吗? 我以前不止一次给各位介绍过中文NLP资源,无论是什么来源的,最终的意义都是要让NLP...我花了近10小时,为各位制作了363套史上最全中文NLP资源合集,废话不多说,直接干就行!

浅谈人工智能之深度学习

最新发布

IT深耕十余载,大道之简

03-01

998

在有监督学习中,训练数据有特征和标记,通过学习找到特征和标记之间的映射关系,并不断调整网络参数以减小预测误差。在无监督学习中,训练数据只有特征,没有标记,网络需要自行学习数据的内在规律和结构。在半监督学习中,训练数据部分有标记,部分无标记,网络需要同时利用有标记和无标记的数据进行学习。深度学习的基本特点是从大量的未标记或半标记的数据中,通过分层的特征变换,学习数据的表示和特征,从而实现对复杂函数的逼近和分类等任务。在学习过程中,需要定期总结所学内容,反思自己的不足和需要改进的地方,及时调整学习计划和策略。

modbus协议最简单又是最直白的解释

05-09

Modbus协议是一种通讯协议,通常用于工业自动化领域中的数据传输。它是一种基于串行通讯的协议,最初由Modicon公司在1979年开发,在许多现代工业控制领域中仍然广泛使用。

Modbus协议可以实现设备之间的数据传输,包括数值、位、字符串等类型的数据。基本上,Modbus协议是一个客户端-服务器的通讯模型,其中客户端通过命令代码请求服务端中的数据,而服务器则将这些数据回应给客户端。因此,Modbus协议的通讯过程主要涉及两个方面,即“请求”和“响应”。

Modbus协议包含多种通讯方式,如串行RTU、串行ASCII和TCP/IP三种。其中,串行RTU是最常用的通讯方式,该协议使用二进制数据进行传输,具有高效、简单等特点,加上这一协议的低成本,所以得到应用较广泛。

总之,Modbus协议是一种简单、直白的通讯协议,其应用已经广泛,成为工业自动化领域中的重要协议之一。

“相关推荐”对你有帮助么?

非常没帮助

没帮助

一般

有帮助

非常有帮助

提交

izeh

CSDN认证博客专家

CSDN认证企业博客

码龄5年

暂无认证

5

原创

50万+

周排名

186万+

总排名

1万+

访问

等级

81

积分

3002

粉丝

20

获赞

6

评论

131

收藏

私信

关注

热门文章

史上最直白之Attention详解(原理+代码)

4781

史上最简单的LSTM文本分类实现:搜狗新闻文本分类(附代码)

3283

史上最直白的讲解深度学习中点乘与叉乘(附举例)

2698

史上最直白之BERT介绍(原理+代码)

1328

史上最直白的RNN详解(结合torch的example)

1240

最新评论

史上最简单的LSTM文本分类实现:搜狗新闻文本分类(附代码)

income7:

数据集的源文件能发一下吗

史上最简单的LSTM文本分类实现:搜狗新闻文本分类(附代码)

income7:

这个也没分类啊,只有分成0 1 2 3....这是什么意思

史上最直白之Attention详解(原理+代码)

牛阿毛:

代码中应该是import torch.nn as nn

史上最直白之Attention详解(原理+代码)

wujiafa1988:

可是。。。我先看的行人

您愿意向朋友推荐“博客详情页”吗?

强烈不推荐

不推荐

一般般

推荐

强烈推荐

提交

最新文章

史上最直白之BERT介绍(原理+代码)

史上最直白的讲解深度学习中点乘与叉乘(附举例)

史上最直白的RNN详解(结合torch的example)

2022年5篇

目录

目录

最新文章

史上最直白之BERT介绍(原理+代码)

史上最直白的讲解深度学习中点乘与叉乘(附举例)

史上最直白的RNN详解(结合torch的example)

2022年5篇

目录

评论 2

被折叠的  条评论

为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

祝福语

请填写红包祝福语或标题

红包数量

红包个数最小为10个

红包总金额

红包金额最低5元

余额支付

当前余额3.43元

前往充值 >

需支付:10.00元

取消

确定

下一步

知道了

成就一亿技术人!

领取后你会自动成为博主和红包主的粉丝

规则

hope_wisdom 发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额

0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

如何理解从浅入深理解attention? - 知乎

如何理解从浅入深理解attention? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册人工智能机器学习深度学习(Deep Learning)注意力机制如何理解从浅入深理解attention?有推荐的论文吗显示全部 ​关注者40被浏览38,477关注问题​写回答​邀请回答​好问题​1 条评论​分享​18 个回答默认排序亦一​ 关注完整文章用户行为序列建模self attention和具体实现attention在推荐领域被应用之前,在CV和NLP领域已经广泛使用。Attention的核心思想是:区分对待,关注重点。相比于所有构成因素具有同等重要性,attention提高了其中某些部分的重要性,加大其对结果的影响程度。和人做事很像,分轻重缓急,花更多的精力在重要的事情上,正如论文名"attention is all you need"表述的这样,直白但非常有道理。1 attention的必要性在推荐模型中对用户行为序列使用attention,可以有效解决行为序列中不同item的重要性差异问题。用户的行为序列很大程度表示了用户的兴趣,而行为序列中不同item对用户在具体某个时刻的兴趣贡献程度,存在明显差异。比如,在短视频内容消费场景,用户有丰富的行为,其行为序列中的类别包括新闻、搞笑、音乐、理财、体育、科技等等,若当前时刻呈现给用户的内容类别是音乐,则此时用户的兴趣,将和行为序列中的音乐类别更相关,若当前内容为体育,则此时的兴趣将和行为序列中的体育类别更相关。因此,需要对用户行为序列中不同元素的重要性加以区分,提高对用户兴趣的表征能力。上一篇分享《用户行为序列建模概览》中介绍的基于pooling和基于RNN的序列建模方法,对用户行为序列中的所有元素同等对待,无法体现不同元素对当前用户兴趣影响程度的差异,而attention的方法,通过计算不同item的权重,加权求和后得到用户兴趣,使最终用户的兴趣表征对历史行为中不同item的依赖程度有强弱差异。2 attention计算CV领域的attention,通常是在空间和通道两种维度上进行,对不同维度上的信息进行差异化提取,如SENet[13]和CBAM[14]。不同于CV领域,NLP领域的attention基本采用论文《attention is all you need》[4]提出的方法,在计算时包括query、key和value三部分(通常简写为Q、K、V)。推荐场景特征抽象建模后,和NLP领域中query、key、value这种形式非常贴合,当前item可以视为query,用户历史行为序列可以视为key和value,因此在用户行为序列建模时,采用了NLP领域的attention计算方式。在行为序列建模采用attention的思路之前,推荐领域已经将attention思路应用到特征交叉中[15]。论文[15]提出的AFM方法,通过attention对交叉特征的重要度进行自适应学习。该方法在特征交叉系列进行了详细介绍,详见《模型结构之特征交叉(2)-FM系列(2.2)-AFM,DeepFM等》2.1 计算步骤推荐中attention的计算步骤通常分为三步,如式子(1.1)-(1.3)所示:(1) query和key计算相似度,计算相似度的方式包括点击、cos相似、MLP等;(2) 对相似度进行归一化,得到权重,归一化通常采用softmax函数;(3) 对value按照对应权重进行加权求和,得到经过attention后的表征。 \begin{align} & sim_i(Q, K_i) = Q·K_i\ \ or \ \ \frac{Q·K_i}{||Q||·||K_i||} \ \ or \ \ MLP(Q, K_i) \tag{1.1} \\ & w_i = softmax(sim_i) = \frac{e^{sim_i}}{ \sum_{j}{e^{sim_j}} } \tag{1.2} \\ & attention(Q, K, V) = sum(w_i*V_i) \tag{1.3} \end{align}2.2 Q, K, V2.2.1 推荐场景中Q,K,V对应什么在推荐场景对行为序列建模时,Q通常为当前样本的item,K和V为用户行为序列,两者值相同,通常对应为数组。如想要得到不同的K和V值,可以在attention计算前,对其进行线性变换,在实际应用过程中,如果没有必要,一般不进行映射得到不同值。从attention的计算步骤可以看出,Q, K对应的embedding的维度需保持一致,因此,当在实际应用过程中,若维度不一致时,需采用一次线性变换,将其映射到相同维度的空间。2.2.2 self attention和target attentionattention包括self attention和target attention两种形式,这两种的计算步骤相同。在NLP领域,attention一般应用于encoder-decoder模型中,输入source和target的内容不同,比如文本翻译,输入source为中文,输出target为英文,当应用attention时,Q来自target,K和V来自source,则此时为target attention,当Q、K、V均来自target或source时,则为self attention.论文《attention is all you need》提出的transformer结构采用的则是self attention的方式,仅在source侧应用attention,因此常常说attention计算方式时把self attention说成transformer,但其实transformer是一种模型结构,其中用到了self attention。在推荐领域,self attention和target attention的区分可以简单理解为,Q, K, V是否来自相同的特征,当Q,K,V均来自相同特征时,则为self attention,反之则为target attention。在精排模型中,基本采用target attention,将当前item作为Q,用户历史行为序列作为K和V。也有一些模型应用时无法采用target attention,比如双塔模型,user侧和item侧是分开的,无法在某一侧的模型结构中同时获得item和用户行为历史,此时则可采用self attention。3 self attention推荐中使用的self attention来自论文《attention is all you need》,这篇论文主要聚焦在NLP领域的问题,因此在这主要介绍论文的attention部分,以及在推荐领域如何应用。3.1 计算原理self attention的计算步骤和2.1介绍的基本一致,如图1和式子(2)所示,其中Q,K相似度的计算法方式采用内积形式, d_k 为Q和K的embedding维度,对相似度进行了缩放。attention(Q, K, V) = softmax(\frac{QK^{T}}{\sqrt{d_k}} V) \tag{2}图1 self attention计算过程self attention计算的时间复杂度为 O(n^2d) ,其中n为序列长度,d为embedding维度。第一步为相似度计算,query需和每个key计算一次相似度,因此时间复杂度为O(nd),第二步softmax计算时间复杂度为O(n),第三步加权求和计算时间复杂度为O(nd),因此一次attention计算的时间复杂度为O(nd)。由于序列中的每个元素都会作为query进行一次attention计算,因此时间复杂度为 O(n^2d) 。3.2 multi-head attention用户的兴趣往往丰富多元,因此在利用attention对用户兴趣建模时,可采用multi-head的方式,提取用户在多个子空间的兴趣,再将其融合,得到较为全面的用户兴趣表征。\begin{align} & MultiHead(Q,K,V) = Concat(head_1, head_2, ...,head_h)W^O, \\ & head_i = attentino(QW^Q_i, KW^K_i, VW^V_i) \tag{3} \end{align}multi-head attention的核心思路是对单个attention在不同空间进行,通过线性变换可以把Q,K,V映射到不同空间,将不同空间的attention结果concat后进行一次线性变换映射到输出空间,得到最终结果,如式子(3)和图2所示,其中, W^Q \in \mathbb{R}^{d_{model}\times d_k} , W^K \in \mathbb{R}^{d_{model}\times d_k} , W^V \in \mathbb{R}^{d_{model}\times d_v} , W^O \in \mathbb{R}^{hd_{v}\times d_{model}} ,作用是对K,Q,V和输出进行线性映射到指定维度的空间。图2 multi-head attention理论上,multi-head attention增加了不同子空间的兴趣表征,可以得到更丰富的用户兴趣,但在实际应用过程中,multi-head往往很难带来提升,一方面由于服务性能压力,模型中使用的用户行为序列的长度不长,把有限的行为序列映射到多个空间,其空间上限不高;另一方面,multi-head attention本质上是加宽用户兴趣的表征维度,而使用single head时,value的维度一般是几十甚至上百,用来表征用户兴趣可能已经足够了,因此multi-head attention在实际使用过程中效果微弱。欢迎对这个问题有兴趣的朋友一起来探讨。3.3 代码实现根据attention的计算步骤,其代码实现不难。实现代码可在公众号【播播笔记】中回复“self att”获取。3.3.1 multi-headmulti-head attention本质上是增加映射空间,因此在实现时,可以将多个head对应的tensor进行concat,借助tensorflow强大的矩阵运算,一次attention计算完成,而不需要多次计算single attention,从而提高了运算效率。3.3.2 padding对用户行为序列处理,通常padding不可少。由于不同用户不同行为的序列长度不一样,因此在特征处理时,会设置最大长度,对超过最大长度的序列进行截断,对长度不足的序列进行padding,通常采用补0操作。进行attention计算时,通过mask操作,对padding元素对应的相似值进行极小值处理,使softmax归一化之后其权重趋于0,从而排除padding元素对最终用户兴趣表征的影响。3.3.3 attention输出处理由于self attention计算时,会对hist中每个元素作为query进行一次attention,因此会得到长度和hist长度相同的兴趣表征序列,可采用mean pooling或sum pooling的方式,得到一个兴趣表征embedding。得到的兴趣表征embedding,其维度和value维度相同,而有时value的embedding维度不一定满足模型后续的处理需要,因此可通过线性变换,将其映射到指定的空间维度。下一篇将分享target attention的方法din。推荐系列文章:用户行为序列建模用户行为序列建模概览多目标推荐中多目标的必要性和实现思路多目标模型结构-ESMM和ESM2多目标模型结构-MMoE和实际应用思考多目标模型结构PLE详解和效果分析多目标样本权重-GradNorm和DWA原理详解和代码实现多目标样本权重-DTP和不确定性加权冷启用户冷启POSO论文详读POSO方法的实际应用和分析思考模型结构-特征交叉ctr模型特征交叉结构总结与业务应用和思考xDeepFM如何实现field-wise显式高阶特征交叉-模型结构之特征交叉(3)-DCN系列之xDeepFM(3.3)附代码DCN-V2对特征交叉做了什么改进--模型结构之特征交叉(3)-DCN系列之DCN-V2(3.2)附代码为什么DCN可以实现显式高阶特征交叉-模型结构之特征交叉(3)-DCN系列(3.1)附代码模型结构之特征交叉(2)-FM系列(2.2)-AFM,DeepFM等(附代码)模型结构之特征交叉(2)-FM系列(2.1)-FM,FFM模型结构之特征交叉(1)-从LR到wide&deep推荐基础知识点激活函数选择和具体应用以及相关面试题深入理解深度学习中常见激活函数如何防止过拟合(1)-正则化从偏差方差角度理解过拟合如何计算AUC什么是好的推荐,重新理解AUC为什么需要推荐工具一句话理解tensorflow中的乘法工作相关的内容会更新在【播播笔记】公众号,欢迎关注生活的思考和记录会更新在【吾之】公众号,欢迎关注吾之系列文章:《与我常在》:谁又可与谁常在《单车》:只有感知到的爱才作数《勇》:没有杨千嬅式的孤勇可不可以工作第四年才开始明白的道理迟到二十多年的世界运行真相,被一场战争带来互联网大裁员,计算机专业还建议学吗互联网裁员来势汹汹,普通人能做点什么高考志愿的几点建议,大学是一个过程不止爱笑的女孩运气不会差,认清鸡汤流行本质原因后我决定重拾鸡汤新年快乐reference[1] (CIKM2020)Deep Multi-Interest Network for Click-through Rate Prediction. https://dl.acm.org/doi/pdf/10.1145/3340531.3412092?casa_token=dExtFx8QLc0AAAAA:g--YcfcPaZ2EwynskWtK8L4U8dQ-DRmA_HPgfr2uRKfaODj-EJIqijnkT9FmPVoPqooDUFySkr9q[1] RNN(ICLR2015), RECURRENT NEURAL NETWORK REGULARIZATION. https://arxiv.org/pdf/1409.2329.pdf[2] LSTM, Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting. https://arxiv.org/pdf/1506.04214.pdf[3] GRU. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. https://arxiv.org/pdf/1406.1078.pdf.[4] Attention is All you Need. https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf[5] Deep Interest Network for Click-Through Rate Prediction. https://dl.acm.org/doi/pdf/10.1145/3219819.3219823[6] Deep Interest Evolution Network for Click-Through Rate Prediction. https://arxiv.org/pdf/1809.03672.pdf[7] Deep Session Interest Network for Click-Through Rate Prediction. https://arxiv.org/pdf/1905.06482.pdf[8] Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction. https://arxiv.org/pdf/1905.09248.pdf[9] Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction. https://arxiv.org/pdf/2006.05639.pdf[10] Multi-Interest Network with Dynamic Routing for Recommendation at Tmall. https://arxiv.org/pdf/1904.08030.pdf[11] Deep Multi-Interest Network for Click-through Rate Prediction. https://dl.acm.org/doi/pdf/10.1145/3340531.3412092.[12] Deep Neural Networks for YouTube Recommendations. https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45530.pdf.[13] Squeeze-and-Excitation Networks. https://arxiv.org/pdf/1709.01507.pdf[14] CBAM: Convolutional Block Attention Module. https://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Woo_Convolutional_Block_Attention_ECCV_2018_paper.pdf.[15] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks. https://arxiv.org/abs/1708.04617发布于 2022-09-07 08:01​赞同 5​​添加评论​分享​收藏​喜欢收起​月来客栈​ 关注可以推荐先看看这篇文章。发布于 2021-07-19 17:49​赞同 1​​添加评论​分享​收藏​喜欢

Attention - 搜索 词典

ntion - 搜索 词典 Rewards网页图片视频学术词典地图更多航班我的必应笔记本attention美 [əˈtenʃ(ə)n] 英 [ə'tenʃ(ə)n] n.注意;关注;注意力;关心int.注意;立正网络引起注意;注目;注意事项搭配同义词反义词v.+n.pay attention,attract attention,get attention,give attention,focus attentionadj.+n.close attention,full attention,undivided attention,whole attention,meticulous attentionn.inattention,neglectn.notice,interest,concentration,thought,awareness权威英汉双解英汉英英网络释义Attention显示所有例句n.注意听╱看listening/looking carefully1.[u]注意;专心;留心;注意力the act of listening to, looking at or thinking about sth/sb carefullythe report's attention to detail报告对细节的注意He turned his attention back to the road again.他把注意力转回到道路上。Small children have a very short attention span .幼儿的注意力持续时间很短。Please pay attention(= listen carefully) to what I am saying.请注意听我讲的话。Don't pay any attention to what they say(= don't think that it is important) .别在意他们所说的话。She tried to attract the waiter's attention .她试图引起服务员的注意。I tried not to draw attention to(= make people notice) the weak points in my argument.我尽量使人不察觉到我论证中的弱点。An article in the newspaper caught my attention .报上一篇文章引起了我的注意。I couldn't give the programme my undivided attention .我不能专心一意地关注这个方案。It has come to my attention(= I have been informed) that…我已获悉…He called (their) attention to the fact that many files were missing.他提请他们注意许多档案已经遗失这一事实。Can I have your attention please?请注意听我讲话好吗?兴趣interest2.[u]兴趣;关注interest that people show in sb/sthFilms with big stars always attract great attention .有大明星演出的电影总是引起很大的关注。As the youngest child, she was always the centre of attention .身为幼女,她一直是大家关注的中心。3.[c][usupl]殷勤;关心things that sb does to try to please you or to show their interest in youShe tried to escape the unwanted attentions of her former boyfriend.她尽量避开她前男友多余的殷勤。处理treatment4.[u]特别照料(或行动、处理)special care, action or treatmentShe was in need of medical attention.她需要治疗。The roof needs attention(= needs to be repaired) .房顶需要修理了。for the attention of…(= written on the envelope of an official letter to say who should deal with it)由…办理(正式信件信封上的用语)士兵soldiers5.[u]立正姿势the position soldiers take when they stand very straight with their feet together and their arms at their sidesto stand at/to attention立正站着;立正int.1.注意used for asking people to listen to sth that is being announcedAttention, please! Passengers for flight KL412 are requested to go to gate 21 immediately.请注意!请 KL412 航班的乘客立即到 21 号门登机。2.立正used for ordering soldiers to stand to attentionn.1.注意,注目;留心,专心;注意力2.关照,礼貌3.【军】立正4.殷勤,厚待1.注意,注目;留心,专心;注意力2.关照,礼貌3.【军】立正4.殷勤,厚待n.1.the interest or thought that you give to something you are listening to or watching; interest, especially interest that the public has in a person, event, situation, etc.2.the fact that you notice something, often something that causes problems3.special care, help, or treatment for someone or something4.if people in the military stand to attention or stand at attention, they stand straight with their feet together to show respect or to receive orders5.behavior that shows someone that you love them or that you take a great deal of interest in them1.the interest or thought that you give to something you are listening to or watching; interest, especially interest that the public has in a person, event, situation, etc.2.the fact that you notice something, often something that causes problems3.special care, help, or treatment for someone or something4.if people in the military stand to attention or stand at attention, they stand straight with their feet together to show respect or to receive orders5.behavior that shows someone that you love them or that you take a great deal of interest in them1.注意人教版九年级上册英语单词表 ... take pride in 参加 attention 注意 pay attention to 注意 ... word.langfly.com|基于10707个网页2.注意力注意力指数HD, 测量您的注意力(Attention) !人人都知道,注意力很重要。appfinder.lisisoft.com|基于3049个网页3.引起注意AIDMA法则 - MBA智库百科 ... (Memory) 形成记忆; (Attention) 引起注意; (Interest) 产生兴趣; ... wiki.mbalib.com|基于2724个网页4.立正祈使句_互动百科 ... This way,please! 请这边走! Attention! 立正! Up the stairs! 上楼! ... www.baike.com|基于1771个网页5.注目投放於网页热区,高注目 (Attention) 观赏焦点高清、大影音的影音声光效果,提升吸引力(Attraction) 影音故事述说与数位互动 …www.onead.com.tw|基于1489个网页6.关心仁爱英语七年级下册单词_百度文库 ... news 新闻,消息 attention 注意,关心 between 在(两者)之间;在……中间 ... wenku.baidu.com|基于1193个网页7.关注A.O.史密斯企业文化 ... 主动改善情况 Take initiative to make things better; Attention —— 关注 Speed—— 速度 ... www.aosmith.com.cn|基于1121个网页8.注意事项什么是恰玛古食疗法? - 袁怀斌的日志 - 网易博客 ... 排毒、好转反应( Side effects) 注意事项( Attention) 展望( Outlook…qmg9981.blog.163.com|基于733个网页更多释义收起释义例句释义:全部全部,注意注意,关注关注,注意力注意力,关心关心,立正立正,引起注意引起注意,注目注目,注意事项注意事项类别:全部全部,口语口语,书面语书面语,标题标题,技术技术来源:全部全部,字典字典,网络网络难度:全部全部,简单简单,中等中等,难难更多例句筛选收起例句筛选1.His eyes are going back and forth, up to me to see what I'm looking at, so we've got shared attention.他的眼睛前后移动,看着我正在看的东西,所以我们有共同的关注点。www.ted.com2.For some time, the question of Darfur, Sudan has been a focus of attention of the international community.一段时间以来,苏丹达尔富尔问题是国际社会关注的焦点之一。www.fmprc.gov.cn3.Connor. It just recently came to my attention and I thought you might be interested in it.我最近才注意到它,我想你也会对此感兴趣的。myterminator.cn4.NetBSD's attention to detail, well-written code, and vast portability make it a solid choice for a number of deployment scenarios.NetBSD细致入微的、编写良好的代码和高度的可移植性使得它成为许多部署方案的最佳选择。www.ibm.com5.It is understood that the writers of very hot abroad, the domestic these two years is beginning to pay attention this issue.据了解,隐身衣的研究在国外非常热,国内这两年也开始关注这个问题。bbs.d9it.com6.As an important novel of Lawrence, The Plumed Serpent has not been attached attention in academic circles up to now.《羽蛇》是劳伦斯一部“重要的小说”,学界迄今未予重视。www.ceps.com.tw7.Comrade Chen Yun and I realized the gravity of the matter and immediately brought it to Comrade Mao Zedong 's attention.这样一来,陈云同志和我才觉得问题严重,立即向毛泽东同志反映,引起他的注意。www.showxiu.com8.I decided if I were to present my meals in an appealing way, I might pay more attention and start eating better.我想如果我用一种更具吸引力的方式进餐的话,或许能改善一下我的伙食。www.elanso.com9.As the heir to the British throne, Prince Charles was usually the subject of media attention and his courtship of Diana was no exception.作为英国皇位的继承人,查尔斯王子一直以来是媒体关注的对象,他对戴安娜的追求也不例外。www.bing.com10.The concept and principles of the Attention Economy sound appealing, but they beg a question: is all of this feasible?注意力经济的概念和规章听起来很诱人,不过这也提出了一个问题:所有这些都是可行的么?www.bing.com12345© 2024 Microsoft隐私声明和 Cookie法律声明广告帮

欧路词典|英汉-汉英词典 attention是什么意思_attention的中文解释和发音_attention的翻译_attention怎么读

欧路词典|英汉-汉英词典 attention是什么意思_attention的中文解释和发音_attention的翻译_attention怎么读

欧路词典

法语助手

德语助手

西语助手

欧路英语

每日一句:Do not spoil what you have by desiring what you have not; remember that what you now have was once among the things you only hoped for.

首页

App下载

欧路翻译

每日英语听力

AI写作

英语课堂

背单词

支持英汉-汉英词典查询 英语例句搜索

词典

例句

变位

词条纠错X

attention

您还没有登录,点这里登录或注册

登录后,您可以提交反馈建议,同时可以和手机、电脑同步生词本。

在英汉-汉英词典中发现10个解释错误,并通过审核,将获赠「欧路词典」授权一个

attention

四级高考

英/ə'tenʃ(ə)n/美/ə'tɛnʃən/

全球

有6个发音

男英国

赞踩

男美国

赞踩

男加拿大

赞踩

女英国

赞踩

男美国

赞踩

男美国

赞踩

生词本:

添加笔记:

有奖纠错

| 划词

英汉-汉英词典

词组搭配

英语例句库

近义、反义、联想词

全文检索

英汉-汉英词典

n. , 专心, 留心殷勤, 厚待

近义、反义、联想词

近义词n. basic cognitive process, work, attraction, attractor, attracter, attractive feature, magnet反义词n. inattention联想词focus焦点;ire忿怒;detail细节,详情;praise赞扬;heed,留心;focused聚焦的;spotlight照明灯;scrutiny监视;admiration钦佩;attentive对某人〔物〕 的;attracting吸引;

词组 | 习惯用语

pay attention 专心;集中力pay more attention to 更加pay close attention to 密切be paid attention to 关心give one's attention to v. give attention to ;;关心public attention 公众的关attract attention vi. 引起……的for your attention 请;您的关照draw attention 引起with attention adj. 留心,medical attention 疗照顾;疗看护immediate attention 视;及时关pay no attention to 不,不在matters need attention 事项call attention to 唤起prompt attention 从速办理undivided attention 一心一attention span 广度;力的持续时间attention deficit hyperactivity disorder 过动症,力不足过动症;过度活跃症

英语例句库

an attention-getter.吸引大家力的人。a pedantic attention to details.学究式细枝末节to pay attention to me我careful attention to detail.对细节的密切painstaking attention to detail.煞费苦心精益求精。attention to others' feelings.体谅他人的感爱pay attention to state affairs关心国家大事T-your attention to business.请把力集中在事务上。paid scant attention to the lecture.马马虎虎听课The pupil's attention span was short.这个小学生的力持续时间很短。scrupulous attention to detail 一丝不苟the attention he gave you was absolute.他对的关切是全心全的。Saunders stood stolidly to attention .桑德斯笔直立正。today's attention-challenged teens.现今那些缺乏力的青少年。increasingly, attention is paid to health and lifestyle.人们日益把力投向健康和生活方式。treatment should start off with attention to diet.治疗首先应该从饮食开始。unwelcome attentions from men.来自男性的过分殷勤。his attention had wandered.他开小差了。abstract sb. 's attention from从... 上转移开某人的声明:以上例句、词性分类均由互联网资源自动生成,部分未经过人工审核,其表达内容亦不代表本软件的观点;若发现问题,欢迎向我们指正。显示所有包含 attention 的英语例句

历史记录

生词本

关注微博

反馈问题

关注我们的微信

下载手机客户端

赞助商链接

欧路翻译 浏览器插件全新发布内置欧路词典&多种翻译引擎,不仅支持网页和PDF文档翻译,还能高亮重点单词,全方位提升你的英文阅读体验。www.eudic.net

划词翻译

详细解释

您还没有登录,点这里登录或注册

生词本和学习记录“云”同步,支持网站、电脑版和手机客户端。

false

广告联系|

意见反馈|

合作伙伴|

关于欧路在线词典|手机版网站 | 英语热词榜| HTTPS| AI英文写作| Rédiger多语言写作

欧路软件 ©2024 词库版本20240228 沪ICP备08016489号 沪公网安备 31011602001726号

如何理解attention中的Q,K,V? - 知乎

如何理解attention中的Q,K,V? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册机器学习自然语言处理深度学习(Deep Learning)如何理解attention中的Q,K,V?关注者1,220被浏览742,342关注问题​写回答​邀请回答​好问题 112​2 条评论​分享​57 个回答默认排序知乎用户​其实直接用邱锡鹏老师PPT里的一张图就可以直观理解——假设D是输入序列的内容,完全忽略线性变换的话可以近似认为Q=K=V=D(所以叫做Self-Attention,因为这是输入的序列对它自己的注意力),于是序列中的每一个元素经过Self-Attention之后的表示就可以这样展现:也就是说,The这个词的表示,实际上是整个序列加权求和的结果——权重从哪来?点积之后Softmax得到——这里Softmax(QK)就是求权重的体现。我们知道,向量点积的值可以表征词与词之间的相似性,而此处的“整个序列”包括The这个词自己(再一次强调这是Self-Attention),所以最后输出的词的表示,其“主要成分”就主要地包含它自身和跟它相似的词的表示,其他无关的词的表示对应的权重就会比较低。编辑于 2021-04-14 00:20​赞同 458​​12 条评论​分享​收藏​喜欢收起​iynil青梅有终 莫逆有别/​ 关注我们直接用torch实现一个SelfAttention来说一说:首先定义三个线性变换矩阵,query, key, value:class BertSelfAttention(nn.Module):

self.query = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768

self.key = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768

self.value = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768注意,这里的query, key, value只是一种操作(线性变换)的名称,实际的Q/K/V是它们三个的输出2. 假设三种操作的输入都是同一个矩阵(暂且先别管为什么输入是同一个矩阵),这里暂且定为长度为L的句子,每个token的特征维度是768,那么输入就是(L, 768),每一行就是一个字,像这样:乘以上面三种操作就得到了Q/K/V,(L, 768)*(768,768) = (L,768),维度其实没变,即此刻的Q/K/V分别为:代码为:class BertSelfAttention(nn.Module):

def __init__(self, config):

self.query = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768

self.key = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768

self.value = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768

def forward(self,hidden_states): # hidden_states 维度是(L, 768)

Q = self.query(hidden_states)

K = self.key(hidden_states)

V = self.value(hidden_states)3. 然后来实现这个操作:① 首先是Q和K矩阵乘,(L, 768)*(L, 768)的转置=(L,L),看图:首先用Q的第一行,即“我”字的768特征和K中“我”字的768为特征点乘求和,得到输出(0,0)位置的数值,这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重,然后显而易见输出的第一行就是“我”字对“我想吃酸菜鱼”里面每个字的注意力权重;整个结果自然就是“我想吃酸菜鱼”里面每个字对其它字(包括自己)的注意力权重(就是一个数值)了~② 然后是除以根号dim,这个dim就是768,至于为什么要除以这个数值?主要是为了缩小点积范围,确保softmax梯度稳定性,具体推导可以看这里:Self-attention中dot-product操作为什么要被缩放,然后就是为什么要softmax,一种解释是为了保证注意力权重的非负性,同时增加非线性,还有一些工作对去掉softmax进行了实验,如PaperWeekly:线性Attention的探索:Attention必须有个Softmax吗?③ 然后就是刚才的注意力权重和V矩阵乘了,如图:注意力权重 x VALUE矩阵 = 最终结果首先是“我”这个字对“我想吃酸菜鱼”这句话里面每个字的注意力权重,和V中“我想吃酸菜鱼”里面每个字的第一维特征进行相乘再求和,这个过程其实就相当于用每个字的权重对每个字的特征进行加权求和,然后再用“我”这个字对对“我想吃酸菜鱼”这句话里面每个字的注意力权重和V中“我想吃酸菜鱼”里面每个字的第二维特征进行相乘再求和,依次类推~最终也就得到了(L,768)的结果矩阵,和输入保持一致~整个过程在草稿纸上画一画简单的矩阵乘就出来了,一目了然~最后上代码:class BertSelfAttention(nn.Module):

def __init__(self, config):

self.query = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768

self.key = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768

self.value = nn.Linear(config.hidden_size, self.all_head_size) # 输入768, 输出768

def forward(self,hidden_states): # hidden_states 维度是(L, 768)

Q = self.query(hidden_states)

K = self.key(hidden_states)

V = self.value(hidden_states)

attention_scores = torch.matmul(Q, K.transpose(-1, -2))

attention_scores = attention_scores / math.sqrt(self.attention_head_size)

attention_probs = nn.Softmax(dim=-1)(attention_scores)

out = torch.matmul(attention_probs, V)

return out4. 为什么叫自注意力网络?因为可以看到Q/K/V都是通过同一句话的输入算出来的,按照上面的流程也就是一句话内每个字对其它字(包括自己)的权重分配;那如果不是自注意力呢?简单来说,Q来自于句A,K,V来自于句B即可~5. 注意,K/V中,如果同时替换任意两个字的位置,对最终的结果是不会有影响的,至于为什么,可以自己在草稿纸上画一画矩阵乘;也就是说注意力机制是没有位置信息的,不像CNN/RNN/LSTM;这也是为什么要引入位置embeding的原因。PS: 有好的问题欢迎邀请我回答哈~编辑于 2022-05-02 19:50​赞同 1440​​60 条评论​分享​收藏​喜欢