百度搜索,图解自然语言处理Transformer模型(二),易烊千玺身高

点击上方重视,直达人工智能前沿!

接上文:图解自然语言处理Transforme武汶妍r模型(一)

残差衔接

在持续之前,需求说说编码器架构中的一个细节,即每个编码器中的每个子层(self-attentio百度查找,图解自然语言处理Transformer模型(二),易烊千玺身高n, ffnn)在其周围都有一个残差衔接,一起还伴随着一个孔军超规范化进程。

更形象的表明如下:

这也适用于解码器的子层。假如仅考虑一个由两个编码器和两个解码器组成的T用身体说我喜欢你ransformer,它看起来是这样的:

解码器


现在现已介绍了编码器端的大多数概念,根本就要鲁上也知道解码器的组件是怎样作业的。但看看它们是怎样协同作业百度查找,图解自然语言处理Transformer模型(二),易烊千玺身高的。

编码器从处理输入序列开端,然后将上面编码器的输出转换成一组留意向量K和V,这些将由每个解码器在其”编码器-译码器留意力”层(encoder-decoder attention)中运用,协助解码器将留意力会集在输入序列的恰当位百度查找,图解自然语言处理Transformer模型(二),易烊千玺身高置:

在完结编码进程之后,开端解码进程。每一个时刻步,百度查找,图解自然语言处理Transformer模型(二),易烊千玺身高解码器会输出翻译后的一个单词。

重复这样的解码进程直到呈现代表完毕的特殊符号。每一时刻步的输出都会鄙人一个时刻步解码的时分的时分反馈给底层解码器,解码器就会像编码器相同,将该层的解码成果想更高层传递。就像对编码器回乳汤输入所做的那样,将方位编码也加入到解码器输入中以指rm2017示每个单词的方位。

解码器中的自留意力层与编码器中的自留意力层的作业方式略有不同:

在解码器中,自留意力层只允许重视到输出序列中较前的方位。这是经过在自留意力核算的softmax进程之前用掩码ma百度查找,图解自然语言处理Transformer模型(二),易烊千玺身高sk遮罩序列中后边的方位(将它们设置为为负无量)来完成的。

编码器-解码器留意力层的作业原理与多头自留意力层相似,仅仅它从下面百度查找,图解自然语言处理Transformer模型(二),易烊千玺身高的网络层创立Query矩阵,并从编码器栈的输出中获取Key矩阵和Value矩阵。

最终的线性层以及Softmax层

解码器栈输出一个浮点型向量。怎样把它变成一个词呢?这是最终一个线性层的作业,这以后接上一个Softmax层。

线性层是一个简略的全衔接神经网络,它将解码器栈产什么是同位语从句生的向量投影到一个更高维向量(logits)上。

假定的模型知道10,000个从它的练习数褚淳岷据会集学习的专一英语单词(的模型的”输出词汇”)。那么logits 就有10,000个维度,每个维度对应一个专一的单词的得分。

之后的softmax层将这些分数转换为概率。挑选概率最大的维度,并对应地生成与之相关的单词作为此时刻步的输出。

编码器金特宝栈的输出向量经过线性层和softmax得到百度查找,图解自然语言处理Transformer模型(二),易烊千玺身高概率散布。

丢失函数

现在,介绍了Transformer的整个正向传递进程。

假定的输出词汇表只包括六个单词(“a”、”am”、”i”、”thank主播米娜s”、”student”和””(“end of sentence”的缩写))。

一旦界说了输出词汇表,就能够运用相同维度的向量来表明词汇表中的每个单词。这也称为one-hot编码。例如,能够用下面的向量来表明”am”这个词:

用一个简略的比方进行练习———将”merci”翻译成”thanks”。

期望输出是一个表明”thanks”的概率散布。可是由于这个模型还没有经过充沛的练习,所以现在还不太可能完成。

由于模型参数是随机初始化的,房子能租给乐伽公司吗在刚开端练习的时分,输出的概率散布也是没有意义的。经过与正确的翻译成果进行比较,用反向传达更新模型的权重,让模型迫临正确的翻译成果。

怎样比较两个概率散布?只要从另一个中减去一个。要了解更多细节,请检查穿插熵 and KL散度.。

但请留意,这是一个过于简化的示例。更实践一点,将运用一个语句,而不是一个单词。例如,输入:”je suis etu真阴diant”和期望输出:”i am a student”。这真实的意思是,想要的模型接连输虹吸效应是什么意思出概率散布,其间:

  • 每一个概率散布由一个维度等于词表巨细的向量所表明
  • 在比方中,第一个概率散布中概率最大的那一维对应的是单词”I” 的索引号
  • 在比方中,第一个概率散布中概率最大的那一维对应的是单词”am” 的索引号
  • 一向重色夜复直到输出的概率散布对应的是 ‘‘ 符号

方针概率散布作为监督信号来练习模型

在对模型进行满足长时刻的大数据集练习之后,期望得到的概率散布是这样的:

现在,由于这个模型每次发生一个输出,能够假定这个模型从概率再生人陈明道是假的散布中挑选概率最大的单词,然后丢掉其他的。这是一种办法(称为贪婪解码)。另一个办法是前两个单词(说,比方”I”和”a”),然后鄙人一个时刻步中,运转模型两次:一次假定第一个输出方位是”I”这个词,而另一个假定第一个输出方位是’me’这个词,和哪个版别发生更少的过错考虑# 1和# 2保存方位。对2号和3号方位重复这个。这种办法称为”beam search”,在的比方中,beam_size是2(由于在核算方位#1和#2的beam之后比较了成果)谜语阁,久久setop_beam也是2(由于保留了两个单词),这两个刘美含陈翔为什么分手超参数都能够进行试验。


欢迎重视全渠道AI自媒体 “我国黄AI新视野”,第一时刻获取人工智能学术、工业前沿!

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。