l 对于计算某一词向量x1与其他词向量(包括自身)的注意力分数时,用该词向量的q1分别与其他词向量(包括自身)的k向量点积,得到注意力分数;以该注意力分数经过Softmax函数进行归一化处理后,得到对应权重,表示为该词向量x1与所有位置词向量的注意力权重。以该权重对对应词向量的v向量进行加权求和,得到Self-Attention层在该位置的输出。
l 对于计算某一词向量x1与其他词向量(包括自身)的注意力分数时,用该词向量的q1分别与其他词向量(包括自身)的k向量点积,得到注意力分数;以该注意力分数经过Softmax函数进行归一化处理后,得到对应权重,表示为该词向量x1与所有位置词向量的注意力权重。以该权重对对应词向量的v向量进行加权求和,得到Self-Attention层在该位置的输出。