上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里巴巴:机器智能技术精选合集-顶级学术会议AAAI-2018收录文论(96页).pdf

编号:26119 PDF 96页 6.95MB 下载积分:免费下载
下载报告请您先登录!

阿里巴巴:机器智能技术精选合集-顶级学术会议AAAI-2018收录文论(96页).pdf

1、 阿里技术微信公众号阿里巴巴机器智能公众号 扫一扫二维码图案,关注我吧 本书版权归阿里巴巴集团所有, 未经授权不得进行转载或其他任何形式的二次传播。 2018 年伊始,万众期待的人工智能学术会议 AAAI 2018 在华人春 节前一周正式召开,这也标志着全球学术会议新一年的开启。作为一个已 举办 32 届的成熟会议,AAAI 不仅因其理论性与应用性交织的特点被中 国计算机学会(CCF)推荐为人工智能 A 类会议,更凭借高质量的论文录 用水准成为国内高校及研究机构乃至全球学者们密切关注的学术会议。 AAAI 2018 共收到 3808 篇投递论文,相较往年提升了 47%;而今 年的录用论文数共有

2、 938 篇,录用率与上年持平,约为 24.6%。 来自中国的论文投递数在今年有了巨大提升,在 AAAI 2018 上共收 到 1242 篇论文投稿,并有 785 篇论文被录用。 录用论文现场报告 阿里巴巴在 AAAI 2018 上也收获了 11 篇录用论文,分别来自 iDST、 业务平台事业部、阿里妈妈事业部、人工智能实验室、云零售事业部,其 中有 5 位作者受邀在主会做 Oral 形式报告,另有 1 位作者携两篇论文在 主会以 Poster 形式做报告。论文内容涉及对抗学习、神经网络、提高轻 量网络性能的训练框架、聊天机器人、无监督学习框架、极限低比特神经 网络等技术方向。 序 -FPL:

3、线性时间的约束容忍分类学习算法 1 基于注意力机制的用户行为建模框架及其在推荐领域的应用 9 极限低比特神经网络:通过 ADMM 算法进行极限压缩 17 一种基于词尾预测的提高英俄翻译质量的方法 22 火箭发射:一种有效的轻量网络训练框架 30 句法敏感的实体表示用于神经网络关系抽取 39 一种利用用户搜索日志进行多任务学习的商品标题压缩方法 43 基于对抗学习的众包标注用于中文命名实体识别 50 CoChat:聊天机器人人机协作框架 55 阿里巴巴 AAAI 论文 CoLink:知识图谱实体链接无监督学习框架 74 层叠描述:用于图像描述的粗略到精细学习 83 目录 AAAI 2018 阿里

4、巴巴论文AAAI 2018 阿里巴巴论文 假阳性率约束下的分类学习,在文献中被称为 Neyman-Pearson 分类问题。 现存的代表性方法主要有代价敏感学习 (Cost-sensitive learning),拉格朗日交替优 化 (Lagragian Method), 排序 - 阈值法 (Ranking-Thresholding) 等。然而,这些 方法通常面临一些问题,限制了其在实际中的使用: 1. 需要额外的超参数选择过程,难以较好地匹配指定的假阳性率; 2. 排序学习或者交替优化的训练复杂度较高,难以大规模扩展; 3. 通过代理函数或者罚函数来近似约束条件,可能导致其无法被满足。 因此

5、,如何针对现有方法存在的问题,给出新的解决方案,是本文的研究目标。 动机:从约束分类到排序学习 考虑经验版本的 Neyman-Pearson 分类问题,其寻找最优的打分函数 f 与阈值 b,使得在满足假阳性率约束的前提下,最小化正样本的误分概率 : 我们尝试消除该问题中的约束。首先,我们阐述一个关键的结论:经验 Ney- man-Pearson 分类与如下的排序学习问题是等价的,即它们有相同的最优解 f 以及 最优目标函数值: 这里 , f(xj-) 表示取负样本中第 j 大的元素。直观上讲,该问题本身是一个 pairwise ranking 问题,其将所有的正样本与负样本中第 n 大的元素相

6、比较。从优 化 AUC 的角度,该问题也可看作一个部分 AUC 优化问题,如图 1 所示,其尝试最 大化假阳性率 附近的曲线下面积。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 个直观解释。读者可以验证, (2)与如下的对抗学习问题是等价的: 其中 k = n,且 换句话说,排序学习问题 (2) 可以看作是在两个玩家打分函数 A 与样本分 布 B 间进行的一个 min-max 游戏。对于 A 给出的每个 f,B 尝试从负样本分布的集 合中给出一个最坏的分布 p,以最小化 A 的期望收益。该游戏达到纳什均衡 (Nash equilibrium) 时的稳点,也就是我们要求的最

7、优解。 -FPL 算法总览 如上所述,-FPL 的训练分为两个部分,排序 (scoring) 与阈值 (threshold- ing)。在排序阶段, 算法学习一个排序函数, 其尝试将正样本排在负样本中得分最高的 那部分的“质心”之前。阈值阶段则选取合适的阈值,将学到的排序函数转化为二分 类器。 排序学习优化算法 考虑与 (2) 等价的对抗学习问题 (3),其对偶问题如下: 这个新问题不含任何不可导项,并且目标函数 g 是光滑的 (Smooth)。因此,我 们可以使用投影梯度下降算法求解该问题,并利用加速梯度方法 (Nesterov) 获得最 优的收敛率。 AAAI 2018 阿里巴巴论文AAA

8、I 2018 阿里巴巴论文 图 2我们的方法与现存算法 (PTkC) 在求解简化版问题时的性能对比 (log-log 曲线 ) 阈值选择 阈值选择阶段,算法每次将训练集分为两份,一份训练排序函数 , 另一份用来选 取阈值。该过程可以进行多次,以充分利用所有样本,最终的阈值则是多轮阈值的平 均。该方法结合了 out-of-bootstrap 与软阈值技术分别控制偏差及方差的优点,也 适于并行。 理论结果 收敛率与时间复杂度通过结合加速梯度方法与线性时间投影算法,-FPL 可 以确保每次迭代的线性时间消耗以及最优的收敛率。图 3 将 -FPL 与一些经典方法 进行了对比,可以看到其同时具备最优的训

9、练及验证复杂度。 泛化性能保证我们也从理论上给出了 -FPL 学得模型的泛化误差界,证明了 泛化误差以很高的概率被经验误差所上界约束。这给予了我们设法求解排序问题(2) 的理论支持。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 图 5 比较了不同算法输出的分类器的分类性能。这里选取 NP-score 作为评价 标准,其综合考虑了分类器间的精度差异与违背假阳性率约束的惩罚。可以看到,采 用 OOB 阈值的算法在大部分情况下均可有效地抑制假阳性率在允许范围内。另外, 即使采用同样的阈值选择方法,-FPL 也可以获得较代价敏感学习 (CS-SVM- OOB) 更好的精度。 总结

10、 在高风险分类任务中控制假阳性率是重要的。本文中,我们主要研究在指定的假 阳性率容忍度 下学习二分类器。为此,我们提出了一个新的排序学习问题,其显 式地最大化将正样本排在 前 % 负样本的质心之上的概率。通过结合加速梯度方法 与线性时间投影,该排序问题可以在线性时间内被高效地解决。我们通过选取合适的 阈值将学到的排序函数转换为低假阳性率的分类器,并从理论和实验两个角度验证了 所提出方法的有效性。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 为数据进行更精细的处理。 在这样的背景下,本文提出一个通用的用户表征框架,试图融合不同类型的用户 行为序列,并以此框架在推荐任务中进行

11、了效果验证。另外,我们还通过多任务学习 的方式,期望能够利用该用户表征实现不同的下游任务。 三、相关工作 异构行为建模: 通常通过手动特征工程来表示用户特征。这些手工特征以聚合类 特征或无时序的 id 特征集合为主。 单行为序列建模: 用户序列的建模通常会用 RNN(LSTM/GRU)或者 CNN + Pooling 的方式。RNN 难以并行,训练和预测时间较长,且 LSTM 中的 Internal Memory 无法记住特定的行为记录。CNN 也无法保留特定行为特征,且需要较深的 层次来建立任意行为间的影响。 异构数据表征学习:参考知识图谱和 Multi-modal 的表征研究工作,但通常都

12、有 非常明显的映射监督。而在我们的任务中,异构的行为之间并没有像 image caption 这种任务那样明显的映射关系。 本文的主要贡献如下: 1. 尝试设计和实现了一种能够融合用户多种时序行为数据的方法,较为创新的 想法在于提出了一种同时考虑异构行为和时序的解决方案,并给出较为简洁的实现 方式。 2. 使用类似 Google 的 self-attention 机制去除 CNN、LSTM 的限制,让网络 训练和预测速度变快的同时,效果还可以略有提升。 3. 此框架便于扩展。可以允许更多不同类型的行为数据接入,同时提供多任务学 习的机会,来弥补行为稀疏性。 AAAI 2018 阿里巴巴论文AA

13、AI 2018 阿里巴巴论文 由于实体的信息量不同,因此每一组行为编码的向量长度不一,其实也代表行为 所含的信息量有所不同。另外,不同行为之间可能会共享一些参数,例如店铺 id,类 目 id 这类特征的 lookup table,这样做能减少一定的稀疏性,同时降低参数总量。 分组的主要目的除了说明起来比较方便,还与实现有关。因为变长、异构的处理 很难高效的在不分组的情况下实现。并且在后面还可以看到我们的方法实际上并不强 制依赖于行为按时间排序。 2. 语义空间映射 这一层通过将异构行为线性映射到多个语义空间,来实现异构行为之间的同语义 交流。例如框架图中想表达的空间是红绿蓝(RGB)构成的原子

14、语义空间,下面的复 合色彩(不同类型的用户行为)会投影到各个原子语义空间。在相同语义空间下,这 些异构行为的相同语义成分才有了可比性。 类似的思路其实也在 knowledge graph representation 里也有出现。而在 NLP 领域,今年也有一些研究表明多语义空间的 attention 机制可以提升效果。个 人认为的一点解释是说,如果不分多语义空间,会发生所谓语义中和的问题。简单的 理解是,两个不同种类的行为 a,b 可能只在某种领域上有相关性,然而当 attention score 是一个全局的标量时, a,b 在不那么相关的领域上会增大互相影响,而在高度 相关的领域上这种影

15、响则会减弱。 尽管从实现的角度上来说,这一层就是所有行为编码向一个统一的空间进行映 射,映射方法线性非线性都可以,但实际上,对于后面的网络层来说,我们可以看作 是将一个大的空间划分为多语义空间,并在每个子空间里进行 self-attention 操作。 因此从解释上来说,我们简单的把这个映射直接描述成对多个子语义空间进行投影。 3. Self Attention 层 Self Attention 层的目的实际上是想将用户的每一个行为从一个客观的表征,做 成一个用户记忆中的表征。客观的表征是指,比如 A,B 做了同样一件事,这个行为本 身的表征可能是相同的。但这个行为在 A,B 的记忆中,可能强

16、度、清晰度是完全不一 样的,这是因为 A,B 的其他行为不同。实际上,观察 softmax 函数可知,某种相似 行为做的越多,他们的表征就越会被平均。而带来不一样体验的行为则会更容易保留 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 用户平均 AUC 如下图: 实验结论:在行为预测或推荐任务中,self-attention + time encoding 也能较 好的替代 cnn+pooling 或 lstm 的编码方式。训练时间上能较 cnn/lstm 快 4 倍。效 果上也能比其他方法略好一些。 Case Study 为了深究 Self-Attention 在多空间内的

17、意义,我们在 amazon dataset 上做了 一个简单的 case study。如下图: AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 取、关键字搜索三种行为进行训练,同样的也对这三种不同的行为同时进行预测。其 中,用户商品行为记录是全网的,但最终要预测的商品点击行为是店铺内某推荐场景 的真实曝光、点击记录。优惠券、关键字的训练和预测都是全网行为。 我们分别构造了 7 种训练模式进行对比。分别是单行为样本预测同类行为(3 种) , 全行为多模型预测单行为(3 种) ,全行为单模型预测全行为(1 种) 。在最后一种实验设 置下,我们将三种预测任务各自切成 mini-ba

18、tch,然后统一进行 shuffle 并训练。 实验结果如下表: all2one 是三个模型分别预测三个任务,all2all 是单模型预测三个任务,即三个 任务共享所有参数,而没有各自独占的部分。因此 all2all 与 all2one 相比稍低可以理 解。我们训练多任务 all2all 时,将三种不同的预测任务各自 batch 后进行充分随机 的 shuffle。文中的多任务训练方式还是有很多可以提升的地方,前沿也出现了一些 很好的可借鉴的方法,是我们目前正在尝试的方向之一。 实验表明,我们的框架可以通过融入更多的行为数据来达到更好的推荐 / 行为预 测的效果。 六、总结 本文提出一个通用的

19、用户表征框架,来融合不同类型的用户行为序列,并在推荐 任务中得到验证。 未来,我们希望能结合更多实际的商业场景和更丰富的数据沉淀出灵活、可扩展 的用户表征体系,从而更好的理解用户,提供更优质的个性化服务,输出更全面的数 据能力。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 张图像的时间高达 3000+ms,这个 latency 对于大多数用户来说也是难以接受的。 此外,由于深度网络的计算量很大,运行深度网络的能耗很高,这对于手机等终端设 备也是一个巨大的挑战。 所提出的算法 在这个工作中,我们提出一种基于低比特表示技术的神经网络压缩和加速算法。 我们将神经网络的权重表示成

20、离散值,并且离散值的形式为 2 的幂次方的形式,比如 -4,-2,-1,0,1,2,4。这样原始 32 比特的浮点型权重可以被压缩成 1-3 比 特的整形权重,同时,原始的浮点数乘法操作可以被定点数的移位操作所替代。在现 代处理器中,定点移位操作的速度和能耗是远远优于浮点数乘法操作的。 首先,我们将离散值权重的神经网络训练定义成一个离散约束优化问题。以三值 网络为例,其目标函数可以表示为: 更进一步,我们在约束条件中引入一个 scale 参数。对于三值网络,我们将约 束条件写成 -a, 0, a, a0. 这样做并不会增加计算代价,因为在卷积或者全连接层 的计算过程中可以先和三值权重 -1,

21、0, 1 进行矩阵操作,然后对结果进行一个标量 scale。从优化的角度看,增加这个 scale 参数可以大大增加约束空间的大小,这有 利于算法的收敛。如下图所示, AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 第二个子问题在离散空间中进行优化。通过简单的数学变换第二个子问题可以 写成: 该问题可以通过迭代优化的方法进行求解。当 a 或 Q 固定时,很容易就可以获 得 Q 和 a 的解析解。 实验结果 ImageNet 图 像 识 别: 我 们 分 别 在 Alexnet、VGG16、Resnet18、Res- net50、GoogleNet 等五个主流的 CNN 框架上验

22、证了所提出的算法。实验中我们分 别尝试了 Binary 网络、Ternary 网络、-2, -1, 0, 1, 2、-4, -2, -1, 0, 1, 2, 4 四种形式。在 Imagenet 上 Top-1 和 Top-5 准确度结果如下: Alexnet 和 VGG16: Resnet: AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 一种基于词尾预测的提高英俄翻译质量的方法 Improved English to Russian Translation by Neural Suffix Prediction 作者(中英文) :宋楷 Kai Song 张岳 Yue Zha

23、ng 张民 Min Zhang 骆卫华 Weihua Luo 论文下载地址: https:/arxiv.org/abs/1801.03615 摘要 神经网络翻译模型受限于其可以使用的词表大小,经常会遇到词表无法覆盖源端 和目标端单词的情况,特别是当处理形态丰富的语言(例如俄语、西班牙语等)的时 候,词表对全部语料的覆盖度往往不够,这就导致很多“未登录词”的产生,严重影 响翻译质量。 已有的工作主要关注在如何调整翻译粒度以及扩展词表大小两个维度上,这些工 作可以减少“未登录词”的产生,但是语言本身的形态问题并没有被真正研究和专门 解决过。 我们的工作提出了一种创新的方法,不仅能够通过控制翻译粒度

24、来减少数据稀 疏,进而减少“未登录词” ,还可以通过一个有效的词尾预测机制,大大降低目标端 俄语译文的形态错误,提高英俄翻译质量。通过和多个比较有影响力的已有工作(基 于 subword 和 character 的方法)对比,在 5000 万量级的超大规模的数据集上, 我们的方法可以成功的在基于 RNN 和 Transformer 两种主流的神经网络翻译模型 上得到稳定的提升。 研究背景 近年来,神经网络机器翻译 (Neural Machine Translation, NMT) 在很多语种 和场景上表现出了明显优于统计机器翻译 (Statistic Machine Translation,

25、SMT) 的 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 通过这种方式,数据稀疏问题会得到缓解,因为词干的种类会显著小于词的种 类,而词尾的种类只有几百种。 相关工作 基于子词 (subword) 的和基于字符 (character) 的这两种方法,从调整翻译粒 度的角度出发来帮助缓解目标端形态丰富语言的翻译问题。一种基于子词的方法利 用 BPE(Byte Pari Encoding) 算法来生成一个词汇表。语料中经常出现的词会被保 留在词汇表中,其他的不太常见的词则会被拆分成一些子词。由于少数量的子词就可 以拼成全部不常见的词,因此 NMT 的词表中只保留常见词和这些子

26、词就可以了。还 有一种基于字符的 NMT 系统,源端句子和目标端句子都会表示为字符的序列,这种 系统对源端形态丰富的语言可以处理的比较好,并且通过在源端引入卷积神经网络 (convolutional neural network, CNN),远距离的依赖也可以被建模。上述两种方 式虽然可以缓解数据稀疏,但是并没有专门对语言的形态进行建模,子词和字符并不 是一个完整的语言学单元 (unit)。 还有一些研究工作是从如何有效的扩大目标端词汇表出发的,例如在目标端设置 一个很大的词汇表,但是每次训练的过程中,只在一个子表上进行预测,这个子表中 包含了所有可能出现的译文词。这种方法虽然可以解决未登录词

27、的问题,但是数据稀 疏问题仍然存在,因为低频的词是未被充分训练的。 神经网络机器翻译 本文在两种主要的神经网络翻译系统上验证了“基于词尾预测”的方法的有 效性,分别是基于递归神经网络的机器翻译 (Recurrent Neural Network Based, RNN-based) 和谷歌在 17 年提出的最新的神经网络翻译模型 (Transformer),详细 介绍可以查看相应论文。RNN-based 神经网络机器翻译如下图: AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 俄语的词干和词尾 俄语是一种形态丰富的语言,单复数 (number)、格 (case)、阴阳性 (ge

28、nder) 都会影响词的形态。以名词“ball”为例, “ball”是一个中性词,因此不会随阴阳性 的变化而变化,但当单复数、格变化时,会产生如下多种形态: 一个俄语词可以分为两部分,即词干和词尾,词尾的变化是俄语形态变化的体 现,词尾可以体现俄语的单复数、格、阴阳性等信息。利用一个基于规则的俄语词干 获取工具,可以得到一个俄语句子中每一个词的词干和词尾。 词尾预测网络 在 NMT 的解码阶段,每一个解码步骤分别预测词干和词尾。词干的生成和 NMT 原有的网络结构一致。额外的,利用当前 step 生成的词干、当前 decoder 端 的 hidden state 和源端的 source con

29、text 信息,通过一个前馈神经网络 (Feedfor- ward neural network) 生成当前 step 的词尾。网络结构如下图: AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 其中,Subword 是使用基于子词方法作为 baseline,Fully Character-based 是使用基于字符的 NMT 系统作为 baseline。 “Suffix Prediction”是我们的系统。 另外,我们还在电子商务领域的数据上,使用超大规模的语料(5000 万) ,证明 了该方法的有效性,实验结果如图: 测试集包括商品的标题 (Title)、详情 (Descr

30、iption) 和用户评论 (Comment) 内 容,示例如下: 一些翻译结果的例子: AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 火箭发射:一种有效的轻量网络训练框架 Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net 主要作者(中英文) :周国睿 Guorui Zhou 范颖 Ying Fan卞维杰 Weijie Bian 朱小强 Xiaoqiang Zhu盖坤 Kun Gai 附论文下载链接: https:/arxiv.org/ab

31、s/1708.04106 摘要 像点击率预估这样的在线实时响应系统对响应时间要求非常严格,结构复杂,层 数很深的深度模型不能很好的满足严苛的响应时间的限制。为了获得满足响应时间限 制的具有优良表现的模型,我们提出了一个新型框架:训练阶段,同时训练繁简两个 复杂度有明显差异的网络,简单的网络称为轻量网络(light net) ,复杂的网络称为助 推器网络(booster net) ,相比前者,有更强的学习能力。两网络共享部分参数,分 别学习类别标记,此外,轻量网络通过学习助推器的 soft target 来模仿助推器的学 习过程,从而得到更好的训练效果。测试阶段,仅采用轻量网络进行预测。我们的方

32、 法被称作“火箭发射”系统。在公开数据集和阿里巴巴的在线展示广告系统上,我们 的方法在不提高在线响应时间的前提下,均提高了预测效果,展现了其在在线模型上 应用的巨大价值。 研究背景 响应时间直接决定在线响应系统的效果和用户体验。比如在线展示广告系统中, 针对一个用户,需要在几 ms 内,对上百个候选广告的点击率进行预估。因此,如何 在严苛的响应时间内,提高模型的在线预测效果,是工业界面临的一个巨大问题。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 2. 采用梯度固定技术:训练阶段,限制两网络 soft target 相近的 loss,只用于 轻量网络的梯度更新,而不更新助

33、推器网络,从而使得助推器网络不受轻量网络的影 响,只从真实标记中学习信息。这一技术,使得助推器网络拥有更强的自由度来学习 更好的模型,而助推器网络效果的提升,也会提升轻量网络的训练效果。 结构创新 助推器网络和轻量网络共享部分层的参数,共享的参数可以根据网络结构的变化 而变化。一般情况下,两网络可以共享低层。在神经网络中,低层可以用来学习信息 表示,低层网络的共享,可以帮助轻量网络获得更好的信息表示能力。 方法框架 图 1网络结构 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 用的超参 temperature T: 也有一个半监督的工作再 softmax 之后接 L2 Lo

34、ss: 已有的文献没有给出一个合理的解释为什么要用这个 Loss,而是仅仅给出实验 结果说明这个 Loss 在他们的方法中表现得好。KD 的 paper 中提出在 T 足够大的情 况下,KD 的 Loss( ) KD x是等价于( ) mimic x的。我们在论文里做了一个稍微细致的 推导,发现这个假设 T 足够大使得( ) KD x =( ) mimic x成立的情况下,梯度也是一个无 穷小,没有意义了。同时我们在 paper 的 appendix 里在一些假设下我们从最大似然 的角度证明了( ) mimic x的合理性。 Gradient Block 由于 booster net 有更多的

35、参数,有更强的拟合能力,我们需要给他更大的自由 度来学习,尽量减少小网络对他的拖累,我们提出了 gradient block 的技术,该技术 的目的是,在第三项 hint loss 进行梯度回传时,我们固定 booster net 独有的参数 b W 不更新,让该时刻,大网络前向传递得到的 ( )z x ,来监督小网络的学习,从而使 得小网络向大网络靠近。 实验结果 实验方面,我们验证了方法中各个子部分的必要性。同时在公开数据集上,我 们还与几个 teacher-student 方法进行对比,包括 Knowledge Distillation(KD), Attention Transfer(A

36、T)。为了与目前效果出色的 AT 进行公平比较,我们采用了和 他们一致的网络结构宽残差网络(WRN) 。实验网络结构如下: AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 各种 LOSS 效果比较 轻量网络层数变化效果图 固定 booster net, 改变 light net 的层数,rocket launching 始终取得比 KD 要 好的表现,这表明,light net 始终能从 booster net 中获取有价值的信息。 可视化效果 通过可视化实验,我们观察到,通过我们的方法,light net 能学到 booster net 的底层 group 的特征表示。 A

37、AAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 同时在 CIFAR-100 和 SVHN 上,取得了同样优异的表现 真实应用 同时,在阿里展示广告数据集上,我们的方法,相比单纯跑 light net, 可以将 GAUC 提升 0.3%. 我们的线上模型在后面的全连接层只要把参数量和深度同时调大,就能有一个提 高,但是在线的时候有很大一部分的计算耗时消耗在全连接层 (embedding 只是一个 取操作,耗时随参数量增加并不明显 ),所以后端一个深而宽的模型直接上线压力会 比较大。表格里列出了我们的模型参数对比以及离线的效果对比: 总结 在线响应时间对在线系统至关重要。本文提出的

38、火箭发射式训练框架,在不提 高预测时间的前提下,提高了模型的预测效果。为提高在线响应模型效果提供了新思 路。目前 Rocket Launching 的框架为在线 CTR 预估系统弱化在线响应时间限制和 模型结构复杂化的矛盾提供了可靠的解决方案,我们的技术可以做到在线计算被压缩 8 倍的情况下性能不变。在日常可以减少我们的在线服务机器资源消耗,双十一这种 高峰流量场景更是保障算法技术不降级的可靠方案。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 相关工作介绍 我们把相关的工作大致分成早期基于远程监督的方法和近年来基于神经网络模型 两类。 为了解决关系抽取任务严重依赖于标注语

39、料的问题,Mintz et al.(2009) 率先 提出了基于远程监督的方法构建标注语料。然而,这样构建的自动标注语料含有大 量的噪声。为了缓解语料中噪声带来的影响,Riedel et al.(2010) 将关系抽取看成 是一个多实例单类别的问题。进一步的,Hoffmann et al.(2011) 和 Surdeanu et al.(2012) 采取了多实例多类别的策略。同时,采用最短依存路径作为关系的一个语 法特征。上述方法典型的缺陷在于模型的性能依赖于特征模板的设计。 近年来,神经网络被广泛的应用于自然语言处理任务上。在关系抽取领域, Socher et al.(2012) 采用循环神

40、经网络来处理关系抽取。Zeng et al.(2014) 则构建 了端到端的卷积神经网络,进一步的,Zeng et al.(2015) 假设多实例中至少有一个 实例正确地表示了相应的关系。相比于假设有一个实例表示一对实体的关系,Lin et al.(2016) 通过注意力机制挑选正面的实例更充分的使用了标注语料含有的信息。 以上这些基于神经网络的方法大多数都使用词层次的表示来生成句子的向量表 示。另一方面,基于语法信息的表示也受到了众多研究者的青睐,其中最主要的即最 短依存路径 (Miwa and Bansal(2016) 和 Cai et al.(2016)。 主要方法 AAAI 2018

41、阿里巴巴论文AAAI 2018 阿里巴巴论文 实验结果 本文在 NYT 语料上进行了实验。最终结果如上图所示。其中,SEE-CAT 和 SEE-TRAINS 分别是本文使用的两种结合三种向量表示(句子的向量表示,两个实 体的向量表示)的策略。从图中可以看出,本文提出的模型在相同数据集上取得了比 现有远程监督关系抽取模型更好的性能。 总结 本文的实验结果表明,更丰富的命名实体语义表示能够有效地帮助到最终的关系 抽取任务。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 研究背景 商品标题是卖家和买家在电商平台沟通的重要媒介,用户在搜索入口输入 Query 检索,在搜索结果页 (

42、SRP) 浏览商品列表,选择目标商品,最终完成购买。在整条 购物成交链路中,商品标题、商品描述、商品图片等各种信息共同影响着用户的购买 决策,信息量丰富而不冗长的标题能大大提升终端用户体验。 根据第 40 次中国互联网络发展状况统计报告显示,截止 2017 年 6 月,我 国手机网民规模已经达到 7.24 亿,网民使用手机上网的比例由 2016 年底的 95.1% 提升至 96.3%。越来越多的在线购买行为已经从 PC 端转移到无线端 (APP),并且 两者之间的差距还在进一步扩大,因此各大电商平台的资源也在往各自 APP 端倾斜。 PC 和 APP 最明显的区别在于显示屏幕尺寸,通常智能手机

43、显示屏在 4.5 到 5.5 寸 之间,远小于 PC 的屏幕尺寸,对算法和产品设计都有新的要求。 当前淘系商品标题主要由商家负责撰写,为了提高搜索召回和促进成交,商家往 往会在标题中堆砌大量冗余词,当用户在手机端进行浏览的时候,过长的商品标题由 于屏幕尺寸限制显示不全,只能做截断处理,严重影响用户体验。如图 1 所示,在 SRP 页,商品原始标题显示不完整,只能显示 14 个字左右的短标题,用户如果想获 取完整标题,还需要进一步点击进入商品详情页,商品原始标题包含近 30 个字。此 外,在个性化推送和推荐场景中,商品短标题作为信息主体,对长度也有一定限制, 如何使用尽可能短的文本体现商品的核心

44、属性,引起用户的点击和浏览兴趣,提高转 化率,是值得深入研究的问题。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 由商品原始标题生成搜索 query,采用带 attention 机制的 encoder-decoder 模型。 两个任务共享编码网络参数,并对两者的对原始标题的注意力分布进行联合优化,使 得两个任务对于原始标题中重要信息的关注尽可能一致。 辅助任务的引入可以帮助主 任务更好地从原始标题中保留更有信息量、更容易吸引用户点击的词。相应地,我们 为两个任务构建训练数据,主任务使用的数据为女装类目下的商品原始标题和手淘推 荐频道达人改写的商品短标题,辅助任务使用的数据

45、为女装类目下的商品原始标题和 对应的引导成交的用户搜索 query。 (A). Title Compression = (,) (B). Query Generation 甜蜜两色A字 娃娃裙 黄色 娃娃裙A字 两色 Summer AHU AHUSlim 夏季 显瘦 绑带A字娃娃裙 甜蜜 Straps A-line Doll-dressSweet Two-color (S) (T) (Q) (C). Agreement based loss Doll-dressSweet Two-color A-line Doll-dress YellowA-line attention matrix ()

46、= max_pooling() = max_pooling(Q) attention matrix (Q) 图 2多任务学习框架,两个 Seq2Seq 任务共享同一个 encoder 主要贡献 1. 本文的多任务学习方法进行商品标题压缩,生成的商品短标题在离线自动评 测、人工评测以及在线评测中均超过传统抽取式摘要方法。 2. 端到端的训练方式避免了传统方法的大量人工预处理以及特征工程。 3. 多任务学习中的 Attention 分布一致性设置使得最终生成的商品短标题中能 透出原始标题中重要的词,尤其是能引导成交的核心词,对于其他电商场景 也有重要意义。 AAAI 2018 阿里巴巴论文AAAI

47、 2018 阿里巴巴论文 不同方法的人工评价对比 表2不同方法产生的商品短标题的人工评测结果 表 2 展示了不同方法产生的商品短标题人工评测对比。由于电商场景下商品的 核心产品词比较敏感,所以在常见的可读性 (Readability) 和信息完整性 (Informa- tiveness) 指标以外,我们还比较了不同方法产生的短标题中核心产品词是否准确 (Accuracy)。从表 2 结果看,本文提出的方法在三个指标上均超过其他方法。 除了离线的自动评测和人工评测,我们还在真实线上环境中进行了 AB 测试,相 比线上原来的 ILP 压缩方法,本文提出的多任务学习方法在 CTR 和 CVR 两个指

48、标 上分别有 2.58% 和 1.32% 的提升。 图 3 给出了不同方法产生的商品短标题示例。受预处理结果影响,直接截断 和 ILP 两种 baseline 方法生成的短标题流畅度和可读性较差,而 Ptr-Net 和多任 务学习属于 Sequence-to-Sequence 方法,生成的短标题在可读性上优于两种 baseline。图 3 左侧例子说明,本文方法生成的短标题会透出用户高频搜索 query 中出现过的词(用户搜索 query 中多使用英文品牌名而非中文品牌名) ,更容易促进 成交。 AAAI 2018 阿里巴巴论文AAAI 2018 阿里巴巴论文 基于对抗学习的众包标注用于中文命

49、名实体识别 Adversarial Learning for Chinese NER from Crowd Annotations 主要作者(中英文) :杨耀晟YaoSheng Yang张梅山Meishan Zhang陈文亮 Wenliang CHEN 王昊奋 Haofen Wang张伟 Wei Zhang张民 Min Zhang 论文下载地址: https:/arxiv.org/abs/1801.05147 1. 文章目的与思想 为了能用较低的成本获取新的标注数据,我们采用众包标注的方法来完成这个任 务。众包标注的数据是没有经过专家标注员审核的,所以它会包含一定的噪声。在这 篇文章中,我们提出一种在中文 NER 任务上,利用众包标注结果来训练模型的方法。 受到对抗学习的启发,我们在模型中使用了两个双向 LSTM 模块,来分别学习众包 标注数据中的公有信息和属于不同标注员的私有信息。对抗学习的思想体现在公有块 的学习过程中,以不同标注员作为分类目标进行对抗学习,从而优化公有模块的学习 质量,使之收敛于真实数据(专家标注数据) 。我们认为这两个模块学习到的信息对于 任务学习都有积极作用,并在最终使用 CRF 层完成 ner 标注。 模型如下: AAAI 2018 阿里巴巴论文AA

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里巴巴:机器智能技术精选合集-顶级学术会议AAAI-2018收录文论(96页).pdf)为本站 (菜菜呀) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部