上海品茶

阿里技术:阿里机器智能:语音与信号处理技术精选专辑(38页).pdf

编号:9932 PDF 38页 1.84MB 下载积分:VIP专享
下载报告请您先登录!

阿里技术:阿里机器智能:语音与信号处理技术精选专辑(38页).pdf

1、 更多独家干货,扫码进阿里云开发者社区获取 本书著作权归阿里巴巴集团所有, 未经授权不得进行转载或其他任何形式的二次传播。 | 序言 ICASSP (International Conference on Acoustics, Speech, and Signal Processing)是由 IEEE 信号处理协会(IEEE Signal Processing Society)组织的 语音研究领域的顶级会议之一,和 INTERSPEECH(Annual Conference of the International Speech Communication Association)并称为国际语

2、音领域最 著名、 影响力最大的两个学术会议。 相对于 INTERSPEECH 主要侧重语音方面的 研究和应用,ICASSP 会议更加侧重声学、语音信号以及语音建模相关的学术讨 论,包含了语音技术相关的各个方面,堪称国际语音行业的一个年度盛会。在 ICASSP2018 中,阿里一共发表了 5 篇论文,分别涵盖语音识别、语音合成以及 情感识别三个方向。 在论文 基于深层前馈序列记忆网络, 如何将语音合成速度提升四倍? 中, 作者提出了一种基于深度前馈序列记忆网络的语音合成系统, 该系统在达到与基 于双向长短时记忆单元的语音合成系统一致的主观听感的同时, 模型大小只有后 者的四分之一,且合成速度是后

3、者的四倍,非常适合于对内存占用和计算效率非 常敏感的端上产品环境。 在论文为了更精确的情感识别,A-LSTM 出现了中,作者针对 LSTM 时 间依赖局限性问题, 提出了高级长短期记忆网络 (advanced LSTM (A-LSTM)) 模型,利用线性组合,将若干时间点的本层状态都结合起来,以打破传统 LSTM 的这种局限性。在这篇文章中,我们将 A-LSTM 应用于情感识别中。实验结果 显示, 与应用传统 LSTM 的系统相比, 应用了 A-LSTM 的系统能相对提高 5.5% 的识别率。 在论文为了让机器听懂“长篇大论”,阿里工程师构建了新模型中,作 者提出了一种改进的前馈序列记忆神经网

4、络结构, 称之为深层前馈序列记忆神经 网络(DFSMN) ,进一步地将深层前馈序列记忆神经网络和低帧率(LFR)技术 相结合构建了 LFR-DFSMN 语音识别声学模型。该模型在大词汇量的英文识别 和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向 循环神经网络(BLSTM)的识别系统显著的性能提升。而且 LFR-DFSMN 在训 练速度, 模型参数量, 解码速度, 而且模型的延时上相比于 BLSTM 都具有明显 的优势。 在论文示范了 200 句后,我的声音“双胞胎”诞生了! 中,作者提出了 基于线性网络的语音合成说话人自适应算法, 该算法对每个说话人学习特定的线 性网络,

5、从而获得属于目标说话人的声学模型,通过该算法,使用 200 句目标 说话人的自适应语料训练的说话人自适应系统能够获得和使用 1000 句训练的 说话人相关系统相近的合成效果。 在论文朋友,我能分享你的喜怒吗?阿里语音情感识别框架揭秘中,作 者提出了一套包含多个子系统的复合情感识别框架。 这一框架会深入挖掘输入语 音中与情感相关的各个方面的信息,从而提高系统的顽健性。 每年 INTERSPEECH 或者 ICASSP 都是语音学术界和工业界的一次盛会, 从 Deep Learning 在 2010 年左右引入语音领域,到现在几乎所有的论文都直接 或者间接以神经网络模型进行尝试, 语音技术在最近几

6、年发生了翻天覆地的变化。 近几年贴近实际产品的论文越来越多, 语音领域的各大研究机构和知名公司 纷纷做出了更实际、更靠谱的工作,相关产品问题也随之暴露和慢慢地被解决, 整个语音技术已经逐渐走到了实际应用的阶段, 近几年越来越多的语音设备产品 的问世和火爆也说明了这一点。我们将 ICASSP2018 会议上收录的论文编辑成 册,希望通过这个方式,更多的和学术界、工业界同行共同探讨、共同进步,衷 心的希望语音技术继续百家争鸣、百花齐放,早日把靠谱的语音交互能力带到各 行各业、带进千家万户,真正地帮助到人们的工作和生活! 阿里巴巴高级算法专家 雷鸣 2019 年 3 月 于北京 目录 基于深度前馈序

7、列记忆网络,如何将语音合成速度提升四倍? . 1 研究背景 . 1 深度前馈序列记忆网络 . 2 实验. 4 结论. 6 为了更精确的情感识别,A-LSTM 出现了 . 7 研究背景 . 7 高级长短期记忆网络 . 8 实验. 10 结论. 11 为了让机器听懂“长篇大论” ,阿里工程师构建了新模型 . 12 研究背景 . 12 FSMN 回顾 . 13 DFSMN 介绍. 16 LFR-DFSMN 声学模型 . 16 实验结果 . 17 1)英文识别 . 17 2)中文识别 . 18 示范了 200 句后,我的声音“双胞胎”诞生了! . 20 摘要. 20 研究背景 . 21 算法描述 .

8、21 实验. 23 结论. 25 朋友,我能分享你的喜怒吗?阿里语音情感识别框架揭秘 . 26 研究背景 . 26 复合情感识别框架 . 27 实验. 29 结论. 30 1 基于深度前馈序列记忆网络,如何将语音合成速度提升四倍?基于深度前馈序列记忆网络,如何将语音合成速度提升四倍? 作者:毕梦霄/Mengxiao Bi,卢恒/Heng Lu,张仕良/Shiliang Zhang,雷 鸣/Ming Lei,鄢志杰/Zhijie Yan 小叽导读:我们提出了一种基于深度前馈序列记忆网络的语音合成系 统。该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观 听感的同时,模型大小只有后者的四

9、分之一,且合成速度是后者的四倍, 非常适合于对内存占用和计算效率非常敏感的端上产品环境。 研究背景研究背景 语音合成系统主要分为两类,拼接合成系统和参数合成系统。其中参数合成 系统在引入了神经网络作为模型之后,合成质量和自然度都获得了长足的进步。 另一方面,物联网设备(例如智能音箱和智能电视)的大量普及也对在设备上部 署的参数合成系统提出了计算资源的限制和实时率的要求。 本工作引入的深度前 馈序列记忆网络可以在保持合成质量的同时,有效降低计算量,提高合成速度。 2 我们使用基于双向长短时记忆单元(BLSTM)的统计参数语音合成系统作为 基线系统。与目前主流的统计参数语音合成系统相似,我们提出的

10、基于深度前馈 序列记忆网络(DFSMN)的统计参数语音合成系统也是由 3 个主要部分组成,声 音合成器(vocoder),前端模块和后端模块,如上图所示。我们使用开源工具 WORLD 作为我们的声音合成器,用来在模型训练时从原始语音波形中提取频谱信 息、基频的对数、频带周期特征(BAP)和清浊音标记,也用来在语音合成时完 成从声学参数到实际声音的转换。 前端模块用来对输入的文本进行正则化和词法 分析, 我们把这些语言学特征编码后作为神经网络训练的输入。后端模块用来建 立从输入的语言学特征到声学参数的映射,在我们的系统中,我们使用 DFSMN 作 为后端模块。 深度前馈序列记忆网络深度前馈序列记

11、忆网络 紧凑前馈序列记忆网络(cFSMN)作为标准的前馈序列记忆网络(FSMN)的 改进版本, 在网络结构中引入了低秩矩阵分解, 这种改进简化了 FSMN, 减少了模 型的参数量,并加速了模型的训练和预测过程。 3 上图给出了 cFSMN 的结构的图示。对于神经网络的每一个 cFSMN 层,计算过 程可表示成以下步骤经过一个线性映射, 把上一层的输出映射到一个低维向量 记忆模块执行计算, 计算当前帧之前和之后的若干帧和当前帧的低维向量的逐 维加权和把该加权和再经过一个仿射变换和一个非线性函数, 得到当前层的输 出。三个步骤可依次表示成如下公式。 与循环神经网络 (RNNs, 包括 BLSTM)

12、 类似, 通过调整记忆模块的阶数, cFSMN 有能力捕捉序列的长程信息。 另一方面, cFSMN 可以直接通过反向传播算法 (BP) 进行训练,与必须使用沿时间反向传播算法(BPTT)进行训练的 RNNs 相比,训 练 cFSMN 速度更快,且较不容易受到梯度消失的影响。 对 cFSMN 进一步改进,我们得到了深度前馈序列记忆网络(DFSMN)。DFSMN 利用了在各类深度神经网络中被广泛使用的跳跃连接 (skip-connections) 技术, 使得执行反向传播算法的时候,梯度可以绕过非线性变换,即使堆叠了更多 DFSMN 层,网络也能快速且正确地收敛。对于 DFSMN 模型,增加深度的

13、好处有两 4 个方面。一方面,更深的网络一般来说具有更强的表征能力,另一方面,增加深 度可以间接地增大 DFSMN 模型预测当前帧的输出时可以利用的上下文长度, 这在 直观上非常有利于捕捉序列的长程信息。具体来说,我们把跳跃连接添加到了相 邻两层的记忆模块之间,如下面公式所示。由于 DFSMN 各层的记忆模块的维数相 同,跳跃连接可由恒等变换实现。 我们可以认为 DFSMN 是一种非常灵活的模型。当输入序列很短,或者对预测 延时要求较高的时候,可以使用较小的记忆模块阶数,在这种情况下只有当前帧 附近帧的信息被用来预测当前帧的输出。而如果输入序列很长,或者在预测延时 不是那么重要的场景中,可以使

14、用较大的记忆模块阶数,那么序列的长程信息就 能被有效利用和建模,从而有利于提高模型的性能。 除了阶数之外,我们为 DFSMN 的记忆模块增加了另一个超参数,步长 (stride) , 用来表示记忆模块提取过去或未来帧的信息时, 跳过多少相邻的帧。 这是有依据的,因为与语音识别任务相比,语音合成任务相邻帧之间的重合部分 甚至更多。 上文已经提到,除了直接增加各层的记忆模块的阶数之外,增加模型的深度 也能间接增加预测当前帧的输出时模型可以利用的上下文的长度, 上图给出了一 个例子。 实验实验 在实验阶段,我们使用的是一个由男性朗读的中文小说数据集。我们把数据 集划分成两部分,其中训练集包括 386

15、00 句朗读(大约为 83 小时),验证集包 括 1400 句朗读(大约为 3 小时)。所有的语音数据采样率都为 16k 赫兹,每帧 5 帧长为 25 毫秒, 帧移为 5 毫秒。 我们使用 WORLD 声音合成器逐帧提取声学参数, 包括 60 维梅尔倒谱系数, 3 维基频的对数, 11 维 BAP 特征以及 1 维清浊音标记。 我们使用上述四组特征作为神经网络训练的四个目标,进行多目标训练。前端模 块提取出的语言学特征,共计 754 维,作为神经网络训练的输入。 我们对比的基线系统是基于一个强大的 BLSTM 模型, 该模型由底层的 1 个全 连接层和上层的 3 个 BLSTM 层组成,其中全

16、连接层包含 2048 个单元,BLSTM 层 包含 2048 个记忆单元。该模型通过沿时间反向传播算法(BPTT)训练,而我们 的 DFSMN 模型通过标准的反向传播算法(BP)训练。包括基线系统在内,我们的 模型均通过逐块模型更新过滤算法(BMUF)在 2 块 GPU 上训练。我们使用多目标 帧级别均方误差(MSE)作为训练目标。 所有的 DFSMN 模型均由底层的若干 DFSMN 层和上的 2 个全连接层组成, 每个 DFSMN 层包含 2048 个结点和 512 个投影结点,而每个全连接层包含 2048 个结 点。在上图中,第三列表示该模型由几层 DFSMN 层和几层全连接层组成,第四列

17、 表示该模型 DFSMN 层的记忆模块的阶数和步长。由于这是 FSMN 这一类模型首次 应用在语音合成任务中,因此我们的实验从一个深度浅且阶数小的模型,即模型 A 开始(注意只有模型 A 的步长为 1,因为我们发现步长为 2 始终稍好于步长为 1 的相应模型)。从系统 A 到系统 D,我们在固定 DFSMN 层数为 3 的同时逐渐增 加阶数。从系统 D 到系统 F,我们在固定阶数和步长为 10,10,2,2 的同时逐渐增 加层数。从系统 F 到系统 I,我们固定 DFSMN 层数为 10 并再次逐渐增加阶数。 在上述一系列实验中,随着 DFSMN 模型深度和阶数的增加,客观指标逐渐降低 (越低

18、越好),这一趋势非常明显,且系统 H 的客观指标超过了 BLSTM 基线。 6 另一方面,我们也做了平均主观得分(MOS)测试(越高越好),测试结果 如上图所示。主观测试是通过付费众包平台,由 40 个母语为中文的测试人员完 成的。在主观测试中,每个系统生成了 20 句集外合成语音,每句合成语音由 10 个不同的测试人员独立评价。在平均主观得分的测试结果表明,从系统 A 到系统 E,主观听感自然度逐渐提高,且系统 E 达到了与 BLSTM 基线系统一致的水平。 但是,尽管后续系统客观指标持续提高,主观指标只是在系统 E 得分的上下波 动,没有进一步提高。 结论结论 根据上述主客观测试,我们得到

19、的结论是,历史和未来信息各捕捉 120 帧 (600 毫秒)是语音合成声学模型建模所需要的上下文长度的上限,更多的上下 文信息对合成结果没有直接帮助。与 BLSTM 基线系统相比,我们提出的 DFSMN 系 统可以在获得与基线系统一致的主观听感的同时,模型大小只有基线系统的 1/4, 预测速度则是基线系统的 4 倍, 这使得该系统非常适合于对内存占用和计算效率 要求很高的端上产品环境,例如在各类物联网设备上部署。 英文论文地址:英文论文地址:https:/arxiv.org/abs/1802.09194https:/arxiv.org/abs/1802.09194 7 为了更精确的情感识别,为

20、了更精确的情感识别,A-LSTM 出现了出现了 作者:陶斐/Fei Tao, 刘刚/Gang Liu 小叽导读:长短期记忆网络(LSTM)隐含了这样一个假设,本层的现 时状态依赖于前一时刻的状态。这种“一步”的时间依赖性,可能会限制 LSTM 对于序列信号动态特性的建模。本篇论文中,针对这样的一个问 题,我们提出了高级长短期记忆网络(advancedLSTM (A-LSTM)),利用 线性组合,将若干时间点的本层状态都结合起来,以打破传统 LSTM 的这 种局限性。在这篇文章中,我们将 A-LSTM 应用于情感识别中。实验结果 显示,与应用传统 LSTM 的系统相比,应用了 A-LSTM 的系

21、统能相对提高 5.5%的识别率。 研究背景研究背景 LSTM 现在被广泛地应用在 RNN 中。它促进了 RNN 在对序列信号建模的应用 当中。LSTM 有两个输入,一个来源于前一层,还有一个来源于本层的前一个时 刻。 因此, LSTM 隐含了这样一个假设, 本层的现时状态依赖于前一时刻的状态。 这种 “一步” 的时间依赖性, 可能会限制 LSTM 对于序列信号动态特性的建模 (尤 8 其对一些时间依赖性在时间轴上跨度比较大的任务)。在这篇论文里,针对这样 的一个问题,我们提出了 advancedLSTM (A-LSTM),以期打破传统 LSTM 的这种 局限性。 A-LSTM 利用线性组合,

22、将若干时间点的本层状态都结合起来, 因此不仅 可以看到”一步“以前的状态,还可以看到更远以前的历史状态。 在这篇文章中,我们把 A-LSTM 应用到整句话层级(utterance level)上的 情感识别任务中。传统的情感识别依赖于在整句话上提取底端特征(low level descriptors)的统计数据,比如平均值,方差等等。由于实际应用中,整句话中 可能会有一些长静音,或者是一些非语音的声音,这种统计数据就可能不准确。 在这篇论文中,我们使用基于注意力模型(attention model)的加权池化 (weighted pooling)递归神经网络(recurrent neural

23、network)来更有效地提 取整句话层级上的特征。 高级长短期记忆网络高级长短期记忆网络 A-LSTM 利用线性组合,将若干时间点的本层状态都结合起来。这其中的线 性组合是利用与注意力模型(attention model)类似的机制进行计算的。具体公 式如下。 Fig 1 中 C(t)即为前面若干时间状态的线性组合。这个线性组合以后的时 间状态将被输入下一时间点进行更新。可以想象,每次的更新都不只是针对前一 时刻, 而是对若干时刻的组合进行更新。由于这种组合的权重是有注意力模型控 制,A-LSTM 可以通过学习来自动调节各时间点之间的权重占比。如果依赖性在 时间跨度上比较大,则更远以前的历史

24、状态可能会占相对大的比重;反之,比较 近的历史状态会占相对大的比重。 9 Fig 1 Theunrolled A-LSTM 加权池化递归神经网络加权池化递归神经网络 Fig 2 Theattention based weighted pooling RNN. 在这篇论文中, 我们使用基于注意力模型的加权池化递归神经网络来进行情 感识别(见 Fig 2)。这一神经网络的输入是序列声学信号。利用注意力模型,我 们的神经网络可以自动调整各个时间点上的权重, 然后将各个时间点上的输出进 行加权平均 (加权池化) 。 加权平均的结果是一个能够表征这一整串序列的表达。 由于注意力模型的存在,这一表达的提取

25、可以包含有效信息,规避无用信息(比 如输入序列中中的一些长时间的静音部分)。这就比简单的计算一整个序列的统 计数值要更好(比如有 opensmile 提取的一些底端特征)。 为了更好地训练模 型,我们在情感识别任务之外还添加了两个辅助任务,说话人识别和性别识别。 我们在这个模型当中使用了 A-LSTM 来提升系统性能。 10 实验实验 在实验阶段,我们使用 IEMOCAP 数据集中的四类数据(高兴,愤怒,悲伤和 普通)。这其中一共有 4490 句语音文件。我们随机选取 1 位男性和 1 位女性说 话人的数据作为测试数据。其余的数据用来训练(其中的 10%的数据用来做验证 数据)。我们采用三个衡

26、量指标,分别为无权重平均 F-score(MAF),无权重平 均精密度(MAP),以及准确率(accuracy)。 我们提取了 MECC,信号过零率(zero crossing rate),能量,能量熵,频 谱矩心(spectral centroid),频谱流量(spectral flux),频谱滚边(spectral rolloff),12 维彩度向量(chroma vector),色度偏差(chroma deviation),谐 波比(harmonic ratior) 以及语音基频,一共 36 维特征。对这些序列特征进行 整句话层级上的归一化后,将其送入系统进行训练或测试。 在这个实验中,

27、我们的系统有两层神经元层,第一层位全连接层(fully connected layer), 共有 256 个精馏线性神经元组成 (rectified linear unit)。 第二层位双向长短期记忆网络(bidirectionalLSTM (BLST)。两个方向一共有 256 个神经元。之后即为基于注意力模型的加权池化层。最上方为三个柔性最大 值传输函数层,分别对应三个任务。我们给三个任务分配了不同的权重,其中情 感识别权重为 1, 说话人识别权重为 0.3, 性别识别为 0.6。 如果是应用 A-LSTM, 我们就将第二层的 BLSTM 替换成双向的 A-LSTM,其他的所有参数都不变。这

28、里 的 A-LSTM 选取三个时间点的状态作线性组合, 分别为 5 个时间点前 (t-5), 3 个 时间点前(t-3),以及 1 个时间点前(t-1)。实验结果如下: 其中的 meanLSTM 与 A-LSTM 比较类似,唯一区别是,当我们为选取的几个 时间点的状态作线性组合的时候, 不是采用注意力模型, 而是简单的做算术平均。 11 结论结论 与应用传统 LSTM 的系统相比,应用了 A-LSTM 的系统显示出了更好的识别 率。 由于加权池化过程是将所有时间点上的输出进行加权平均,因此系统性能的 提升只可能是来源于 A-LSTM 更加灵活的时间依赖性模型,而非其他因素,例如 高层看到更多时

29、间点等等。并且,这一提升的代价只会增加了数百个参数。 原论文地址:原论文地址:https:/arxiv.org/pdf/1710.10197.pdfhttps:/arxiv.org/pdf/1710.10197.pdf 12 为了让机器听懂“长篇大论”,阿里工程师构建了新模型为了让机器听懂“长篇大论”,阿里工程师构建了新模型 作者: 张仕良、雷鸣、鄢志杰、戴礼荣 小叽导读:本研究我们提出了一种改进的前馈序列记忆神经网络结构,称 之为深层前馈序列记忆神经网络(DFSMN)。进一步地我们将深层前馈序列记忆 神经网络和低帧率(LFR)技术相结合构建了 LFR-DFSMN 语音识别声学模型。该 模型在

30、大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的 基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提 升。而且 LFR-DFSMN 在训练速度,模型参数量,解码速度,而且模型的延时上 相比于 BLSTM 都具有明显的优势。 研究背景研究背景 近年来, 深度神经网络成为了大词汇量连续语音识别系统中的主流声学模 型。 由于语音信号具有很强的长时相关性,因而目前普遍流行的是使用具有长时 相关建模的能力的循环神经网络(RNN),例如 LSTM 以及其变形结构。循环神经 网络虽然具有很强的建模能力,但是其训练通常采用 BPTT 算法,存在训练速度 缓慢和梯度消失问题。

31、我们之前的工作,提出了一种新颖的非递归的网络结构, 13 称之为前馈序列记忆神经网络(feedforward sequential memory networks, FSMN) , 可以有效地对信号中的长时相关性进行建模。 相比于循环神经网络, FSMN 训练更加高效,而且可以获得更好的性能。 本论文,我们在之前 FSMN 的相关工作的基础上进一步提出了一种改进的 FSMN 结构,称之为深层的前馈序列记忆神经网络(Deep-FSMN, DFSMN)。我们通 过在 FSMN 相邻的记忆模块之间添加跳转连接(skip connections),保证网络 高层梯度可以很好地传递给低层, 从而使得训练

32、很深的网络不会面临梯度消失的 问题。 进一步的,考虑到将 DFSMN 应用于实际的语音识别建模任务不仅需要考虑 模型的性能,而且需要考虑到模型的计算量以及实时性。针对这个问题,我们提 出将 DFSMN 和低帧率(lower frame rate,LFR)相结合用于加速模型的训练和 测试。 同时我们设计了 DFSMN 的结构,通过调整 DFSMN 的记忆模块的阶数实现时 延的控制,使得基于 LFR-DFSMN 的声学模型可以被应用到实时的语音识别系统 中。 我们在多个大词汇量连续语音识别任务包括英文和中文上验证了 DFSMN 的 性能。 在目前流行的 2 千小时英文 FSH 任务上,我们的 DF

33、SMN 相比于目前主流的 BLSTM 可以获得绝对 1.5%而且模型参数量更少。在 2 万小时的中文数据库上, LFR-DFSMN 相比于 LFR-LCBLSTM 可以获得超过 20%的相对性能提升。而且 LFR- DFSMN 可以灵活的控制时延,我们发现将时延控制到 5 帧语音依旧可以获得相比 于 40 帧时延的 LFR-LCBLSTM 更好的性能。 FSMNFSMN 回顾回顾 最早提出的 FSMN 的模型结构如图 1(a)所示,其本质上是一个前馈全连接 神经网络,通过在隐层旁添加一些记忆模块(memory block)来对周边的上下文 信息进行建模,从而使得模型可以对时序信号的长时相关性进

34、行建模。FSMN 的 提出是受到数字信号处理中滤波器设计理论的启发:任何无限响应冲击 (Infinite Impulse Response, IIR)滤波器可以采用高阶的有限冲击响应 (FiniteImpulse Response, FIR)滤波器进行近似。从滤波器的角度出发,如 图 1(c)所示的 RNN 模型的循环层就可以看作如图 1(d)的一阶 IIR 滤波器。 而 FSMN 采用的采用如图 1(b)所示的记忆模块可以看作是一个高阶的 FIR 滤波 14 器。从而 FSMN 也可以像 RNN 一样有效的对信号的长时相关性进行建模,同时由 于 FIR 滤波器相比于 IIR 滤波器更加稳定,

35、因而 FSMN 相比于 RNN 训练上会更加 简单和稳定。 图 1. FSMN 模 型结构以及和 RNN 的对比 根据记忆模块编码系数的选择,可以分为:1)标量 FSMN(sFSMN);2)矢 量 FSMN(vFSMN)。sFSMN 和 vFSMN 顾名思义就是分别使用标量和矢量作为记 忆模块的编码系数。sFSMN 和 vFSMN 记忆模块的表达分别如下公式: 以上的 FSMN 只考虑了历史信息对当前时刻的影响,我们可以称之为单向的 FSMN。 当我们同时考虑历史信息以及未来信息对当前时刻的影响时,我们可以将 单向的 FSMN 进行扩展得到双向的 FSMN。双向的 sFSMN 和 vFSMN

36、记忆模块的编码 公式如下: 15 这里和分别代表回看(look-back)的阶数和向前看(look-ahead)的阶 数。我们可以通过增大阶数,也可以通过在多个隐层添加记忆模块来增强 FSMN 对长时相关性的建模能力。 图 2. cFSMN 结构框图 FSMN 相比于 FNN,需要将记忆模块的输出作为下一个隐层的额外输入,这样 就会引入额外的模型参数。隐层包含的节点越多,则引入的参数越多。我们通过 结合矩阵低秩分解(Low-rank matrix factorization)的思路,提出了一种改 进的 FSMN 结构,称之为简洁的 FSMN(Compact FSMN,cFSMN)。如图 2 是

37、一个第 个隐层包含记忆模块的 cFSMN 的结构框图。 对于 cFSMN,通过在网络的隐层后添加一个低维度的线性投影层,并且将记 忆模块添加在这些线性投影层上。进一步的,cFSMN 对记忆模块的编码公式进行 了一些改变,通过将当前时刻的输出显式的添加到记忆模块的表达中,从而只需 要将记忆模块的表达作为下一层的输入。这样可以有效的减少模型的参数量,加 快网络的训练。具体的,单向和双向的 cFSMN 记忆模块的公式表达分别如下: 16 DFSMNDFSMN 介绍介绍 图 3. Deep-FSMN (DFSMN)模型结构框图 如图 3 是我们进一步提出的 Deep-FSMN(DFSMN)的网络结构框图,其中左 边第一个方框代表输入层,右边最后一个方框代表输出层。我们通过在 cFSMN 的 记忆模块(红色框框表示)之间添加跳转连接(skip connection),从而使得 低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中,高层 记忆模块的梯度会直接赋值给低层的记忆模块, 从而可以克服由于网络的深度造 成的梯度消失问题,使得可以稳定的训练深层的网络。我们对记忆模块的表达也 进行了一些修改,通过借鉴扩张(dilation)卷积3的思路,在记忆模块中引 入一些步幅(stride)因子,具体的计算公式如下: 其中表示第层记忆模块第 t 个时刻

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里技术:阿里机器智能:语音与信号处理技术精选专辑(38页).pdf)为本站 (潘多拉魔盒) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 叶** 升级为标准VIP   wei**n_...  升级为高级VIP

 138**78...  升级为标准VIP wu**i 升级为高级VIP

wei**n_... 升级为高级VIP  wei**n_... 升级为标准VIP 

 wei**n_... 升级为高级VIP 185**35...  升级为至尊VIP

 wei**n_...  升级为标准VIP 186**30...   升级为至尊VIP

 156**61... 升级为高级VIP  130**32... 升级为高级VIP 

136**02... 升级为标准VIP  wei**n_... 升级为标准VIP

 133**46... 升级为至尊VIP  wei**n_...  升级为高级VIP

 180**01... 升级为高级VIP 130**31...  升级为至尊VIP

wei**n_...  升级为至尊VIP  微**... 升级为至尊VIP

 wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP  

  刘磊 升级为至尊VIP  wei**n_... 升级为高级VIP

班长 升级为至尊VIP   wei**n_... 升级为标准VIP 

176**40... 升级为高级VIP  136**01... 升级为高级VIP 

159**10...  升级为高级VIP 君君**i...  升级为至尊VIP

 wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP  

158**78...  升级为至尊VIP   微**...  升级为至尊VIP

 185**94... 升级为至尊VIP wei**n_... 升级为高级VIP 

139**90... 升级为标准VIP  131**37... 升级为标准VIP

 钟** 升级为至尊VIP  wei**n_... 升级为至尊VIP 

139**46... 升级为标准VIP  wei**n_... 升级为标准VIP

wei**n_...  升级为高级VIP   150**80... 升级为标准VIP

wei**n_... 升级为标准VIP   GT 升级为至尊VIP

186**25... 升级为标准VIP wei**n_...  升级为至尊VIP

 150**68... 升级为至尊VIP wei**n_... 升级为至尊VIP

 130**05... 升级为标准VIP  wei**n_...  升级为高级VIP 

wei**n_... 升级为高级VIP   wei**n_... 升级为高级VIP

 138**96... 升级为标准VIP 135**48...   升级为至尊VIP

wei**n_... 升级为标准VIP  肖彦  升级为至尊VIP

wei**n_...   升级为至尊VIP wei**n_... 升级为高级VIP 

 wei**n_...  升级为至尊VIP 国**...  升级为高级VIP 

 158**73... 升级为高级VIP wei**n_...  升级为高级VIP

 wei**n_...  升级为标准VIP  wei**n_...  升级为高级VIP

136**79... 升级为标准VIP 沉**... 升级为高级VIP 

138**80...  升级为至尊VIP 138**98...  升级为标准VIP

wei**n_... 升级为至尊VIP  wei**n_... 升级为标准VIP

 wei**n_... 升级为标准VIP  wei**n_... 升级为至尊VIP 

189**10...  升级为至尊VIP wei**n_...  升级为至尊VIP 

準**... 升级为至尊VIP   151**04...  升级为高级VIP

155**04...  升级为高级VIP  wei**n_... 升级为高级VIP 

 sha**dx... 升级为至尊VIP   186**26... 升级为高级VIP

136**38...  升级为标准VIP 182**73... 升级为至尊VIP

136**71... 升级为高级VIP  139**05...  升级为至尊VIP

 wei**n_... 升级为标准VIP  wei**n_... 升级为高级VIP 

wei**n_...  升级为标准VIP 微**...  升级为标准VIP 

Bru**Cu...  升级为高级VIP 155**29... 升级为标准VIP 

wei**n_...  升级为高级VIP 爱**...  升级为至尊VIP 

wei**n_... 升级为标准VIP  wei**n_... 升级为至尊VIP 

 150**02... 升级为高级VIP wei**n_...  升级为标准VIP

138**72...  升级为至尊VIP wei**n_...  升级为高级VIP