上海品茶

AI在叮咚智能音箱中的演进和应用.pdf

编号:95474 PDF 57页 7.12MB 下载积分:VIP专享
下载报告请您先登录!

AI在叮咚智能音箱中的演进和应用.pdf

1、AI在叮咚智能音箱中的演进和应用智能音箱市场分析智能音箱中的AI技术智能音箱的发展趋势讨论环节智能音箱市场分析智能音箱中的AI技术TTS语音合成VAD语音激活检测语音唤醒声纹翻译和评测TTS语音合成将文本转换成声音可播放,使用的场景非常多TTS在近几年的发展状况:能提供TTS合成技术的厂家越来越多制作一个TTS发音人的成本越来越低,包括研发成本和时间成本TTS合成技术本身,在自然度和流畅度上,也有不断的进步关于TTS大家关注的焦点关注点自然音质多选择甜美TTS合成在未来的发展用自己的声音来作为TTS发音人目前已能做到读一篇2000字的文章,即可生成这个人的音库。技术已经成熟,很快就会应用到智能

2、音箱中。存在的问题:用户得有点耐心,将这2000字读完是亮点、卖点,但不少用户可能更喜欢预置的甜美的声音用户提供的语料非常少,提取的特征有限,相对于深度定制,人声的相似度要略差一些。带情感的TTS合成文本是有场景的,例如新闻、笑话、恐怖小说、武侠小说等。在指定使用场景的情况下,用特定的节奏、韵律和语气来合成是没问题的需要解决的问题是,能否自动甄别出使用场景,不然可能就出笑话基于大数据的情感分析技术VAD语音激活检测语音激活检测,又称端点检测,分为前端点和后端点前端点:检测语音什么时候开始不再是静音。可用于判断人开始说话。后端点:检测语音什么时候开始从有声音变成是静音。可用于判断说话结束。端点检

3、测的意义:捕捉有效的音频,再进行后续的处理,减少不必要的数据处理。VAD目前的现状和发展基于声音能量的VAD叠加人声检测和基于用户意图的动态VAD能量VAD改由硬件实现背景:目前很多芯片产品也冠了AI之名,将之前在软件层做的算法放到了硬件层,如VAD、CNN,加速算法的执行,减小CPU的消耗基于人声检测和用户意图的动态VAD前端点和后端点超时时间的设置严重关乎用户体验如何来解决有噪音环境下的端点检测问题信息的及时反馈,不一定要等用户把话都说完了再输出识别结果语音唤醒用户说指定的唤醒词,设备识别出之后才能进行后续的识别和操作。为什么要有唤醒?唤醒引擎必须要是本地引擎,而不能是云端的。智能音箱如果

4、要支持唤醒,就意味着持续的录音,如果在家中放个音箱,它在不断的进行录音和上传到别人的服务器上,这是件多么恐怖的事情。亚马逊智能音箱窃听风波语音唤醒技术的现状支持语音唤醒的音箱,市面上多见的有2麦、3麦、4麦、6麦、7+1麦。在开放的环境下,Mic的数量越多,可唤醒的距离越远、识别的效果越好。但考虑到结构等方面的因素,不能完全看Mic的数量来评价唤醒效果的好坏。麦克风阵列的作用声源定位回声消除噪声抑制增益调节主流产品的唤醒效果对比我们的坚持为了保证唤醒和识别效果,主流产品坚持使用6麦或7+1麦阵列充分做好结构的验证,产品长什么样,不完全是ID说了算,确保结构设计不会影响到唤醒和识别效果做好硬件的

5、验证,确保录音的品质(包括录音音质、各通道的同步性等)大量的数据分析,针对误唤醒和未唤醒算法层面持续迭代,第三代基于CNN模型的唤醒和声学处理算法,通过对大量样本的离线处理和效果分析,形成了很好的处理效果唤醒词的自定义目前很多款智能音箱,都有固定的唤醒词,诸如天猫精灵、小爱同学、若琪为了保证较好的唤醒效果,厂商也会在唤醒词的选择上下足功夫从用户角度:好记、朗朗上口从数据角度:容易唤醒、不容易误唤醒、日常生活中不太容易听到从厂商角度:兼顾以上两点自定义唤醒词,用户可以给音箱设置自己喜欢的唤醒词,比方可以把叮咚音箱的唤醒词设置成天猫精灵。我们有统计过,对于支持设置自定义唤醒词的设备,有60%以上的

6、用户修改了唤醒词。自定义唤醒词的技术难点自定义唤醒训练模型的数据唤醒门限的设定唤醒词的评估设备运算能力基于泛化技术形成数据模型为了保证唤醒率,唤醒词往往需要百万级别的训练数据才能生成模型。自定义唤醒词,没有现成的训练数据,要依托大数据的技术、直接泛化成相应的数据模型,来保证训练数据的数量。自动的阈值调整目前业界的唤醒方案基本上都涉及调节唤醒的阈值阈值设置高了,唤醒率低,阈值设置低了,误唤醒又多,需要选取一个平衡点常规做法:先选定唤醒词,然后在一个大的测试集上进行调节常规方案不适合自定义唤醒的实时需求,为此我们研发了一套稳定的阈值设置方案,针对不同唤醒词自动设置唤醒阈值。唤醒效果评价机制并非所有

7、的词语都适合做唤醒词,我们引入量化的客观标准,通过评星级的方式来告诉用户唤醒词的级别,引导用户作出正确选择有哪些标准:p4-6个字p音节覆盖尽量多p相邻音节要规避p太经常说的词语尽量规避,误唤醒的概率偏高工程化过程中的算法优化Whyp自定义唤醒的算法由于引入了新的数据模型,导致运算量大幅上涨p优化算法本身,尤其是降噪和回声消除,8个Mic就涉及到8路的降噪和回声消除Howp算法定点化p加入前置的激活检测,提高语音数据的准入标准,减少数据的处理量,避免无用的数据计算。唤醒词模型的不断迭代生成的自定义唤醒词模型,在用户使用的过程中有条件对其进一步优化深度定制的唤醒词效果优于自定义,一个重要原因是使

8、用大量真实的语料进行了训练使用自定义唤醒词时的唤醒语料,可用于优化唤醒词模型自定义唤醒词使用的次数越多,积累的语料越多,唤醒效果越好多唤醒词市面上的智能音箱,活动的唤醒词往往只有1个,同一时刻只能对一个词做出响应多唤醒词的实现绝不是机械的叠加唤醒词的简单叠加,可能会降低主唤醒词的效果,同时大幅增加了处理的数据量不唤醒而直接语音操控歌曲播放,每家的实现方式可能有所不同,叮咚是采用1个主唤醒词+多个副唤醒词的形式叮咚对于常用的几个唤醒词,使用了大量的样本进行优化和验证,确保对主唤醒词的效果影响很小语音唤醒技术在未来的发展更多基于2-4麦的产品唤醒时定位不再标配自定义唤醒成为标配唤醒效果的不断提升声

9、纹声纹,类似于指纹,可以代表一个人的特征,在较长的时间内是相对稳定的。两大分类p文本相关p文本无关文本相关根据特定的文本建立模型,用户必须说这个特定的文本才能进行匹配特点:开发门槛低,但用户必须说特定的词句文本无关不强求说话的内容,用户说什么词句都可以进行模式匹配特点:模型建立困难,开发门槛高,但使用方便,应用的场景广泛目前主流技术路线的选择基本都采用了文本相关的方案注册时都采用固定的词句-唤醒词唤醒时触发声纹相关的逻辑使用声纹时面临的问题闭集和开集闭集假定使用音箱的人一定进行过声纹的注册如果使用场景符合假定的前提,可以很准确的区分说话人,准确率能达到95%以上可以把门限调的较低,以此来提高准

10、确率原则:宁错勿漏开集没有前提假设,使用音箱的可能是陌生人,从未进行过声纹注册当匹配门限较低时,可能会出现冒认。一个陌生人可能会被认为是已注册的人为了避免冒认,人为的提高门限门限提高,匹配率下降原则:宁漏勿错距离设备1m,有85db的背景噪音和单曲循环播放歌曲场景下的召回率测试同等环境下,增加事先未注册过的人进行冒认率测试如何权衡开集、闭集的问题提高注册时特征采集的门槛交互上提示保持环境安静能唤醒能量达标语音识别匹配程度达标提高注册时音频处理效果增强的降噪,充分利用麦克风阵列的优势,提高信噪比更精确的音频切分,前后误差控制在50ms内,精度远远超出常规的VAD录音数据采集,对样本进行人工剪裁、

11、标注使用人工剪裁的音频进行模型训练对原样本使用模型进行剪裁相对于人工剪裁的前后误差均在50ms内的,认为符合要求模型修正声纹特征的持续更新注册时进行第一次特征采集,使得功能可用使用时对于高匹配度、高品质的音频保留其特征,可用于下一次模式匹配类似于自定义唤醒技术,都有持续学习的过程。评估合适的门限通过采集大量的录音数据,和人工标注的方法,得出几种场景下的门限:高安全性:宁漏勿错,但不能漏的很离谱高匹配率:宁错勿漏,但不能错的很夸张应用场景的划分确定产品定位,非常严谨(军工级?)or 自娱自乐不同场景的要求不同,例如用于支付验证的场景一定要求很高。不同的场景采用不同的门限。声纹支付目前的声纹技术如

12、果用于支付验证,有点冒险。当前采用的往往是基于固定语言模型的声纹方案。固定语句有录音回放的风险。追求匹配率,会丧失基本的安全性。基于声纹及特征的个性化推荐基于声纹的个性化推荐。在唤醒时识别出发音人,并根据用户的使用记录,做特定的个性化推荐。基于性别、年龄特征的个性化推荐。在未进行声纹注册时,也能根据发音人的男女老幼信息做相关的推荐。声纹技术在音箱上应用的趋势过渡到文本无关的方案上来,或者是文本无关、文本相关都同时具备由于技术本身的限制,可能会增加声纹注册的录音时长声纹支付和语音购物在充分优化用户体验后,用户的热度会增加厂商会基于声纹的识别,加强对不同的用户推个性化的服务智能音箱与教育中英文翻译

13、p语音识别p翻译中英文评测外语学习智能音箱的发展趋势国内在相当长一段时间内,智能音箱的主要角色还是播放音乐的音箱基于音箱开放平台的第三方应用越来越多带屏幕和摄像头会成为新的趋势人脸识别技术的引入AR的应用智能音箱主要是音箱Amazon Dot的成功短期内在国内难以复制价格战下,售价拼到了百元以下,蓝牙音箱的市场受到冲击版权在国内受到重视,内容问题成为了头等大事用户最关注的需求,是资源点播能有更好的体验国内资源内容的现状:p精品内容的版权掌握在少数人手里p每一家的版权都覆盖不全,只是量多量少的问题p即使让接入,你不一定能得到metadatap接口受限,提高用户体验还需下苦功夫优化资源的点播体验,

14、我们要做的p投入人力,给热门歌曲打上标签(一首歌可能有多个标签)p云端记录用户的播放记录,通过歌名来匹配歌曲标签,分析用户喜好p做好歌曲的推荐,用户不用费脑筋来想我要听什么基于性别年龄信息,做好歌曲的推荐基于声纹做用户画像,即使一台设备有多个人用,也有针对性的做歌曲推荐根据歌曲的标签,做好歌曲的关联推荐基于智能音箱的第三方开发语音识别多轮交互TTS播报资源播放声纹识别云服务NLP模板智能家居专用文法DEMO 研发支撑智能音箱提供的能力智能音箱厂家提供的支持叮咚开放平台目前各开放平台的显著特征:门槛低开发过程模板化,开发者不用关心语音的处理过程,更多的是关注输入的条件和输出成本低提供云服务,不用

15、关心运营成本带屏智能音箱的兴起继2017年5月Echo Show发布后,近期国内也上市了几款带屏的智能音箱产品带屏音箱的优势强交互人脸识别,弥补声纹识别的短处视频通话AR场景的融入带屏音箱面临的问题和挑战人脸识别p比人脸打卡有更高的要求(更远的距离、更广的角度)p无屏智能音箱宣传唤醒距离的指标,也绑架了人脸识别p为了人脸识别的准确性,要求有更高清晰度的拍摄效果p更高像素的摄像头,需要更好的处理器,更高的硬件成本投入麦克风阵列技术和声学处理算法p环形麦克风阵列不再适用p结构设计更复杂p高价标配高功率喇叭,对算法本身的挑战性p语音通话时要引入双麦通话降噪算法带屏音箱对AI技术的进一步要求p人脸识别,更远的距离,更快的响应,更少的运算量,减少硬件成本负担p消费级的线性麦克风阵列技术还需要进一步优化p其它传感器的引入(红外?),借助于红外检测和人脸识别一体的唤醒技术p带屏智能音箱是AR技术最好的载体,也承载着厂商对于提升自身购物体验的愿景AR技术结合线上购物

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(AI在叮咚智能音箱中的演进和应用.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

  wei**n_... 升级为高级VIP 185**31... 升级为至尊VIP

 186**76... 升级为至尊VIP  wei**n_... 升级为标准VIP

wei**n_...  升级为标准VIP 138**50...  升级为标准VIP

  wei**n_... 升级为高级VIP wei**n_...  升级为高级VIP

 wei**n_... 升级为标准VIP wei**n_...  升级为至尊VIP 

 Bry**-C... 升级为至尊VIP  151**85... 升级为至尊VIP 

136**28...   升级为至尊VIP  166**35... 升级为至尊VIP 

狗**...  升级为至尊VIP 般若  升级为标准VIP

  wei**n_... 升级为标准VIP 185**87... 升级为至尊VIP 

131**96... 升级为至尊VIP  琪**  升级为标准VIP

wei**n_... 升级为高级VIP   wei**n_... 升级为标准VIP

 186**76... 升级为标准VIP 微**...  升级为高级VIP

186**38...  升级为标准VIP  wei**n_... 升级为至尊VIP

Dav**ch...  升级为高级VIP  wei**n_...  升级为标准VIP

wei**n_...  升级为标准VIP  189**34... 升级为标准VIP 

 135**95... 升级为至尊VIP wei**n_...  升级为标准VIP

 wei**n_... 升级为标准VIP  137**73... 升级为标准VIP

wei**n_... 升级为标准VIP   wei**n_... 升级为标准VIP

wei**n_...  升级为至尊VIP  137**64... 升级为至尊VIP 

 139**41...  升级为高级VIP Si**id  升级为至尊VIP

  180**14... 升级为标准VIP 138**48... 升级为高级VIP 

 180**08...  升级为高级VIP wei**n_...  升级为标准VIP

 wei**n_...  升级为高级VIP  136**67... 升级为标准VIP 

 136**08... 升级为标准VIP 177**34... 升级为标准VIP  

 186**59... 升级为标准VIP   139**48... 升级为至尊VIP

wei**n_... 升级为标准VIP  188**95... 升级为至尊VIP

 wei**n_... 升级为至尊VIP  wei**n_...  升级为高级VIP

wei**n_...  升级为至尊VIP  微**... 升级为至尊VIP

139**01... 升级为高级VIP   136**15... 升级为至尊VIP

 jia**ia... 升级为至尊VIP   wei**n_...  升级为至尊VIP

 183**14...  升级为标准VIP   wei**n_... 升级为至尊VIP

微**... 升级为高级VIP  wei**n_... 升级为至尊VIP 

 Be**en 升级为至尊VIP  微**...  升级为高级VIP

186**86... 升级为高级VIP  Ji**n方...  升级为至尊VIP

188**48... 升级为标准VIP  wei**n_...  升级为高级VIP

 iam**in... 升级为至尊VIP wei**n_...  升级为标准VIP

135**70...  升级为至尊VIP   199**28...  升级为高级VIP

wei**n_... 升级为至尊VIP  wei**n_...  升级为标准VIP

 wei**n_...  升级为至尊VIP  火星**r... 升级为至尊VIP

139**13... 升级为至尊VIP    186**69... 升级为高级VIP

 157**87... 升级为至尊VIP 鸿**... 升级为至尊VIP

wei**n_... 升级为标准VIP 137**18... 升级为至尊VIP 

 wei**n_... 升级为至尊VIP   wei**n_... 升级为标准VIP

 139**24... 升级为标准VIP  158**25... 升级为标准VIP

 wei**n_...  升级为高级VIP  188**60...  升级为高级VIP

 Fly**g ... 升级为至尊VIP  wei**n_... 升级为标准VIP 

186**52... 升级为至尊VIP   布**  升级为至尊VIP

186**69... 升级为高级VIP    wei**n_...  升级为标准VIP

139**98... 升级为至尊VIP    152**90...  升级为标准VIP

138**98... 升级为标准VIP  181**96...  升级为标准VIP