1-张志远-智能语音技术测试体系建设.pdf

编号：151959

PDF 60页 29.09MB 下载积分：VIP专享

下载报告请您先登录！

1-张志远-智能语音技术测试体系建设.pdf

1、智能语音技术测试体系建设2023 深圳站张志远负责OPPO小布助手整体质量保障，有CI/CD流程构建、业界标准制定、自动化测试、全链路压测等实践经验。曾就职于网易，从事敏捷测试、平台开发、质量改进和专项测试等工作。OPPO 高级软件测试工程师嘉宾照片2023 深圳站目录CONTENTS背景和意义01 测试场景及解决方案02 听得清-自动语音识别2.1未来展望03 听得懂-自然语言处理2.2 怎么做-对话管理2.3怎么说-语音合成2.42023 深圳站01背景和意义2023 深圳站业务背景-小布助手2023 深圳站业务背景-场景特点情感智能个性设备类型众多领域涉及广泛2023 深圳站业务背景-

2、场景特点情感智能个性设备类型众多领域涉及广泛2023 深圳站ASR（自动语音识别）01NLP（自然语言处理）0203DM（对话管理）04TTS（语音合成）听得清。用于将声学语音进行分析，并得到对应的文字或拼音信息。听得懂。用于将用户的指令转换为结构化的、机器可以理解的语言。怎么做。是对话式交互系统的核心，负责控制整个对话过程。怎么说。即将文本转换成语音，让机器说话。业务背景-语音交互过程2023 深圳站2.1听得清ASR（自动语音识别）：将声学语音进行分析，并得到对应的文字或拼音信息。2023 深圳站ASR测试-介绍自动语音识别自动语音识别（Automatic Speech Recogniti

3、on,ASR）是指通过电脑自动将人类的语音内容转换为相应的文字的过程。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。2023 深圳站ASR识别主要涉及算法效果验证，测试集选取不合理导致结果差异大人工测试效率低，声音质量和音色单一，不能代表真实用户普通音响无法模拟真实人声，测试环境不稳定，结果易受干扰场景构造困难，无法覆盖用户主要场景数据选取环境模拟测试效率场景构造ASR测试-痛点2023 深圳站ASR测试-关键指标字错率字错率(WER)(WER)：Word error rate，词错率，但一般称为字错率，指的是识别结果中替换、删除、插入字符占总字符

4、的比例。S 为替换的字数，常用缩写WSD 为删除的字数，常用缩写WDI 为插入的字数，常用缩写WIH 为正确的字数，常用缩写WHN 为（S替换+D删除+H正确）的字数句错率句错率(SER)(SER)：Sentence Error Rate，指的是句子识别错误的的个数，除以总的句子个数即为SER，计算公式：SER=错误句数/总句数。首字时延（首字时延（TfTf）：计算客户端向服务端发送第一帧语音数据开始，到客户端第一次收到服务端发送的中间结果的时间差。尾包时延（尾包时延（TeTe）：计算客户端向服务端发送最后一帧语音数据开始，到客户端收到服务端发送的最后结果的时间差。2023 深圳站ASR测试-

5、测试方法接口测试：接口测试：方法录制好音频后直接通过接口灌入识别模型优点执行效率高，每小时1w条，成本低廉缺点无法表征端到端表现场景后端算法模型迭代2023 深圳站ASR测试-测试方法端到端测试：端到端测试：方法通过语音助手录制音频发送到服务端获取优点可模拟真实用户操作方法和使用场景，还原度高缺点成本较高、测试效率低场景竞品对比、端到端全链路测试2023 深圳站ASR测试-语料来源语料优化策略，确保领域覆盖充分，测试结果稳定测试集描述目的线上回归集线上脱敏标注数据保障线上效果稳定实验室录制覆盖语音助手不同领域的query，比如音频视频、指令、闹钟、导航等衡量不同领域维度效果数据厂商采买覆盖不同

6、区域、年龄、性别、口音（线上用户调研分布）评测不同场景下的效果TTS合成通过批量生成不同说法文本，利用TTS输出音频指定语料快速生成badcase测试发现、用户反馈等非共性问题提升用户体验热词抓取定期抓取网络热门词语句子，对测试集进行补充保障热点说法可识别语料分渠道搜集：语料分渠道搜集：2023 深圳站ASR测试-场景构造场景场景描述加权值人工干预布局示意图办公室噪音办公室噪音混响时间：0.44，距离：30cm人声噪音（收音处）：60-65db环境噪音（收音处）：55-69db13%1.调整混响消声板安静安静混响时间：0.44，距离：30cm人声噪音（收音处）：60-65db环境噪音（收音处）

7、：NA44%1.调整混响消声板白噪音白噪音混响时间：0.44，距离：30cm人声噪音（收音处）：60-65db环境噪音（收音处）：50-60db23%1.调整混响消声板客厅电视背客厅电视背景音景音混响时间：0.44，距离：30cm人声噪音（收音处）：60-65db环境噪音（收音处）：55-69db5%1.调整混响消声板嘈杂嘈杂混响时间：0.58，距离：30cm人声噪音（收音处）：70-77db环境噪音（收音处）：65-75db8%1.调整混响消声板2.控制音量远距离远距离混响时间：0.44，距离：200cm人声噪音（收音处）：54-71db环境噪音（收音处）：NA3%1.打开消声板2.调整距离

8、、手机平放车载车载80km80km混响时间：0.44，距离：30cm人声噪音（收音处）：54-71db环境噪音（收音处）：58-62db4%1.打开消声板2.调整距离、手机垂直地面客厅场景卧室场景办公室场景驾驶场景商场场景办公室场景2023 深圳站ASR测试-场景构造序号设备类型数量备注1音箱（监听级）4环境噪音播放设备2声卡1多路环境音控制3人工嘴1人声播放设备4录音笔1音频录制使用5分贝仪1分贝测量校准设备6人工嘴支架1/7音响支架4/人工嘴播放语料，声音还原更真实语料数据增加，声纹多样化收音距离、角度可调，音量、混响可调多样化噪音，模拟不同用户环境实验室展示：实验室展示：2023 深圳站

9、ASR测试-性能测试音频波形映射竞品对比：竞品对比：2023 深圳站ASR测试-性能测试拆帧“ffmpeg -i video.avi-r 60 chaifen/%06d.png”竞品对比：竞品对比：2023 深圳站ASR测试-与平台结合设备远程可控不同场景可切换执行过程可视化问题定位方便报告一键输出历史任务可保留智能语音测试平台：智能语音测试平台：2023 深圳站设备适配支持OPPO、一加、各友商等手机ASR端到端效果测试，支持多设备同时在线场景覆盖可构造场景由原本2个提升到15+效率提升全自动化，多个任务连续执行，数据整理耗时4h-5minASR测试-收益2023 深圳站2.2听得懂NLP（

10、自然语言处理）：将用户的指令转换为结构化的、机器可以理解的语言。2023 深圳站NLP测试-语义表示形式自然语言处理自然语言处理（Natural language processing,NLP）语音识别只是知道我们说了什么，但真正要理解我们说的是什么，就需要依靠 NLP 这项技术，其专注于“口语表达和对话”方向的自然语言处理。主要用来解决下面这些问题：分词分词就是将汉字序列切分成词序列，词是承载语义的基本单元。比如“从北京飞上海”的分词为：从北京飞上海。词性标注描述一个词的词性，如名词、动词、形容词等，确定其在上下文中的作用。文本分类将一篇文档归入预定义类别中的一个或几个，比如将某一类邮

11、件归类为垃圾邮件，区分不同新闻的类型等。实体识别在句子中定位并识别人名、地名、机构名、数字、日期等实体。2023 深圳站NLP测试-语义表示形式比如“天气”、“音乐”、“酒店”等。比如音乐领域有“查询歌曲”、“播放音乐”、“暂停音乐”等意图。比如音乐领域有“歌曲名”、“歌手”等槽位。领域是指同一类型的数据或资源，以及围绕这些数据或资源提供的服务。领域（领域（DomainDomain）意图是指对于领域数据的操作，一般以动宾短语来命名。意图（意图（IntentIntent）槽位用来存放领域的属性。槽位（槽位（SlotSlot）深圳今天天气怎么样领域：天气意图：查询天气槽位：地点=深圳，时间=今天2

12、023 深圳站NLP测试-关键指标查准率召回率F1值FNTPTPRecallFPTPTPPrecisionFNFP2TP2TPRP2PRF12023 深圳站NLP测试-面临挑战业务迭代频繁，新需求众多不同领域边界模糊，耦合严重，影响范围不可控质量保障随着新功能增加，用例持续膨胀泛化说法覆盖面广，100+领域，每个领域2000+说法回归效率如何保障效率提升2023 深圳站NLP测试-测试数据构造020304根据需求按照不同垂域进行生成覆盖主要场景和泛化说法人工构造分技能按比例抽样抓取获取大量、真实测试集，语料构造成本大大降低线上真实数据样算法必过测试集持续沉淀保障关键说法结果质量稳定标

13、准测试集沉淀通过内部体验、外部用户反馈获取闭环数据算法自动智能挖掘badcase补充01测试数据集的质量直接影响算法效果的优化方向2023 深圳站NLP测试-测试方法主场景保障全链路回归离线批跑优化现网准召指标每日评测线上监控分层保障算法必过集端到端批跑2023 深圳站NLP测试-测试方法算法必过集按领域分类验证必过集的领域、意图和槽位结果，保障主流程用例100%通过。2023 深圳站NLP测试-测试方法端到端批跑模拟客户端调用接口，将预处理、排序、后处理等逻辑等一并纳入，保障服务端全链路NLP的准确性。2023 深圳站NLP测试-测试方法每日评测定期抽样线上topN数据，在评测环境按技能领域

14、维度进行离线批跑，为NLP效果优化提供持续的反馈指导。2023 深圳站NLP测试-测试方法线上监控评价线上模型准召效果，对现网指标进行监控，保障现网NLP稳定性。2023 深圳站2.3怎么做DM（对话管理）：是对话式交互系统的核心，负责控制整个对话过程。2023 深圳站DM测试-对话管理对话管理对话管理（Dialog Management,DM）对话管理负责控制整个对话过程。维护一些上下文状态和对话策略，输出具体要执行什么动作，比如进一步询问用户以获得必要的信息。DM是对话系统的主体，有如下2个重要的模块：对话状态跟踪（Dialog State Tracking，DST）DST记录T-1甚至T

15、-N状态与当前时间T的状态，结合上下文，确定当前的会话状态；对话策略（Dialog Policy，DP）DP根据会话状态和具体任务决定要执行什么动作。上下文管理维护上下文状态，记录并存储状态生命周期管理管理上下文生命周期，通常按“轮数”或者“时间”配置信息继承包含意图、槽位信息继承、指代消解能力意图澄清意图比较模糊时需要进行澄清，或进一步与用户确认槽位询问要满足某个意图，但必填槽位信息缺失，会要求槽位补齐外部能力调用根据业务判断是否依赖外部能力，包括外部API、其他bot等2023 深圳站DM测试-对话场景ASR和NLP决定了语音交互的下限，DM决定了语音交互的上限。对话系统也是小布助手里最核

16、心的系统之一，覆盖三类典型的对话系统场景。答案精确答案精确限定领域限定领域以最简交互为目标以最简交互为目标答案宽泛答案宽泛长尾限定领域长尾限定领域以最简交互为目标以最简交互为目标1任务型任务型2问答型问答型3闲聊型闲聊型答案宽泛答案宽泛开放领域开放领域以对话轮次为目标以对话轮次为目标2023 深圳站任务型对话场景繁多，前提条件构造困难问答型对话对文档或知识库高度依赖，测试量巨大对话前置条件、多轮语境、不同说法组合构造困难闲聊型对话问题开放，轮次较多，上下文关联较强场景繁多场景构造三方依赖上下关联DM测试-痛点2023 深圳站DM测试-任务型02内容类对话内容类对话03服务类对话服务类对话测试方

17、法测试方法评价指标评价指标场景构造场景构造位置信息、应用列表位置信息、应用列表联系人信息联系人信息条目遍历条目遍历系统设置项系统设置项应用列表应用列表任务完成率任务完成率资源覆盖率资源覆盖率任务型对话任务型对话是指用户希望完成特定任务，对话机器人理解用户意图后，执行后台已对接能力，完成指定任务并回复。01工具类对话工具类对话如日程、闹钟等如日程、闹钟等Q：帮我建一个明天早上九点的闹钟A：好的，明天九点的闹钟设置成功如播放音乐、电台等如播放音乐、电台等Q：播放周杰伦的青花瓷A：好的，已为你播放如导航、订外卖、电影票等如导航、订外卖、电影票等Q：导航到世界之窗A：好的，已为你规划路线202

18、3 深圳站DM测试-任务型任务完成率：任务完成率：Q：定一个闹钟A：定几点的？Q：明天早上九点A：好的，帮你定了明天早上9:00的闹钟Q：导航去世界之窗A：找到多个地点，请问选择第几个？Q：第二个A：已为你规划路线，准备出发Q：明天提醒我开会A：明天几点提醒你？Q：九点A：抱歉，我没有听清，请再说一遍Q：九点A：抱歉，我没有听清，请再说一遍符合预期结果符合预期结果多轮追问补齐多轮追问补齐任务完成代价任务完成代价2023 深圳站DM测试-问答型01 DBQA bot基于文档基于文档的问答，类似传统搜索引擎02FAQ-Bot基于问答对基于问答对的问答，计算FAQ相似度，检索知识库中语料的匹配程度0

19、3KBQA bot基于知识图谱基于知识图谱的问答，通过三元组提取，组装sql来查询测试方法测试方法评价指标评价指标双因子双因子Pairwise组合生成组合生成按实体领域抽样测试按实体领域抽样测试说法泛化能力说法泛化能力检索的准确率和覆盖率检索的准确率和覆盖率三元组提取准确率三元组提取准确率问答型对话问答型对话用户希望得到某个问题的答案，对话机器人匹配到所需答案并回答用户。2023 深圳站DM测试-问答型查一下查一下帮我看看帮我看看最近热门的最近热门的刚上映的刚上映的电影电影电视剧电视剧因子因子1因子因子2因子因子31查一下查一下最近热门的最近热门的电影电影2查一下查一下最近热门的最近热门的电视

20、剧电视剧3查一下查一下刚上映的刚上映的电影电影4查一下查一下刚上映的刚上映的电视剧电视剧5帮我看看帮我看看最近热门的最近热门的电影电影6帮我看看帮我看看最近热门的最近热门的电视剧电视剧7帮我看看帮我看看刚上映的刚上映的电影电影8帮我看看帮我看看刚上映的刚上映的电视剧电视剧因子因子1因子因子2因子因子31查一下查一下最近热门的最近热门的电影电影4查一下查一下刚上映的刚上映的电视剧电视剧6帮我看看帮我看看最近热门的最近热门的电视剧电视剧7帮我看看帮我看看刚上映的刚上映的电影电影泛化测试集优化泛化测试集优化：2023 深圳站DM测试-闲聊型01意图切换意图切换02上下文语境上下文语境03指代消解指代

21、消解测试方法测试方法评价指标评价指标意图切换场景设计意图切换场景设计代词形式分类代词形式分类指代对象分类指代对象分类相关性评分相关性评分多轮对话任务完整执行率多轮对话任务完整执行率指代完成率和正确率指代完成率和正确率闲聊型对话闲聊型对话提供聊天功能，以满足用户情感需求为导向与用户对话。多轮对话期间，不同领域意图切换多轮对话期间，不同领域意图切换多轮对话需要依赖上下文才能理解多轮对话需要依赖上下文才能理解Q：今天天气怎么样A：深圳今天天气晴，气温16到23度Q：那成都呢A：成都今天天气阴，气温13到20度Q：帮我定个闹钟A：定几点的Q：今天天气怎么样A：深圳今天天气晴，气温16到23度Q：李现好

22、帅啊A：我也这么觉得Q：他的代表作有哪些A：李现的河神值得推荐2023 深圳站DM测试-闲聊型相关性评分：相关性评分：评分描述示例3相关，且引导用户持续对话Q：今天天气不错啊A：确实不错，这么好的天气你准备去哪玩呢？2有一定相关，但答案不够准确Q：今天天气不错啊A：深圳今天多云，气温38度1不相关Q：今天天气不错啊A：抱歉，我没有听清评分描述示例3富有感情，能让用户感到温暖Q：播放生日快乐A：生日快乐，愿未来的日子里，你被世界温柔以待2有一定感情，但缺乏亲切度Q：播放生日快乐A：好的，祝你生日快乐1毫无感情Q：播放生日快乐A：已为你播放情感化评分：情感化评分：2023 深圳站满意度提升为多轮对

23、话满意度和完成度优化提供指引效率提升为开发自测赋能，快速定位回归问题场景覆盖全面涵盖真实用户主要场景DM测试-收益2023 深圳站2.4怎么说TTS（语音合成）：即将文本转换成语音，让机器说话。2023 深圳站TTS测试-简介语音合成语音合成（Text To Speech,TTS）将文本转化为声音，目前广泛应用于语音助手、智能音箱、地图导航等场景。不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现，如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。2023 深圳站效果评价偏主观，不同产品难以横向对比优劣人工试听合成音频，手工整理测试结果，效率低测试集场景覆盖

24、度低，合成效果验证维度不够全面主观评测需要考虑发音、韵律、字清晰度、字典覆盖率等过于主观场景覆盖效率低下维度多样TTS测试-痛点2023 深圳站TTS测试-客观测试测试维度线上高频语料回归根据技能垂域进行分类，捞取线上topN的TTS回复文本和音频构成评测集。将音频导入ASR得到识别文本，与实际回复文本进行比对，计算字错率和句错率指标。专项测试构建多音字（常见多音字、多音姓氏、固定搭配读法）数字发音（时间日期、金额、年代、电话、分数小数百分数）符号发音（分隔符、计量单位、全角符号）中英混合（单词插入、英文缩写、字母）实时率和首包响应时间效果性能实时率（RTF，文字合成所需时长/文字合成出的音频

25、时长）首包响应时间，针对流式合成音频，评估整体运算速度2023 深圳站TTS测试-主观评测发音准确度发音准确度包括多音字、生僻字、数字、符号、夹杂英文等整体自然度整体自然度吐字清晰、前后鼻音、语气语调、态度情感等字词清晰度字词清晰度采用汉语清晰度诊断押韵测试和语义不可测法评测清晰度指标韵律准确度韵律准确度分词、停顿、发音时长、语速快慢等字典覆盖率字典覆盖率建立不同等级的字库和生僻字库的测试语料，检查是否能正常处理MOS评测评测：2023 深圳站TTS测试-主观评测MOS评测评测：MosMos评分评分评级评级音质音质流畅度流畅度正确性正确性自然度自然度分词与停顿分词与停顿音色音色5优广播级别高高

26、很自然，已无法分辨合成声音与自然人声高优秀4.5普通人对话水平高高整体完整，没有明显的不正常的韵律起伏高较优秀4一到两个音节模糊无明显卡顿无明显错误无严重韵律错误无明显错误良好3.5良偶尔有几个音节不清晰比较流畅错误较少韵律起伏较为正常较为正常良好3中有一些音节不清晰不太流畅有容易察觉的语言错误有一些不太正常的韵律起伏有一定错误一般2差有一些词不太清晰不流畅难以理解基本没有韵律起伏错误较多差1劣很不清晰无流畅可言基本无法理解基本没有韵律起伏错误较多明显机器音2023 深圳站可量化指标明确，客观测试和主观评测结果可量化自动化音频合成及客观测试全自动化，测试详情一键输出，测试时间8h-1h高

27、覆盖高频语料保障产品基础体验，专项测试集打磨细节，线上badcase闭环修复TTS测试-效果2023 深圳站03未来展望2023 深圳站未来展望自然语言理解知识图谱文字交互文字交互以文本形式与用户交互依赖用户双手输入文本以文本展示给予用户反馈文字交互触屏触屏交互触屏交互以触屏方式与用户交互依赖用户手部接触通过GUI给予用户反馈文字交互语音识别语音合成语音交互语音交互以语音形式与用户交互释放双手，一语即达通过VUI给予用户反馈语音交互计算机视觉多模态驱动多模态交互多模态交互以虚拟人形态与用户交互释放双手，一语即达通过语音、表情、手势、动作等给予用户反馈智能交互技术发展智能交互技术发展：感谢聆听C

28、SDN全球最大的中文开发者社区平台CSDN全球最大的中文开发者社区平台CSDN创立于1999年全球编程类网站排名第7（来源：Similarweb 2023.04）注册用户超过4300万，覆盖90%的中文开发者新媒体矩阵粉丝数量超过3100万超过1000家企业客户和合作伙伴目前公司员工近800名，分布在北京、长沙、上海、深圳、杭州、成都等城市，并在美国硅谷常设办事处旗下品牌旗下品牌专业中文IT技术社区：CSDN.NET多媒体专业出版：新程序员开发者专属移动APP:CSDN APP代码托管协作平台：GitCode代码工具协同平台：InsCodeIT人力资源服务：科锐福克斯丨八爪网络高校IT技术学习成长平台：高校俱乐部

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（1-张志远-智能语音技术测试体系建设.pdf）为本站（2200）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。