2-张炳淑-智能服务分层评测体系.pdf

编号：152015

PDF 40页 8.15MB 下载积分：VIP专享

下载报告请您先登录！

2-张炳淑-智能服务分层评测体系.pdf

1、智能对话指标评测体系张炳淑蚂蚁集团测试开发专家本文件仅供技术交流，不得用于商业用途。本文件内容严格保密，未经许可，任何组织和个人不得复制、传播张炳淑（雨湉）校招入职蚂蚁集团后，先后负责财富平台、社区内容及智能服务场景，从事智能服务场景质量工作5年，目前为财保事业群-财保技术部-财富及平台-智能服务质量负责人。蚂蚁集团-财保事业群-测试开发专家嘉宾照片目录CONTENTS!#$%&!#$%&01 !#$%()*+!#$%()*+02#$,-./#$,-./03 ,-012.,-012.04 Badcase3405 56706 01!#$%&!#$%&智能对话的发展历程1960 年ELIZA 第

2、一个被引用的聊天机器人诞生1972 年帕里是第一个狭义领域通过图灵测试的对话机器人2005 年苹果发布了SIRI2016 年Google 发布了 Google Assistant2018 年OpenAI发布GPT系列2001 年Eugene Goostman，通过了有史以来最大的图灵测试29%评委-13岁虚拟男孩1950 年今天智能对话的应用近年来，人工智能技术的快速发展已经在各个领域展现出了巨大的潜力和应用前景。其中，智能对话系统作为人工智能技术的一个重要分支，正逐渐成为人们生活中不可或缺的一部分。智能音响车载语音助手导诊/导购机器人软件客服机器人ChatGPT智能对话系统的分类任务型闲聊型

3、问答型智能助手（订票，导航等）客服系统聊天机器人综合机器人任务型对话的典型架构Pipeline式ASR-语音-文本TTS-文本-语音NLU（Natural Language Understanding）-意图理解DM（Dialogue Manager）-对话系统的中控NLG（Natural Language Generation）自然语言生成02!#$()%!#$()%*+,-.*+,-.智能对话场景的质量难点大量算法模型引入-输入无限集、输出不确定，评测难度、评价难度增加内容可控-对话内容的安全、可控、符合业务场景要求（金融严谨性）海量badcase-链路高复杂度，归因处理困难智能对话质量被

4、cue 的top问题问法想全了没？用户会问这种Case吗这些Case执行完，就能上线了是吗？这个迭代效果咋样，聪明点了没？这么多badcase，到底是哪儿的问题？智能对话系统质量要解决的几大问题1、评测怎么做？2、怎么评估好坏？3、怎么做问题归因？你觉得xxx现在是个什么水平？03智能对话评测系统智能对话评测体系1、评测怎么做-评测目标智能对话评测体系评测体系考试体系1、评测怎么做-评测方案北极星指标：对话准确率能力项指标：意图理解准确率情绪识别准确率知识储备率北极星指标：总分能力项指标：计算题得分阅读理解题得分创作写作题得分智能对话评测体系1、评测怎么做-评测方案需要解决2大重点问题：1、考

5、题系统、2、阅卷系统考点完备性分层管理可信力敏捷性准确性阅卷成本1、考题系统2、阅卷系统智能对话评测体系（金融样本库）1、评测怎么做-评测方案-考题系统（分层评测）智能对话评测体系1、评测怎么做-评测方案-考题系统（不同层评测集的关系示例）智能对话评测体系基金是什么？基今是什么？啥是基金讲下基金不懂怎么理财，能不能先给我讲讲，比如基金智能对话评测体系ParaphrasingNoisingSamplingPrompt Engineering（PE）!基础金融样本!NLP数据增强算法!#生成式大模型!$对抗生成金融知识、百科问答等标问双机器人模拟对抗测试1、评测怎么做-考题系统智能对话评测体系1、

6、评测怎么做-考题系统-泛化生成传统NLP样本增强算法Paraphrasing（改写：保留原始的语义下，更改句子中的词、短语、句子结构）；Noising（噪音：在保证label不变的同时，增加一些离散或连续的噪声，保留原始语义）；Sampling（多样：旨在根据目前的数据分布选取新的样本，会生成更多样的数据）生成式大模型推理泛化Prompt设计：情景、约束、输入、输出、反馈泛化能力-问法泛化推理能力-安全攻防智能对话评测体系双机器人对抗用例生成示例1、评测怎么做-考题系统-对抗生成双机器人对抗相似度模型判别Acc94%+，大模型推理Acc80%+初始化人工阅卷冷启动版本答案标注相似度判别利用Ro

7、former-sim/生成式大模型进行历史答案判别大模型推理利用PE进行答案正确性推理，人机双路对比智能对话评测体系1、评测怎么做-阅卷系统智能对话评测体系1、评测怎么做-阅卷系统自动化阅卷系统直接阅卷阅卷打分专家规则相似度判别模型推理人工校准04智能对话指标体系智能对话指标体系2、怎么评估好坏？-设计评测指标业务价值（结果指标）能力迭代（驱动指标）用户度量（纠偏指标）反馈校准验证质量开发线上用户智能对话指标体系2、怎么评估好坏？-评测指标有分层结构产品层商业层数据层GMVAUMNPSMAU二轮率留存率采纳率智能化服务智商分AI价值分工程层稳定性性能服务承接算法模型层回答率准确率鲁棒性知识供给

8、率业务数据质量业务价值（结果指标）标注准确率能力迭代（驱动指标）用户行业度量（纠偏指标）2、怎么评估好坏？-能力迭代驱动指标定义业务场景核心能力抽象定义智能对话指标体系XX售前客服机器人销售客服（服务者）平台idol沟通表达能力销售专业技能领域知识储备服务安全可控举个例子智能对话指标体系2、怎么评估好坏？-北极星能力指标语言力知识力专业力可控力NLU意图理解多轮专项情绪识别话术表达生成金融知识库知识图谱金融专业性安全性业务适当性科技伦理服务数据服务专业性核心能力关键技术/专项定义智能对话指标体系以NLU意图理解为例：北极星能力指标向下拆解关键技术北极星指标关键卫星支撑指标2、怎么评估好坏？-北

9、极星能力指标向下拆解05Badcase治理智能对话badcase治理3、badcase归因治理？-用户问题远比评测集更加发散金融服务客服咨询投教知识闲聊日级badcase 近千智能对话badcase治理3、badcase归因治理？-自动分发归因能力对话工程分发样本模型排查内容生产任务金融样本库评测效率有效金融基础样本数十万+泛化增强金融样本近百万指标驱动指标驱动的研发迭代模式迭代周期月级-周/天级智能对话评测系统的成果数十模型模块自动化评测能力，全链路核心卫星指标自动更新（评测效率+150%）核心场景智能阅卷准确率90%+业务成果：端到端对话准确率提升10%+，badcase修复率提升200%能力沉淀：完整的智能对话分层评测方案和指标评估体系，全方位刻画智能对话系统的能力水位06/01/01未来展望大模型时代智能对话可控性评测多模型指标的智能化归因及预测个性化对话系统评测感谢聆听关注QECon公众号

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2-张炳淑-智能服务分层评测体系.pdf）为本站（2200）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。