《王林林-哈啰出行智能客服:如何应用语言模型提升机器人服务能力.pdf》由会员分享,可在线阅读,更多相关《王林林-哈啰出行智能客服:如何应用语言模型提升机器人服务能力.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、LLM在哈啰智能客服应用实践主讲人:Alan 王林林演讲嘉宾介绍王林林哈啰人工智能&地图平台 高级算法专家 哈啰智能客服算法的负责人。带领团队打造的机器人系统把解决率提升了一大个台阶。在清华、香港科大研究NLP技术,接着在阿里小蜜团队参与多个创新性项目,积累了丰富的行业经验。对于用NLP技术解决实际问题充满热情和好奇心,近年亲身体验了大语言模型在通用对话方面所展现出来的惊人潜力。ABOUT US数据截至2022年12月底BUSINESS SCALE业务规模单车业务单车业务注册用户5.95.9亿亿入驻城市(含县级市)400+400+个骑行总里程348348亿公里累计减少碳排放169169万吨入驻
2、城市(含县级市)400+400+个累计减少碳排放5353万吨助力车业务助力车业务顺风车业务顺风车业务覆盖城市(含县级市)300+300+个认证车主逾20002000万万名门店3000+3000+家电动车业务电动车业务覆盖城市(含县级市)300+300+个换电业务换电业务骑行总里程123123亿公里 打车业务打车业务覆盖城市(含县级市)200200个CONTENT目录01哈啰智能客服的总体介绍和算法流程LLM的评测和应用:答疑机器人网约车智能判责及其平台化0203应用度量学习提升新意图发现的准确率主动服务-打造令人惊喜的下一代服务0405Part 01哈啰智能客服的总体介绍和算法流程 用户在哈啰
3、智能客服的历程用户在哈啰智能客服的历程云客服受理占比达云客服受理占比达70%70%Part 02LLM的评测和应用:答疑机器人 生成式模型用于答疑机器人 摘要、背景 机器人设计、模块 评测开源基础模型是否适合 实体抽取的优化生成式模型用于答疑机器 减轻研发人员工作量 任务型机器人设计 基座大模型+领域数据微调 通过微调,提升域内表现摘要订单逻辑复杂,答疑工作多基于大模型的钉钉机器人意图识别信息抽取问题解答自动解决实现自动答疑或直接解决解决80%的答疑问题应用场景:智能客服、任务型机器人、知识库问答(wiki文档)NLU任务处理:订单逻辑分析DM提出问题追问解决问题多轮会话ES问答机器人案例哈啰
4、LLM大模型QABotDMTaskBotDM测试研发研发背景人工定位问题:ES API熟练使用识别返回结果时间成本期待通过程序代码对返回结果进行解析,给用户返回可解释的原因,提高效率。机器人设计数据同步层通过DataMan、HMS、Dump等平台提供的API检测数据同步链路召回诊断层通过explain查询检测是否被字段查询过滤通过收集ES插件日志检测是否被自定义查询过滤意图识别层通过调用算法部署的意图识别服务获取意图和实体通过多轮对话对缺失槽位追问机器人模块意图识别:定位是否为答疑类问题;实体识别:抽取需要信息,槽位未填满则进行追问;意图识别实体抽取语义匹配模型+规则匹配评测开源基础模型是否适
5、合 清华开源的ChatGLM-6B 参数较小,A100上RT 2s内,QPS也OK 中文任务支持高基础架构训练方式参数量训练数据使用成本优缺点LLaMAGPT自监督预训练7B、13B、33B、65B1T(万亿)-1.4T词汇,以英语为主的拉丁语系以7B模型为例,加载大约要15G显存优点:13B版本在大多数测评任务中优于GPT3(175B);缺点:中文任务支持差,没有多轮对话能力。AlpacaGPTLLaMA+chatGPT数据微调,训练一次成本不到500美元7B52K英文指令数据,15G显存优点:最早的类chatGPT模型,成本低;缺点:中文支持不好。VicunaGPTLLaMa+用户对话微调
6、,训练一次成本300美元13B70K条对话数据30G显存优点:在英文测评任务上达到90%chatGPT效果;缺点:中文效果一般,存在偏见性。GLM-130BGLM自监督预训练多任务预训练130B1T中文文词汇300G显存(大约4张A100)优点:类似GPT3,多种任务效果好;缺点:模型大,依赖资源重,多轮对话不支持MOSSGPT自监督预训练SFT数据微调13B左右700B中英文词汇,110W多轮对话数据30G显存优点:中文任务支持好,支持插件能力;缺点:效果和插头GLM差不多,但是显存使用是2倍chatGLMGLM自监督预训练多任务预训练SFT数据微调6B1T中文文词汇,多轮对话数据14G显存
7、优点:中文任务支持高,不断在迭代优化;缺点:参数量小,哈啰业务上直接使用效果差原生效果怎么样?-阅读理解任务 数据集cmrc2018 跟有监督的RoBERTa-large相近请阅读以下描述并从原文抽取答案回答问题:context工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据华尔街日报报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。请问:question 什么是傻钱策略?回答:a
8、nswer 所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合Chatglm:傻钱策略是所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合实体抽取优化-优化提示 动作 Prompt工程,给模型更清晰的提示 结果 实体识别准确率:40%45%问题 回复内容不可控导致准确率低实体抽取优化-融入GPT4指令 动作 GPT4中文指令 微调P-tuning 结果 指令遵从性 NER准确率45%65%问题 响应时间10s,影响体验实体抽取优化-学习哈啰知识 动作LoRa指令微调混合精度训练增多高质量数据,增强泛化性 问题 追问识别不好 结果 实体识别准确65%92.5%响应时间2-3s
9、新的测试集中有没见过的名词,比如将训练集中的“司机订单号”换成了“货主订单”、“车主订单”、“送货订单号”等;实体抽取优化-优化追问,训练trick 动作加入追问数据平衡数据比例注意训练回合数 问题平台缺少部署大模型能力大规模数据训练周期长 结果 实体识别准确率92%97%追问时实体识别准确率60%100%实体抽取的小结01优化提示借鉴GPT4学习哈啰知识优化训练020304 动作 GPT4中文指令数据 微调P-tuning 结果 回复内容可控 实体准确率45%65%问题 响应时间10-15s,影响用户体验 动作 增加高质量数据 LoRa指令微调 混合精度训练 结果 实体识别准确65%92.5
10、%响应时间2-3s 问题 追问识别不好 动作 加入追问数据 注意训练trick 结果 实体识别准确率92%到97%追问准确率到100%问题 平台缺少部署大模型能力 大规模数据训练周期长 动作 Prompt工程,给模型更清晰的提示 结果 实体识别准确率:40%45%匹配准确率0%问题 回复内容不可控导致准确率低Part 03网约车智能判责及其平台化 摘要、背景 系统架构和流程 算法解决思路 模型演进 经验教训是什么摘要智能渠道缺少判责体系,解决能力弱,用户无法通过自助服务在智能侧便捷解决问题 先前方案:用户通过多轮会话,定位用户问题,提供处置方案自助解决。有信息割裂问题,交互过多问题。现今方案:
11、构建客服智能判责平台,接入自助、机器人、人工服务渠道,提升客服侧产品和工具的解决能力。实现了更高级别的自动化 业务效果:提升首解率:顺风车*%、打车*%系统架构两轮好的申诉能力覆盖不全申诉链路长用户体验不佳申诉能力不完善导致用户不使用四轮业务自助申诉能力偏弱申诉链路长用户体验不佳 通过对客服大厅建设统一服务入口与自助申诉能力,将各业务线的申诉统一收口到客服侧。(痛点:自助申诉透出规则复杂,未规则化,运营无法直接配置。)重点沉淀了智能仲裁能力、规则管理能力;(痛点:申诉链路长,人工客服判责费力)建设风控能力,降低恶意用户退款。(痛点:人员风控粒度较粗,规则因子较少,无法做到千人千面)渠道热线在线
12、业务线单车助力车顺风车打车优化已建新建产品能力智能机器人模型分析IM自助申诉模型训练关联问客服坐席工作台自动判责审核服务引导客服大厅服务进度自助服务猜你想问自助申诉业务能力仲裁自助申诉策略判责规则智能/人工策略风控行为风控风控规则工单自动工单工单流转工单审核赔付优惠券赔付池优惠券赔付异常赔付流程处理知识库多轮问答标准问知识库规则规则因子规则管理规则执行外部依赖算法模型顺风车判责模型打车判责模型地图平台地图平台行车路线分析轨迹重合分析两轮平台两轮平台骑行信息卡券/红包查询四轮平台四轮平台轨迹信息违约金扣/返信用分服务信用分扣/补司乘服务责任改判系统流程算法解决思路特征:基础特征(订单、轨迹)画像
13、特征(行为特征、用户画像)文本(司乘IM信息、司乘通话记录)规则(规则判责结果)标签:客服取消判责标签客服改判标签模型演进算法设计:判责规则-XGBoost-损失函数-阈值策略-直接融合文本深度模型优化技术:小样本学习、置信学习、标签平滑、损失函数、特征选择。经验教训是什么做的好的地方有待提升的地方多模态判责难:1+12;平台能力:搭建了客服仲裁平台,用户问题可以及时被解决,服务效率提升;算法模型替换部分复杂规则:网约车判责牵涉非常多的特征,人工规则非常难以穷尽所有可能,模型可从巨大的空间中学习;判责平台配置费力度高:一期的仲裁平台更多是从产研视角设计配置功能,对于业务运营同学配置费力度高;数
14、据反馈,问题归因偏慢Part 04度量学习技术提升新意图发现的准确率 摘要、背景 传统聚类方法的局限 两个关键创新 数据设置 结果和讨论摘要 用户经常会有新的问法(意图),需要及时发现 传统做法:对未识别问题聚类,然后人工选出新意图(又称为开放意图,未知意图,未知类)我们做法:识别已知类和未知类,然后从未知类中选出 结果:推荐出的新意图占比提升50%,人工审核效率提升 公开数据集上击败SOTAOut-of-Scope Intent Detection with Supervised Deep Metric Learning.IJCNN 2023 Brisbane Australia传统聚类方法
15、的局限 聚类方法 人工审核效率低,推荐的新意图占比低自适应确定决策边界 例如“车主为什么不接单”,“车主不愿意接单”这一类的表述,是没有的类别。需要识别为第K+1类 到每个类别中心的距离d是否在所有边界(球)外,判断是否为新的 边界的半径自适应学习而来更好的语义特征表达+难正负例采样 引入度量学习,三元组损失 每个batch选择跟锚点最远的正例,最近的负例数据+设置 数据:3个该领域的权威公开数据集 设置:随机选择25%,50%,75%的类别作为已知意图,其余都作为新意图(开放意图,第K+1类)结果 数据划分:随机x%的类作为已知类,剩下的未知类。80%的数据作为训练集,其余为测试集 任务:做
16、二分类,F1是对未知类 数据划分:和左边一样 任务:做K+1分类,分别对已知、未知类计算F1Github:https:/ 自适应地确定决策边界,避免人为设置阈值的弊端。利用度量学习,侧重于获得更加各向同性的意图表达。为后续分类和学习决策边界创造了条件。可从T-SNE可视化印证摘要 用户经常会有新的问法(意图),需要及时发现 传统做法:对未识别问题聚类,然后人工选出新意图(又称为开放意图,未知意图,未知类)我们做法:识别已知类和未知类,然后从未知类中选出 结果:推荐出的新意图占比提升50%,人工审核效率提升 公开数据集上击败SOTAOut-of-Scope Intent Detection with Supervised Deep Metric Learning.IJCNN 2023 Brisbane AustraliaPart 05总结和展望 总结 展望总结 LLM的评测和应用:答疑机器人 基座模型选型 融入领域知识:微调 网约车智能判责及其平台化 系统设计 复杂场景下算法判责 应用度量学习提升新意图发现的效率 更好的语义特征表达:对比损失 自适应生成决策边界:分隔球未来展望:主动服务-打造令人惊喜的下一代服务THANKS