《6-3 大模型推动的人机交互对话.pdf》由会员分享,可在线阅读,更多相关《6-3 大模型推动的人机交互对话.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、1大模型推动的人机交互对话百度自然语言处理部 鲍思琪2对话系统概览 任务型对话系统 完成特定任务,定闹钟、播放歌曲等等 Apple Siri、Amazon Alexa、Baidu Xiaodu 开放域对话系统 能在开放领域内,进行有意义地对话 Google Meena、Meta Blender、Baidu PLATO3端到端对话生成 对话系统的新机遇 网络架构 Encoder 编码对话上文 Decoder 生成对话回复 训练语料 人人对话语料 训练目标 Minimize Negative Log-Likelihood4开放域对话面临的挑战内容空洞、缺乏信息知识滥用5百度 PLATO内容空洞、缺
2、乏信息知识滥用基于隐变量的预训练对话生成技术融合知识的弱监督对话生成模型实现了开放域下更合理、更多样化的生成提升了对话丰富度和知识准确率6开放域对话“一对多”问题 对话语料背景复杂,使得对话成为一个一对多问题 一 一映射的神经网络,容易产生安全回复7PLATO-1 隐空间对话生成模型8PLATO-1 效果示例9PLATO-2 基于课程学习的通用对话模型 网络规模:16亿参数 32层 训练语料:深度清洗后中文语料12亿(千亿级Token),英文语料7亿(千亿级Token)Unified TransformerCurriculum LearningDiverse GenerationRespons
3、e Evaluation10PLATO-2 基于课程学习的通用对话模型 开放域闲聊模型 PLATO-2 是否可赋能任务型或者知识对话?11PLATO-2 in DSTC-9在 DSTC9 三个赛道6 项任务中,取得了5 项冠军12PLATO-XL 首个百亿参数中/英文对话生成模型13PLATO 对话效果50%60%70%80%90%100%合理性丰富度吸引度中文多轮开放域聊天评估百度小冰小爱天猫精灵图灵40%50%60%70%80%90%100%合理性丰富度吸引度英文多轮开放域聊天评估百度PLATODialoGPTMeenaBlender14PLATO 对话效果15百度 PLATO内容空洞、缺
4、乏信息知识滥用基于隐变量的预训练对话生成技术融合知识的弱监督对话生成模型实现了开放域下更合理、更多样化的生成提升了对话丰富度和知识准确率16知识滥用17融合外部知识 融合外部知识,有希望改善知识滥用问题 挑战 大规模对话语料,缺乏外部知识选择的标签信息18PostKS 基于后验指导的知识选择PostKS 训练过程19PLATO-KAG 基于联合优化的无监督知识对话 联合建模 知识选择&基于知识的回复生成 训练、推理一致 端到端优化提升回复对知识的利用能力20PLATO 全面知识增强对话21PLATO 融合知识对话效果22知识滥用 知识滥用问题,这是解决了吗?Not yet,缓解而已 开放域对话
5、提升知识能力的几个关键点 外部知识的触发时机 知识选择的准确性 回复中知识利用的合理性及保真度23对话大模型落地应用、挑战及展望24落地应用25落地应用26落地应用遇到的挑战 推理性能 极致算子融合减少 98%算子数量 计算精度优化减少 40%显存 推理卡适配 A10 降低使用成本 架构优化及平台迁移降低链路开销优化效果优化前(V100)优化后(A10)优化比例模型推理耗时1.2s292ms降低 75.67%QPS0.833.42提升 312.05%1QPS GPU 使用成本2141元/月201元/月降低 90.61%稳定性99.6%99.99%27落地应用遇到的挑战 对话安全性 挑战 对话安
6、全涵盖面较广,包括有害言论、群体歧视、政治敏感、个人隐私等等 不同群体的安全性侧重存在差异 优化策略 语料深度清洗,删去不安全对话样本 安全判别模型,移除不安全候选回复 维护关键词表,针对用户敏感话题返回预定回复 对抗攻击训练,查漏补缺提升安全性28展望连贯,流畅,丰富,跨领域人设,情感,常识,专业知识人格,思辨,缜密推理领域内问答,特定任务处理,兜底道阻且长,行则将至行而不辍,未来可期29ReferenceSiqi Bao,Huang He,Fan Wang,Hua Wu and Haifeng Wang.PLATO:Pre-trained Dialogue Generation Model
7、 with Discrete Latent Variable.ACL 2020.Siqi Bao,Huang He,Fan Wang,Hua Wu,Haifeng Wang,Wenquan Wu,Zhen Guo,Zhibin Liu,Xinchao Xu.PLATO-2:Towards Building an Open-Domain Chatbot via Curriculum Learning.Findings of ACL 2021.Huang He,Hua Lu,Siqi Bao,Fan Wang,Hua Wu,Zhengyu Niu,Haifeng Wang.Learning to
8、Select External Knowledge with Multi-Scale Negative Sampling.AAAI 2021 DSTC9 Workshop.Siqi Bao,Bingjin Chen,Huang He,Xin Tian,Han Zhou,Fan Wang,Hua Wu,Haifeng Wang,Wenquan Wu,Yingzhan Lin.A Unified Pre-training Framework for Conversational AI.AAAI 2021 DSTC9 Workshop.Siqi Bao,Huang He,Fan Wang,Hua W
9、u,Haifeng Wang,Wenquan Wu,Zhihua Wu,Zhen Guo,Hua Lu,Xinxian Huang,Xin Tian,Xinchao Xu,Yingzhan Lin,Zhengyu Niu.PLATO-XL:Exploring the Large-scale Pre-training of Dialogue Generation.arXiv:2109.09519.Rongzhong Lian,Min Xie,Fan Wang,Jinhua Peng,Hua Wu.Learning to Select Knowledge for Response Generati
10、on in Dialog Systems.IJCAI 2019.Xinxian Huang,Huang He,Siqi Bao,Fan Wang,Hua Wu,Haifeng Wang.PLATO-KAG:Unsupervised Knowledge-Grounded Conversation via Joint Modeling.NLP4ConvAI workshop 2021.Xinchao Xu,Zhibin Gou,Wenquan Wu,Zheng-Yu Niu,Hua Wu,Haifeng Wang,Shihang Wang.Long Time No See!Open-Domain Conversation with Long-Term Persona Memory.Findings of ACL 2022.