《刘伟-aidd2023北京站演讲-大语言模型评价的挑战和实践.pdf》由会员分享,可在线阅读,更多相关《刘伟-aidd2023北京站演讲-大语言模型评价的挑战和实践.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、大语言模型评价的挑战刘伟 小米演讲嘉宾刘伟小米AI实验室算法总监小米AI实验室大模型算法负责人,北京大学心理与认知科学学院硕士行业导师,清华大学机器学习课程答辩导师,微软小冰初创成员。研究方向:人机对话和大语言模型。有超过10年的人机对话从业经历,主导和深度参与了微软小冰、小爱同学等业界具有影响力的人机对话产品的研发,并有数项专利和顶会论文发表。目 录CONTENTS1.模型评价概述2.大语言模型评价的挑战模型评价概述PART 01模型评价的目标模型评价的目标是选出泛化能力强的模型完成机器学习任务泛化能力强的模型能很好地适用于未知的样本,模型的错误率低、精度高。机器学习任务中,我们希望最终能得
2、到准确预测未知标签的样本、泛化能力强的模型。1.splitDataTest DataValidation DataTrain DataModel 1Model nModel 22.trainFinal Model3.select评价结果4.test模型评价的重要性模型评价方法是指引技术发展的灯塔-用于评估模型的好坏,客观真实的量化评价-作为模型选择和调参目标-作为模型优化目标灯塔是否是一成不变的?模型评价的原则-公平性(Fairness):-客观真实的评价模型效果-公正对比不同模型-可重复(Reproducibility)-相同设置下(硬件、软件、人员、环境等)的多次评价具有一致的结果-低代价
3、(Cost-efficient)-评价成本低、效率高模型评测的主要方法-人工评价 vs 自动评价-人工评价:通过人工标注模型结果质量-自动评价:通过机器判断模型结果质量图灵测试(1950)阿兰图灵(1912-1954)模型评测的主要方法-人工评价 vs 自动评价-人工评价:通过人工标注模型结果质量-自动评价:通过机器判断模型结果质量分类抽取序列标注回复受控易于自动评价对话生成故事生成回复空间很大难于自动评价vs大语言模型自动化评价的核心是构建评测方法让回复空间受限模型评测的主要方法人工评价自动评价公平性可重复低代价GPT-4做评价代价也不低和普通的标注人员成本相当模型评测的主要方法-离线评价
4、vs 在线评价-离线评价:模型部署线上环境前,在离线环境下进行的评价-在线评价:根据模型在线反馈进行的评价净评价值CTR(Click Through Rate)模型评测的主要方式-基于参考答案(reference-based)vs 无参考答案(reference-free)-综合评价vs 多方面评价-样本评分 vs 样本比较或者排序机器翻译:BLEU新闻生成摘要BertScore模型评测的主要方式-基于参考答案(reference-based)vs 无参考答案(reference-free)-综合评价 vs 多方面评价-样本评分 vs 样本比较或者排序综合评价相对困难,一般会转换成多方面评价,
5、以小爱闲聊对话的标准为例:满意度合理性信息度趣味性共情性综合评价多方面评价vs模型评测的主要方式-基于参考答案(reference-based)vs 无参考答案(reference-free)-综合评价 vs 多方面评价-样本评分 vs 样本比较或者排序样本1样本23分4分样本2样本1能够给出模型效果的绝对值可靠性比较高样本评分样本比较大语言模型评价的挑战和方法PART 02大语言模型百花齐放大语言模型评估各自为战1.模型结果的表述方式丰富多彩2.不同评测方式得到的排序结果不同3.目前评测大语言模型没有一个完美、共识的方案大语言模型评估的挑战 模型侧:通用能力强,评测范围广 Prompt敏感,
6、如何公平的比较不同的模型 动态演化 评估侧:多数情况没有标准答案,难以自动评估 普通标注人员能力不足:模型能力 普通标注人员能力大语言模型评估需要关注的问题 能力边界 Case边界 指令形式 自动化量化能力边界语言理解与抽取闲聊上下文对话角色扮演知识与百科生成与创作代码逻辑与推理计算安全SuperCLUE-Open是一个多轮开放域中文基准,包括600个高质量多轮问题。这里面的问题用于评估中文大模型对话能力和遵循指令的能力https:/ 是一款开源、高效、全面的评测大模型体系及开放平台。基于语言、知识、推理、学科、理解,5大维度,50余个数据集评估大语言模型能力https:/ act as an
7、 impartial judge and evaluate the quality of the responses provided by two AI assistants to the user question displayed below.You should choose the assistant that follows the users instructions and answers the users question better.Your evaluation should consider factors such as the helpfulness,rele
8、vance,accuracy,depth,creativity,and level of detail of their responses.Begin your evaluation by comparing the two responses and provide a short explanation.Avoid any position biases and ensure that the order in which the responses were presented does not influence your decision.Do not allow the leng
9、th of the responses to influence your evaluation.Do not favor certain names of the assistants.Be as objective as possible.After providing your explanation,output your final verdict by strictly following this format:A if assistant A is better,B if assistant B is better,and C for a tie.角色说明标注指导行为方式输出要
10、求https:/ 1问题 2回复 1回复 1回复 2评估结果询问评估结果基于思维链评估的大语言模型评估以下是输入的问题:query请问该问题的意图是什么,需要帮忙做什么?,以下是待评价的回复:response请问回复说了什么?请问回复是否完全符合用户意图且解决了用户的问题?请问回复是否包含反复重复的内容?请问回复是否有错误?从候选评价中选择个评价,请回答选项序号。问题1:总结问题的意图问题2:总结回复的内容问题3:判断是否符合意图问题4、5:判断回复质量问题6:询问评估结果以人类为参考的准确率:0.5306选择理由 vs 思维链人工评估选择理由评估CoT评估模型排序均分模型排序均分模型排序均分
11、ChatGPT1.715ChatGPT1.87ChatGPT1.769文心一言1.545ChatGLM-130B1.812ChatGLM-130B1.678ChatGLM-130B1.468ChatGLM-6B1.725ChatGLM-6B1.611ChatGLM-6B1.282文心一言1.632文心一言1.494ChatYuan-large-v21.092ChatYuan-large-v21.376moss-sft1.168moss-sft0.919moss-sft1.374ChatYuan-large-v2 1.1221.模型性能排序几乎与人工致,除了文心言的定位:ChatGPT Chat
12、GLM-130B ChatGLM-6B ChatYuan-large-v2 moss-sft32.CoT方法区分度大(ChatGPT 1.769-ChatYuan 1.122)自动化量化通过考试试题来验证大语言模型的能力C-Eval:是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。https:/ Your Language Model Pass Chinese Elementary School Math Test?https:/arxiv.org/pdf/2306.16636.pdf指令中增加干扰后,除了GPT-4模型效果明显下降总结 模型评价概述:模型评价目标:选出泛化能力强的模型 模型评价原则:公平性、可重复、低代价 模型评价方法:人工 vs 自动、离线 vs 在线 模型评价方式:基于参考 vs 没有参考、综合 vs 多方面、样本打分 vs 样本比较 大语言模型评价挑战:模型侧:通用能力强、Prompt敏感、动态演化 评估侧:多数情况没有标准答案、普通标注人员能力不足 评价需要关注的问题:能力边界、Case边界、指令形式、自动化量化感 谢 聆 听