报告预览

张航-那些潜藏的大模型评估乐趣.pdf

编号：161376

PDF 38页 9.65MB 下载积分：VIP专享

下载报告请您先登录！

张航-那些潜藏的大模型评估乐趣.pdf

1、那些潜藏的大模型评估乐趣张航资深工程师张航百度资深工程师硕士毕业于哈尔滨工业大学计算机科学与技术。多年百度工作经验，在大数据、AI领域经验丰富。现担任AI平台部测试技术负责人，带队25人+团队目录contents01你有我有，众说纷纭，我该相信谁？02谁都说服不了，要么自己上？03从一个坑跳进另一个坑！04玩转prompt-典型场景评估！PART 01你有我有，众说纷纭，我该相信谁？模型选型：百模大战GOPS 全球运维大会 2024 深圳站大模型的深渊GOPS 全球运维大会 2024 深圳站开源闭源选型策略一：价格驱动|信任驱动AI明星效应明星创始团队，知名度明星/校/研究院科研氛围数数

2、合作伙伴深度合作场景打标杆战略投资潜派异军突起个喜爱单纯喜欢GOPS 全球运维大会 2024 深圳站选型策略二：榜单驱动评测框架：HELM、HEIM/HRS-Bench/OpenCompass/FlagEval/SuperCLUE评测数据集：MMLU、GSM8K、C-Eval、AGIEval数据集：饱和、污染、安全隐私？GOPS 全球运维大会 2024 深圳站选型策略三：PR驱动逼近GPT4颠覆*业最好的*模型综合实第领跑*该开启新轮的评测了！PART 02谁都说服不了，要么自己上？如何启动模型评估GOPS 全球运维大会 2024 深圳站启动模型评估输入：评测集执行：评估规则输出：评估结论如何

3、选取适合的数据集衡量大模型能力？如何体系化评测潜在大模型能力？哪种大模型最适合所选业务场景，最适合长线投入？GOPS 全球运维大会 2024 深圳站领域专属能力基础语言处理能力价值观对齐能力共情能力道德标准生物医疗教育法律计算机金融认知与生成能力理解与问答创作与改写指令引擎数理与逻辑形式化语言社会偏见信息抽取Query提炼摘要同义改写翻译安全输出上下文记忆In-Context 学习工具调用大模型能力评估框架开源评测集：考察基座模型能力为主通用知识：TriviaQA 学科知识：GAOKAO-2023、C-Eval 语言理解：C3,CMRC,OpenbookQA 场景专属评测集：结合实际应用场景

4、中的用户使用方法和表达方式设计美食问答旅行推荐科学技术政务问询根据应场景裁剪评估框架，选择评估数据集配，设置场景相关的评估指标评估集选取-作版本的例全评估场景全数量多耗时久-快速验证模型是否进替换升级（快响应、数据少、代表）各场景抽样数据Badcase数据集核业务例case集模型准入/回归例行集GOPS 全球运维大会 2024 深圳站裁判员选取：原始Base模型：GPT4、EB4、Claude 专打分模型：Pandalm/训裁判员模型评估式：GSB评估直观感受评估扣分制加分制综合打分评估规则确定客观评估含参考答案、指令遵循量化指标规则映射、F1-Score/accurac

5、y/Rouge主观评估满意度评价（3/5/百分分制）量化指标统：平均分、Goodcase占、可接受度占多维度加权：内容丰富度、趣味性、互动性能类型考察能应能基础知识：通识类基础能专业领域：在各细分场景下完成具体任务的能学习能ICLSFT通能指令约束满、上下记忆、跨语处理考察能专业评估组，所有成员需要经过专业训练员组成：男例科/理科分布任务分发：每位评估员评估的对话数量应体相同每位评估员分到的对话在难度分布上基本相同每位评估员独对评估的所有对话进合分初标注-轮审核-轮专家审核LLM裁判员评估人工评估GOPS 全球运维大会 2024 深圳站评估规则确定示例拿捏评估prompt：指定、任务描述打分依

6、据，权重的依据重点描述，权重低或者关依据弱化给出回答示例，利LLM的ICL能（引引导策略：告知badcase规避）摸清LLM的喜好、偏好。如发现LLM对“友好性”理解，只要有“你好”就认为友好描述简化，尽量少if else借开源具，有的已经封装了些功能灵活运加分、减分制、综合打分先描述打分依据、再进打分你是业务场景的评测员，请根据相关材料和参考答案对模型输出进准确性、友好性、完整性进打分，分档0、1、2，并提供对应的评分依据判定要点：模型回答若不在预期回答中，则算错误，如下例例1：【预期回答】参考答案【模型回答】模型回答打分原因：对给模型打低分的原因描述 GOPS 全球运维大会 2024

7、深圳站评估规则确定评估prompt举例常规评分参考答案不参考答案升级评分考察模型返回稳定性需要模型返回多样性的场景示例你是位教师。你正在对学回答的答案进批改。以下是问题中的内容，对它的正确答案，以及学的回答：（开始）-问题:input-正确答案:ideal-学的答案:completion-（结束）你将使三级评分系统来给学的答案打分。些法和标点的差异可以忽略不计。学的答案可能与正确答案盾，也可能部分正确。你根据choice_score来进打分：choice_score:“2”:填写对应打分标准 1：填写对应打分标准 0：填写对应打分标准你的回答需要参考以下json代码格式输出：jsonmode

8、lA:justification:此处阐述对打分规则的理解,score:此处填写打分结果让我们步步来思考GOPS 全球运维大会 2024 深圳站评估规则确定评估prompt举例常规评分参考答案不参考答案升级评分考察模型返回稳定性需要模型返回多样性的场景你是名裁判，以下需要对多个类GPT系统的答案。每个类GPT系统会重复回答3次，以_1、_2、_3后缀来分别表示。对于最终的打分，取3次回答的最低分作为待评分系统的最终得分。你可以根据scores来进打分,需要你先阐述对打分标准的理解后再给出分数：scores:“2”:填写对应打分标准 1：填写对应打分标准 0：填写对应打分标准你的回答需要参考以下

9、json代码格式输出：-json modelA_1:justification:此处阐述你对打分规则的理解，以及给出最差结果的打分解释,score:此处填写modelA的3次回答的打分结果的最值 ,modelB_1:justification:此处阐述你对打分规则的理解，以及给出最差结果的打分解释,score:此处填写modelB的3次回答的打分结果的最值 ,modelC_1:justification:此处阐述你对打分规则的理解，以及给出最差结果的打分解释,score:此处填写modelC的3次回答的打分结果的最值 -请注意：只输出上述json格式即可，不需要额外的解释-问题：Questio

10、n-modelA的3次回答：modelA_1,modelA_2,modelA_3modelB的3次回答：modelB_1,modelB_2,modelB_3modelC的3次回答：modelC_1,modelC_2,modelC_3示例PART 03从一个坑跳进另一个坑！真实评估时，可能遇到的难题及如何解决GOPS 全球运维大会 2024 深圳站数据不够用/分布不均匀-数据增强|提升模型泛化能力TEMPLATE=现有背景内容如下：背景内容请根据以上内容成3个尽可能多样化的指导问题。这些问题可以是关于事实的问题，也可以是对相关内容的理解和评估。请假设提问时没有相应的冠词可指，所以不要在问题中使指

11、示代词，如“this”或“these”。请按以下格式成问题并将结果以如下格式封装后输出（其中question-代表问题，options-代表答案选项，A、B、C、D依次代表可能的答案选项，answer-代表对应问题的正确答案）：question:.,options:options:A:.,B:.,C:.,D:.,answer:.,.,question:.,options:options:A:.,B:.,C:.,D:.,answer:.Self-QASelf-Instruct针对有标注经验的户根据上下指令信息，可以被提示成新的指令。这提供了种从部分类编写的指令种数据中扩充指令数据的法。最少的类标

12、记数据诱导指令跟随，成新样本。针对有点标注经验的户成问答对。动问答成系统，利LLM从给定的内容中抽取信息，成系列问题，并对这些问题给出答案示例GOPS 全球运维大会 2024 深圳站数据不够用/分布不均匀-数据增强|提升模型泛化能力TEMPLATE=“”“请你仔细观察下示例的输和输出,然后成和所给示例类似的同领域的例，给出相应的输和输出。请确保输和输出的格式与示例相同。如果多个示例的输和输出中都共同出现了些固定的词语和格式，你也需要使这些固定词语和格式。示例如下：示例1：输：输1输出：输出1示例2：输：输2输出：输出2示例3：输：输3输出：输出3示例4：Self-QASelf-Instruct

13、针对有标注经验的户根据上下指令信息，可以被提示成新的指令。这提供了种从部分类编写的指令种数据中扩充指令数据的法。最少的类标记数据诱导指令跟随，成新样本针对有点标注经验的户成问答对。动问答成系统，利LLM从给定的内容中抽取信息，成系列问题，并对这些问题给出答案输1：已知函数f(x)=x3-3x+1，求f(x)的极值点和极值输出1：*输2：1+1=输出2：2输3：3*9输出：27输：求解程 2x-5=0输出：先，将程 2x-5=0 变形为 2x=5。然后，两边同时除以2，得到 x=5/2。所以，程 2x-5=0 的解为 x=5/2。示例GOPS 全球运维大会 2024 深圳站数据不够用-数据增强|

14、Prompt Template前提:俄罗斯宇航员列波利亚科夫（Valery Polyakov）在 1994 年 1995 年间创下了连续在太空停留时间最的纪录，达到了惊的 438 天。推断/结论：俄罗斯保持着在太空停留时间最的记录。输出：推断正确/错误前提:俄罗斯宇航员列波利亚科夫（Valery Polyakov）在 1994 年 1995 年间创下了连续在太空停留时间最的纪录，达到了惊的 438 天。根据上的内容，我们是否可以得出结论/推断：俄罗斯保持着在太空停留时间最的记录。输出：推断正确/错误前提:俄罗斯宇航员列波利亚科夫（Valery Polyakov）在 1994 年 1995 年间

15、创下了连续在太空停留时间最的纪录，达到了惊的 438 天。我们可以推断出以下内容吗？俄罗斯保持着在太空停留时间最的记录。输出：推断正确/错误前提:俄罗斯宇航员列波利亚科夫（Valery Polyakov）在 1994 年 1995 年间创下了连续在太空停留时间最的纪录，达到了惊的 438 天。推断:俄罗斯保持着在太空停留时间最的记录。阅读以上内容并确定是否可以从前提推断出假设：输出：推断正确/错误原始模板泛化模板1泛化模板2泛化模板3任务模板成构建模板，为不同任务成N个prompt模板。也可和few-shot提示起使示例1：根据任务类别，成部分模板，替换核指令 GOPS 全球运维大会 2024

16、深圳站数据不够用-数据增强/泛化|你是位专业的Prompt程师，请根据如下要求，成个提示语模型执类别为任务类别任务的Prompt：1.场景需要围绕细分场景展开2.指定需要完成的具体任务，如回答户对话的问题，执户给出的指令等；3.请给出3个完成任务的示例，示例需要包括户的问题，根据问题成的具体分析的json结构化答案。示例最终按照：问题-分析的格式输出；5.请在最后给出当前需要具体执的任务，不要给出完成任务的过程和结果；下是你编写的Prompt：您将扮演个专解决元次程的虚拟助，与户进对话。户可能会向您询问关于元次程的问题或者让您解决个具体的问题，您需要给出结构化的解析或者解答。请参考以下示例，

17、并按照格式给出的完成任务。示例1:问题:请解答这个元次程，程为x+y=10和x-y=2。分析:“equation1”:“x+y=10”,“equation2”:“x-y=2”,“solution”:“x”:6,“y”:4 示例2:问题:我可以通过什么式解决这个元次程，程为2x+3y=6与4x+6y=8呢？分析:“equation1”:“2x+3y=6”,“equation2”:“4x+6y=8”,solution_method:由于这两个程式在所有项都成对地成例，所以这是个解的程示例3:问题:我有个元次程，程为3x+2y=6和2x-3y=4，可以帮我解出x和y的值吗？分析:“equation1

18、”:“3x+2y=6”,“equation2”:“2x-3y=4”,*任务模板成构建模板，为不同任务成N个prompt模板。也可和few-shot提示起使示例2：根据场景模板从0成示例GOPS 全球运维大会 2024 深圳站instruction模板1模板2模板3模板1模板2模板2Promptinstruction为如下章成摘要：Prompt总结如下章的内容：约束条件如下：字数不超过100字遵循以下指令：字数不超过100字1.12.11.22.2 1.1-内容-2.1 1.1-内容-2.2 1.2-内容-2.1 1.2-内容-2.2数据不够用-数据增强/泛化|Prompt Template按

19、随机概率对相应任务的instruction随机添加其中个提示模板，并随机选择在开头/中间/结尾位置增加模板更多：Query改写同义词替换：从本中随机选择 n个不在停词表中的单词，针对每个单词随机地从其同义词词集中选择个，并将其替换随机交换：从本中随机选择两个单词，并且交换他们的位置随机插：从本中随机选择个不在停词表中的词，从它的同义词词集中随机选择个词，插到句中的随机位置随机删除：概率p随机删除本中的单词示例GOPS 全球运维大会 2024 深圳站评估任务高频耗时-评估提效模型管理效果标注数据集管理预测推理评估报告输出模型多、数据集版本多评测集、prompt评估集难映射模型参差别待标注

20、数据量、复杂度标注任务频繁过程、作重复报告格式固定、数据杂多GOPS 全球运维大会 2024 深圳站特定阈值特定/场景多裁判员打分致性动评估结果预填充资深标注者历史标注可信度低复杂度任务评估提效标注共享/在线标注多评估纬度动结算评估标驱动评估段全评测模型升级准评估动（带参考答案、客观指标）（按需）动评估：GSBGOPS 全球运维大会 2024 深圳站评估结果可信度提升打分中位数打分标准差相关系数分数完全致性IAA（标注者间致性）评估致性-多个评估执者评估结果的可参考性（与、模型与、模型与模型）评估公平性-执评估时避免个情感因素导致的打分规则不公允模型匿名结果乱序对照打分对多次推理结果打分

21、被测模型动评估有效性动评估准确率有效评估多裁判打分致性单裁判员评估准确率多裁判评估准确率裁判员：A裁判员：B裁判员：A裁判员：BA100%90%90%100%90%90%B100%100%100%100%GOPS 全球运维大会 2024 深圳站评估结果可信度提升细化统打分规则：基于固定的裁判prompt，对各条query次动精细化修改ELO打分多智能体：模型A-评估点1，模型B-评估点2,客观规则+LLM主观判断结合AutoPrompt-提升动评估采纳率AfterBeforePART 04玩转prompt-典型场景评估By场景评估落地GOPS 全球运维大会 2024 深圳站问答场景Close-

22、book、开放式事实性时效性创造性你正在根据项标准评估某项任务的提交答案：提交的答案是否符合标准？你需要先阐述你对打分标准的理解后再给出分数。请你根据scores来进打分：scores:“0”：填写对应打分标准1：填写对应打分标准2：填写对应打分标准3：填写对应打分标准4：填写对应打分标准你的回答需要参考以下json代码格式输出：此处省略你正在根据项标准评估某项任务的提交答案：提交的答案是否符合标准？你需要先阐述你对打分标准的理解后再给出分数。你可以根据scores来进打分，总分4分，最低扣0分，逐步检查以下扣分条件，严格按分值扣分；多个模型回答打分独，不互相参考，不对优劣。扣分标准如下：1、

23、当填写对应扣分标准，此项扣1分；2、当填写对应加分标准，此项扣1分；3、当填写对应加分标准，此项扣3分；4、当填写对应加分标准，此项扣4分；当模型回答质量充分地解决了户问题和所有需求，、所有维度上都接近满分的情况下，且回答符合格式要求和字数要求，语句通顺流畅，不扣分你的回答需要参考以下json代码格式输出：此处省略你正在根据项标准评估某项任务的提交答案：提交的答案是否符合标准？你需要先阐述你对打分标准的理解后再给出分数。你可以根据scores来进打分，满分4分，最低为0分，逐步检查以下条件，满条件则加相应的分数；多个模型回答打分独，不互相参考，不对优劣。加分标准如下：1、当填写对应加分标准，不

24、加分；2、当填写对应加分标准，加1分；3、当填写对应加分标准，加2分；4、当填写对应加分标准，加3分；5、当填写对应加分标准，加4分。你的回答需要参考以下json代码格式输出：此处省略综合打分制减分制加分制GOPS 全球运维大会 2024 深圳站问答场景query：帮我推荐3抖热歌曲Answer：1.野狼Disco-宝Gem 2.沙漠骆驼-展展与罗罗 3.2002年第场雪-郎打分：0分（歌曲过时）模型评估：3，符合指令满评分标准你正在根据项标准评估某项任务的提交答案，需要先阐述你打分的依据然后再给出分数：1、你可以参考【检索结果】来验证模型回答的效果。你需要注意以下点：（1）【检索结果】有多条

25、，每条【检索结果】之间由#分隔（2）如果某条【检索结果】与【问题】关，就不要参考这条【检索结果】【检索结果】检索结果1#检索结果22、你可以根据scores来进打分，满分4分，最低为0分：这放原始打分标准你的回答需要参考以下json代码格式输出：此处省略搜索Agent原始打分promptinstruction新打分promptICL示例 modelA:justification:modelA回答的歌曲是2002年的第场雪，这歌虽然在过去段时间内常流，但是没有证据表明它前在抖上是热歌曲。此外，modelA只推荐了歌，问题要求推荐三抖热歌曲，因此modelA的回答没有满问题的全部要求。,score

26、:1,modelB:justification:modelB回答了两歌曲，分别是王馨-还没有爱够和程响-等你归来。根据提供的检索结果，这两歌都在列表中，可以认为它们在抖上有定的热度。然，问题要求推荐三抖热歌曲，modelB只推荐了两，因此没有完全满问题的要求。尽管如此，modelB的回答在部分维度上表现较好，因为它推荐的歌曲确实是抖上的热歌曲。,score:2 如何判断模型结果的时效与事实准确？GOPS 全球运维大会 2024 深圳站代码类场景复杂代码成、代码正确率判定你现在是个资深Python程序员和数据分析师，请你使python中的pandas，numpy等库，基于下提供的【df表格信息】

27、，完成python函数的撰写。【df表格信息】:现在有df表，每是个样本，表具有如下字段（列）：【df表格信息】:现在有df表，每是个样本，表具有如下字段（列）：列名：d_year，描述为：年度，这列值有：2023，这列的值的类型为.下是【历史对话】，你可以从中获取信息，但还是要按照要求进函数撰写。请注意，你每次的函数撰写只需要满当次【要成代码的问题】。【历史对话】：Q:A团队23年到3的收为多少？A：A:def tableQA(df):【要成代码的问题】：负责A商品采购商机的销售是谁？收分别是多少？哪个收？你成的代码必须以tableQA命名，即def tableQA(df)为开头，输出必须包

28、装到个json结构中，即return json结构的(问题1:答案1,问题2:答案2)。除了函数代码之外，你不要返回其他任何东。问题：请python编程实现：计算2个数之商答案：该模型成的代码可以顺利编译通过，但在b=0时会抛出异常。这是python的实现代码：def cal(a,b):try:return a/bexcept ZeroDivisionError:#处理除0的情况 return errorprint(cal()Easy内容结构化抽取纯代码质量校验模型原始完整推理结果易读性简洁性其他Belupassk运耗时编译正确率测试例成主观主客观效果判定逻辑HardGOPS 全球运维大会 2

29、024 深圳站代码类场景针对以下问题，模型成了对应可执的代码答案，需要你：1、成对应测试例2、判断代码答案能否顺利编译通过。1-表示编译通过，0-表示编译失败3、计算代码答案在测试例上的运通过率注意：你需要按如下json格式返回testcases:这是成的各种测试例，以列表形式存放,pass_k:代码答案在测试例上的运通过率,compliable:0或1，表示代码答案是否能顺利编译通过#问题是：问题模型成的代码为：代码答案问题：请python编程实现：计算2个数之商答案：def cal(a,b):print(a/b)针对以下问题，模型成了对应可执的代码答案，需要你按格式进信息的结构化抽取，并按

30、如下格式返回：Code:代码答案中可执的完整的代码内容,explain:代码答案中解释型描述语#问题是：问题模型成的代码为：代码答案内容结构化提取GOPS 全球运维大会 2024 深圳站多轮对话历史对话：user:session 1-问题bot:session 1-答案 user:session N-问题bot:session N-答案本轮问题：本轮问题静态多轮：将所有历史对话拼接到个prompt中动态多轮：将所有历史对话分成多个sessionSession 1：针对轮Query展开多次追问user:问题bot:答案Session N：user:问题bot:答案注：session-针对轮Que

31、ry展开多次追问user:问题1bot:答案1此处省略多轮历史对话user:问题N bot:答案N本轮问题：User：本轮问题原始会话记录单轮满度Session 1Session N分数累加平均多轮满度整体满意度得分评估纬度：1）多轮满度：判断多轮会话的整体效果，相当于静态多轮2）单轮满度：每轮回答与当轮完整query（当轮query之前所有的session会话）的满意度GOPS 全球运维大会 2024 深圳站多轮对话Q:怎么办理公积提取A:请问你是办理那种形式公积提取异地购房提取公积北京市购房提取公积离职提取及转移提取公积住房提取公积Q:异地购房提取公积A:你是在或配偶的户籍地购房还是河北、

32、天津购房？Q:我是在河南购房A:抱歉，您法办理公积提取原始会话记录 start:怎么办理公积提取,session 1:问:怎么办理公积提取,答:请问你是办理那种形式公积提取n异地购房提取公积n北京市购房提取公积n离职提取及转移提取公积n住房提取公积 ,session 2:问:异地购房提取公积,答:你是在或配偶的户籍地购房还是河北、天津购房？,session 3:问:我是在河南购房,答:抱歉，您法办理公积提取示例最终得分：total:1,score1:2,score2:1,score3:0彩蛋：更多精彩内容百度提供：大模型全链路解决方案培训及企业合作、一站式大模型评测平台有需求可加讲师个人微

33、信号咨询合作、购买及对接探讨GOPS 全球运维大会 2024 深圳站一站式深度评测平台初级高级场景应用配套工具链场景应用工具市场原理篇评估体系/组织建立Base模型评测评估提效评估资产增强/生成评估策略对齐准出标准确立场景应用深度评测调优模型效果评测评估方法论AI赋能研发AI赋能测试代码质量监察单测生成测试分析测试智能体风险洞察模型自动评估场景应用提效典型场景应用场景应用落地营销投资理财其他更多保险深入场景调教评估prompt深入自训场景评估模型内容审核企业应用场景化赋能实战海量数据标注测试用例生成研测一体化Autoprompt实战篇百度大模型评估原理及企业应用赋能实战培训系列课程GOPS 全

34、球运维大会 2024 深圳站百度大模型服务全链路解决方案，助力政企学研赢在大模型时代技术优势【先进】业内顶尖的产业级大模型【文心大模型】【全链】强大的【千帆】一站式企业级大模型平台经验优势人员优势品牌优势【认证】工信部和百度双重认证证书【品宣】【百度生态大会】优秀案例主讲嘉宾【原厂】大模型实战经验，标准交付流程【生态】架构完整，行业知识与实施经验【全面】【金融、能源、交通、等】产业实践经验【专精】高价值场景全链路定制服务大模型建设咨询价值探索场景方案大模型实战培训理论技术实战经验大模型方案设计服务大模型场景调优服务大模型应用定制服务大模型效果运营服务通识理论技术实践案例精研实战工作坊高峰对话服务电话400-920-8999转2官网入口场景调优模型测评集成应用模型效果数据分析模型运营业务融合模型方案GOPS 全球运维大会 2024 深圳站Thanks高效运维社区DevOps 时代荣誉出品感谢大家观看THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（张航-那些潜藏的大模型评估乐趣.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

张航-那些潜藏的大模型评估乐趣.pdf

张航-那些潜藏的大模型评估乐趣.pdf