《360搜索ranking算法自动化评测系统建设和应用实践张永强.pdf》由会员分享,可在线阅读,更多相关《360搜索ranking算法自动化评测系统建设和应用实践张永强.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、360搜索ranking算法自动化评测系统建设和应用实践分享人:张永强个人简介姓名:张永强所在组织:互联网产品事业群/搜索事业部专业领域:服务端测试内容010203搜索算法测试的背景和难点自动化评测系统的目标和设计思路自动化评测系统的实践过程和成果04大模型时代的新思路算法测试的背景和难点行业背景要突破的现状020103040506算法测试手段单一线上实验的周期太长实验存在失败风险算法提测占比超80%人工评测的case数量太少、周期长各个质量维度的影响面难以评估自动化评测系统的目标和设计思路评测目标首要问题核心问题人工标注算法模型离线数据积累的case集合 初始完成数十万doc Label 新
2、doc 定期增量人工标注 基于bert_qt 相关性模型 基于bert_qs 相关性模型 基于MR离线计算doc CTR doc的点击和展现数据 Good case Bad case自动化评测系统的实践过程和成果明确指标明确过程引入自动化评测后明确结论指标分析实践成果运行12个月2000个评测任务策略拦截率30%效率提升90%流程依赖度100%大模型时代的新思路对大模型进行自动化评测安全回复能力评测意图识别能力评测代码能力评测数据能力评测翻译能力评测逻辑推理能力评测回答长度评测人工标注数据集回归使用gpt-4打分封闭性问题回归用大模型评测ranking算法使用gpt-4实时计算doc相关性用大模型直接对doc排序作为完美排序大模型进行query意图识别和分类THANK YOU