爱上海龙凤419(爱上海419论坛/夜上海419论坛)

上海品茶

A3-刘瑾-大模型时代质量工作的挑战与应对策略.pdf

上传人：2***

编号：152052

2024-01-05

PDF 34页 14.04MB

《A3-刘瑾-大模型时代质量工作的挑战与应对策略.pdf》由会员分享，可在线阅读，更多相关《A3-刘瑾-大模型时代质量工作的挑战与应对策略.pdf（34页珍藏版）》请在三个皮匠报告上搜索。

1、大模型时代质量工作的探索与思考刘瑾（睿枢）蚂蚁集团刘瑾（睿枢）清华硕士、在互联网toC搜广推、大安全、移动端、金融科技等业务具有10年以上质量和风险管理经验。3年智能化金融toB业务和产品负责人，具备丰富的业务和研发管理经验。目前专注于蚂蚁财富在对话、运营、生成等场景的大模型应用落地和底座的质量和风险工作。蚂蚁财富和平台部质量与技术风险总监目录CONTENTS大模型时代财富平台质量工作的新要求01 大模型AIGC在蚂蚁财富质量与风险的探索与思考02 质量工作的管理实践和展望03 数字化运营的探索与实践案例数字化运营的探索与实践案例1 金融服务的探索与实践案例金融服务的探索与实践案例2 数字化

2、资产的探索与实践案例数字化资产的探索与实践案例3 在线风险防控体系升级在线风险防控体系升级 4 01数智化时代财富平台质量工作的新要求1.1 大模型行业发展现状及挑战关键挑战关键挑战发展现状发展现状数据来源不均衡，导致算法存在潜在的偏见风险伦理偏见模型算法具备强不可控性，内容存在风险可控性差模型能力逐步开放且成熟，用户恶意使用风险暴露恶意应用数据规模体量较大，数据泄露风险加剧数据隐私天然的黑盒属性，导致大模型难以保障透明度透明度差训练数据由于多重因素干扰，模型鲁棒性不足鲁棒性不足横向拓、纵向深化，重逐步迁移态建设应模式持续创新，服务模式益丰富与业务需求加速融合，全赋能垂直场景性能不断提

3、升，逐步展现多维技术能金融服务服务体验效果保障资产交易稳固底盘基础平台端保障，用户体验资损防控，测试提效财富平台1.2 财富业务介绍数字化运营运营提效和活动保障资产业务02大模型AIGC在蚂蚁财富质量与风险的探索与思考2.1 数字化运营-业务特征020406080100供给量级安全合规风险基础质量风险业务效果诉求表达质量风险业务合规风险GC模式-挑战比对传统GCAIGC户异常字符错词错字基础质量业务合规安全合规表达质量展示乱码诱导销售收益承诺赌毒语句不通畅表述不致展示失败融场景不符涉政敏感财富业务进入丰富内容供给、更精细化运营新阶段财富业务场景财富户供给更精细化的户洞察+供给匹配更丰富的内

4、容供给（AIGC撑）AIGC-检测能升级创意供给质量挑战AIGC-审核&保障升级创意供给上线效率挑战安全合规8个二级分类通用能力流畅度语法正确性7个三级分类多样性2个三级分类金融合规大模型事实性4个三级分类金融业务合规9个三级分类金融逻辑一致性2个三级分类专业可理解性金融逻辑常识性互联网广告管理办法中华人民共和国广告法中华人民共和国反垄断法中国人民银行金融消费者权益保护实施办法中华人民共和国反不正当竞争法关于进一步规范金融营销宣传行为的通知四部门提出“八不得”规范金融营销宣传著作权法个人信息保护法等相关法律法规相关性3个三级分类2.1 数字化运营-AIGC内容防控架构设计2.1 数字化运营-A

5、IGC内容防控方案设计2.1 数字化运营-分发推荐链路保障方案分发链路保障方案多样性保障方案推荐链路多样性评估第一阶段总体多样性个体多样性时序多样性供给&分发联动评估第二阶段素材多样性素材效果分析分发多样性反哺供给第三阶段挖掘用户偏好牵引生产方向业务指标（GMV DAU）效果指标（曝光 CTR CVR）2.2 金融服务-业务背景金融智能服务智能金融量化资产配置智能定性分析量化选品保障配置风险量化市场风险交互式体验多模态问答全周期陪伴智能线索智能话术服务推荐消费级：支小宝2.0产业级：支小助系列2.2 金融服务-金融大模型的评估体系蚂蚁金融大模型交互与认知中枢（语言力）NLU N

6、LG RLHF NL2API SFT知识引擎（知识力）金融信息服务金融知识图谱金融百科服务引擎（专业力）研判选品配置演算两核金融围栏安全性适当性真实性蚂蚁金融大模型评估体系评估知识库标注资产训练数据反馈资产小样本评测大样本评测有向期望评测 MFT巡检分层指标树 benchmark badcase归因评测能力数据资产指标驱动目标：通过指标评价矩阵驱动产研服务质量持续迭代、评价模型能力2.2 金融服务-金融大模型评测集FIN-EVAL 金融AI任务评测集5大场景：金融服务认知、金融内容生成、金融知识理解、金融逻辑加工、安全合规底线，共28个任务维度评测集2.2 金融服务-行业大模

7、型评测能力总结模型的应用效能和业务水平的评估模型交付与模型运营过程的评估模型技术能力评测与评估安全可信评测基础能力评测模型研发生产、模型压缩过程评估领域学科专业能力评测专项评测SuperCLUEC-EvalChatbot Aren通用认知智能大模型评测体系MMCUCoAI安全评测平台Open-Compass2.2 金融服务-大模型评测能力发展方向01专业化02通用化03评估框架ToB产品化与平台化在垂类领域完善更加权威且专业的评测框架延展性渗透到大模型生产流程的各个环节2.3 数字化资产-业务特点资产生命周期特点申购下单T日T+2日T+1日T+3日T+4日申购确认收益发放赎回申请赎回确认业务交

8、互特点资金流转用户蚂蚁基金机构文件交互交易支付信息展示2.3 数字化资产-理财业务与资产交易特点要求难点交易测试要全机构对接要准资产交易数智化保障u资产规模大u资金流数量多u测试分析:依赖专家经验u充分度：缺少度量手段基于大模型的测试生产力提升u合作机构多u数据重要性高：账户、金额等u加工链路长：用户-交易-文件u错误影响大：财富-机构-行业资产接入要快机构提效u业务挑战大u新资产接入频繁u定制业务场景多u技术架构升级多定义测试分母定义测试过程及所依赖的资源定义测试过程的自动化能力明确测试路径及依赖资源提升执行效率及质量分母模型刻画DB|配置|流量|链路|控制流测试用例生成测试模型构造|测试用

9、例产出自动可执行用例生成模板匹配|资产构造|用例组装|平台适配2.3 数字化资产-资产交易数智化保障金融围栏安全性适当性真实性大模型底座金融通用知识余额宝领域+风险知识2.3 数字化资产-机构提效内部人员合作机构内外域隔离身份鉴权&隔离基金高端稳健养老其他机构A机构B业务1业务22.3 数字化资产-机构提效非结构化文档结构化文档：CSV、XMIND知识库核心&高质量LLMcombine searchfinetune域内外，接入&运维问答质量Copilot合作2.3 数字化资产-基于大模型的测试生产力提升大模型底座金融领域知识分析执行校验度量定位发现恢复需求需求 to 测分测分Code to

10、测分测分NL to测试代码测试代码需求需求 to测试数据测试数据需求需求 to 校验点校验点Code to 校验点校验点监控自动生成监控自动生成根因自动定位根因自动定位自适应恢复自适应恢复质量质量Copilot2.4 在线风险防控体系升级流量管控资源管控协同协同自动巡检持续可用保障保障LLM 灰度能力LLM 巡检能力大模型背景的业务需求下，风险防控中问题发现、定位和修复等体系能力需升级03质量工作的管理实践和展望质量工作新阶段确定性的业务缺陷校验工作向针对不确定的概率性问题的评测、评估到评价的转移。新研发模式算法工程问题凸显领域专业性提高3.1 质量行业的趋势与思考研发流程重构，评测驱动，评

11、测需求增多。大模型应用落地爆发、迭代加速，算法工程的质量和效能问题日益突出。大模型产业应用加速，专业领域知识要求提高质量角色重要度提高产业应用后，产品缺陷和风险迁移，可解释性需加强，质量工作的重要性会提高。质量流程标准化大模型底座评测能力不断下沉，逐步标准化，上层业务应用需更加关注领域能力及构建业务属性的评测手段。模型底座模型应用3.2 质量行业的趋势与思考-各方质量工作的变化模型运营保障数据质量和治理模型生产过程保障模型基础能力和领域能力端到端质量评测业务效果的评估算法生产和部署链路的评估基建能力建设业务智能化场景底座的选型和迭代算法工程能力的质量评测模型应用侧的评测评估能力的建设内部数据泄露管理安全可信需求评测集和benchmark库建设算法工程数据治理大模型应用统计学和数学数据工程与应用业务领域专业能力模型训练与模型部署运营大模型安全、可信技术和知识3.3 大模型时代对质量岗位的未来要求Hard skillSoft skill逻辑性智能化背景业务领域深度自驱与自迭代快速学习与理解能力拥抱变化和挑战，创造新的机遇和可能拥抱变化和挑战，创造新的机遇和可能感谢聆听关注QECon公众号理财与技术交流群