《LLM 在大数据研发治理套件 DataLeap 中的应用实践-王慧祥 丁桂涛.pdf》由会员分享,可在线阅读,更多相关《LLM 在大数据研发治理套件 DataLeap 中的应用实践-王慧祥 丁桂涛.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、AIGC AIGC 在在 DataLeap DataLeap 大数据研发治理套件的实践大数据研发治理套件的实践火山引擎 DataLeap 资深架构师/王慧祥火山引擎 DataLeap 技术专家/丁桂涛目录DataLeap整体介绍AIGC在DataLeap数据资产方向的实践 找数助手AIGC在DataLeap数据研发方向的实践 研发助手 未来规划DataLeapDataLeap整体介绍整体介绍DataLeap DataLeap 大大数据研发治理数据研发治理套件套件数据研发全链路管理数据研发全链路管理整合全域数据,支持20+多源异构数据集成,灵活对接各类业务系统。敏捷开发CI/CD,覆盖需求、开发
2、、测试、发布、运维等研发全链路管理。数据全生命周期治理数据全生命周期治理结合基线监控、数据质量、SLA治理等能力,提供事前预警、事中处理、事后复盘及推荐优化的全生命周期的数据治理能力沉淀数据规范沉淀数据规范统一数据标准及数据查询出口,沉淀数仓建设规范的最佳实践,提升数据开发效率,保证数据质量,快速精准为业务赋能保障数据安全保障数据安全更细粒度的行、列权限控制,表及字段级别的血缘管理,加上行为监控等功能,构成真正意义上的数据安全屏障多云多引擎多云多引擎提供公有云PaaS服务及灵活的私有化部署方案。可低成本、高效适配客户已有大数据平台,控制迁移成本,降低业务影响DataLeapDataLeap智能
3、助手智能助手火山引擎大数据研发治理套件DataLeap智能助手基于自研方舟MAAS,经过海量代码和语料训练,支持根据自然语言理解,提供拟人化的逻辑推理总结、自动生成代码构建优化和管理。资产知识库经过对话式语义检索,高效聚焦全链路的搜索过程,以低门槛、自助式的数据探索,极大提升企业数据研发和数据消费能力找数助手找数助手对话式的数据检索能力,解决用户找数据与用数据诉求。通过AI加持推动让搜索过程更聚焦。同时伴随模型语义理解能力的逐步提升,其全链路的检索效率更高,使得资产以低成本管理、促进自助式数据消费研发助手研发助手实现通过自然语言描述,自动生成代码,针对已有的代码可以自动实现自动生成、修复,优化
4、、解释与注释等。对话式方式进行文档搜索、函数使用、代码示例等问题咨询。助力平台用户减少基础开发工作量、提升开发效率。更便捷地生产数据、应用数据,实现更普惠的数据消费,为数字化提供现实基础。打破了语言障碍,极大程度降低了数据开发的准入门槛,同时让专业数据研发人员更聚焦复杂场景的需求AIGC AIGC 在在 DataLeap DataLeap 数据数据资产资产方向的实践方向的实践-找数找数助手助手数据资产数据消费问题数据消费问题 数据资产建设的核心目的是促进数据消费,使数据价值最大化 在海量数据场景下,如何准确、高效的找到数据是数据消费的前提 数据的查找和使用强依赖于业务知识业务知识的处理 结构化
5、组织数据表达能力有限,在数据管理侧信息丢失 基于关键词的检索能力受限,在数据消费侧信息丢失结构化数据非结构化数据数据消费数据研发数据分析数据运营数据管理数据决策数据采集数据编目数据认证数据发布找数据问口径咨询含义关键词检索结构化组织?LLMLLM在找数场景能做什么在找数场景能做什么 LLM的特性:理解、推断、生成 找数场景有如下复杂点:问题理解(理解)意图判断(推断)结构化元数据描述不足(生成)大量非结构化元数据沉淀于文档(生成)关键信息提取(生成)用户问题:帮我看看商家GMV用哪张表?LLM用户是要找一张表还是问业务的含义?是找包含什么信息的表?哪些表包含这些信息?这些表中有没有适合回答用户
6、问题的?使用哪些信息能更好的回答用户问题?DataLeapDataLeap找数助手整体架构找数助手整体架构对话框架LLMQuery分析文档搜索元数据搜索LLM:问题理解与筛选LLM:问题理解与总结语义召回排序垂类搜索-Hive语义召回匹配召回多路召回融合排序垂类搜索-数据集语义召回匹配召回多路召回融合排序垂类搜索多轮会话问题合并意图识别找数据用数据业务问答问题排查其他意图判断数据增强答案总结总结按意图搜索Query分析用户问题问题答案问题理解问题理解 核心关键词提取核心关键词提取 识别query中核心的term,提升找数准确性,提升用户体验 多轮对话问题合并多轮对话问题合并 判断用户新问题是否
7、需要关联上一个问题信息 合并多个问题为一个问题上一轮问题上一轮问题本轮问题本轮问题合并后问题合并后问题商家GMV用哪张表?数据集呢?商家GMV用哪个数据集?如何查看直播间PV数据?有没有带货粒度的数据?有没有带货粒度的数据?想看下DQC的报警实例用哪张表?不要基线任务的查看DQC的报警实例切不要基线任务的用哪张表?数据安全等级分布用哪张表?我想要标签粒度的标签粒度的数据安全等级分布用哪张表?用户问题用户问题关键词提取关键词提取shop_id和order_id的关系字段/指标:shop_id字段/指标:order_id7日结算率字段/指标:7日结算率C_O率是什么意思字段/指标:C_O率xxx.
8、a与yyy.b的区别是什么?表名:xxx.a表名:yyy.bzzz.c的call_type有什么作用?表名:zzz.c字段/指标:call_type意图判断意图判断 依赖LLM的判断能力,判断用户的找数意图 基于业务真实找数场景调研,总结4大类意图 Prompt工程+模型精调一级意图一级意图二级意图二级意图问题示例问题示例找数据找表、数据集抖音是否有用户维度的消费视频表?使用数据问指标xxx数据集中has_risk=0值的定义是什么?问口径近7天直播间曝光次数口径是什么问区别表xxx与表yyy中的user_id有什么区别?业务咨询-什么是GMV?问题排查-表xxx中的字段a为什么会有空的情况?
9、其他闲聊元数据生成元数据生成元数据质量衡量元数据质量衡量 信息填充度 信息丰富度低质量元数据资产识别元数据完善元数据分发元数据质量核验LLM元数据生成元数据生成Schema信息加工逻辑&血缘业务沉淀元数据治理分发元数据治理分发 资产识别&圈选 任务分发 元数据完善LLMLLM:元数据生成提效:元数据生成提效 Schema信息 生成逻辑代码+血缘信息 业务沉淀业务知识沉淀与检索业务知识沉淀与检索 文档模块化拆分,基于语义相似度匹配召回,解决非结构化业务知识问答问题 沉淀历史问答问题,以LLM进行清洗,丰富知识库向量数据库文档业务知识向量化query召回排序生成答案QnA清洗LLM相似匹配Top
10、NTop n拆分、入库沉淀答案总结答案总结结构化元数据总结结构化元数据总结 多轮召回+精排(Top m)Query+表shcema+增强信息 prompt工程控制输出非结构化文档总结非结构化文档总结 语义召回+相似度排序(Top n)Query+Top n prompt工程控制输出LLMquery文档片段Top n元数据AnswerAIGC AIGC 在在 DataLeap DataLeap 数据研发方向的实践数据研发方向的实践 -开发助手开发助手AIGC 可以降低数据开发的门槛,让需要使用数据的人离数据更近,同时也能提升专业数据开发的效率。数据平民化数据平民化需要使用数据会写简单 SQL专业
11、数据开发提高模型准确率降低 prompt 编写成本减少多工具间的切换数据平民化数据平民化产品价值产品价值=原范式成本原范式成本-AIGC -AIGC 范式成本范式成本-习惯改变成习惯改变成本本SQL 编程自然语言编程LLM 辅助编程场景:Coding Copilot、知识问答工程:Prompt Engineering、模型对接框架模型:支持 MaaS、私有化等多种模型开发助手开发助手-产品架构产品架构需要根据场景的差异化要求,进行针对性设计、优化。开发助手开发助手-场景设计场景设计场景场景交互形式交互形式Prompt Prompt 成本成本准确率要求准确率要求延迟容忍度延迟容忍度Text2SQ
12、LText2SQL主动提问高高高补全补全被动提示低低低BugfixBugfix一键操作低高中问答问答主动提问中高中.开发助手开发助手-Prompt Engineering-Prompt Engineering业务需求业务需求:“查询昨日销售额 top 1000 的商品信息”用户输入用户输入:“一天”、“销量”、“1000”开发助手开发助手-Prompt Engineering-Prompt Engineering字段裁剪Prompt 模版多轮上下文表结构填充开发助手开发助手-准确率准确率https:/ IDE 体验关键链路延迟 对外对外 欢迎试用 DataLeap AI 助手&大数据研发套件联系我们联系我们火山引擎DataLeap找数&研发助手咨询及试用申请获取更多技术干货、活动信息进入官方交流群