夜上海419论坛(爱上海龙凤419/爱上海419论坛)

上海品茶

LLM 在 BI 场景的应用思路探索-陈庆.pdf

上传人：张**

编号：164018

2024-05-31

PDF 20页 3.55MB

《LLM 在 BI 场景的应用思路探索-陈庆.pdf》由会员分享，可在线阅读，更多相关《LLM 在 BI 场景的应用思路探索-陈庆.pdf（20页珍藏版）》请在三个皮匠报告上搜索。

1、 BI 场景LLM 应用探索第四范式/陈庆关于我-机器学习平台（数据流、特征工程、MLOps）-推荐平台（在线推荐引擎、策略编排）-大模型应用（Copilot 应用）目录LLM+BI 探索之旅场景落地介绍LLM 应用开发思考BI 发展的历程依赖IT部门生成报告，数据处理复杂。主要是查看报告，互动少。自助式BI 业务用户可以直接操作数据，无需IT介入，强调易用性。支持用户自行创建报告和分析，提高了数据的可访问性。AI+BI 集成人工智能和机器学习，自动化深入分析。更智能、更个性化的数据分析和见解获取。传统BI传统行业 BI 使用现状数据孤岛“千人千表”，同一业务数据有多种版本，易出现错漏，影

2、响准确性和可信度分析能力有限重查看，少分析，缺乏深入的数据分析和预测能力用户参与度低不够灵活易用，严重依赖 IT 或第三方，响应慢，成本高ChatGPT Code InterpreterLLM Text-to-SQLs 现状 Spider 数据集执行准确率达到 91.2%BIRD-SQL 执行准确率 65.45%（人类 92.96%）有限场景下，基于 LLM 微调能实现 90%RESDSQLC3 SQLLLM Text-to-SQLs有限场景下，基于 LLM 微调能实现 90%+效果特斯拉-TeslaText-to-SQLs 落地难点业务可信LLM 擅长通识，缺少领域知识用户看不懂 SQL，无

3、法判断准确性底层数据不透明数据一致业务数据变化频繁数据治理参差不齐治理成本高成本可控微调模型在 OOD 上泛化性不足记住容易，忘记难整体算力成本高Query：查询销量SQL：select sum(sales)from t真实的销量：sum(case when status=1 then sales else 0 end)看不懂我们的解决思路数据一致业务数据变化频繁数据治理参差不齐治理成本高统一数据标准统一数据口径不治理/少治理语义化数据建模维度自动组合自动 join我们的解决思路业务可信LLM 擅长通识，缺少领域知识用户看不懂 SQL，无法判断准确性底层数据不透明注入业务知识，用户可干预让

4、目标用户能看懂结果让用户快速上手业务术语和维度字典结构化表达查询逻辑提供示例问题我们的解决思路成本可控微调模型在 OOD 上泛化性不足记住容易，忘记难整体算力成本高减少调用次数尽量不微调快速适配新场景数据缓存机制FewShot 微调快速评测基于语义模型的 Chat BI 流程设计DSL 翻译成 SQL从大量 Data Model 中召回相关表和字段构建合适长度的 prompt生成 Data ModelQuery DSL基于数据库定义语义数据模型NER/分词，补充维度值提示纠错字段不匹配值不对多轮对话管理设计要点介绍缓存高频问答自动生成衍生指标自动生成 DataModel去年特斯拉的销量小鹏去年的销量蔚来上个月上险量品牌时间指标查询销量自动生成根据类型和字段名称描述自动推测指标、维度、关联 key同比、环比、占比类指标整体架构未来探索方向数据治理自动归因分析端到端数据报告金融领域数据分级重复数据监测数据资产门户指标波动根因分析基于机器学习的特征重要性分析打造数据分析 agent自动拆解+自动取数+自动分析产出端到端报告LLM 应用开发思路总结设计可信的业务流程尽早构建评测闭环应用和算法解耦设计幻觉不是 bug，是 feature生成用户能判断的内容提供快速干预手段90%的正确性 90%是假的从多维度构建数据集拆分子能力评估提供原子能力 API，便于组合产品和算法独立迭代