《大模型趋势下的企业数据体系思考_何昌华.pdf》由会员分享,可在线阅读,更多相关《大模型趋势下的企业数据体系思考_何昌华.pdf(12页珍藏版)》请在三个皮匠报告上搜索。
1、大模型趋势下的企业数据体系思考何昌华 数巅科技 CEO数巅科技:让数据智能像水电一样简单2005-2005-斯坦福大学博士斯坦福大学博士GoogleGoogle搜索引擎搜索引擎架构核心技术负责人架构核心技术负责人2015-2015-蚂蚁集团蚂蚁集团 计算存储首席架构师计算存储首席架构师2017-2017-2017-2017-国家级人才计划国家级人才计划2022-2022-数巅科技数巅科技CEOCEO数仓、数据湖、数仓、数据湖、数据中台数据中台向量嵌入微调大模型开源大模型大语言模型(LLMs)SaaS API结构化数据非结构化数据历史数据 实时数据存档文件更新文件视频监控每日交易数据行为日志历史
2、日志过往交易规章制度智能咨询归因分析智能运营信息抽取图片生成互动问答智能写作当 LLMs 遇到企业应用:需要与企业数据协同信息抽取图片生成互动问答智能写作高效计算能力高效计算能力自动链路中数据频繁交互带来自动链路中数据频繁交互带来计算量倍增计算量倍增世界顶流科技投行世界顶流科技投行a16z 2023a16z 2023年年6 6月发布最新大模型应用一般流程月发布最新大模型应用一般流程统一数据资产统一数据资产 多模态数据需要多模态数据需要多种多种加载、转换方法加载、转换方法 需要管理及沉淀需要管理及沉淀优质优质资产资产自动化工具(包括常用模型)自动化工具(包括常用模型)自动编排执行任务需要各种插件
3、工具和自动编排执行任务需要各种插件工具和模型算法模型算法自动化驱动自动化驱动数据加载和接入数据加载和接入编排框架编排框架频繁数据交互链路频繁数据交互链路需求需求需求大模型在企业落地对数据体系的关键需求如何解决:智能数据虚拟化技术将异构数据源虚拟化,沉淀统一语义的数据资产统一自动根据业务语义实现资产即刻自动扩充,驱动自动化工具高效智能加速实现数量级性能提升虚拟表虚拟表 A虚拟表 B虚拟表 C源表连接源表连接源表连接源表连接源表连接源表连接数据连接层逻辑模型 A逻辑模型 C逻辑模型 B业务逻辑模型业务数据资产物化视图物化视图物化视图物化视图物化视图数据虚拟化引擎全量数据源物理引擎数据虚拟化引擎统一
4、数据资产统一数据资产自动化工具自动化工具高效计算能力高效计算能力数据虚拟化引擎全面实现三大需求更多数据治理方案请关注7月22日【智能化数据治理智能化数据治理】分论坛实现需求一:统一数据资产虚拟表批量映射,内置多模态存储加速数据虚拟化层外部数据接入向量存储格式K-V存储格式图存储格式列存储格式数据接入TableCol1Col2Col3Col4Table1Col1逻辑建模自动血缘自动合并等价SQL快速灵活业务建模自动构建字段级血缘避免资产二义性资产治理业务虚拟表贴源虚拟表贴源虚拟表业务虚拟宽表Table2Col2TableCCol_CCol_CTable3Col3虚拟中间表虚拟中间表实现需求二:数
5、据驱动的自动化工具LLM推荐特征请帮我圈选一个高效做信用卡营销的人群重点关注日均交日均交易金额分层、年易金额分层、年龄、职业、是否龄、职业、是否有房贷有房贷4个特征调用业务模型圈选客群模型计算出客群模型计算出客群改写特征宽表生成新的虚拟表并优化执行因果推断贪心下钻回归分析?特征宽表缺少缺少日均交易金额日均交易金额分层分层这个特征大模型依据已有【日均交易金额日均交易金额】字段推荐特征加工逻辑自动化模型工具输入特征内置多格式高速存储内置多格式高速存储 KV、Table、TS,Graph。性能10倍于主流KV存储。计算性能优化计算性能优化 Join性能做到极致,2倍于主流引擎。兼容BSP、MPP、S
6、treaming等业界通用引擎。先进计算存储底盘智能物化+SQL优化实现需求三:高效计算能力智能加速物理数据DWDDWDDWDDWD虚拟层物化视图公共路径A公共路径B逻辑模型虚拟宽表流批一体逻辑模型、指标RLHFRLHF评估数据评估数据回收回收大模型接入大模型接入微调样本微调样本框架循环框架循环迭代迭代虚拟化引擎虚拟化引擎可视化工具数据分析工具资产治理工具常用模型工具自动化工具自我迭代的企业大模型应用框架统一数据资产数据驱动自动化工具高效计算能力数巅科技,让大模型和企业数据协同起来,实现广泛业务场景下的智能决策You need both LLMs and data systems;Harness their synergyhttps:/官方网站邮箱微信公众号数巅科技感谢聆听公众号请扫码: