《大模型驱动DataWorks数据开发治理平台智能化升级.pdf》由会员分享,可在线阅读,更多相关《大模型驱动DataWorks数据开发治理平台智能化升级.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、 DataWorks 阿里云计算平台事业部高级产品专家 阿里云DataWorks 产品负责人DataWorks14 年产品发展历史1 万+云上企业数1700 万+云上日调度任务实例数5 万+阿里内部月活用户数600 万+累计为用户发现和治理的问题数DataWorks MaxCompute/Hologres/AnalyticDB/E-Mapreduce/CDH/CDP DataWorks 2009/DataWorks 中国数据治理市场市场份额第一2023 IDC 中国数据治理市场份额报告Forrester 全球云数仓卓越表现者,国内唯一The Forrester Wave:Cloud Data
2、Warehouse,Q1 2021中国信通院数据平台整体解决方案评测“先进级”“”企业数据资产数据模型元数据数据指标数据标签数据表DataWorks 一站式数据开发治理平台数据集成数据开发工具链数据消费数据治理工具链数据入仓数据入湖数据建模数据开发任务调度任务运维数据服务数据分析数据地图数据质量数据治理中心数据安全MaxCompute阿里云自研大数据计算服务Hologres/ADB/CK实时数据仓库EMR+OSS云原生数据湖CDH/CDP开源大数据平台Lindorm多模数据库数据源数据应用“”AI驱动AIGCData+AIDataAIAINL2SQLSQL2SQLSQL2NLNL2DataDa
3、taWorksData for AIAI for DataDataWorks CopilotDataWorks 新产品发布DataWorks Copilot-SQL AI for Data,AI 智能助手为数据开发与分析提效 30%+DataWorks Copilot SQL 纠错通过自然语言指令,对已有 SQL 进行自动问题发现和修正SQL 改写通过自然语言指令,对已有 SQL 进行改写、优化SQL 续写在 SQL 代码编辑器中,可根据上下文信息自动推荐续写代码SQL 生成通过自然语言指令生成 SQL 语句SQL 注释通过自然语言指令,对已有 SQL 生成代码注释等SQL 解释通过自然语言指
4、令,对已有 SQL 进行用途含义解释来源内部测试数据从 AI 智能助手到 AI 原生应用GUILUICMDDataWorks Copilot 通过自然语言辅助完成数据 ETL 操作,简化产品操作复杂度,提高数据ETL操作效率DataWorks Copilot 配置数据质量规则“配置一个表行数大于 0 的数据质量规则“找表“vip用户每日成效行为表”创建任务“创建一个名为 dwd_user_orders 的ODPS SQL 任务”SQL 生成“编写 SQL 统计用户每日订单金额,不含退货订单”调度配置“将调度时间设置为每日凌晨 3 点运行,且可重复运行“提交/发布任务“提交这个任务”DataWo
5、rks Copilot DataWorks Copilot 联合阿里云机器学习 PAI 平台及大模型专家,提供企业专属大模型的微调和部署服务基于通用代码大模型DataWorks Copilot基于公开数据集微调的SQL代码模型11月1日开启邀测基于企业专属代码大模型DataWorks Copilot为企业提供个性化模型微调服务,为企业提供私有化模型部署*商务洽谈开箱即用企业定制请至阿里云DataWorks官网查看邀测申请信息数据洞察DataWorks AIDataWorks 新产品发布传统统计方法先假设一种统计模型,再分析数据探索性数据分析先进行数据探索,再通过模型进行分析AI 增强分析使用
6、AI 技术,自动化数据探索和分析DataWorks AI DataWorks DataV 数据可视化:深度结合 AI 技术,帮助你讲好数据故事,表达数据观点自动数据探查AI 智能数据查询 SQL AI 自动数据图表生成 AI 一键构建和分享数据报告DataWorks DataWorks AI增强分析公测中公测中自动数据探查,AI图表生成,一键报告搭建与分享进入DataWorks数据分析产品即可使用湖仓融合数据湖和数据仓库融合为一个整体数据架构,解决传统数据管理方法的局限性和现代业务需求的复杂性DatabaseData WarehouseData LakeLakehouse
7、8 AI DataWorks DataWorks 新产品发布整合数据湖和数据仓库的优势,DataWorks提供面向湖仓融合一体化的数据集成、元数据管理、数据开发与数据治理整体解决方案DataWorks OSS ETL MySQLOraclePostgreSQLSQL ServerMaxComputeDatahubKafkaOSSDataWorks 数据集成DataWorks 数据开发DataWorks 数据运维DataWorks 数据地图Data Lake FormationDataWorks DataWorks BI OSSMaxComputeHologresDataWorks DataWo
8、rks DataWorks DataWorks 湖仓融合数据治理数据入湖统一元数据管理统一数据开发 ETL数据源数据分析与应用存储层数据湖实时数据仓库离线数据仓库OSS-HDFSHologresMaxComputeE-MapReduceADB MySQL存储互通存储互通存储互通统一元数据统一数据开发、编排调度统一数据治理数据实时入湖问题处置 治理目标DataWorks将成熟的数仓治理产品能力全面扩展到EMR+OSS数据湖的湖仓一体化数据治理体系DataWorksEMR+OSS湖仓融合数据治理DataWorks 计算引擎湖存储主动式问题发现与拦截事前拦截开发阶段提交阶段发布阶段事后发现存储计算研
9、发质量安全治理策略生命周期推荐任务下线自动化处置优雅下线优雅变更OSSOSS-HDFSEMR Hive/Spark/Spark Streaming/Presto/Impala/ClickHouseDataWorks 数据治理中心-优雅下线人工判断数据情况及执行优化Step 112Step 212Step 3Step 4_to_be_deletedStep 5|自动化执行实时数据入湖DataWorks所有版本DataWorks数据治理中心DataWorks企业版所有版本企业版湖仓融合数据开发主动式、可持续、自动化数据治理 计算与存储成本治理秒级数据实时入湖,多引擎混合开发调度消耗的资源另行计费AI 智能助手DataWorks CopilotDataWorks 云栖发布湖仓融合数据管理AI 增强分析自动数据探查AI 智能数据查询AI 智能数据图表生成一键生成和分享数据报告秒级实时数据入湖湖仓一体化数据开发编排调度主动式、可持续、自动化湖仓融合数据治理SQL 生成/SQL 改写SQL 纠错/SQL解释/SQL 注释对话式自然语言交互界面数据开发与分析新范式THANKS