上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

大模型时代下基于湖仓一体的数据智能新范式 .pdf

编号:157210 PDF 20页 5.99MB 下载积分:VIP专享
下载报告请您先登录!

大模型时代下基于湖仓一体的数据智能新范式 .pdf

1、DataFunDataFun#20242024大模型时代下,基于湖仓一体的数据智能新范式陈茏久-阿里云-高级产品专家目录1.大模型爆发带来的数据行业变革3.阿里云AnalyticDB:在AIGC时代下,驱动企业架构升级2.对于企业数据平台的能力变革要求大模型时代来临2023.3.142023.3.162023.3.172022.112023.4.112023.2.25ChatGPT 3.5发布大语言模型的价值被初步证明Meta开源LLAMA开启GPT竞赛时代ChatGPT 4.0MidJourney V5Microsoft 365 Copilot通义千问2023.5.6Google模型模型PA

2、LM2行业模型Med-PaLM 2和sec-PaLM22023.3.23ChatGPT Retrieval Plugin2023.7.28阿里云模型服务灵积阿里云模型服务灵积支持商业化部署ChatGLM2,LLAMA2等模型企业知识增强企业知识增强模型即服务模型即服务(Model-as-a-Service)2024.2.15多模态大模型多模态大模型将语义与图像将语义与图像进行深度理解融合进行深度理解融合2023年底年底国家大模型评测标准阿里,百度,腾讯,3602023年年S2百模大战百模大战近近100大模型大模型覆盖基础大语言模型行业大模型多模态大模型2023.3.15深化产业影响,驱动全行业

3、能力升级(信息来源于艾瑞咨询发布的2023年中国年中国AIGC产业全景报告产业全景报告AIGC带来的产业变革趋势带来的产业变革趋势1.内容生产效率将带来快速变革内容生产效率将带来快速变革对于游戏,电商,广告等行业,大模型将带来50%70%的开发效率提升,同时门槛降低将引入新玩家,带来行业快速变革2.垂直领域随着大模型能力深入持续变革垂直领域随着大模型能力深入持续变革对于垂直领域企业,存在着线上+实体的结合趋势,更加依赖对于专业性的考量,会随着LLM能力升级,持续性进行产业能力升级;3.高度信息化安全的强监管部门的底层变革高度信息化安全的强监管部门的底层变革对于信息化安全等级较高的,对于数据具有

4、重政府监管企业,将会关注政策导向,数据安全及能力演进,这类企业需要自底向上的全盘思考,有序推进,最终实现全行业拥抱;数据规模大幅增长数据质量要求提升数据安全规范升级全行业拥抱AIGC的全新要求AIGC分层能力一览LLM 大语言模型医疗金融.安全fine-tune企业服务知识库模型服务商fine-tune知识库知识库知识库.企业知识增强企业知识增强(RAG+私有模型私有模型)fine-tunefine-tune零售企业专属知识企业专属模型行业模型通用大模型实时企业信息企业级特征公司当前最火产品行业特征泛化能力公司主售什么产品零售的定义零售行业业务流程模型模型领域能力领域能力可回答的问题可回答的问

5、题目录1.大模型爆发带来的数据行业变革3.阿里云AnalyticDB:在AIGC时代下,驱动企业架构升级2.企业数据平台的能力挑战自顶向下的体验变革+自底向上的能力变革应用层应用层1.内容服务的要求数据来源更加丰富2.在于用户交互过程中的数据覆盖面积提升3.智能化的数据在线加工能力更强平台工具层平台工具层1.智能开发效率进一步提升;2.面向垂直行业属性的开发链路更智能3.开发工具和大模型+加速降低技术使用门槛基础层基础层1.更高的数据质量用于赋能模型训练;2.更丰富数据类型处理能力;3.海量数据的存储和IT成本平衡(图片来源于艾瑞咨询发布的2023年中国年中国AIGC产业全景报告产业全景报告)

6、当前数据平台能力瓶颈企业知识图像视频音频对话地理时空传统数据平台AIGC应用智能数据分析智能决策海量多模数据生成大模型原生处理能力亟待增强原生处理能力亟待增强1.1.仅可处理结构化数据仅可处理结构化数据2.2.不支持海量多模数据处不支持海量多模数据处3.3.不支持异构算力不支持异构算力4.4.缺少大模型缺少大模型+AIAI结合能力结合能力向量数据半结构化数据非结构化数据多模数据.大数据+大模型能力大模型调优及部署应用层应用层 添加文字内容 添加文字内容 添加文字内容0101平台工具侧平台工具侧0202基础基础层层0303背景背景LLM能力增加了业务场景的数据需求范围,参与业务支持的数据量大幅膨

7、胀核心诉求核心诉求海量数据需要直接支持应用集成方式更加灵活背景背景基于大模型能力带来更加高效的开发和数据的分析能力核心诉求核心诉求更高效的开发工具更智能的数据分析更易用的数据处理工具背景背景10X的数据量支持LLM多模的数据处理能力高价值数据留存增长核心诉求核心诉求低成本的存储高质量数据的处理能力异构算力的加持场景场景企业知识库,客服等场景场景企业数据开发、分析平台场景场景AI原生的企业数据平台数据平台趋势分解一站式智能数据平台架构多模型服务平台DashScope,PAI等目录1.大模型爆发带来的数据行业变革3.阿里云AnalyticDB:在AIGC时代下,驱动企业架构升级2.企业数据平台的能

8、力挑战云原生向量数据仓库 AnalyticDBAnalyticDBAnalyticDB(PostgreSQLPostgreSQL版版)阿里云自研的云原生数据库阿里云自研的云原生数据库能力完备,累计服务近千企业,被多个世界500强企业选为核心数仓系统;于2020年评测为TPC-H 30T 性价比世界第一;自研向量检索向量检索和多模数据多模数据处理能力(2020年),广泛应用于RAG,以图搜图,检索推荐等场景;国内云厂商中唯一被多个AIGC知名社区推荐的自研向量数据库;目前已广泛服务于互联网,教育,传媒,电商,公安等众多行业;TPC-H Performance/Price Ranking(data

9、 collect in 2020)OpenAI recommanded Vector EngineAnalyticDB on Langchain CommunityAnalyticDB 一站式湖仓设计产品优势产品优势AIAI ServiceService:对接和集成各类LLM以及模型服务API,并且提供例如Chunking、Embeddings等各种RAG所需服务AIAI增强分析平台(仓内智能):增强分析平台(仓内智能):基于大语言模型重塑传统数据分析和开发的全链路核心能力企业数据管理企业数据管理:存储结构化、非结构化、半结构化数据;一份数据,无数据冗余和一致性问题企业级特性企业级特性:支持事

10、务、ACID、主备切换、冷热分层、备份恢复、加密、审计日志数据安全数据安全:全量数据均在用户域内,无数据泄露风险;ADB-PG AI 服务 API企业应用模型管理服务 APIDashscopePAI原生支持 LLM通义千问ChatGLM2-6BChatGLM-6B其他ADB-PG SQL API内置模型服务湖仓一体存储对话记忆向量存储非结构化数据存储(文本,图片,声纹等)结构化存储索引存储(Btree、Gin、Ganos、HNSW)智能文档分析文档切分服务向量化转换服务文档管理语义推理语义检索智能多路召回及精排等智能多路召回及精排等 标准SQL语法全文检索(MPP)精排算法内置ML算法Anal

11、yticDBAnalyticDB forfor PostgreSQLPostgreSQL智能数据分析&开发Data CopilotAI Service:大模型+湖仓RAG应用搭建LLM加持下,应用面向更大的数据范围,推动应用数据下推至数据湖仓AI增强分析平台 仓内智能AnalyticDB 分布式架构设计融合融合查询优化查询优化:对于具有向量索引的查询,会根据CBO生成融合查询的最优执行计划分区分区并行并行:支持多分区并行执行,降低多分区的执行聚合重排聚合重排:支持多分区聚合重排Distanceplugin:为了更好的支持算法厂商的加密算法,各种算法的距离计算作为插件集成到数据库中全托管,自运维

12、全托管,自运维:支持白屏化管理能力,及低维护成本湖仓湖仓存储:存储:支持湖仓存储,支持对于结构化+向量+全文的高性能查询,对于企业知识支持低成本的灵活湖存储协调节点协调节点(Master)InterconnectSegment节点节点向量检索全文检索事务管理SQL解析优化查询调度元数据存储HNSWPQ点积距离欧式距离tsvectortsqueryzhparserSegment节点节点(主)(主)GIN条件过滤Segment节点节点协调节点协调节点协调节点协调节点结构化|向量|非结构化 数仓存储NSMDSMBtreeSegment节点节点(备)(备)Segment节点节点(备)(备)文本|图片|

13、声纹等 数据湖存储湖数据访问层AnalyticDB 完备企业级能力AnalyticDB(PostgreSQL版)完全保有在传统数据库的海量数据管理能力之上,对于海量的向量数据处理、检索,半结构化,非结构化数据及多模数据分析进行了深度技术自研,自底向上进行了支持和规模化扩展(MPP适配,SIMD适配),从而用户无需改动当前的架构,使用全SQL指令,即可立即对接大模型能力;向量数据库功能对比向量数据库功能对比AnalyticDB(PG)AnalyticDB(PG)PgPg插件插件MxxxMxxxPxxxPxxxQxxxQxxxFAxxxFAxxx全文索引全文索引Y YY Y(继承继承PGPG)N

14、NN NY YN N融合查询融合查询Y YN N(分区方式实现简单分区方式实现简单filterfilter)Y Y(比较简单的标量比较简单的标量filterfilter)Y Y(标量索引过滤)标量索引过滤)Y YN N原子性原子性/事务事务Y YY YN NN NN N(WALWAL保证可靠,保证可靠,但是没有事务)但是没有事务)N N写入实时可见写入实时可见Y YY YY YN NY Y(实时写入时禁止实时写入时禁止构建索引)构建索引)Y Y支持支持updateupdate和和deletedeleteY YN NY YY YY YN N索引压缩存储索引压缩存储Y YN NN NN NY YN

15、 N支持分区支持分区Y YY YY Y(写数据需指定分区)写数据需指定分区)Y Y(写数据需指定分区)写数据需指定分区)Y Y(分分shardshard)Y Y(分分shardshard支持)支持)高可用高可用Y YY YY YY YY YN N超过内存的数据集查超过内存的数据集查询询Y YY YY YN NY YN N支持流式导入支持流式导入Y YN N(只能离线构建索引)只能离线构建索引)Y Y(未满未满segmentsegment大小的数据无法大小的数据无法走索引)走索引)Y YY YN N支持多个向量索引支持多个向量索引Y YY YN N(一个集合只能有一个向量索引)一个集合只能有一个

16、向量索引)Y YY YN N其他限制其他限制无法处理超过2000维的向量无法处理超过内存的向量检索,成本高国内目前无法使用,非美国本土性能存在降级无全托管版本纯算法库,非数据库(能力收集于2023年6月)方案优势方案优势通义千问商业化平台通义千问商业化平台:通义千问模型一站式企业专属模型服务平台企业数据管理企业数据管理:可集中管理企业知识,并将知识可复用与知识库回答及模型Finetune;大语言模型大语言模型:通义千问的商业模型平台,提供持续演进的通义千问LLM模型;:专属大模型在线专属大模型在线APIAPI服务服务专属大模型控制台专属大模型控制台企业知识库企业知识库(AnalyticDB(A

17、nalyticDB forfor PostgreSQL)PostgreSQL)专属大模型训练专属大模型训练/评测评测/标注标注APIGatewayIndexPrompt重建LLM 大模型生成回复21FT/CT文档向量训练模型维护业务业务场景能力维护业务场景能力维护企业数据导入引用专属大模型企业训练数据通用大模型专属大模型模型/知识库管理智能问答应用专属大模型DataAPI应用:基于应用来组织业务能力、提供服务结构化数据模型 API高精度召回阿里云阿里云百炼百炼阿里云百炼集成AnalyticDB 助力企业应用AnalyticDB for PostgreSQL 阿里云AnalyticDB for PostgreSQL助力企业升级为灵活灵活&全面全面的数据架构“企业大模型的云上数据大脑”AnalyticDB 向量沟通群(钉钉)欢迎沟通交流感谢观看感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(大模型时代下基于湖仓一体的数据智能新范式 .pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部