《2019年DAMS中国数据智能管理峰会:PG去O非你莫属.pdf》由会员分享,可在线阅读,更多相关《2019年DAMS中国数据智能管理峰会:PG去O非你莫属.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会PG去“O”,非你莫属2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会目录 PG社区的独特性 PG的商业能力和创新能力 PG 新版本与新特性 PG on 云2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会独特性学生为什么应该学学生为什么应该学PG,PG与其他数据库有哪些独特性与其他数据库有哪些独特性,为什么为什么PG是数据库的未来?是数据库的未来?https:/ 社区分析社区分析-为什么为什么PostgreSQL社区几乎不可能被任社区几乎不可能被任何一个商业公司、国家所控制?何一个商业公司、国
2、家所控制?https:/ 国国 数数 据据 智智 能能 管管 理理 峰峰 会会社区独特性如果:99%的开源数据库都是被商业公司控制的那么:PG是那1%商业数据库商业数据库-1为什么要开源?2为什么改协议?逐利,培养背书群体,扩大生态,收割收割大客户。上云是大趋势,“云开源数据库服务”吞噬开源数据库市场,用户更多选择的是云服务,而不是商业开源数据库的企业版。商业开源公司与云发生利益冲突,改协议是必然的。PG为什么没有被商业公司控制?纯社区纯社区2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会sponsors 国家
3、国家日本3德国3美国11英国1瑞典1澳大利亚2法国1俄罗斯22019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会他们为什么要持续贡献核心代码?数据库厂商 推一款新的商业数据库,通常都需要背书,小厂产品,谁为你背书?1、有技术的厂商,很难挑战已有数据库市场格局。2、有渠道的厂商,需要抓住窗口期,快速占领市场,避免重复造轮子,需要一款可以无法律风险,二次分发的开源数据库。唯有PG。贡献核心代码,社区所有的用户都可以为之背书 数据库服务|DaaS服务提供商 开源产品的服务提供商,能力如何体现?架构能力?优化能力?管理能力
4、?FIX BUG的能力?背书2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会他们为什么要持续贡献核心代码?最终用户希望社区长久,期望可以享受免费的、可持续发展的可持续发展的、开源的、不被任何商业公司、不被任何国家控制的企业级的数据库。去O(贵),去DB2去sybase(产品下市、无法再升级、支持)不靠数据库赚钱1、PG用到人越多,越多人背书,使用越靠谱(事实证明是如此,比商业数据库还靠谱),2、抛砖引玉,企业投入2个研发持续贡献(一年可能一两百万),实际上整个PG社区有数千人在贡献,对最终用户来说,简直赚到了。使用商业数据库,除了使用商业数据库,除了LICENSE等成本,依旧
5、需要投管理、研等成本,依旧需要投管理、研发、外包资源,一年数千万甚至上亿。发、外包资源,一年数千万甚至上亿。公司越大,越有动力去贡献社区。公司越大,越有动力去贡献社区。从趋势来看,给从趋势来看,给PG贡献代贡献代码的大客户只会越来越多。码的大客户只会越来越多。云厂商开源数据库纷纷改协议数据库市场巨大自研是最佳选择自研的问题:需要培养生态,需要市场背书,需要大量研发资源,可能需要重复造轮子?BASE PG,1 免去自己培养生态,2 避免重复造轮子,3 PG 的代码基础非常不错(开源界“O”)防止其他厂商控制PG失去市场主导能力(AWS,google,IBM,微软都已进入sponsor行列)201
6、9中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会开源许可独特性-活雷锋PG的开源许可是类BSD许可。可以随意分发,闭源或开源。2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会架构独特性 PG采用了开放接口的设计,例如 type,operator,index,storage,language,fdw,custom scan,sample,hook等 PG是最具扩展能力的数据库(基于PG的图数据库、流数据库、GIS、时序数据库、推荐数据库、搜索引擎等。围绕PG的应用垂直化插件机器学习、图像识别、分词、向量计算、MPP等。)基本上都是使用PG扩展接口扩展出来的2019中
7、中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会商业趋势1、全球都在提高安全、合规、正版化意识2、PG是去O首选3、PG是数据库厂商首选,避免重复造轮子,前面说了PG的功能覆盖度高,是很好的基础。同时扩展性很强很容易做出行业特色行业特色,最重要的是它的开源许可允许任意的使用(分发、闭源)。4、PG 是云首选很多开源数据库的背后有商业公司,商业公司如果和云厂商没有很好的合作协议。云厂商拿去卖,客户被带上云,数据库厂商的利益与与云厂商的利益发生冲突的概率非常大。商业数据库厂商被迫修改许可协议是一种手段。商业数据库厂商被迫修改许可协议是一种手段。PG是纯社区开源数据库,没有修改协议的动机。是
8、纯社区开源数据库,没有修改协议的动机。PG的协议干净,是云厂商首的协议干净,是云厂商首选。选。2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会技术趋势 1、PG是多模数据库,因为它的开放性,可以随意扩展。例如前面提到的诸多插件,使得PG是目前最强度大的多模数据库。2、内置并行计算 3、支持存储引擎扩展(12)。4、对芯片友好,例如ARM芯片的支持。以上4点满足市场的既要又要还要的需求:既要既要SQL通用性,又要通用性,又要NOSQL扩展性,扩展性,还要多模开发便捷性。还要多模开发便捷性。既要既要OLTP又要又要OLAP。2019中中 国国 数数 据据 智智 能能 管管 理理
9、峰峰 会会目录 PG社区的独特性 PG的商业价值与创新价值 PG 新版本与新特性 PG on 云2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会多模Oracle兼容企业级混合负载创新价值商用价值0丢失+高可用:quorum based sync repl安全:SSLSQL防火墙TDE(13)弹性:插件化 shard 模块化扩展性能:32C TPCC 100万+并行计算OLTP、OLAP、SMP并行计算、GPU并行计算、实时分析、列存储、JIT、向量计算时空、GIS、图像文本、时序、向量相似、图谱流计算、异构、机器学习、多维计算、shard降低迁移成本。社区版:ora2pg+o
10、rafce阿里云版:ADAM+PPAS2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会目录 PG社区的独特性 PG的商业能力和创新能力 PG 新版本与新特性 PG on 云2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会PG版本发布节奏2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会PG 11 分区表增强 并行计算增强 btree index include索引叶子附加属性 添加字段(含默认值)更快 支持存储过程2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会分区表增强 hash分区 支持触发器 支持默认分区 允许修改分区
11、字段2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会并行计算增强 https:/ 36个CASE,平均20倍倍提升 create table|mview as,create index hash join,hash agg,parallel multi-phase agg2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会2019中中 国国 数数 据据 智智 能能 管
12、管 理理 峰峰 会会btree index include索引叶子附加属性https:/ index idx_t1_1 on t1(id)include(c1,c2,c3,info,crt_time);2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会添加字段(含默认值)更快https:/ 国国 数数 据据 智智 能能 管管 理理 峰峰 会会支持存储过程https:/www.postgresql.org/docs/11/sql-createprocedure.htmlCREATE OR REPLACE PROCEDUREname(argmode argname argtype
13、DEFAULT|=default_expr ,.)LANGUAGE lang_name|TRANSFORM FOR TYPE type_name ,.|EXTERNAL SECURITY INVOKER|EXTERNAL SECURITY DEFINER|SET configuration_parameter TO value|=value|FROM CURRENT|AS definition|AS obj_file,link_symbol.https:/ 支持事务 commit|rollback2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会PG 12 AM接口 分区表-大
14、量分区性能提升 GiST index include索引叶子附加属性 CTE 物化、非物化 日志采样 COPY WHERE2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会AM接口https:/ 122019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会 zedstore(列存)zheap(支持回滚段)2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会分区表-大量分区性能提升1000个分区、469倍https:/ 国国 数数 据据 智智 能能 管管 理理 峰峰 会会GiST index include索引叶子附加属性 轨迹,时空搜索 按结果集(索引)
15、聚集存储,消除回表IO放大。2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会CTE 物化、非物化https:/ 非物化-条件下推WITH w AS NOT MATERIALIZED(SELECT*FROM big_table)SELECT*FROM w AS w1 JOIN w AS w2 ON w1.key=w2.ref WHERE w2.key=123;2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会日志采样https:/ 国国 数数 据据 智智 能能 管管 理理 峰峰 会会COPY WHERE https:/ 国国 数数 据据 智智 能能 管管 理理
16、峰峰 会会pluggable AMzheaphttps:/ transaction idszheap will prevent bloat(a)by allowing in-place updates in common cases and (b)by reusing space as soon as a transaction that has performed a delete or non-in-place-update has committed.Reduce write amplification both by avoiding rewrites of heap pages an
17、d by making it possible to do an update that touches indexed columns without updating every index.Reduce the tuple size by (a)shrinking the tuple header and (b)eliminating most alignment padding.In-place updates will be supported except when (a)the new tuple is larger than the old tuple and the incr
18、ease in size makes it impossible to fit the larger tuple onto the same page or (b)some column is modified which is covered by an index that has not been modified to support“delete-marking”.We have not begun work on delete-marking support for indexes yet,but intend to support it at least for btree in
19、dexes.2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会pluggable AMzedstorehttps:/ improvement for queries selecting subset of columns(reduced IO).*Reduced on-disk footprint compared to heap table.Shorter tuple headers and also leveraging compression of similar type data*Be first-class citizen in the Postgres archi
20、tecture(tables data can just independently live in columnar storage)and not be at arms length though an opaque interface.*Fully MVCC compliant-basically all operations supported similar to heap,like update,delete,serializable transactions etc.*All Indexes supported*Hybrid row-column store,where some
21、 columns are stored together,and others separately.Provide flexibility of granularity on how to divide the columns.Columns accessed together can be stored together.*Provide better control over bloat(using zheap)*Eliminate need for separate toast tables*Faster add/drop column or changing data type of
22、 column by avoiding full rewrite of the table.2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会目录 PG社区的独特性 PG的商业能力和创新能力 PG 新版本与新特性 PG on 云2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会【Oracle深度兼容深度兼容】内置ORACLE兼容(for Oracle)【OLTP+OLAP混合混合负载负载】内置并行计算内置会话级资源隔离【智能驾驶智能驾驶】内置AAS性能洞察内置SQL防火墙内置索引推荐阿里云OSS海量对象存储【冷热分离冷热分离】分级存储。历史数据想存多久就存多久。
23、ADBMAXCompute函数计算阿里云POLARDB v2.0 发布兼容Oracle|PostgreSQL云生态无缝对接【云原生云原生】读写分离共享存储计算节点可扩展到1408核存储可扩展到100TB2019中中 国国 数数 据据 智智 能能 管管 理理 峰峰 会会还有很多很多很多很多很多很多牛逼的特性!Previewhttps:/ Noteshttps:/www.postgresql.org/docs/11/release-11.htmlhttps:/www.postgresql.org/docs/12/release-12.html功能矩阵https:/www.postgresql.org/about/featurematrix/大量学习资料https:/ 国国 数数 据据 智智 能能 管管 理理 峰峰 会会THANK YOU!