PostgresQL与数据中台-企业应用专场（50页）.pdf

编号：87326

PDF 50页 2.45MB 下载积分：VIP专享

下载报告请您先登录！

PostgresQL与数据中台-企业应用专场（50页）.pdf

1、企业如何用PostgreSQL系列数据库构建数据中台本议题将为您介绍 DataSphere 通过数据集成平台、数据计算平台、数据服务平台如何在大型金融级复杂数据环境中落地数据中台，以及去Teradata关键难点的解决之道数据集成平台数据计算平台数据服务平台数据中台典型特征数据标准化以实体对象为中心的业务主数据提炼、DMP构建，实现ID识别连接、标签标准规范地自动化生产建设自动化在现有数据平台基础上，自动化构建虚拟数据集市、主题库和专题库，即时响应业务的快速变化管理资产化支持资产化视角构建及管理数据体系，适用于数据类型多样，需要统一管理数据的业务场景业务智能化通过机器学习算法动态识别数据的业务特

2、征，智能推荐业务所需要的数据模型策略配置任务管理断点续传数据对账数据分发标识关联数据计算任务调度清洗加工数据处理提取规则业务资源库数据试验空间资源库原始库业务实体库模型标签关键词业务知识库业务库数据资源目录元数据管理信息库主题库知识库业务专题库统一索引库数据存储备份库数据集成数据服务基础应用服务数据管理服务数据共享服务数据中台典型架构数据治理资源目录分级分类数据血缘数据标准元数据数据质量统一元数据统一访问统一存储统一调度统一账户与权限全链路监控大数据云总体技术架构大数据云基础平台托管弹性大数据基础服务超大规模智能计算和存储管理服务智能数据管理统一调度系统统一数据查询搜索分析引擎数据采集数据

3、集成离线计算实时计算图计算交互查询和分析服务全链路监控大数据云生态组件金融大数据服务数据可视化模型化业务分析服务报表服务检索服务数据仓库推荐服务在线事件服务AI云平台统一元数据、访问、存储、调度、权限、监控一站式数据分析与深度挖掘服务监管报表企业服务客户关系风险管理算法调用模型托管数据存储数据处理弹性伸缩自动化部署运维计算存储分离资源隔离组件高可用开放组件管理账户与权限数据审计多租户开发套件住房租赁智能投顾数据交换数据中台总体架构Web IDE代码库桌面IDE 插件任务流程设计器SQL作业调度作业执行信息作业资源消耗作业重跑补数据作业集成数据来源数据中心(DW)业务源端数据采集调度开发模块代

4、码开发运行调度版本管理数据中台服务区集成工具数据源配置集成规则集成调度测试工具功能测试性能测试测试报告发布工具任务发布节点发布发布管理Spark代码构建打包提交代码执行SQL节点执行Spark节点执行计算资源用户信息同步登录权限用户权限管理资源申请资源详情资源销毁4A统一认证多租户管理数据中台业务架构数据源管理数据源配置调度配置集成任务管理资源消耗监控数据源类型数据集成统一索引库数据开发运维监控任务监控半结构化存储NoSQL消息队列关系型数据库非结构化存储连接属性数据来源字段映射基础属性时间属性调度依赖连通性测试数据来源数据去向集成任务管理资源消耗监控离线任务同步任务任务资源消耗同步任务任务

5、开发脚本管理任务节点任务发布脚本分类血缘分析提交测试脚本编辑统一索引库任务编排可视化编排串联编排调度时间策略配置依赖配置统一索引库调度配置调度脚本管理调度配置语法校验实时预警监控报表周期实例补数据实例任务重跑任务视图任务监控任务运维租户管理用户管理角色管理系统管理权限管理菜单管理日志管理同步任务查询分析离线计算实时计算数据集成ETL(适配器)集成监控多源批量同步数据校验适配多种查询引擎统一数据缓存JDBC/REST API基础平台运维监控数据仓库HadoopSpark适配Hive/Spark/MR插件/多语言支持计算优化服务插件Spark支持SQL-SCAN适配 Flink插件/SQL支持插件

6、Flink支持优化及高可用服务动态运维管理调度系统运行监控状态监测自定义监控任务配置高可用派发/执行资源权限隔离任务生命周期管理任务列表管理使用人员数据开发工程师数据分析工程师业务处理工程师其他使用人员数据科学工程师管理服务权限控制计算和存储资源管理运维管理交互分析可视化/交互安全审计多查询引擎适配数据开发统一元数据管理数据模型管理数据融合关联SQL/脚本处理脚本管理数据融合关联数据资源管理数据中台技术架构数据源数据源数据流数据流数据服务数据服务文件加载KafkaLambdaIoT 流API服务数据模型BI分析融合计算数据洞察数据模型算法模型数据集成数据集成数据处理数据处理文件加载云平台S3

7、对象存储数据中台数据流向图实时采集Agent负载均衡Relay服务去重服务接入端权限认证OracleHadoop黑白名单验证批计算任务实时批量同步调度管理数据校验网络爬虫批量同步任务管理智能数据管理全链路监控批量同步工具SDK远程采集接入远程采集管理远程状态监控远程配置管理远程升级控制扩容缩容管理批量同步（集群直连）Kafka SinkHDFS Sink同步插件数据源网页程序日志文件服务数据源端采集集群MongoDBElasticSearch实时同步实时同步实时同步阿里大数据平台华为大数据平台浪潮大数据平台数据中台数据集成Data ExchangeStormSpark Streaming处理延

8、时实时实时准实时处理速度50万/秒10万/秒3万/秒有状态操作是否是使用MQ种类ZeroMQZeroMQKafkaSQL 支持支持不支持不支持维度汇总操作可以不可以不支持分析任务复杂简单较复杂数据集成与其他平台对比支持数据格式支持数据格式DelimitedJSONXMLFree TextBinaryName/ValueZippedAVROOracle GoldenGate Trail FilesApache LogSys LogWindows Event LogsMail LogSNMPCollectDCEFDHCP LogWCF+Others支持数据库支持数据库(VIA CDC)Oracle

9、DB2Microsoft SQL ServerMySQLMariaDBPostgreSQLOthers via JDBC支持大数据平台支持大数据平台HDFSHiveHuawei FusionInsightAliyun MaxCompute支持消息系统支持消息系统KafkaFlumeJMSAMQP支持文件支持文件Log FilesSystem FilesBatch Files支持网络协议支持网络协议TCPUDPHTTPCisco NetFlowPCAPIOT物联网协议物联网协议MQTTOPC UA支持云服务支持云服务AWS RDS for PostgreSQLAWS RDS for MySQLA

10、WS Redshit AWS S3Aliyun RDS for PostgreSQLAliyun RDS for MySQLAliyun MaxCompute数据集成平台数据源端支持支持数据库支持数据库OracleMicrosoft SQL ServerMySQLTeradataPostgreSQLMemSQLOthers via JDBC支持消息系统支持消息系统KafkaJMSAMQPMAPRStream支持云服务支持云服务Amazon S3Amazon RedshiftAWS RDS for OracleAWS RDS for MySQLAmazon KinesisAzure Storag

11、eAzure SQL DatabaseAzure HDInsightGoogle Big Query支持文件格式支持文件格式DelimitedJSONXMLTemplateAVRO支持支持NOSQL数据库数据库MongoDB大数据平台大数据平台/HADOOPHBaseHiveHDFSKuduClouderaHortonworksHuawei FusionInsightAliyun MaxComputeIOT物联网协议物联网协议MQTTOPC UA支持其他系统支持其他系统Hazelcast数据集成平台-数据目标端支持数据中台项目管理流程数据中台数据集成流程数据中台数据开发流程数据中台代码开发和调

12、试流程数据中台数据开发流程可用脚本代码开发开发环境数据任务WebIDESQLSparkFlink代码调试任务编排任务发布生产环境上线任务异常通知运维报告运维监控任务测试测试环境功能已测性能已测测试报告生成报告代码资源库在线编辑版本迭代测试不通过返回修改开发完成提交测试数据计算引擎数据中台数据处理流程数据集成平台流式SQL处理实时清洗Hashdata分布式文件系统批量SQL处理批量处理Spark数据中台数据计算引擎JDBC/ODBC DriverRESTful API(SQL)交互查询Web查询服务引擎引擎管理离线计算数据可视化PythonR作业入口应用管理服务资源管理服务引擎管理引擎管理引

13、擎管理用户管理代码库管理缓存服务JDBC/ODBC DriverRESTful API(SQL)交互查询WebSQL解析统一元数据监控告警服务服务网关/路由统一数据计算引擎数据权限元数据同步指标上报服务性能分析降级/熔断服务注册负载均衡认证服务配置管理查询服务引擎QueryServer数据融合多数据引擎适配器跨集群联表查询检索服务数据可视化搜索引擎执行计划生成执行优化对象存储元数据融合查询数据中台数据计算引擎PythonRDatabaseReader监控告警展示 Grafana 库表迁移数据同步运维监控数据中台数据计算微服务化DatabaseWriter任务执行JDBC/ODBC Dri

14、verRESTful API(SQL)SQL脚本执行数据计算引擎周期配置参数配置任务调度引擎依赖配置配置管理任务调度引擎计算执行引擎Scala脚本执行计算引擎适配器其他脚本执行脚本测试融合查询ScalaHadoop服务器PostgreSQL 数据库Spark服务器Flink服务器脚本上传脚本执行调度执行项目管理用户管理Spring MVC框架React框架WebSocketWeb微服务架构监控数据采集Prometheus 运维监控服务器数据集成服务器数据中台系统间关系说明数据集成结果服务调用服务发布数据中台平台采集调度系统数据集成请求租户申请资源分配数据集成结果数据集成结果采集调度系统租户管

15、理系统服务发布平台DataSphere 大数据服务平台，提供了关于数据清洗加工，预处理，特征工程，模型构建，模型发布应用等一系列能力。DataSphere具有支持模型生命周期每个阶段的必要功能，专门用来管理和部署分析模型，平台使用项目对构建模型过程进行组织管理，不同的项目可对应于不同的业务用途或应用。DataSphere 数据服务平台支持多种文件系统导入：HDFS、FTP、HTTP、SFTP、S3支持关系型数据库导入：DB2、Oracle、MSSQL、MySQL支持分析型数据库导入：Redshift、Teradata、Greenplum支持特定数据格式导入：SAS支持大数据平台导入：Hadoo

16、p支持 NoSQL 数据库导入：MongoDBDataSphere 数据服务平台支持数据格式和数据模式的自动检测，在读取数据之前不需要对格式进行设置支持交互式的数据清洗和增强，至少支持80种以上的数据清洗函数支持交互式的数据预处理，类型转换、公式运算、缺失值处理、异常值处理、规则化、归一化、按列处理、One-Hot 编码等预处理操作支持文本处理、日期处理、UR支持按照每列进行统计特征值如最大值、最小值、中位数统计处理、JSON 数据处理、国家编码和货币转换支持 Python、Scala的脚本编写,可根据业务需求创建自定义数据类型支持中文分词、中文词法分析、停用词过滤支持语法分析、篇章分析支持浅

17、层语义表示、语义特征抽取DataSphere 数据服务平台支持向导式构建机器学习数据模型支持拖拉拽可视化展示数据分析挖掘结果支持可视化查看模型运行的性能支持通过不同的交叉策略比较和优化模型支持自动生成非监督学习的可视化统计报表 DataSphere 数据服务平台回归算法支持：支持线性回归、逻辑回归、XGBoost回归、Catboost回归、SVM 向量机回归分类算法支持：随机森林、朴素贝叶斯、支持向量机、线性向量机、XGboost 分类、Catboost 分类、KNN 分类、GBDT 分类、决策树分类聚类算法支持：KMeans、DBScan关联规则算法支持：FPGrowth、Apriori语义

18、算法支持：Word2vec、CountVectorizer、TF-IDFDataSphere 数据服务平台灵活易用的可视化分析无需任何预处理即可对数据做任意维度的多维分析，简单拖拽即可通过数据获得业务洞察，业务人员也能自助分析数据。全方位的数据接入从内部数据，到各种SaaS应用、互联网平台，再到需要监控的各类外部数据，上百种数据源，一键对接。支持各种图表的可视化展示可拖拉拽数据维度生成各种图表，支持20多种主流的图表可视化图表构建，如柱状图、饼状图、散点图、漏斗图、树图、图谱图、桑基图等。灵活的仪表盘可视化展示仪表盘支持多个图表组合展示，支持多个图表联动和多层下钻，同时支持图表的导出图片、E

19、xcel、移动图表和复制图表等。DataSphere 数据服务平台可视化建模在预测数据处理过程中，可通过拖拉拽实现数据准备,到分析,建模的可视化操作，同时支持Notebooks脚本(R,Python,Hive,Pig,Spark 等)建模数据抽取加载可以抽取30多种数据源，连接现有的数据库或大数据平台的数据源进行抽取，自动检测数据格式和模式将计算任务发送给现有的SQL、Hadoop 或 Spark 环境运行数据准备和可视化可以在数据分析的每一步完成数据预览、数据准备、数据清洗、数据过滤等工作，内置80+多种函数用于上述工作DataSphere 数据服务平台DataSphere 数据服务平台数据

20、API设计数据从数据源抽取处理后，经过清洗加工形成数据集，可通过数据API设计器进行共享数据API发布数据在共享发布时，可先将API进行部署，API接口部署后对数据访问接口进行发布数据探索展示根据数据特点，智能推荐可视化分析方式，并可在图形间随意切换，动态数据建模，无需预计算。交互式数据展示交互式数据展示主要包含数据查询控件、报表生成引擎和报表控制界面。数据查询控件通过读取元数据，生成拖拽界面。数据关联展示跨多种数据源的多个图表实现联动过滤，通过此功能，实现多表多字段的数据关联展示，用户可以实现全局数据的细查。DataSphere 数据服务平台DataSphere 数据服务平台进入数据服务平

21、台操作门户DataSphere 数据服务平台数据服务平台新建数据工程进入数据服务面板：数据集数据模型开发代码脚本数据处理任务数据服务接口等DataSphere 数据服务平台DataSphere 数据服务平台经过若干数据处理步骤可形成数据处理工作流：结构化数据库半结构化数据库非结构化文件公有云数据服务DataSphere 数据服务平台可对数据集进行洞察预览DataSphere 数据服务平台数据API设计数据从数据源抽取处理后，经过清洗加工形成数据集，可通过数据API设计器进行共享数据API发布数据在共享发布时，可先将API进行部署，API接口部署后对数据访问接口进行发布DataSphere 数据

22、服务平台创建数据API服务DataSphere 数据服务平台选择数据API类型DataSphere 数据服务平台对数据端点进行代码开发数据仓库平台技术架构(上云前)数据缓冲区贴源数据区基础主题区公共计算区公共访问区管理分析应用计算区实验数据区复制数据区XXX实验数据库XXX实验数据库云数据仓库数据归档区原始数据访问区历史数据区联机交易应用.组件数据区应用管理分析类应用跨组件批处理计算区XXXX应用XXX应用组件数据库XXX应用组件数据库源系统数据缓冲区贴源数据区基础主题区公共计算区公共访问区管理分析应用计算区实验数据区复制数据区OAS实验数据库EIA实验数据库DW数据仓库数据归档区原始数据

23、访问区历史数据区联机交易应用.组件数据区应用管理分析类应用跨组件批处理计算区SOR应用XXX应用组件数据库OAS应用组件数据库源系统数据仓库平台技术架构(上云前)数据仓库平台技术架构(上云后)缓存缓存缓存计算单元-1（数据贴源区）计算单元-2（数据计算区）计算单元-3（数据访问区）云存储平台风控反洗钱、反欺诈、稽核监测应用缓存缓存缓存计算单元-1（数据贴源区）计算单元-2（数据计算区）计算单元-3（数据访问区）云存储平台信用卡数据分析应用反洗钱、反欺诈、稽核监测应用可在一个集群上建立数据贴源区、数据计算区、数据访问区，完全共享底层的数据存储资源信用卡数据分析应用可在一个集群上建立数据贴源区、数

24、据计算区、数据访问区，完全共享底层的数据存储资源66*6节点66*6节点数据仓库平台技术架构(上云后)缓存缓存缓存计算单元-1（数据贴源区）计算单元-2（数据计算区）计算单元-3（数据访问区）云存储平台信贷管理应用缓存缓存缓存计算单元-1（数据贴源区）计算单元-2（数据计算区）计算单元-3（数据访问区）云存储平台财务会计应用信贷管理应用可在一个集群上建立数据贴源区、数据计算区、数据访问区，完全共享底层的数据存储资源财务会计应用可在一个集群上建立数据贴源区、数据计算区、数据访问区，完全共享底层的数据存储资源66*6节点66*6节点数据仓库平台技术架构(上云后)缓存缓存缓存计算单元-1（数据贴源区

25、）计算单元-2（数据计算区）计算单元-3（数据访问区）云存储平台信贷管理应用缓存缓存缓存计算单元-1（数据贴源区）计算单元-2（数据计算区）计算单元-3（数据访问区）云存储平台财务会计应用信贷管理应用可在一个集群上建立数据贴源区、数据计算区、数据访问区，完全共享底层的数据存储资源财务会计应用可在一个集群上建立数据贴源区、数据计算区、数据访问区，完全共享底层的数据存储资源66*6节点66*6节点数据仓库架构集群部署规模某大型银行已经针对不同的业务应用使用了1套Hashdata集群，来支撑四大业务应用。应用名称应用名称节点规模节点规模用户访问量（日）用户访问量（日）数据量数据量数据增长量数据增长量

26、(月月)反洗钱、反欺诈、稽核监测66*61000900TB10TB信用卡数据分析66*61000300TB20TB信贷管理应用66*6800200TB10TB财务会计66*6600100TB5TBTeradata on Hashdata 架构应用访问应用访问Client API本地网络客户端第三方客户端数据库连接ODBC/JDBCDataSphereSQL编译器工作负载管理元数据管理SQL语句转换识别元数据基于策略管控负载均衡、审计、监控等连接 API本地客户端连接目标库本地网络服务器库本地i网络服务器库HashdataHashdata1.JDBC客户端连接DataSphere客户端2.执行SQL编译器、工作负载管理器和元数据管理器3.连接目标数据库的客户端4.登录目标数据库查看SQL执行情况和数据更新情况1234数据处理流向图Teradata客户端应用Hashdata数据仓库负载均衡12341.退出Teradata 客户端应用.2.SQL工作负载均衡3.配置目标端数据仓库连接地址4.自动切换到Teradata on Hashdata 模式

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（PostgresQL与数据中台-企业应用专场（50页）.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。