《第二章 大数据离线批处理场景化解决方案.pdf》由会员分享,可在线阅读,更多相关《第二章 大数据离线批处理场景化解决方案.pdf(93页珍藏版)》请在三个皮匠报告上搜索。
1、版权所有 2019 华为技术有限公司 大数据离线批处理场景化解决方案 第2页版权所有 2019 华为技术有限公司 前言 进入大数据时代,企业产生的数据出现爆发式增长,部分数据需要实现离线存储分 析,而传统的数据处理方案满足不了海量数据存储和海量数据处理需求。结合大数 据离线技术,如何提出行之有效的解决方案以及如何去实施应用,成为企业面临的 难题。 第3页版权所有 2019 华为技术有限公司 目标 学完本课程后,您将能够: 熟悉离线批处理应用场景 熟悉离线批处理采用的技术方案 学习离线批处理的实际案例 第4页版权所有 2019 华为技术有限公司 目录 1. 离线处理方案 2.离线处理技术框架介绍
2、 数据存储HDFS 数据仓库Hive 离线分析SparkSQL 数据采集工具 3.离线批处理实战 第5页版权所有 2019 华为技术有限公司 人口系统 公安系统 出入境系统 旅店系统 社会系统 网吧系统 数据源 增量文件 全量文件 实时数据 缓存库 原 始 数 据 刑专系统案件信息系统 刑侦业务 综合情报研判人员信息系统 情报业务 烟花爆竹管理特种行业管理 治安业务 数据预处理作业 视频/图像数据非结构化文本数据复杂结构表数据传统关系表数据 用户标签作业数据碰撞作业轨迹分析作业关系分析作业 访 问 数 据 访 问 数 据 访 问 数 据 明 细 数 据 基本信息交往圈信息轨迹信息行为信息 结
3、果 数 据 可疑人群重点关系行动轨迹高危行为 离线处理平台 业务场景 - 安平领域 第6页版权所有 2019 华为技术有限公司 大数据平台 交易系统区数据服务区数据应用区 数据仓库系统 监管报送类应用 数据集成区 外部数据 人行征信 社交网络 内部结构化数据 核心 信贷 收单 内部非结构化数据 电话银行 网银 信用卡 影像平台 电商平台 数据采集 网络爬虫 数据操控 数据传输 数据分发 数据压缩 数据加载 实时加载 准实时加载 操作型数据仓储(准实时ODS) 实验数据区 历史数据区 缓冲层基础层汇总层 公共实 验区 分行实 验项目 大数据存储 个人/企业征信银监会1104报送 证监会报送审计署平台 BI类应用 零售分析系统电子银行BI 信用卡BI 新型分析类应用 精准营销系统反欺诈/反洗钱 个人信贷评分 KPI考核指标 大数据多表 关联分析 大数据算法 分析 离线分析平台 。 业务场景 -