上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

星环科技:大数据技术的最新进展和发展趋势(13页).pdf

编号:77624 PDF   PPTX 13页 1.85MB 下载积分:VIP专享
下载报告请您先登录!

星环科技:大数据技术的最新进展和发展趋势(13页).pdf

1、2016/12/8 1 www.transwarp.io 大数据技术的最新进展和发展趋势 孙元浩 星环科技 Founder & CTO transwarp.io 2016/12/8 2 www.transwarp.io Hadoop的发展历程回顾 2016/12/8 3 www.transwarp.io 大数据技术的软件栈 分布式存储引擎 资源管理框架 通用计算引擎 领域级引擎 分析管理工具 短时任务资源管理框架 YARN 长时任务资源管理框架 Mesos 资源隔离调度管理框架 Kubernetes 批处理框架 Map/Reduce2, Tez 高性能处理框架 Spark 向量处理框架 Ten

2、sorFlow 分布式文件系统 HDFS 搜索引擎 Elastic Search 分布式大表 HBase 分布式缓存 Redis 消息队列 Kafka 分布式协作服务 Zookeeper 流处理引擎 Streaming Processing SQL批处理 Batch Processing 数据挖掘 机器学习 算法库框架 Machine Learning 交互式分析 OLAP Analysis 实时数据库 OLTP Transactional Processing 图分析引擎 Graph Analysis 深度学习 Deep Learning ETL 数据装载工具 Workflow 工作流开发工

3、具 数据质量 管理工具 统计挖掘 开发工具 资源 管理工具 机器学习 建模工具 可视化 报表工具 2016/12/8 4 www.transwarp.io 进展一:分布式计算已逐渐成为主流计算方式 Transaction Relational Database Batch Data Warehouse Analyze Cluster Unstructured Streaming Devices Analyze (MapReduce) Organize Traditional Data Analysis Big Data Analysis 05000250030001TB1

4、0TB30TB100TBTranswarp Inceptors Performance TPC-DS Execution Time for 99 Queries (in minutes) Test environment: 29 worker nodes 2 CPUs, 12 Cores, E5-2620 v2 96GB memory Network: 2 X 1Gbps Disks: 12 X 3TB 星环大数据集群已经可以在生产环境中处理20PB的数据 星环SQL on Hadoop已经能够高效处理100TB数据的复杂分析 2016/12/8 5 www.transwarp.io 进展二:

5、交互式分析技术日益成熟 星环Inceptor SQL Execution Engine 星环星环Holodesk 交互式数据探索交互式数据探索 星环星环Hyperbase 明细查询、影像检索、文档检索明细查询、影像检索、文档检索 Based on HDFS Discover 数据关联挖掘数据关联挖掘 Rstudio R语言Web IDE 分布式内存/SSD列式存储 HUE/Zeppelin 图形化数据分析查看 智能索引技术 全局索引 全文索引 数据稽核数据稽核 元元数数据据管管理理 数据处理工作流调度数据处理工作流调度 分布式 统计算法库 分布式 挖掘算法库 Waterdrop SQL开发工具

6、 ODS 贴源层 文本文件 DWD 基础明细层 ORC事务表 公共主题模型层 Stargate 主流报表工具 星环星环Midas 图形化挖掘工具 星环Cube设计工具 2016/12/8 6 www.transwarp.io 交互式分析性能对比:TPC-H 1TB Inceptor4.6 vs GP4.3.10 The TPC BenchmarkH (TPC-H) is a decision support benchmark. It consists of a suite of business oriented ad-hoc queries and concurrent data modi

7、fications. 测试环境: 个节点,每个节点 CPU: 2x 6 cores, E52620 v22.10GHz 内存:256G 网络:千兆网卡 磁盘:6X900G 目的:通过预先建立Cube,加速大数据交互式分析。 优点: 图形化界面操作方便 表达能力强 (雪花模型, 支持表达式、子查询等) 建Cube Overhead小 对象:固定报表、公共主题模型等。 相比GP的加速比 1. 数据存放HDFS,不建CUBE Inceptor相对GP的加速比 2. 数据存放Holodesk,建CUBE 相比Inceptor不建Cube的加速比 2016/12/8 7 www.transwarp.io

8、 进展三:数据分析算法逐渐丰富,工具普及化 RPython语言开发 = 算法工程师,数据科学家 交互式挖掘 = 业务分析师,数据科学家 R和Midas中可以连接TDH中数据表做数据预览 可以对列做tag/feature的管理 通过内置的分布式统计算法完成相关的预处理与数据分析 支持标准化,归一化,正则化,缺失值填充,数据分箱等 支持通过Inceptor SQL进行数据ETL处理 用户通过GUI选择算法开发训练模型 模型编译成为DAG,由Hubble组件来调度任务 支持单机R算法和分布式算法训练模型 导出模型为PMML PMML模型可以转换成生产系统的代码,部署到实际业务中 Inceptor 结

9、合业务领域专家知识,以及相关算法降维,选择特征指标与维度 利用深度学习神经网络算法,通过升维降低特征工程维度选取难度 Stream Discover Deep Learning 深度学习 模型上生产模型上生产 模型训练模型训练 特征工程特征工程 预处理预处理 数据预览数据预览 Dimension Reduction 主成分分析 Linear Regression 线性回归 2016/12/8 8 www.transwarp.io 炼化厂 进展四:融合事件驱动和批处理引擎 分布式 队列 SQL aggregation machine learning using java/scala/R eve

10、nt t+1 event t Alerts data mining on streams 100k records/s/node 1KB/record transwarp stream A event-driven streaming engine ATM现场交易 POSPOS刷卡 客服 智能风机 光伏发电 飞行参数 人流信息 1.Streaming processing and batch processing are unified in one programming model 2.SQL and its extension is the unified declarative lan

11、guage for device monitoring and diagnostics. 3.ANSI SQL 2003 and PL/SQL are supported on streaming events. 4.Linear Algebra 5.Machine learning Usage cases in IoT & FS: Real-time event monitoring Real-time dashboard & statistics Real-time outlier detection Realt-ime fraud detection Event pipelines 20

12、16/12/8 9 www.transwarp.io 后Hadoop/Spark时代的技术发展趋势 RDBMS TB PB EB batch interactive real-time 新技术在四个维度新技术在四个维度上加速创新上加速创新 数据量 Volume 驱动力来自结构化数据的不断增加,企业需要性价比更高的技术方案 SQL on Hadoop快速成熟,Big Data Database将替代传统relational database。传统的MPP分析型数据库将消失。 类型 Variety 驱动力来自对多种数据类型数据(文本、图片、音频、视频)的存储和分析需求 深度机器学习技术(如Tens

13、orFlow)快速发展并得到应用,基于GPUFPGA的加速技术逐渐普及。 速度 Velocity 从离线处理进步到实时数据处理,特别是IoT的广泛部署,推动了对实时计算的需求 Flink,Apex,SqlStream,Internana,ParStream,Transwarp Stream等新技术,融合了批处理和流处理,提供强大易用的低延时实时计算能力,将逐渐取代现有流处理技术。 价值 Value 从历史统计发展到预测性分析。大数据的真正意义在于从数据中发现价值。 数据挖掘、机器学习、图计算等产品和工具将日益普及,使用门槛将极大降低,普通业务人员很快能够自助进行分析建模。 Discover I

14、nceptor Transwarp Proprietary Apache Projects Stream 流处理 引擎 Hyperbase NoSQL数据库 搜索、图计算 Transwarp Manager Inceptor PL/SQL批处理 交互式分析 资源管理 YARN (内置Transwarp Extension) 优化存储 HDFS (内置Transwarp Erasure Code) 批处理 Pig 批处理框架 MapReduce2 实时数据同步 Data Alive 消息队列 Kafka 工作流 Oozie 日志采集 Flume 全文搜索 Elastic Search 数据集成

15、Sqoop Discover 数据挖掘 机器学习 交互工具 HUE Guardian 安全管控 协作服务 Zookeeper 交互分析 Zeppelin Hyperbase Stream 2016/12/8 10 www.transwarp.io Hadoop及其生态系统将重构数据处理市场 10bn $ 29bn $ 2bn $ Data Warehouse Platform Database Software Extraction Tools DW Generation DW Management OLTP DBMS/NoSQL ETL Tools OLAP DBMS Data Analyt

16、ics BI / Visualization Tools Forecast (IDC) 12bn $ “Big Data” Predictive Real-time Vertical Soln “Big Data” Hadoop Hadoop NoSQL NewSQL Hadoop 2016/12/8 11 www.transwarp.io 大数据产业链日益繁荣 大数据 平台 软件 分析软件、模型 可视化、工具等 大数据应用软件 专业服务、定制开发 2016/12/8 12 www.transwarp.io 2016年是Hadoop技术大规模应用的战略转折点 Acceleration Point 未来五年大数据市场将以每年30%的速度增长 2016/12/8 13 www.transwarp.io TRANSWARP 2014

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(星环科技:大数据技术的最新进展和发展趋势(13页).pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部