网易数帆：网易有数大数据平台技术白皮书（25页）.pdf

编号：109205

PDF DOCX 25页 1.10MB 下载积分：VIP专享

下载报告请您先登录！

网易数帆：网易有数大数据平台技术白皮书（25页）.pdf

1、 0 网易有数大数据平台技术白皮书作者：网易有数大数据开发及管理团队联系我们：了解和申请试用 1 目录 1.有数大数据平台.2 2.产品核心功能.3 2.1 有数大数据开发套件.4 2.2 调度系统.7 2.3 数据安全.11 2.4 平台运维与监控.12 2.5 数据可靠性.13 3.基于有数的大数据应用建设方案.14 4.技术规格.17 5.组件版本.20 2 1.网易有数大数据平台有数大数据平台，网易大数据实践经验积累，一站式大数据应用开发和数据管理平台。有数大数据平台主要分为大数据开发套件和 Hadoop 发行版两部分。有数大数据总体架构图大数据开

2、发套件主要包含数据开发、任务运维、自助分析、数据管理、实时流计算、项目管理等。大数据开发套件将数据开发、数据分析、数据 ETL 等数据科学工作通过工作流的方式有效地串联起来，提高了数据开发工程师和数据分析工程师的工作效率。Hadoop 发行版涵盖了网易大数据所有底层平台组件，包括自研组件、基于开源改造的组件。丰富而全面的组件提供完善的平台能力，使其能轻易地构建不同领域的解决方案，满足不同类型的业务需求。敏捷易用 3 基于业务场景设计的用户操作界面提高了系统的易用性，结束了平台命令行运维的繁琐状态。数据开发工程师和数据分析师通过简单拖拽和表单填写即可完成数据科学相关工作。成熟稳定持续内部需求驱

3、动帮助打磨平台，网易互联网各业务验证。同时，网易杭研院成熟的 QA 体系为有数大数据平台保驾护航。安全可靠有数平台提供多租户支持，不同租户之间相互隔离。底层使用 Kerberos 认证，实现了数据的安全性和隔离性。除了认证系统，利用 Ranger 实现了细粒度权限控制，保证了各个租户只能查看授权访问的库、表或字段。此外，平台提供审计功能，通过对用户平台行为的记录、分析和汇报，用来帮助事后生成合规报告、事故追根溯源，提高平台安全性。开放灵活一直秉承开源改造回馈社区的概念，保持开源组件接口一致性；提供开放灵活的Web 接口，用户可以在此基础上进行定制化开发。2.产品核心功能 4 2.1 有数大

4、数据开发套件有数大数据开发套件提供可视化界面，用户可以进行数据开发、任务运维、自助分析、数据管理、实时流计算、项目管理。大数据开发套件降低了大数据技术门槛，帮助企业快速落地大数据项目。网易有数开发套件数据开发数据开发模块提供数据库传输、SQL、Spark、MapReduce 及 Script、条件控制、嵌套流、数据质量等任务节点的敏捷开发界面，任务开发者通过拖拽创建任务，方便地进行数据集成、数据 ETL、数据质量校验、数据分析等数据科学工作。以数据库传输为例，用户只需将“数据库传输”组件拖拽到画布上并双击，通过下拉框选择和手动输入填写表单，快速完成数据传输的任务开发。此外，企业还能根据自

5、身业务场景按需进行任务调度管理，用户可以设置任务的执行顺序、优先级以及执行周期。针对任务失败的情况，设置重试次数、重试间隔及报警规则。最后，任务产生的结果可以对接主流 BI 系统进行数据可视化分析，或者直接回流到线上系统支撑辅助线上业务。5 任务运维任务运维模块包含可视化的运维概览、实例运维、任务管理。运维概览：通过今日执行概览，执行趋势图，用户大体了解当天任务运行的情况以及历史任务运行实例的趋势，通过耗时排行和延迟排行快速定位可能存在有问题的任务实例。任务管理：用户可以查看当前产品线任务列表及各个任务的状态、创建人、修改时间、最近执行时间及调度信息。针对单个任务，用户可以查看详情（包括修改

6、历史、执行历史及执行计划）、编辑任务或补数据。补数据可以对任务执行发生在过去一段时间的调度。用户还可以通过任务血缘来查看线上调度任务之间的依赖关系。实例运维：主要分周期实例(线上调度和重跑生成对应的实例)和补数据实例，用户可以查看任务实例列表及各个实例的状态、运行方式、开始时间、结束时间、运行时长、计划执行时间及提交人信息。此外，用户可以按照不同的维度（开始时间、关键字、运行方式、状态及提交人）快速定位感兴趣的实例。针对单个实例，用户可以查看详情、日志或重跑。自助分析自助分析提供交互式数据分析的 Query 和 Notebook。Query 可便于单个数据查询操作，Notebook 可切分成

7、不同段落，便于分析师使用多个段落同时进行交互式分析。除了交互式数据分析，用户可以使用自助分析进行历史数据查询和自助取数。同时针对不同场景，提供 Hive、Spark、Impala 三种执行引擎且三引擎共享同一份元数据。数据管理数据管理模块包括元数据管理、数仓管理、数据质量、文件管理、数据源管理。在数据管理里企业可以实现数仓分层、分主题对数据资产进行分类管理，并根据主题快速定位感兴趣的表。6 元数据管理：用户可以查看当前项目和项目外的相关表；可以通过表、字段名称或者描述进行相关搜索定位；可以通过责任人、表类型进行筛选；可以通过创建时间、名称、分区数进行排序。在具体表详情里面，用户还可以查看表的

8、结构、数据预览、生命周期设置、通过数据血缘了解数据的来龙去脉。数据质量：通过稽核监控满足用户事前定义数据的监控规则、在事中无缝对接工作流设计和调度控制 ETL 流程、事后通过稽核概览进行数据质量问题分析和相关跟踪。文件管理：快速的进行文件新建、上传、删除、下载以及相关文件和目录的搜索数据源管理：提供登记关系型数据库数据源的入口。登记数据源后，数据开发工程师可以将数据源的数据集成到有数平台，并做进一步的操作如数据 ETL 和数据分析。目前支持的关系型数据库包括 MySQL、SQL Server、PostgreSQL、DB2 及Oracle。除了数据源登记，项目管理员可以修改、删除数据源或测试数

9、据源连通性。项目管理为了满足现代企业多部门多集群的需求，项目管理提供创建项目、资源管理、成员管理、角色管理、权限管理以及审计项目活动等功能。针对单个项目，项目管理员可以进行集群存储、队列及资源管理，也可查看整体资源消耗的趋势权限管理：通过个人，角色进行数据、功能、目录、队列权限授权，对于数据权限，可以对库、表和列的不同权限(select、update、create、drop 和 alter 等);对于功能权限可以控制不同角色拥有不同的功能。审计：不仅能对所有在有数平台上的操作进行审计且能对于 HiveServer 和 Hdfs的操作进行审计，并能根据不同维度进行查询（如集群、队列）7 2.

10、2 调度系统用户可以通过调度系统灵活方便地配置和调度大数据 ETL 任务。支持 Sqoop、hive、Spark、HadoopMR、Script、Java、数据质量等类型的大数据任务，通过配置任务之间的依赖关系，可以灵活地组织任务流。支持任务流的定期调度、历史回溯调度、历史任务重跑等多种调度方式。支持跨任务流的任务依赖和任务的细粒度分配，并且所有服务节点都实现了高可用机制。任务执行调度系统支持几乎所有主流的大数据类型任务，对任务的执行进行了严格的权限控制和资源隔离，保证用户任务正常执行。用户可以灵活便捷地配置任务参数，系统可用性好。任务的执行采用独立进程执行的方式，任务插件的升级和扩展不会

11、对系统使用有任何影响。任务流执行控制调度系统除了支持多种形式的调度方式以外，还支持多维度的精细化的调度参数的设置：支持多层级的任务流并发执行，内置多种任务异常处理策略，提供多种任务流执行状态的通知报警方案。其他除了支持调度任务的核心功能，调度系统还支持执行 sql 执行结果的预览和下载、任务执行日志的预览、保存和下载等提高用户使用体验的功能。8 调度系统 9 2.5 交互式分析查询 Impala 是基于 MPP 架构的新型查询系统，它提供比现有 SQL-on-Hadoop 引擎具有简易使用和快速查询的特点，支持标准的 ANSI SQL 语法；Impala 支持 Hive 元数据查询存储在多

12、种存储系统上的数据。另外 Impala 具有较好的可扩展性，可以很好的与典型 BI 应用系统协同工作，对于即席查询(Ad-hoc 查询)需求无疑是首选工具。网易有数团队对社区版本做了以下改进提升：用户权限隔离开源版本的 Impala 只支持 impala 用户执行所有的数据访问操作，不同用户的操作会造成数据权限不一致，无法被其它查询引擎使用等问题，我们基于开源 Impala版本添加支持用户权限隔离，实现用户数据的自治和不同引擎之间的共享。基于 Zookeeper 高可用和负载均衡 Impala 典型的高可用方案是基于 HAproxy+Keepalived 实现，但是这种方案扩展性一般并且不能

13、够和 Hive 兼容，我们由此开发了基于 Zookeeper 的高可用负载均衡方案，以此兼容 Hive 的使用方式。集中式的查询审计和管理系统每一个 Impalad 都可以作为 SQL 引擎提供服务，导致每一个节点保存了部分的查询详细信息，这样增加了用户的使用难度，由此我们开发了集中式的查询审计和管理系统，支持不同用户查看不同的 SQL 查询信息。细粒度的权限控制开源版本的 Impala 只支持 ALL/INSERT/SELECT 三种权限，无法做到诸如CREATE/UPDATE/DROP 等细粒度的权限，我们对此进行修改以支持细粒度的权限控制，更好的保证了数据安全。10 元数据同步 Im

14、pala 和 Hive 等 SQL 引擎共享元数据存在无法同步 DDL 操作的问题，我们基于现有的 Impala 架构增加了同步 DDL 操作的功能，实现元数据在不同 SQL 引擎之间实时的同步。元数据权限集成 Ranger 社区版本 Impala 权限系统只能与 Apache Sentry 集成，我们针对这个问题实现了与 Apache Ranger 的集成，实现统一的元数据和数据管理。兼容 Apache Hive 的客户端 Impala 虽然可以直接使用 Hive 的 URL 进行连接，但是仍然存在一些参数有所区别，因此对原有客户端进行封装以支持使用与 Hive 完全一致的 URL 访问 I

15、mpala。11 2.3 数据安全原生 Hadoop 在数据安全领域的限制较少，非常开放。但在实际业务中，尤其是涉及机密和敏感数据时，仅限授权用户访问就至关重要。同时访问是否合理等信息也需要系统记录下来，让管理员可以回溯，进一步保证数据安全。平台通过认证（Authentication）、授权（Authorization）、审计（Audit）三个方面来保证数据安全。认证认证是用户进入系统的第一道屏障。平台采用了 MIT 开发的 Kerberos 做用户级别的认证。Kerberos 的设计主要针对 client-server 模型，基于加密方法建立用户（和系统）识别自己的方法，对个人通信以安全

16、的手段进行身份认证，用户和服务器都能验证对方的身份。授权平台提供基于角色和个人的访问控制。对 HDFS、Hive 等实现了统一的，细粒度的数据访问控制。从数据角度，可以查看当前何种角色/何人有何种权限。从角色/个人角度，可以查看对哪些数据有何种权限。审计平台为项目安全提供较直观的整体评估和事件跟踪，包括实时监测对系统敏感信息的访问和操作行为，根据规则设定报警并及时阻断违规操作，收集并记录行为，可检索所有记录，提供统计信息五个方面。监控处理的信息包括用户动作，管理员动作两大类。用户动作，所有用户的登录信息，对数据、对资源、对服务的访问和操作等；管理员动作，管理员对项目、成员等做出的配置等。1

17、2 2.4 平台运维与监控 Ambari 是大数据生态组件管理系统，包含了安装部署、配置管理、监控告警等组件与集群管理功能，并集成了所有网易大数据生态组件，包括自研组件Mammut、Kyuubi、Sloth 等以及社区版本中并未集成的 Impala 等。网易有数团队对社区安装部署方式进行改进，提供富安装包模式，无需外网或者部署 Repo 仓库即可完成安装部署，使其更适用于企业环境的安装部署。丰富监控能力，让问题更显而易见。丰富告警能力，不止支持邮件，还支持短信、电话告警。2.5 指标系统和统一查询服务指标系统从业务口径、计算口径和数据来源三个层面着手，采用统一的管理规范，包含统一入口登记、助

18、力数据规范定义、助力数据模型规范设计等功能，并引入审批机制，最终实现 100%消除指标口径不一致，指标数量减少 50%，同时理解一个指标的含义时间缩短 80%。统一查询服务通过数据 API、访问日志、授权认证、支持多种查询引擎、支持逻辑模型等加持，一方面协助指标系统实现 100%消除指标口径不一致，另一方面消除了数据字段变更与应用的强绑定，通过建立数据产品到指标的链路追踪，明确应用到表的访问链路，避免底层表暴露给数据产品，使得数据接入效率提升 10 倍以上。2.6 数据地图 13 数据地图用来破解不知道哪些数据可用、不知道到哪里查数据、不知道数据含义的问题，通过数据地图，企业可告别取数低效的烦

19、恼，快速搜数据、查数据，实现100%自助取数，取数效率提升可达 300%。数据地图主要可分为两大功能，一个是数据查询，一个数仓管理。数据查询提供离线和实时数据的查询功能。离线数据可以查询到有数当前项目组中 hive 表、导入到 hive 表的源头数据和输出到指标系统存储表的查询及展示。针对 hive 表会展示基础信息、业务信息、存储信息等，以及字段信息、分区信息、数据预览、产出信息、数据血源、DDL 变更、使用记录、表说明等内容。2.7 数据可靠性 Hadoop 通过数千台机器组成大规模集群提供大数据能力，当集群规模变大以后，机器的各类型故障将变得频繁。例如：假设硬盘年故障率 3%，以 100

20、0 台规模的集群计算，每台机器 12 块硬盘，则一年中将会有 360 块左右的磁盘故障，这对于数据可靠性来说是一个巨大的挑战。HDFS 通过多方面的技术手段来保证数据可靠性。HDFS 通过把数据多副本保存到多机器来避免磁盘损坏导致数据丢失的风险；并通过自动恢复副本的能力，保证在磁盘损坏后维持集群中数据的副本数。同时 Hadoop 发行版通过 Ambari 进行集群管理，可以从硬件、操作系统、进程状态到业务层面对每个节点进行监控，及时发现各类异常状态，并及时产生告警，使得故障检测时间和修复时间大大缩短，从而保证集群稳定性与数据可靠性。以磁盘故障举例：1000 个节点，每个节点 12 块盘，年故障

21、率 3%，HDFS 副本数默认使用 3 个副本；根据网易大数据集群的运维实践，从磁盘故障、收到告警到完成换盘过程耗时 5 分钟左右；所以在 5 分钟之内同时坏掉 3 个磁盘导致 3 个副本全部失效的概率只有：0.000004%，系统的数据可靠性可达 99.99999%（7 个 9）。14 3.基于有数的大数据应用建设方案数据仓库建设方案对于当下日益激励的市场环境，企业为提升市场竞争力，在生产制造过程，供应链、销售等经营过程收集数据，分析挖掘，用于过程精细化流程控制，大数据分析和挖掘方法为企业完成大数据落地提供了方法支持。企业管理系统如：ERP，CRM，CMS 等，还有日渐完善的物联网数据，

22、结合现代数据采集和传输技术，更容易被采集、传输并存储，结构化，半结构化，甚至视屏、音频等二进制数据的加工和利用，数据内容的种类更加丰富。传统的数据计算平台，无论容量，计算能力都难以跟上数据多样性和数据体量的增长速度。有数大数据平台，依托开源社区 Hadoop 更好的适应现代数据应用场景，平台通过 Sqoop、Flume 等数据传输工具，将多样的数据形式从不同的数据源导入到平台，通过 Kafka、Sloth 实现实时数据接入，在数据平台进行统一存储，清洗，加工，集成，建模，将多种不同来源的数据在平台上进行关联与集成，按数据层次组织划分数据主题，建立维度，度量，指标等，丰富数据宽度，沉淀数据中间层

23、。15 有数平台能满足离线，准实时，实时等多种数据应用场景，构建不同时间周期的数据应用，例如：流量日志实时监控，生产设备状态实时监控预警，风控实时预警等实时应用；又如：用户画像，用户标签，商品推荐，精准营销，交叉销售等离线数据分析和挖掘场景，平台提供友好的交互界面，降低交互式分析过程的使用门槛，为业务分析团队数据探索和业务建模过程提供良好的平台和工具支持。17 4.技术规格 Impala 模糊查询指标 HBase 性能指标分类指示性能说明 Impala 模糊查询 Impala 使用 like 进行指定字符串的模糊匹配查询性能记录格式：匹配字段长度：9 Bytes 测试记录行数：287

24、99781846 240ms 20 节点集群节点配置：CPU:2*E5-2630 内存：128G 磁盘：12 x 3.6T SATA 分类指标项规格说明 HBase 性能指标 100%写入：平均每节点写入记录数(每条记录 500 Bytes)，响应时间小于 20ms 39000 records/s 8 节点集群节点配置：CPU:2*E5-2440 内存：96G 磁盘：12 x 3.6T SATA 100%随机读：平均每节点写入记录数(每条记录 500 Bytes)，响应时间小于 20ms 13000 records/s 顺序扫描：平均每节点 scan 操作数(每条记录 500 Bytes

25、)，响应时间小于 50ms 7000 ops 读写混合(1:1):平均每节点操作记录数(每条记录 500 Bytes)，响应时间小于 20ms 25000 records/s 18 TPC-DS SQL 兼容度测试分类测试 SQL 集 Succeed Failed Impala TPC-DS SQL99 56 43 SparkSQL 95 4 测试类型 Impala 性能(平均)SparkSQL 性能(平均)性能提升倍数 Interactive 16s 79.4s 5.0 Reporting 30.9s 99.5s 3.2 Deep Analytics 60.3s 91.1s 1.5 02

26、0406080100SucceedFailedTPC-DS SQL兼容度测试ImpalaSparkSQL 19 TPC-DS 性能测试备注：数据集由 TPC-DS 自带的工具生成，数据集的大小通过参数 scale-factor=10240，数据集大约 10T 020406080100120Deep AnalyticsReportingInteractiveTPC-DS 性能测试SparkSQLImpala 20 5.组件版本名称版本号修改程度组件描述说明 Ambari 2.5.1.0-5.5.0 改造一款针对大数据平台的运维管理工具，提供创建、管理、监控、升级等功能组件使用更通

27、用的包安装方式（tar.gz 包进行安装，非 deb/rpm 包），可以直接使用社区包、网易包进行安装;集成网易自研的组件：Mammut、Sloth；集成更多的社区组件：Impala、Flink、ElasticSearch 等;方便的组件包更新替换，让组件更方便开发、测试;多服务器组件包负载分流，支持大规模集群安装部署;通过 LogSearch 实现对整个大数据集群中不同机器和不同服务组件的日志分析和统计 Yarn 队列配置与 HadoopMeta 联动。包安装可根据服务器操作系统版本自动选择相应安装包。统一本地数据目录和本地日志目录，统一日志输出格式。JDK 版本升级到 1.8.0_152，

28、不再支持 JDK1.7 Kerberos 1.10.1-对个人通信以安全的手段进行身份认证的一种计算机网络授权协议 LDAP 2.4.40-轻量目录访问协议，用来发布目录信息到许多不同资源的协议 MySQL 5.7.20-关系型数据库管理系统 Zookeeper 3.4.6-为分布式应用提供一致性服务的高可 21 靠的分布式协同服务，包括配置维护、域名服务、分布式同步等 Hadoop 2.9.2-1.0.2 改造包含HDFS/MapReduce/Yarn 的高可靠、可扩展的分布式存储和计算框架 Hadoop 合入 HADOOP-561/HADOOP-685/YARN-3415/YARN-55

29、54 Hadoop 优化 HDFS AuditLog 打印导致的Log4j 锁竞争问题支持 Yarn 的弹性队列和批流一体混合负载支持 hdfs 回收站功能 JobHistory 日志条数调整 5W 条 Hive 2.1.1-0.1.14 改造基于 hadoop 的具备类 SQL 接口和ODBC/JDBC 驱动的数据仓库工具，适合对数据仓库进行统计分析工作元数据服务高可用；HiveServer 过载保护；元数据统一：SPARK、IMPALA 统一使用HIVE 的元数据，一处建表多处使用；后期实现批流一体化平台的元数据基础；元数据变化：侦测元数据变化，使得 IMPALA可以实现局部元数据

30、刷新，避免了元数据全量刷新带来的性能损耗；支持创建带有生命周期的 table，partition set location 命令添加 hdfs 权限验证修复 Lzo 格式 table 查询死锁问题解决 hiveserver2 由 add jar 命令引起的句柄清理异常解决 Metastore token 过期异常修复了 Hive On Spark，HiveServer2 权限代理问题修复了 operation log file descriptor 泄露导致的 HiveServer2 服务异常修复 Hive 多线程拷贝文件，设置 acl 权限时的并发异常解决了 Hive load

31、 data 任务失败，但数据已被移入异常添加 metastore idle connection 清理功能解决 Hiveserver2 并发任务执行，异常退出问题支持 lzo 数据可分片 22 column pruner 错误，导致查询结果错乱内置 json udf 导致 hiveserver 内存泄露问题修复 hiveserver2 日志清理异常且刷新缓慢问题修复 insert overwrite 等语句临时数据文件权限问题修复 hiveserver2 至 metastore 的连接泄露解决 hive on spark 代理用户问题 hiveserver2 支持 mr 和 e

32、xec 相关参数运行时设置修改 view 空指针异常修复 metastore 过期 token 无法清理问题支持 HiveServer2 服务平滑下线支持 Hive2.1 并发编译支持 hive 回收站功能 Spark 2.3.2-0.2.0 改造支持遵循数据流和内存计算的专为大规模数据处理而设计的高速通用数据处理引擎集成 Apache Ranger，支持 Hive 表字段、列级别的细粒度权限控制多租户支持，隔离数据和计算资源 Spark Thrift Server 服务高可用 Spark 支持个人级别 Keytab 支持 SparkContext 动态实例化及回收机制支持 S

33、park JDBC、Beeline 客户端 Operation 级别的日志支持修复 SparkSql 访问有权限的表，报没有 db权限的问题 Hbase 1.2.6 改造高可靠性、高性能、面向列、可伸缩的分布式数据库支持表级别的统计信息支持业务队列划分支持业务隔离 Phoenix 4.11.0-HBase-1.2-一个构建在 HBase之上的关系型数据库层，作为 HBase内嵌的 JDBC 驱动 23 Sqoop 1.4.6-0.1.11.1 改造用于 hadoop 和关系型数据库之间数据导入导出的工具 Parquet 和 JSON 格式支持；DB2、SQL Server 支持；支

34、持 Kafka 数据导入 HDFS、HIVE，能够做到数据的不丢不重；sqoop 对 Hive2.1.1 的集成 Mysql 数据多次导入的 Hive（Parquet）表时，任务异常支持 mysql 数据直接导入 hive json table codegen 文件，导致 parquet hive table 导出错误 hive import 任务添加默认 tmp 路径支持 mysql 字段描述信息到 hive 字段中支持 hbase1.2.6 Ranger 0.5.4-1.0.5 改造提供一个集中式的操作、监控、管理复杂的数据权限的hadoop 集群安全管理框架，提供授权和审计等处理

35、能力权限校验优化：支持上万条权限规则的权限毫秒级校验；（社区版本需要 23 秒的时间）权限自动同步：支持数据库元数据权限和HDFS 文件的权限自动同步，保证了数据安全；（社区版本不支持；Cloudera 只能支持 HIVE 的 DB 目录下的元数据和文件权限同步）虚拟分组管理：支持以业务分组为单位的权限设置；多组件支持：支持 HIVE（hiveCli、hiveserver2 和 beeline 三个入口）、IMPALA、SPARK 的权限校验，一处设置权限，多个组件同步生效新增支持对库级别的授权；修复了 ranger hive plugin 在 spark client 模式下任务无法结束

36、的问题支持集群级别配置 hive 于 impala 元数据同步插件关闭自动重排序功能 Azkaban 5.4.6.1 改造用来在一个工作流内以特定的顺序运 webserver 高可用作业流失败重试执行节点重启续作 24 行任务的批量工作流任务调度引擎跨流依赖补数据调度、任务重跑 Hive JDBC 任务重构了计划实例生成逻辑，增加调度可靠性增加了计划执行时间自定义格式化方案支持任务报警，报警组报警项目作业与资源分离支持 HQL 注释补数据支持补下游依赖支持多版本 Hive keyab、hive-site.xml 运行时下载支持数据质量节点、条件节点、嵌套流 Mam

37、mut 5.5 自研一站式大数据应用开发和数据管理平台大数据开发计算平台 Account 5.5 自研平台的账号管理系统独立账号系统 Hadoop-Meta 0.2.11 自研负责对用户资源进行管理和查看的功能组件代理创建 Kerberos、LDAP 用户，设置 Yarn队列配置等 Redis 2.8.22-一个远程内存非关系型数据库 Impala 2.12.0-1.0.6.4 改造基于 HDFS 和 Hive的用来进行大数据实时交互分析的查询引擎用户权限隔离；集中式的查询审计和管理系统；元数据同步；元数据权限集成 Ranger；细粒度的权限控制；基于 Zookeeper 高可

38、用和负载均衡；支持 Hive 表对应 Hdfs 文件是 JSON 的查询 Impala 支持个人级别 keytab Impala 支持 Hive MetaStore 模式连接，与Hive 配合支持元数据自动同步支持元数据过滤、表级别过滤功能 Kafka 2.11-0.10.2.1-基于分布式的高吞吐量的消息发布-订阅的流处理系统 25 ElasticSearch 5.6.9-准实时的快速存储、搜索、分析海量数据的高扩展的全文检索和分析引擎 Atlas 2.0 改造一个可扩展的核心基础治理服务集，包括数据分类、数据血缘追踪等服务增加了对调度任务的血缘追踪 Ambari Infra(Solr)0.1.1.1-用于实现权限审计功能的组件 Ambari Metrics 2.5.1.0-负责监控集群状态的功能组件 LogSearch 0.5.1.1-用于日志监控、收集、分析，并为收集的日志建立索引而进行故障排查的功能组件 Flume 1.8.0-收集和聚合日志和事件数据，实时流写入 HDFS 或HBase 的分布式框架提供 Flume agent 的监控和部署管理 Sloth sloth-0.9.7 自研 Kyuubi 0.7.0 自研替代SparkThriftServer Smilodon 1.0.1 自研统一报警服务 MyHAS 1.0.3 自研 Mysql 高可用

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（网易数帆：网易有数大数据平台技术白皮书（25页）.pdf）为本站（小熊小小）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。