《StartDT奇点云:2023数据云场景指南-如何建设可靠安全统一的数据基础设施(62页).pdf》由会员分享,可在线阅读,更多相关《StartDT奇点云:2023数据云场景指南-如何建设可靠安全统一的数据基础设施(62页).pdf(62页珍藏版)》请在三个皮匠报告上搜索。
1、统一性开放性中立性安全性什么是数据云数据云是企业自有的、无孤岛、无绑定、安全可控的数据基础设施,帮助企业在其内部统一连接、共享数据资产,构建企业内、外数据生态,助力企业管理与应用全域数据。就像一家公司只能有一个 ERP,一家公司最终也只能有一个数据云。统一的数据平台是未来企业建设数据云所必备,也是消灭孤岛所必需。强调对数据云要满足开源标准,提供对 API 的集成能力,确保数据可以被简单地广泛使用。不管何种需求,都可以使用数据云来应对。云原生架构要求平台使用开放式计算和开放式存储,同时确保可移植性和可扩展性,支持多云跨云,避免受制于特定供应商。在所有环境中均保证数据的安全性、高治理和高可控,确保
2、数据的共享和使用得到安全保障,确保企业对数据的充分可控。02数据云场景指南如果你面临以下挑战,应该关注数据云统一规划建设数据云,封装复杂性,提供易用性技术数据云不仅能成为企业核心系统,而且持续产出业务和技术价值,让数据的分析应用更简单,运维更容易,数据更安全。越来越多的云计算资源,越来越复杂的数据库引擎,越来越多元异构的数据源,如何建立底座?越来越多的数据主体,越来越多的产品和应用,越来越复杂而多元的业务场景,如何产生价值?数据云的特性数据的使用主体从最早的单一主体公司,到集团下的多家主体公司;从最早的营销及销售领域,拓展到财务、供应链、人力资源等企业管理的方方面面,并面临着海量个性化数据服务
3、的挑战。一个数据引擎无法应对所有场景。目前存在离线、实时、即席查询、图计算和时序五大引擎,未来还有向量引擎。如何避免引擎烟囱,统一开展多引擎混合部署和调度,成为平台建设的关键难题。数据的使用场景不仅仅限于用户域,而拓展到了研发、制造、流通等全链条;看数据和用数据的人从管理层向经营层和执行层拓展。更多用户,更多数据,更多场景。使用多家云计算厂商的服务,成为显著趋势。根据 Snowflake的统计,每个美国客户平均使用3.8朵云;根据字节云的调研,中国的大型客户平均使用 5 朵云。国内还有大量自建和租用服务器的用户。数据产品及应用需要摆脱对高级人才的依赖,让更多的普通开发者能加入研发,开发可用、易
4、用的数据服务和应用,让业务人员能更灵活地使用数据及AI应用,产生业务价值。数据从最早的系统结构化数据,拓展到了更多的非结构化领域,包括 IoT、日志、图片和视频等等;数据库表从早期的Oracle、MySQL 等少数几种拓展到近百种自研和市售产品。多场景2多云5多应用3多源异构4多主体1多引擎6业务统一数据安全分级分类,风险管控智能化,便于数据安全分享由数据管理组织主导建设,数据云成为核心系统统一提供数据服务,降低使用门槛,业务易用统一建设和运维,IT 维护与优化便捷,成本更优数据云03Data Cloud企业数据基础设施建设需配合业务变化数据云七大常见场景,让规划建设有章可循挑战不会一成不变。
5、企业数据基础设施建设既不能“一蹴而就”,也无法“一劳永逸”。随着企业数字化程度加深,各部门对数据应用需求从“看数”延伸至“用数”,上层数据分析对底层数据基础设施的要求随之变高。企业需结合当下情况及阶段性未来规划,搭建数据基础设施并持续完善升级。因此,从过去 600+数据云建设案例中,我们总结出了数据云七大常见场景,方便企业查询所处阶段,并为即将到来的挑战做好准备。企业数据基础设施现状有基于 MySQL、Oracle、HANA 等搭建的数据仓库曾自建开源数据平台已完成数据基础设施建设1.使用了免费版 CDH,或所使用产品的经营实体已退出中国(例如 Teradata)2.有硬性要求,必须使用国内研
6、发的自主可控数据产品(例如国央企)已完成业务系统 IT 化1.中大型集团企业,需要向集团各个部门提供数据服务2.需要跨国跨云需要保障企业各系统内数据的安全合规对应场景方案传统数仓升级数据技术栈优化数据资产治理自主可控替代数据中台建设集团数据云服务数据安全合规P5/P11P19P28P42P49P51/常见痛点技术部门应对的不只是运营需求,还更多承接分析需求。使用传统数仓处理需求,遇到商业及技术问题。分析需求升级,需要多引擎技术支持,由此需应对多源异构计算、数据存储等复杂问题。1.缺乏体系性的数据资产建设规划。2.治理后未形成合理的数据架构和运维体系,随着业务迭代,易再次陷入混乱。需要寻找国产的
7、、安全合规的替代产品。存了大量数据但用不起来。1.保障集团内各业务单元/部门进行安全隔离,同时计算资源要合理分配,支持共享或隔离。2.数据平台庞大,对 IT 团队数据能力要求高,运维困难。1.数据安全相关法规、要求多,不知从何下手。2.需要同时满足数据安全合规与业务发展的要求。场景查询索引04数据云场景指南20 世纪 80 年代20102015企业数据基础设施建设,终将走向 DT 3.0 数据云时代附:数据基础设施演进路线在从 IT(信息技术)到 DT(数据技术)时代转变的过程中,数据系统的重要性日益凸显。伴随数字化认知的加深,不仅是互联网行业,各行各业都涌现出了对数据能力的需求。数据技术创新
8、迎来爆发式增长。其中,大部分企业并不冒进,而是谨慎入局,往往选择从报表等单点分析入手,对数据的需求多处于“看”的阶段,并未在核心系统中大规模应用。因此技术层面,数据仓库+BI 工具就能满足业务需求。在这个阶段,企业对数据技术的可靠性要求较低,即便数据仓库崩溃,影响也在可控范围。在流量红利消失等市场变化推动下,企业的增长方式不得不从粗放式转为精细化运营,近年更是开始注重在精准营销、供应链管理等领域投入。“用数”需求加深,DT 时代从 1.0 迈向 2.0。在这些企业中,数据已从边缘系统进入核心系统,作为基础设施直接赋能业务决策,与业务增长密不可分。当数据系统正式成为生产系统,企业对数据技术的可靠
9、性要求更高。虽然数据仓库技术早在上世纪 80 年代就已经出现,但后来随着云计算的出现和存算基础设施的更新,以 Hadoop 为代表的大数据平台开始成为主流,“上云”成为新的趋势。近年,数据量的指数级增长和 AI 的超速发展,推动企业从“上云”走向“云上”。基于云原生技术搭建数据云平台,已成为企业的主流选择。未来,数据作为 AI 的基础,将极大程度上推动人工智能的发展,数据云也会成为 DT 3.0 时代的 AI 基础设施。图:数据系统的演进IT 时代DT 时代20 世纪 80 年代生态变迁主要服务商1.0 单一 IT 系统 1.0 数据仓库2.0 多个 IT 系统2.0 大数据产品3.0 复杂
10、IT 系统3.0 数据云20102015云下环境国外厂商主导开始上云大数据产品阶段云上环境构建 AI 基础设施变成 must-have partner国内厂商追赶国内外并行发展05Data Cloud数据仓库是企业的重要基础设施,在数字化转型过程中发挥着至关重要的作用。多年来,众多大中型企业建设了基于 MPP(大规模并行处理,Massively Parallel Processing)数据库的数据仓库,例如以 Teradata、Oracle、IBM 等厂商为代表的传统数仓。但在当下分析时效要求越来越高、数据需求变化越来越快、数据量越来越庞大的形势下,传统的数据仓库无论在成本、灵活性还是开放性,
11、都显露出诸多不足,渐渐无法满足数字化深水区企业的数据需求。大数据+云计算时代,企业亟需既能适应业务弹性变化、又能提供良好分析体验的新一代数据仓库解决方案。而在选择新型数仓之前,企业需知晓两个前提:OLTP 和 OLAP 系统必须分离;在 OLAP 系统的选择上,由以 Hadoop 为代表的分布式大数据平台替代 MPP 数仓是最优解。企业用数需求加深,传统数仓无法充分承担分析需求传统数仓升级有基于 MySQL、Oracle、HANA 等搭建的数据仓库技术部门应对的不只是运营需求,还更多承接分析需求。使用传统数仓处理需求,遇到商业及技术问题。1.为什么需要分离 OLTP、OLAP?2.为什么用分布
12、式大数据平台替代 MPP 数仓是必然选择?平台部署可大可小多源数据集成运维服务支撑企业数据基础设施现状常见痛点关键问题落地实践重点关注06数据云场景指南为什么需要分离 OLTP 与 OLAP?OLTP 主要用于基本的、日常的事务处理,尤其是处理大量的交易数据,例如电商交易环境下的订单、支付、库存等。在 OLTP 场景中,用户并发操作量大,要求系统实时进行数据操作响应,在查询时往往也只会检索一条或几条明确的目标数据,以实现用户的业务交互。OLAP 是数据仓库系统的主要应用,支持对海量数据进行复杂的统计分析操作,更侧重决策支持,并提供直观易懂的查询结果,例如电商场景中常见的根据用户行为进行用户画像
13、、做商品推荐等。在 OLAP 场景中,用户需要对历史数据进行汇总、对比和计算,以得到分析结果。在 OLAP 发展早期,其操作并没有专门的数据库支撑,企业选择直接与 OLTP 业务放在同一个数据库中完成。但随着业务量增加,OLAP 需要处理的数据量也随之增加,给 OLTP 系统带来了过大负担,在执行时会导致业务交易性能下降。因此业内开始将 OLTP、OLAP 拆分成两套不同的数据库进行处理。数据处理大致分为 OLTP(On-Line Transaction Processing,联机事务处理)和 OLAP(On-Line Analytical Processing,联机分析处理)两类。传统数仓升
14、级支持日常事务操作的业务交易数据支持简单的查询、更新和处理实时更新负荷较重,强调高并发和快速响应关注业务事物的详细信息,颗粒度较细业务操作人员采用第三范式,数据高度归一化对象数据更新用户颗粒度查询类型数据库设计系统负荷持决策分析和报告的分析型数据持复杂的分组、组合和多维分析查询较少更新,以提供期历史视图负荷较轻,侧重批量检索和复杂计算通过汇总和抽象提供概览信息,颗粒度较粗管理员和分析员采用星型或雪花型模型,包含事实表和维度表OLTPOLAP07Data Cloud为什么用分布式大数据平台替代 MPP 数仓是必然选择?MPP 架构的诞生解决了“数据多,很难在一台物理机器上分析数据”的难题,但它支
15、持的应用以小集群、低并发场景为主。近年来,随着数据的快速增长和新兴业务的不断产生,MPP 数据库因缺乏支持现代分析和数据科学所需的灵活性,逐渐被以 Hadoop 为代表的分布式大数据平台替代。相较于 MPP 数仓,分布式大数据平台具备吞吐量大、扩展性和容错性好、硬件成本相对低及灵活处理多种类型数据等优势,在面向 OLAP 场景时可实现更好的性能,降低延迟,更匹配当下企业的数据分析需求。传统的MPP数据仓库以 DataSimba 为代表的分布式大数据平台坚持开放工业标准,提供完善的Open API;底层可基于常规PC服务器,也支持全球9大IaaS云,并已实现云原生优化;与国产CPU、数据库、操作
16、系统均有完整互认证。扩展性强,已实现100%容器化;具备故障自愈(Failover)机制,可吸收硬件设备的故障和异常;可支持上百节点。支持批、流、图、即席、时序等多种类型的Job混合调度与租户隔离。使用开放通用语言,开发技术门槛相对低;提供企业级的官方运维服务。要素开放强混合低封闭系统,需搭配专有硬件与运维服务,对其他业务系统数据集成困难。不支持大规模分布式,系统超过6个节点后,加速比几乎为零,难以支持超1T的大数据场景。仅支持关系型数据库。使用专有DSL语言,开发人员招聘难度较大。封闭弱单一高系统开放拓展性计算模型人力成本传统数仓升级08数据云场景指南平台部署可大可小在数字化能力构建过程中,
17、企业所处的行业不同、自身量级不同,对数据基础设施的需求也极为多元。一个好的分布式大数据平台需要具备可扩展能力,“可大可小”以满足不同企业的不同量级需求。此外,分布式大数据平台需要具备工程化的平台实力,帮助企业应对海量数据、复杂架构、大规模并发作业、超大任务量等高难度挑战。DataSimba 支持横向扩容,增加机器节点,也支持纵向扩大单台机器的配置规格。DataSimba 私有化部署最小规格仅需 5 台机器,每台机器配置如下:DataSimba 大数据平台最小化部署DataSimba 大数据平台最大可部署分布式大数据平台应“可大可小”A:DataSimba 目前认证的大数据集群管理系统包括:Q:
18、数据云平台 DataSimba 持哪些大数据集群管理系统?6.3.25.12.06.5.0传统数仓升级CPU/内存16C/32G 系统磁盘80GB 数据磁盘300GB 操作系统CentOS 7.9 09Data Cloud多源数据集成企业中往往有多个异构的、在不同软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,导致数据难以在系统之间交流、共享和融合,从而形成了“信息孤岛”。随着企业数字化不断深入,数据流通需求日益强烈,亟需对已有数据进行整合。企业在多源数据整合时往往面临挑战。一方面,多数据源集成流程复杂,十分依赖团队经验。另一方面,企业在数据集成时难免遇到被单一技术厂商绑定
19、的困境,导致集成难度倍增。例如:SAP 系统的数据操作对实施顾问有强依赖,小至增加一个订单状态信息的需求,都需要通过专业的 SAP 业务顾问和实施开发团队完成。同时,SAP系统接口协议繁杂,可参考的文档较少,企业自行集成往往需要花费数月时间。面对这一市场需求,主流大数据技术公司开发了专门用于数据融合的工具,可快速集成多个数据源,开箱即用,大大提高了数据准备过程的工效,突破了多源数据集成的技术瓶颈。A:DataSimba 支持 50+种数据源,是目前国内行业中集成数据源最多的大数据平台,在解决特定厂商数据库导出问题等方面具有充足落地实践经验。Q:数据云平台 DataSimba 在多源数据集成方面
20、的优势?图:DataSimba-数据源管理传统数仓升级10数据云场景指南运维服务撑如前述,海量数据的爆发式增长给企业数据的开发应用带来了一系列挑战:数据孤岛严重,阻碍数据的共享与统一;数据质量低,各部门数据协作困难;单点自动化较为普遍,难以支撑整体效能提升;运维成本高,企业负担加重。而对于数据技术能力较弱的企业而言,传统数仓升级是一项极为复杂的工程,涉及多个组织部门的协作,因此采购与产品配套的运维服务成为这些企业升级数据能力的选择。头部大数据平台厂商往往会提供先进方法论指导下的运维保障服务体系,例如提供平台架构优化、数据治理、数据血缘、任务监控等多类型服务的策略、配套方案及落地支持,从而帮助企
21、业保障大数据平台稳定运行。传统数仓向大数据平台升级是一项复杂工程,系统性运维服务必不可缺*DataSimba提供完备可靠的运维服务,可详询奇点云客服获取服务清单。需要提供运维服务传统数仓升级11Data Cloud数据需求日益复杂,多云多引擎的混合适配及优化成新难题处于此场景的企业通常具备一定的数据技术能力,能够通过自建开源的数据平台,来解决企业初期阶段的数据需求。但随着业务部门数据分析需求日渐复杂,数据类型增多,解决包括离线、实时、时序等数据引擎在内的多引擎调度问题成为重中之重。此外,对于数据跨云存储以及各部门之间需隔离数据权限的企业,还要进一步实现平台跨云以及多租户能力。企业自建开源数据平
22、台,如需进一步解决多引擎、多云、多租户问题,技术团队的规模及人员能力就成了掣肘难题。但数据平台岗位所需技术角色多,又要求人员具备丰富的业务理解和行业经验,短期内打造专业团队难度高。目前成熟的大数据平台厂商已经在各行业、各业务场景上积累了丰富经验,在综合评估投入、技术难度、业务价值的前提下,选择能伴随企业需求成长的服务商往往是处于现阶段企业最优解。数据技术栈优化自建开源数据平台分析需求升级,需要多引擎技术支持,由此需应对多源异构计算、数据存储等复杂问题1.如何应对多云问题?2.如何应对多引擎问题?3.如何迁移大数据业务?数据迁移及规模估算存算引擎选型多引擎混合调度企业数据基础设施现状常见痛点关键
23、问题落地实践重点关注12数据云场景指南如何应对多云问题?“计算多云,应用多端”已成为企业数据基础设施建设的显著趋势。Flexera 2023 年云状态报告显示,87%的国外受访企业在 IT 架构上实施多云战略。而在中国,一项由火山引擎发起的、对 4000 多家在云上消耗超过 100 万的企业客户调研显示,有 88%的企业采用多云架构,平均每家企业会使用“5 朵云”。同时,对于跨国企业而言,即使境内外使用同一家云厂商,其数据也会因政策管控等问题,需要面临另一种形态的“多云”问题。企业出于业务需求、成本、效率等多方面考虑,选择多云架构,也对企业数据平台提出了更高的要求。DataSimba 数据云平
24、台“跨平台”、“云原生”特性有效解决多云问题。其中“跨平台”指可以使用统一的账号权限体系,对多个 IaaS 云基础设施、多个 Workspace(域)进行管理,实现分级多域、跨云跨平台部署,以提升企业的协作与管控效率。“云原生”充分发挥云基础设施的优势,依托 CI/CD(持续集成持续交付)、容器化编排、微服务、存算分离、元数据管理等技术能力,从而降低运维和存算成本,提高研发和治理效率,支持客户对云平台做出最优、最贴近业务发展需要的选择。DataSimba 支持海内外 9 大主流云厂商的云原生,并可横跨多云,支持统一账号、权限、审计的多 Workspace兼容管理。A:Workspace 提供可
25、构建数据平台的工作环境,不仅承载数据平台的配置(包括但不限于平台访问地址、Logo、版权等信息),更是数据平台资源隔离、数据隔离的物理划分对象。Q:什么是 DataSimba 的 Workspace(工作空间)?*跨云多域、多租户技术方案,详见 P43。需要支持多云天翼云本地IDC数据技术栈优化13Data Cloud没有一个 OLAP 引擎是“完美”的时至今日,依旧没有一个引擎能完美适配所有的数据场景。企业应从业务场景需求出发,分维度对不同数据库引擎进行测试和比对,针对性地选择适合的引擎。选型时,需综合考虑业务需求、性能、维护成本、数据安全等多种维度的信息。1.充分考虑业务相关性测试业务场景
26、要与企业的实际业务场景类似,这样提供的信息才能有效有效辅助决策者做出适合业务的决策。数据引擎测评应至少包括以下 3 组要求,方可保证选型结果科学有效:2.根据实际业务场景选择合适度量指标基准测试一般有多个度量指标,不同业务场景关注的指标会有较大区别。在设计指标时候,需要充分考虑业务关注点。3.保障测试数据真实有效构造的数据集过于规则容易测试出较高的指标。但真实的环境,数据是有瑕疵和倾斜的。因此,在数据构造阶段需要充分理解客户的业务场景,并可尽量模拟出贴近真实应用场景的数据。*数据引擎选型方法及主流 OLAP 引擎测评,关注奇点云公众号下载OLAP 数据库引擎选型白皮书(2023)获取更多信息。
27、如何选择适合业务场景的OLAP数据库引擎?数据技术栈优化14数据云场景指南如何应对多引擎问题?如前述,离线、实时、即席查询、图、时序等引擎适用场景各不相同,因此,企业通常必须使用多种引擎,来应对多种数据场景。然而,受限于架构设计和技术要求,许多企业选择采用烟囱式结构进行资源分配。这种结构看似简单直接,却有诸多运维障碍,还会导致底层数据一致性缺失。业务上,则表现为各部门“对数”困难,数据难以真正发挥作用。此外,从资源高效利用的角度来看,烟囱式结构因缺少资源统一调度单元,导致存算资源浪费明显,进一步引发数据作业不稳定、报表产出延时等问题。要想真正应对多引擎场景,大数据平台就必须具备多引擎混合调度能
28、力,同时确保引擎协调性(例如引擎间的任务调度和执行、数据传输和协作)、数据一致性、资源利用最大化。图:烟囱式引擎调度结构示意(不推荐采用)*了解实践案例,详询奇点云客服。多样化数据源及复杂数据处理:以制造业的实时生产监控为例,该场景数据量庞大,其中包括大量的机械设备传感器数据,因此底层需要离线、实时及时序计算引擎做支撑,针对性处理多样化数据源和不同的计算操作。以下数据场景,往往对多引擎混合调度有高要求:流批一体:依托多引擎混合调度能力,充分利用流处理引擎、批处理引擎的优势,调度适当的引擎来执行任务,同时确保底层执行逻辑一致性、数据一致性,解决延迟、顺序、资源协调等挑战。数据技术栈优化离线即席查
29、询实时图时序大数据平台应具备多引擎混合调度能力企业多引擎混合调度的应用场景示例15Data Cloud基于全容器化、多模态统一计算框架等技术,奇点云提出“大规模多引擎混合调度技术”。在数据云平台DataSimba 中支持混合引擎调度,能根据业务负载自动调整容器资源的使用情况。架构上,体现为“Task/Job 双层混合调度”:每种引擎对应一种或多种组件,组件上的计算通过作业(Job)来执行,任务(Task)则负责编排不同作业(Job)的执行计划,完成混合调度、统一运维。具体而言,任务(Task)负责决定任务在可用资源上的调度顺序,控制任务的调度周期;作业(Job)则通过与配额(Quota)配合,
30、完成底层资源的调度与优化。在双层混合调度体系中,DataSimba 加入“潮汐车道”等调度策略,可由企业用户按需选择。例如,可以周期性调整资源,来平衡高峰期、低峰期资源的分配利用,也可以预留一定资源,确保高优先级任务完成。相较于烟囱式建设,利用混合调度通常能帮助企业节约 30%以上的资源。图:DataSimba 的 Task/Job 双层混合调度示意图作业(Job)调度任务(Task)调度资源监控系统实时离线即席查询时序数据技术栈优化DataSimba 采用 Task/Job 双层混合调度16数据云场景指南数据技术栈优化大数据业务迁移及成本估算企业在切换大数据平台时,数据迁移是一项重要且必不可
31、少的工作项。在数据迁移的过程中,企业需要承担较大的人力、时间、资源等成本,现有数据平台庞大的数据量也给迁移工作带来巨大的试错风险。DataSimba 内置迁移客户端,支持将现有大数据系统的数据源、作业、任务、服务等对象自动化迁移至DataSimba 中。我们推荐在数据迁移前筹备以下两方面工作:如何以便捷高效的方式进行迁移,同时保证数据的安全性、一致性,是数据迁移工作的重要挑战。1.数据迁移方案从时间、资源、策略、规范要求、预期目标等维度,进行规划设计,形成完备的迁移方案。2.数据迁移工具基于业务需求场景,通过数据迁移客户端(工具)完成自动化的数据提取、传输、加载等工作,从而提高迁移效率。迁移分
32、析确认迁移对象和策略导出数据对象导入数据对象数据验证项目切换和资源回收数据回滚奇点云大数据业务迁移方案17Data Cloud具体实施方案包括:1.迁移分析2.确认迁移对象和策略3.执行客户端命令,导出数据对象血缘分析:简单地说就是数据对象之间的上下游来源去向关系。通过血缘分析找到以某个数据对象为起点的所有相关数据对象,以及这些数据对象之间的关系。在DataSimba的迁移客户端里,该环节可自动化执行。迁移对象:根据不同场景、优先级等,评估和确认迁移的范围和边界。如本次迁移包括集群里的 HDFS、Hive 等业务数据,那么需要考虑集群版本、是否开启 Kerberos 等场景;再如大数据应用对象
33、只针对部分 API 服务,那么其它与之不相关的数据对象就不包含在本次迁移中。根据血缘分析结果,按顺序读取业务元数据并执行导出,将元数据对象记录成文件放入 migration 文件夹内。流程分析:根据血缘分析可以判断数据对象的上下游依赖,保证后续执行迁移时被依赖的对象遵循“后出先进”的原则,即被依赖的对象要最后导出,最先导入。迁移策略:采用全量迁移或增量迁移的方式。对过程采取安全管控,例如通过对账密数据进行二次加密,以防止数据被未经授权的人员访问、篡改或丢失,保证迁移过程中数据的安全性。资源评估:根据原系统数据量,以及考虑网络、服务器影响,要在目标环境内准备相对充足的空间资源,并规定迁移速率的限
34、制要求。影响评估:对数据迁移可能出现的正向、负向影响进行评估,分析对项目的影响风险大小,形成风险清单和优先级。A:将任务数量、数据量等信息作为输入项,基于计算公式,即可自动估算出需要的集群资源。Q:集群资源成本如何估算?数据技术栈优化18数据云场景指南时间窗口选择:数据迁移的时间窗口选择要考虑到业务的时间窗口,以最小化对业务的影响。除完善可靠的迁移方案外,企业在迁移工作中还需要考虑:Tips迁移成本评估:数据迁移的成本不仅包括集群资源成本,也包括人力、物力和时间成本等。迁移后的持续优化和维护:在数据迁移完成后,要持续地对数据进行清洗、整理和优化,以提高迁移后的数据质量和可用性。4.执行客户端命
35、令,向目标环境导入数据对象5.数据验证6.数据回滚7.项目切换和资源回收选择 migration 文件,根据流程分析结果,按顺序读取元数据对象文件并执行顺序导入。通过自动化工具对新老系统中的数据对象总量、增量进行对比,验证数据一致性、完整性。通过自动化工具对新老系统中的同一份数据进行迁移后的自动比对,形成数据校验结果。人工介入深入分析、判别。根据影响评估的风险清单,当出现计划中较大风险或计划外无法即刻修正的情况时,支持数据回滚至导入操作前的状态。旧平台废弃并回收资源,切换新平台。A:以全量的方式执行迁移时,以实时增量追加的方式更新变化数据,做到原环境与目标环境数据的一致性,再进行比对。Q:原系
36、统的数据是增量动态变化的情况下,如何做对比验证?数据技术栈优化19Data Cloud建立数据互联互通、稳定可靠的大数据平台当前企业已完成了业务系统的 IT 化,在各系统内沉淀了大量数据,但由于系统墙导致数据“用不起来”。在这个阶段,核心任务是充分发挥数据价值,运用数据驱动业务增长,因此需建设以下三方面内容:第一,建设以 ONE-ID 为核心的大数据平台,通过数据汇集、清洗、指标体系搭建等实现数据互联互通;第二,建设组织数据驱动领导力,让数据成为企业决策核心;第三,培养数据应用能力,打造适合企业业务的“数据采集数据建模数据分析数据反馈”模型。此外,作为数据驱动业务的基础设施,大数据平台的选型还
37、需要关注稳定性,确保价值的持续产出。已完成业务系统 IT 化存了大量数据但用不起来1、为什么数据用起来的核心是 ONE-ID?2、大数据平台作为核心业务系统,如何确保其稳定性?1、ONE-ID 方法论的技术落地方案2、平台稳定性保障的五大关键指标企业数据基础设施现状常见痛点关键问题落地实践重点关注数据中台建设20数据云场景指南建立 ONE-ID 体系,是数据由资源走向资产的关键作为解决企业数据孤岛问题的核心方法,ONE-ID 方法论一经阿里巴巴提出即广受业界推崇。企业可以利用 ID-Mapping 技术将不同来源、不同形式的数据识别为同一个对象或主体,这种方式能有效将碎片化的数据全部串联起来,
38、提供完整的企业全景信息视图。目前建立 ONE-ID 体系技术方案可根据技术识别方式简单分为三种:规则识别,规则识别+前端验证,图计算识别。其中,“规则识别+前端验证”的技术实现方式具有数据可解释性高、时效性强、准确度高等突出优势,更适用于一般企业场景。而对于场景需求极其复杂、业务系统多、用户数据量巨大的企业而言,图计算识别技术更具优势。在以上三种方案的基础上,奇点云全域数据融合解决方案汇集三者优势,采用流批图一体技术将企业多源业务数据整合,可满足数据体量大、多渠道场景的计算性能要求,更适合业务系统复杂度高的中大型集团企业场景。技术可用性准确度可解释性可推广性时效性开发和维护成本业务扩展性推荐度
39、适合日常使用和推广适合复杂场景和应用规则识别分布式(共用已有 Hive 环境)中高低T+1中20 个渠道以内规则识别+前端验证分布式(共用已有 Hive 环境)中高高实时/准实时中不限渠道规则+图计算识别分布式图计算引擎(4 台 8C32G)高高中实时/准实时低不限渠道方案比对方案一方案二方案三数据中台建设21Data Cloud依托流批图一体技术的 ONE-ID 应用实例以某知名金融保险集团为例,该企业用户 ID 类型多、数据质量参差不齐,其原有“基于规则识别”技术的 ONE-ID 体系无法响应 5 亿级用户数据增量联通需求,亟需找到一种能满足复杂场景的“多快好省”的方案。奇点云流批图一体方
40、案具有渠道合并用户多、数据处理速度快、处理结果准确度高、跨渠道关联用户多等优势,对于该企业的复杂场景而言匹配度高。通过 ID-Mapping 技术将各业务系统的 ID 关联,奇点云帮助该集团生成唯一用户标识,从而串联该企业各系统的标签等信息,形成全域用户画像资产。在面对特定场景的分析需求时,也可以根据数据质量、业务部门需求,将某类渠道数据或某类 ID 信息从画像中去除,灵活、高效地支撑其数据化智能运营场景需求。一方服务渠道合并用户多数据处理速度快处理结果准度高跨渠道关联用户七渠道压缩比 30%+Hive100 万/分钟测试用例通过率100%节省投放成本14%+四渠道压缩比8%+图计算600 万
41、/分钟OneID 关联覆盖率99.9%增长分析智能运营数据源OneID APIOneID 数据模型流计算批计算图计算该应用实例建设成果数据中台建设图:适用全场景的奇点云流批图一体技术22数据云场景指南数据中台建设缺乏稳定性的大数据平台,不足以撑核心业务大数据平台作为数据驱动业务的基础设施,必须具备稳定性,方可确保价值的持续产出。企业可从以下六个维度,综合评估现有平台或待选型产品的稳定性,针对性改善不足之处:1.可用性四要素测试业务场景要与企业的实际业务场景类似,这样提供的信息才能有效有效辅助决策者做出适合业务的决策。可用性,指系统能够在需要时始终提供正常的服务和功能,而不受计划外的中断、故障或
42、其他问题的影响,可按照“系统能够正常运行和提供服务的时间比例”计算评估。下文以其中三个核心维度为例,分享实践。一、可用性服务高可用,避免单点故障。计划中的维护升级可采用蓝绿部署,保障系统在维护过程中仍然可用。更快从故障中恢复,减少对用户及业务正常产出的影响。采用数据作业巡检机制,以保障结果按计划产出。指系统能够正常运行和提供服务的时间比例将故障隔离在一个特定的部分,以防故障扩散到整个系统具备安全机制,能防止恶意攻击、数据泄露等安全问题有效处理异常,避免系统崩溃或数据丢失帮助用户更便捷、直观地了解系统运行情况,以便及时发现和解决问题系统能够在负载增加时保持性能稳定,支持通过增加资源来应对更多的请
43、求可用性可扩展性故障隔离容错性可观测性安全性避免计划外的中断 数据结果产出不中断故障恢复时间计划维护及升级时间23Data Cloud数据中台建设2.可用性实践以作业异常巡检机制为例影响数据结果未产出或产出延迟,有以下两种常见情况:a.服务异常或波动,导致作业暂停;b.作业运行条件短时间内不满足,导致作业暂停。针对上述情况,数据云平台 DataSimba 采用“作业异常巡检机制”补偿兜底,包括:a.巡检机制:通过定时向 portal 发送计划状态请求,来判断计划是否在有效执行。如果计划未被有效执行,则重新调度。b.超时机制:计划的运行时间如果超出设置时间,则会被从队列中取出,并被置为失败,清空
44、队列以防止作业积压。图:作业异常巡检机制示意服务域智能调度常规调度机制调度计划查询所有在运行中的计划,找出计划对应运行容器计划失败重跑该计划是否重跑.312通知计划状态触发发送探测计划 是否在运行中请求是否容错机制运行计划容器超时机制巡检机制24数据云场景指南数据中台建设1.系统的故障隔离设计分层的架构设计有助于将故障的影响限制在特定层级内,尽可能减少对整个系统的影响。具体设计包括:2.故障隔离实践以容器隔离为例容器隔离,指在容器化环境中,将不同的作业类型运行在独立的容器实例(Pod)内,从而实现作业之间的相互隔离。这种隔离能保证任何一个作业异常而产生故障或崩溃时,不会对其他作业运行造成影响。
45、故障隔离,即在系统发生故障时,把故障隔离在较小的范围内,防止扩散,从而保障系统的可用和可靠。二、故障隔离硬件和虚拟化层:建议大数据集群多副本数据存储在隔离的硬件上,比如宿主机至少 3 台,避免单台主机异常导致数据不可恢复。容器化:容器之间彼此隔离互不影响,且运行环境依赖独立在各自容器中。微服务:每个服务单元运行在独立的进程中,一个服务的故障不会影响其他服务。功能隔离:通过多域、多项目、多资源队列等方式,来保障不同部门的数据作业不会因资源抢占等问题而延迟 产出。图:系统分层设计示意功能 1服务 1容器化虚拟化虚拟化容器化容器化容器化硬件功能 2服务 2功能 N服务 N.25Data Cloud数
46、据中台建设Kubernetes ClusterJobPodbasic_yarn实时任务/hive 任务Podbasic_yarn实时任务/hive 任务JobPodbasic_container离线任务/数据同步任务Podbasic_containerJobPodadhoc_queries即席查询Podadhoc_queries即席查询JobPodalgorithm_container算法任务PodJobPodgraph engine图计算图:容器隔离设计示意节点01节点02节点03节点04离线任务/数据同步任务algorithm_container算法任务graph engine图计算Pod
47、26数据云场景指南数据中台建设1.可观测性的关键组成要素三、可观测性可观测性(Observability)是指通过收集、分析和解释来自系统内外部的数据,对系统的状态、行为和性能进行监测、理解和诊断的能力。可观测性指标能提供对系统的全面可见性,以便用户监控、维护系统,及时发现和解决问题。DataSimba 元仓提供了多种数据模型,企业可以直接调用,来完成数据云平台的异常识别、预警提示、自动化运维巡检等高阶管理。1.数据研发风控模型4.存储分析模型定时盘点任务提交变更数据,提前预知潜在生产风险。支持定期监控数据资产存储变化,识别异常规模数据,便于用户提前做好容量规划。开发行为监控 提交分析 风险影
48、响分析 大表分析 增量分析 资源占用2.血缘治理模型5.安全审计模型追溯数据的来源、变化和去向,快速定位数据问题的根本原因,保障数据质量。对用户操作进行事中审计,保证数据安全、合规、可控。孤立表监控 依赖异常分析 血缘图谱 敏感数据识别 数据审计和监控 风险分析3.运维巡检模型6.数据服务调用模型定时巡检产品服务、中间件、组件和主机发生的常规运维问题。从多个维度统计数据服务的调用情况,监控服务的稳定性,确保服务调用可追溯。主机分析 大数据组件监控 DataSimba 服务监控 中间件监控 API 监控 调用分析日志追踪报警指标监控LoggingTracingAlertingMetricsMon
49、itoring日志(Logging):系统生成详细的日志,记录各种事件、状态和错误信息。这些日志可以帮助追溯问题,了解系统的运行情况。追踪(Tracing):用于记录请求在系统中的传递路径,从而分析请求的流程、耗时以及可能的瓶颈。这对于优化性能和定位问题非常有用。报警(Alerting):设置报警规则,当系统异常或达预定阈值时,自动发送警报,通知相关人员采取行动。指标(Metrics):收集关键性能指标,如响应时间、吞吐量、错误率等,帮助衡量系统的性能和质量。监控(Monitoring):实时观察和收集系统的指标与状态,反映系统的健康状况,从而及时发现异常或故障,进行容量规划等。27Data
50、Cloud数据中台建设2.可观测性实践以数据研发风控模型为例数据研发风控模型,旨在帮助用户发现数据研发过程中的不当和风险行为,评估并预警生产风险。通过该模型,用户可以高频率监控 Job 间的依赖,具体包括:Job 的依赖=Job 的直接依赖+所属 Task 依赖的间接依赖Job 对上游直接依赖和间接依赖表的删除;上游依赖 Task 的情况;具备表依赖关系,但是漏配 Job 依赖关系,或依赖 Job 未上线;对上游直接、间接依赖 job 的冻结、删除;对 Job、表变更后,本身及下游任务的“测试”行为。JobTableTableTableTableTask-PJobJobTask-SJobJob
51、JobJobJobJob间接依赖直接依赖判断示例:a.表(Table1)被删除,但还有生产的任务引用表,下次运行作业一定出错;b.Job2 被删除或冻结,而 Job3 的责任人不知道这个变更,认为 Job3 仍会运行。判断示例:c.当前 Job 依赖了 10 个表,但对应的 Job 漏配了依赖关系;d.当前 Job 依赖了 10 个表,但对应的 Job 未上线。Job-pJob-s1Table2Table3Job-s3col11col13col12Table1Job-s2a.删除Job-pJob-s1col11col13b.删除/冻结col12Table-p1Table-s1Table-p2T
52、able-s2Table-p3Table-s3c.表依赖d.Job依赖缺失 28数据云场景指南科学高效的数据资产治理,是企业数据发挥价值的关键在初步建成数据平台、打通数据孤岛后,企业要进而以数据驱动业务增长,还必须进行科学的数据资产治理,建立规范的治理流程和标准的资产体系,来解决数据价值密度低等问题,让数据能持续、高效、规模化得到分析利用。在该场景中,企业遇到的常见问题有两类:1.没有将体系化的数据治理纳入到数据建设中,大数据平台无法持续、高效地撑业务需要。数据存储不成体系,带来高额存储及维护成本;数仓建设缺少科学方法和技术架构支持,面向单一分析场景定制的做法导致算力成本高、计算周期长。2.虽
53、然经过初阶的治理,但仍未形成合理的数据架构和运维体系,随着业务迭代,易再次陷入混乱。数据资产管理乱,无法有效复用治理过程转化的资产;资产元数据不统一,且有二义性。已初步建成数据平台,具备数据资产治理前提。1.缺乏体系性的数据资产建设规划。2.治理后未形成合理的数据架构和运维体系,随着业务迭代,易再次陷入混乱。a.如何有效设计数仓分层,降低数据存储及计算成本?b.如何面向特定业务场景搭建合理的指标和标签体系?c.如何挖掘数据价值,通过大数据分析及机器学习算法,辅助业务降本增效?d.如何快速支撑业务系统,提供可靠的数据服务?1.不仅需要有序进行数据资产治理,也需在平台层为上层使用数据资产提供便利;
54、2.采用科学的方法论,并依托可靠的产品确保指标、标签、算法模型、服务等数据资产的标准化建设,为落地提效;3.建立数据资产管理体系,持续统一地管理、分析与运维。企业数据基础设施现状常见痛点关键问题落地实践重点关注数据资产治理29Data Cloud数据治理方法论:“六层业务蓝图,十层模型解耦”数据资产治理是一项持续性的工作,应循序渐进完成治理体系落地,最终以高质量、高价值的数据资产支持企业数据运营。值得关注的是,通常狭义上的数据资产指原始数据通过数据治理之后得到的产出物,而广义上的数据资产在此基础上还包含数据指标、标签、算法及服务等,保障上层数据应用能灵活、高效地使用平台层产出的数据资产。在业务
55、驱动的同时,数据资产的治理过程本质上也是基于数据技术的革新优化。从数仓架构里分层分域的设计到数据标准审计的规范落地,都是数据资产治理中的关键技术因素。制定数字化转型战略,并明确当前所处阶段及第一阶段目标,例如“实现业务分析体系的在线化和可视化”;在上述目标指引下,构建全域业务分析场景蓝图,通常包括客户、产品、渠道、财务等等,并按业务需求划分 优先级(即一期、二期、三期等);进而,从优先级最高的业务域开始,逐步完成包括场景细分、模型设计等在内的分析蓝图规划;具体到单个场景,例如“营销活动”,建设该主题洞察分析体系,包括痛点分析、数据维度、可视化展现形式策划等等;针对不同场景,按需规划大屏、看板、
56、报表、订阅体系等,从而高效准确地呈现数据分析结果,辅助决策;上述分析场景的成立,离不开指标、标签、算法模型、服务等资产规划和技术落地,并通过统一的平台向应用层输出能力。企业可以基于“六层业务蓝图,十层模型解耦”方法论,有序开展数据资产治理工作。以下文路径为例,理解“六层业务蓝图”:*了解“十层模型解耦”详情,可咨询奇点云客服。六层业务蓝图十层模型解耦明确设计和开发流程纵向分层横向分域总线矩阵明细/维度层汇总层应用层-标签体系应用层-指标体系模型自动审计弹性模型战略规划全域业务分析蓝图(企业数据模型)单业务域场景蓝图单业务场景洞察报表&看板&大屏&订阅体系指标&标签体系技术支撑数据资产治理30数
57、据云场景指南如何搭建指标体系?指标是支撑企业经营分析和决策的重要数据对象。然而,在指标体系构建与管理的场景中,企业常遇到各种压力和挑战。例如:数据团队因指标需求沟通时间长、数据时效和准确率差等问题,屡遭运营团队投诉,跨部门协作不畅;指标体系不完善、管理难度大,导致指标报表存在大量重复开发,也对指标管理、利用数据指导决策带来巨大阻碍。1.构建分层分域架构,提高公共层沉淀。采用“纵向分层、横向分域”的架构设计,以突破烟囱式开发困境,减少数据冗余和资源消耗。同时,分层管理也有利于简化数据清洗过程,拓展数据公共层,使数据架构清晰化。企业可基于“MIM”(Metric Index-Model)的指标模型
58、构建方法论,构建标准化、规范化的指标体系和数据模型。该方法论强调指标体系和维度建模的管理框架,能帮助用户定义和衡量模型的度量指标,更好地理解、评估和使用其他人开发的模型。同时,MIM 方法论也提供了一种标准化的数据管理方法,开发时通过应用数据标准的方式进行,让模型的开发和管理过程更加规范可控。具体流程如下:基于“MIM”方法论的指标体系搭建流程图:数仓分层架构设计示意公共层贴源层应用层源数据ads_order_anlys_daily数据库三方数据日志消息dws_order_anlys_daily_didwd_order_info_diads_goods_typy_anlys_monthdws_
59、XXXXXdws_XXXXXads_XXXXXdim_goods_info_dfods_XX_XXXods_XX_XXXdim_member_info_dfods_user_member_infoods_oms_user_info_dfdim_user_info_dfods_oms_order_goods_info_diods_oms_order_info_diADS 层DWS 层DWD 层DIM 层ODS 层数据资产治理31Data Cloud2.构建数据标准体系。在数据治理的过程中,标准和规范是为开发执行提供参照的基础。只有在组织内部建立并不断完善数据标准体系,才能在后续的开发过程中“有据
60、可依,有章可循”。SimbaMetric(指标工厂)为企业提供工程规范中必需的表名、字段及指标的定义规范,为企业构建标准的工程规范提供产品能力支持。以下图为例:公司总部要求每天统计各大区最近 30 天通过 APP 下单的订单数量。基于需求,指标定义可拆解为“订单数量”、“最近 30 天”、“APP 渠道”、“大区”,依次代表指标体系里的原子指标、统计周期、修饰词和维度。进一步,还可以依此批量生成由“最近 3 天”、“最近 7 天”等不同周期和“PC 端”、“线下 POS”等不同渠道修饰词构成的更多“结构化”的指标。在维度建模的过程中,遵循“维度”+“度量”的结构,企业可快速创建标准化的、基于指
61、标体系的维度模型。3.构建指标体系,并基于指标完成维度建模。通过对需求指标的结构化拆解,形成原子指标、修饰词、统计周期和业务维度等基础元素,提高指标构建的标准化程度和效率。图:指标体系核心逻辑示意需求场景:每天统计各大区近 30 天通过 APP 下单的订单数量指标体系维度建模原子指标订单数量APP 渠道最近 30 天大区最近 30 天 _APP 渠道 _下单数量各大区订单统计汇总表 _ 日统计周期派生指标维度建模度量维度修饰词修饰词修饰词数据资产治理32数据云场景指南4.统一指标业务元数据与技术元数据,降低各角色沟通成本。企业通过定义指标的管理属性、业务属性和技术属性,来保障各角色使用统一语言
62、定义和维护指标,从而减少指标的二义性和沟通阻力,提高需求沟通效率。SimbaMetric(指标工厂)是针对指标统一管理与开发的效率工具,为企业提供一套完整的指标管理与开发体系。它支持搭配数据云平台 DataSimba 增购,也支持单独购买。具体而言,SimbaMetric能全面满足指标的业务需求、技术需求以及管理需求,提供指标从“提出”、“定义”、“设计”、“开发”、“使用”、“修改”到“下线”等全生命周期功能,为指标体系建设及管理提供规范、易用的产品保障。Q:SimbaMetric 是什么?除了上述标准步骤,在实践过程中,企业还需要注意以下两个问题:Tips 1.数据标准体系的构建,不是一蹴
63、而就的,需要内部积累以及参考借鉴行业内优秀的数据标准实践。2.指标的全生命周期管理是指标体系化建设其中的一部分,做好指标的上线、下线管理会帮助指标体系更加完善,驱动企业的业务决策。数据资产治理图:SimbaMetric(指标工厂)33Data Cloud如何构建标签体系?标签帮助用户理解、管理海量数据,实现分类、检索与分析,在数据资产化、价值化过程中发挥着重要作用。在搭建标签体系时,企业常遇到流程与技术阻碍,譬如:科学的方法论与高效的标签建设工具将帮助企业应对上述问题。下文以用户域为例,介绍标签体系搭建的最佳实践。数据来源渠道多,识别难;企业现有标签体系的产品支撑力不足,技术上无法支持构建全面
64、的标签画像体系;手工打标流程冗长,无法快速响应业务需要。User:用户,指用户 ID、性别、年龄等长期属性;Event:事件,指用户行为,和用户表相关联,比如浏览商品详情页、提交订单;Item:实体,指用户事件中相关的实体信息,与事件表相关联,比如商品、门店、文章、卡券等。UEI 模型是将万物“事件化”的数据模型,它能够将所有的用户行为、商品、门店等不同维度的数据整合在一张宽表里,以一个事件的不同属性的形式展现到 UEI 宽视图上。目前,UEI 模型已被广泛应用于 GrowingIO 的增长分析(UBA)、客户数据平台(CDP)等产品上。根据模型中承载的数据信息不同,UEI 可细分为 User
65、 表、Event 表、Item 表:以“UEI 模型”为核心的用户域标签体系搭建实践图:UEI 模型-User、Event、Item 关系示意事件Event用户User实体Item数据资产治理34数据云场景指南以 UEI 模型为核心,用户域标签体系建设步骤如下:1.构建统一的 ID 体系例如,构建消费者 ID 体系,可在分析云的用户身份模块中,配置强弱身份 ID 与不同 ID 字段的优先级;再通过DataSimba,以任务方式进行消费者 OneID 数据推送。2.构建标签类目体系根据企业的业务需求以及各数据域的治理情况,依托标签管理工具 SimbaTag(标签工厂),进行面向不同对象的标签类目
66、体系设计,再针对具体对象的特定分析主题进行叶子类目的设计。例如,企业可进行关于“消费者”、“商品”、“渠道”等不同业务对象的类目体系构建;针对“消费者”对象,可根据数据来源及应用的分析场景不同,将其分为“基础属性”、“社交属性”、“行为偏好”、“内容偏好”等不同的一级类目,再根据次级分析场景及标签分类需要,划分二级类目。*SimbaTag 支持进行面向不同对象的标签类目体系设计,除了本文介绍的用户标签类目管理,也具备市场营销、财务业务等标签应用场景的类目体系设计能力。数据资产治理35Data Cloud3.UEI 模型数据导入及打标UEI 模型不同数据表的数据,预先在分析云完成用户属性、事件属
67、性、维度表属性配置后,再通过 DataSimba,以任务方式同步 UEI 模型不同表的数据。分析师用户可基于 UEI 模型构建成的宽视图,根据业务场景及标签计算口径,使用不同模板进行打标。4.分组圈选及画像洞察围绕业务需求场景,分析师使用上述标签模板完成标签开发后,调度系统将定时调度生成标签资产数据;分析师可在标签分群、画像洞察等功能模块使用标签资产。与此同时,DataSimba 及 SimbaTag 可快速感知标签资产的变化情况,以进行资产血缘分析及使用分析。SimbaTag(标签工厂)是面向业务标签开发、管理、分析的生产力工具型应用,支持多种上层分析应用,完成标签体系从业务定义到数据模型构
68、建、标签开发的落地全过程,并针对形成的标签资产进行统一的资产管理,提供数据服务 API 及数据订阅服务。SimbaTag 可基于 UEI 模型,快速搭建标签类目体系,沉淀标签数据资产,形成“标签生产-管理-服务-回流”的标签运营生态。Q:SimbaTag 是什么?图:SimbaTag(标签工厂)数据资产治理36数据云场景指南如何构建算法模型?伴随数据积累,企业开始探索通过机器学习等方式来赋能业务。例如,通过自动化推荐算法,为用户推荐更贴近其喜好的商品;借助流失预警算法,帮助挽回流失用户;基于复购预测算法,更准确地估算需补货的商品类型及数量。然而,算法模型从构建、运维到对外提供服务均存在一定技术
69、门槛。在开发完成后,往往需要专业运维工程师介入才能部署。如何将已有的业务模型快速应用到业务侧,以及一键部署开发好的算法模型,是企业在该场景下面临的关键问题。1.业务理解(Business Understanding)包括项目目标及业务需求理解,并将其转化为数据挖掘问题的定义和完成目标的初步计划;2.数据理解(Data Understanding)对数据进行深入的了解和分析,包括数据的来源、类型、质量和特征等;3.数据准备(Data Preparation)构造最终数据集以为输入模型工具做准备;4.建立建模(Modeling)选择合适的数据挖掘算法和技术,并定义模型的输入和输出变量、假设条件和评
70、价指标等,使用训练数据集来训练模型,并通过交叉验证等方法来评估模型的性能;5.模型评估(Evaluation)使用测试数据集来评估模型的性能,并比较不同模型的预测结果和实际结果之间的差异。这可以帮助企业确定最优的模型,并优化其性能;6.模型部署(Deployment)将模型集成到企业的应用系统中,并进行监控和管理,从而帮助企业实现自动化的数据挖掘过程,提高效率和准确性。企业构建算法模型,通常依据 CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)搭建,该模型由欧盟机构联合起草,并得到广泛应用。基于 CRIS
71、P-DM 方法论,算法模型构建流程如下:基于“CRISP-DM”方法论的算法模型构建流程数据资产治理37Data Cloud图:CRISP-DM(跨行业数据挖掘标准流程)模型方法论SimbaML(算法工厂)是面向算法应用开发者的工程平台,提供数据采集、IDE 开发、在线服务等机器学习全流程。从模型开发、模型训练,到模型部署,一站式完成算法应用场景;内置预测、推荐、人群聚类等多种模型,无需开发,开箱即用。Q:SimbaML 是什么?图:SimbaML(算法工厂)DATA0106模型部署商业理解数据理解数据准备建立模型模型评估02030405数据资产治理38数据云场景指南图:OLS 方法论示意如何
72、便捷开发数据服务,实现数据共享?为便于数据应用消费数据,企业将源数据或治理后的数据资产通过 API 的方式对外提供服务。在该环节,企业常面临以下难题:如何降低数据服务的开发门槛及成本?传统的数据服务开发方式周期长,响应慢,必须等排期按部就班实现;数据使用门槛高,无法随时调用,对技术人员依赖高。如何提高数据服务的灵活性,增加服务的覆盖场景及复用率?烟囱式的数据服务开发方式为每个需求提供对应的数据接口,成本高、复用性低。如何解决数据服务的使用安全问题及细分粒度的企业级权限管控诉求?在数据接口开发时,往往只考虑数据获取的便利性,而疏于考虑访问安全性和稳定性,可能存在安全隐患,查询性能也缺乏保障。如何
73、运维管理数据服务,做到当问题出现时第一时间感知及修复?因缺少管理 API 服务的平台工具,无法对异常情况进行监控告警。而当线上业务问题暴露后再排查修复,将影响线上业务。为解决上述问题,企业可依据 OLS(Object 对象-Lifecycle 全生命周期-Service 服务)方法论进行服务编排。OLS 方法论利用面向对象的思想来组织和管理数据接口和服务,使得接口和服务更易于管理与维护,扩展性和复用性更强。基于“OLS”方法论的服务编排流程API 开发服务配置服务上架服务授权服务运维监控服务调用服务下线123456Table 表数据 APIDocker 镜像算法 API服务配置其他对象注册 A
74、PIService 服务数据资产治理39Data CloudSimbaAPI(服务工厂)基于 OLS 方法论构建,可支持用户快速构建复杂的多数据调用逻辑,减少开发工作量和时间成本。依托 SimbaAPI 开发数据服务的流程如下:1.注册数据源:系统支持包括 MySQL、Oracle、ClickHouse、Impala 等常见数据源;2.创建 API:通过拖拽或脚本模式,创建数据 API/算法 API;3.服务编排:根据业务场景及需求对 API 进行服务编排,支持多 API 串联或并联编排;4.测试并发布:本地测试验证无误后,提交发布上线;5.授权使用:将已上线服务授权给下游数据消费方;6.运维
75、监控:对服务设置流量限制,并配置监控告警能力。SimbaAPI(服务工厂)是 API 全生命周期管理工具,内置 OLS 方法论,采用低代码方式配置生成 API,支持混合编排复杂场景,帮助企业快速完成数据接口的配置和全生命周期管理。Q:SimbaAPI 是什么?图:SimbaAPI(服务工厂)数据资产治理40数据云场景指南图:MOF 模型如何在平台上管理数据资产?随着数据治理的深入,根据技术实现、应用场景的不同,企业会沉淀出不同类型的数据资产,诸如数据表、指标、标签、算法模型、API 服务等。这些数据资产需要得到持续、统一的管理与运维,方可不断产出价值。该环节的常见痛点包括:数据资产元数据混乱、
76、标准不统一,容易产生二义性;数据资产的准确性与有效性无法保障。为明晰不同类型资产元模型的定义,并管理好不同类型的数据资产,企业可基于 MOF 模型,在数据云平台完成对数据资产的有效管理。MOF(Meta Object Facility),即元对象机制,是 OMG(Object Management Group,对象管理机构)为帮助行业客户及开发者更好地使用元模型和元模型技术而制定的规范。基于“MOF”方法论的数据资产管理实践 M3元元模型元模型元数据数据M2M1M0数据资产治理41Data Cloud5.面对不同资产类型,执行符合资产特性的元数据分析。查看具体某一类型的数据资产详情时,可查阅到
77、该资产的业务元数据、技术元数据、管理元数据,以及应用情况等。基于 DataSimba 数据资产功能及开放服务,数据资产管理实践步骤如下:1.上层应用开发者约定资产元模型;2.业务侧及时主动上报资产主数据;3.在数据资产的模块进行类目管理、标记,实现对资产的分类管理;4.对资产数据进行概况性查询和分析;例如,检索指标资产并输入指标名称关键字;或指定某一类数据来源,再进行关键字检索;图:DataSimba-数据资产检索图:指标资产元数据展示数据资产治理XXXXXXXXX42数据云场景指南集团数据云服务*了解更多云间数据迁移及规模估算等信息,详见 P16。集团型企业对数据管理的需求“既隔离又统一”集
78、团型企业具有多品牌、多业态、多主体特征。相较于单一主体企业而言,集团型企业对数据基础设施能力的需求更为多元,主要体现在三个层面:第一,集团统一存算资源的管理调度,一方面关注云纳管,如云的计量计费、资源利用率等,另一方面要确保资源高可用,各业务单元系统运行独立稳定、互不影响;第二,多品牌、多业态、多主体下的数据管控,一方面满足集团掌控分析全局数据需求,另一方面也要满足各子品牌、业务单元(如财务与业务等)、各子公司(如上市或非上市等)对于数据的租户权限划分及隔离需求(如物理隔离、逻辑隔离等);第三,跨国企业/出海企业的数据跨云统一调度,例如企业在国内外使用两朵及以上的云,或企业在国内外使用同一朵云
79、,但由于合规要求需要实现物理隔离的场景。企业如选择自建 IT 团队,来满足以上需求,则可能面临成本高、运维难等困境。目前,DataSimba 的多域多租户等技术方案正满足了集团型企业“既统一又隔离”的数据管理需求。1.中大型集团企业,需要向集团各个部门提供数据服务。2.需要跨国跨云。1.保障集团内各业务单元/部门进行安全隔离,同时计算资源要合理分配,支持共享或隔离。2.数据平台庞大,对 IT 团队数据能力要求高,运维困难。如何满足多品牌、多主体、多业态的数据管理?1.建设跨云多域的集团数据云服务架构。2.多租户的安全隔离保障。3.创建新 Workspace 并迁移的方法论及标准工具。企业数据基
80、础设施现状常见痛点关键问题落地实践重点关注43Data Cloud如何满足多品牌、多主体、多业态的数据管理?跨云多域多租户是奇点云独有知识产权的技术解决方案。基于数据云平台 DataSimba,集团可采用该方案统一建设并管理数据资产,同时,集团的多品牌、多业态可以共用一套集群资源和数据云平台,并采用多租户安全技术方案来确保安全合规。“多租户”,顾名思义,资源方把资源“租赁”给多个客户。“租”指客户自己没有资源(例如计算、存储、数据、服务等资源),需要租用。“多”则指资源提供方提供的资源同时被多个租户租赁使用。多租户技术自提出以来已有 60 余年,从大型机到云计算时代,都曾得到广泛应用。它让资源
81、提供方的资源利用最大化,作为平台身份服务更多租户,也免去了租户自行运管基础设施的烦恼。例如,企业的 IT 团队负责采购并管理一整套资源,其中各子公司/业务单元/各部门就可以被定义为不同的租户,租户在各自的资源空间下完成自己的开发工作,而互不抢占资源、影响作业进度。同时,管理方也可以根据各租户长期使用情况,更合理地规划资源。跨云多域多租户方案是集团数据云服务的最优解什么是“多租户”?1.在统一的数据云平台 DataSimba 下,客户可以创建若干工作空间(Workspace),来完成多云管理。例如,核心数据存在自有 IDC 机房,主要业务数据存在华为云,海外的经营数据存在海外当地的 AWS。这些
82、数据通过工作空间进行隔离,满足企业多云战略,也符合所在地域的数据安全与审计要求;同时,通过同一套 DataSimba,也能跨云跨平台地完成统一的租户与账户管理、安全策略与审计,从而极大提升集团管控效率。2.在一个工作空间下,租户可以建立自己的项目(Project),并进一步建立项目内的角色,进行权限划分,甚至能具体到表的行级、列级。3.权限管控体系有序而灵活,多个租户都可以在一个工作空间下建立项目,一个租户也可以在不同的工作空间建立不同的项目。而如果需要(例如上市公司的财务部门),一个租户也可以独占一个工作空间。4.在没有授权的情况下,不同租户、不同项目之间的数据均不可互相查看和调用。此外,多
83、租户体系不仅能实现更精细化的数据权限隔离,还解决了不同项目之间存算资源隔离的问题,每个租户、项目可以设定各自的存算资源,租户 1 的某个小任务不再需要在租户 2 超大规模的任务后排队;如果有租户一不小心耗尽了自己的资源,也不会干扰其他租户的生产作业。什么是“跨云多域”的“多租户”?集团数据云服务44数据云场景指南双层认证,双层安全工作空间 A工作空间 B工作空间 C工作空间 D多域多租户的安全技术保障数据云平台 DataSimba 在经典的多租户基础上,增加了“双层身份认证”、“双层权限校验”、“双层存储加密”的安全技术保障,从而保证租户资源的强逻辑隔离与数据安全。双层身份认证:数据云平台Da
84、taSimba和大数据集群管理系统DataKun是两套独立的系统,有各自的账户体系,在系统入口均设置了严格的身份认证。双层权限校验:指对接口和菜单权限、数据权限等进行管控,以数据权限为例,租户下设若干子账号,子账号的数据权限申请只能在租户已租用的资源范围内,权限粒度可精确到表、字段、行级。双层存储加密:架构中设置了两层文件存储加密“双保险”,包括:DataSimba 侧基于分布式存储方案,开启透明加密;大数据集群管理系统侧开启底层文件加密和密钥的管理权限独立托管。市场营销力资源财务租户 1租户 2租户 3项目 A.1项目 A.1项目 A.2项目 A.1项目 B.1项目 C.1 项目 C.2 项
85、目 C.3项目 C.1项目 D.1项目 D.1项目 D.1项目 B.1图:跨云多域多租户方案架构示意集团数据云服务45Data Cloud当企业的大数据平台与大数据集群管理引擎相互独立运营,归属于不同技术服务商时,双层安全保障就尤为重要仅仅依赖于集群管理的安全政策,难以 100%确保数据安全。数据云平台 DataSimba 为此设置了数据权限代理层,从而实现在不侵入大数据集群管理引擎的前提下,依旧有与大数据安全组件等同能力的数据权限管控。某大型零售集团已完成 DataSimba 多租户技术架构的部署(如上图)。在多个数据团队互不抢占资源的同时,相较传统方案,更节约了 50%的大数据集群计算节点
86、。同时,通过动态的权限管控,支持租户间(例如跨部门)数据安全共享,从而节省数据迁移成本。强逻辑隔离强逻辑隔离强逻辑隔离任务提交租户-1数据资源租户-1存储资源租户-1计算任务大数据安全组件其他租户数据资源其他租户存储资源其他租户计算任务大数据集群管理系统(如 )数据资源租户-1子账号管理(User)项目管理(Project)其它平台管理其他项目项目-1基于角色的菜单和接口权限控制任务调度作业存储资源任务其他租户资源文件存储加密数据云平台DataSimba身份认证工作空间数据权限代理层大数据组件身份认证,如Kerberos认证用户映射、Quota分配、任务提交离线计算,如Hive分布式文件存储系
87、统,如HDFS资源调度,如Yarn安全插件底层存储加密安全插件安全插件数据读/写解耦安全依赖,确保数据云平台安全多租户数据安全实践案例集团数据云服务46数据云场景指南如何规划并创建一个新的 Workspace当遇到以下场景,企业往往需要或选择创建新的 Workspace:场景 1:业务高速扩张,数据生产域需同步快速复制业务的快速复制是企业规模化扩张的常见做法。与业务相对应,大数据平台中同样需要复制出足够的数据空间,以便这些业务投入使用。以制造业企业为例,在某地建厂有成熟实践后,企业需要复制到全国各地。不同工厂的数据业务逻辑可复用,同时,也需要工厂之间数据互不影响。因此可创建新的 Workspa
88、ce 并快速复制标准空间的数据业务逻辑到新的空间中,快速开始业务数据的分析。场景 2:安全合规要求,需要独立的数据隔离与管理企业在运营跨国业务时,需遵守业务所在地的数据安全相关法律法规,且各地数据不允许无原则地传输交换。因此企业需创建多个物理独立、数据隔离的 Workspace,确保在当地的数据业务安全合规。在国内,对上市公司的财务数据往往也有数据隔离、独立管理的合规要求,因此财务域在企业的大数据平台往往独占一个 Workspace。场景 3:探索创新业务,同时规避对核心业务影响企业发展新业务或做创新探索时,需要独立的发展空间。为了规避对核心业务的影响,推荐创建独立Workspace。场景 4
89、:匹配组织架构,创建互不干扰的独立空间旗下有多个子公司、子品牌及业态的大型集团企业,更需要为它们匹配独立的 Workspace,以确保各子公司之间互不干扰、独立运营。集团层面统一管理资源的同时,也便于对每个子公司完成独立的数据成本核算。企业在发展过程中,出于业务扩张、安全合规等要求,常需要对现有的大数据平台进行独立的生产域规划,来匹配新涌现的数据需求。在跨云多域的数据云平台 DataSimba 中,此类动作即为“创建新的 Workspace(工作空间)”。场景集团数据云服务47Data Cloud做好一个 Workspace 的规划,我们需要逐步完成以下环节:Account(账号)指租户账号,
90、此账号会绑定用户子账号(User),每个子账号可以被分配不同的角色(Role),每个角色可以控制能访问的功能权限。同时,每个子账号可以进行数据权限的绑定。Project(项目)是一种对任务、作业、数据逻辑上的管理单位。1.大数据集群评估2.Account 规划3.Project 规划 整体调研:调研企业业务和数据现状 基于组织架构调研,明确需要建立子账号的用户 基于用户的职位职责,规划出不同的角色和所需要的功能权限 根据企业的数据安全要求,规划数据权限的设定 最后,Account 与资源节点对应绑定 根据企业业务情况,选择适合的划分维度进行项目规划。常见维度如下:资源评估:评估出需要的资源总量
91、 组件评估:基于调研的业务场景,进行组件选型,满足业务的需求 a.确认业务整体目标以及业务范围b.探查数据现状,明确数据分布及数据流向c.IT 系统调研,调研企业 IT 基础设施的现状d.组织架构调研,了解企业整体组织架构a.环境用途维度:例如开发环境、测试环境、预发环境、正式环境等。从经济性角度出发,通常分为开发环境、正式环境即可。b.业务领域维度:例如订单域,财务域等。c.组织架构维度:例如生产部门、市场运营部门、电商部门等。d.地理位置维度:根据业务所在的地理位置划分,例如欧洲、美洲等。a.通过调研的数据情况,估算未来数年整体的数据量b.基于整体业务未来发展情况,估算整体任务数量新 Wo
92、rkspace 规划流程 Project 划分完毕后,将上述 Account 相关的用户分配到对应的 Project 中。集团数据云服务48数据云场景指南数据云操作系统在底层设计了对应的对象体系(包括 Workspace、Project、Quota、Account 等对象),并内置工具来帮助用户快速进行对象体系实例的创建。因此,Workspace 创建其实是创建整个对象体系的实例。流程如下:Quota(配额)指对不同用户或部门使用资源(如 CPU、内存、GPU 等)的分配及限制。结合上述规划的资源和项目,可以开始进行 Quota 规划。Quota 规划通常遵循以下原则:上述环节规划完毕后,开始
93、正式迁移相关的任务以及数据。大数据业务迁移流程详见 P16。结合上述原则,规划如下:4.Quota 规划5.任务和数据迁移 业务优先原则:重要的业务空间具有更高的配额,以确保任务能有效执行完毕。资源利用率原则:在不影响业务使用的前提下,可以尽可能使用 Quota 共享的方式来提升资源利用率。基于业务场景,判断高优先级的业务。在确保高优先级业务有效执行的前提下,配置 Quota。判断中优先级的业务,可以根据实际业务要求选择和低优先级的业务共同使用一个 Quota。规划好 Quota 后,分配给对应的 Project 使用。a.创建 Account 实例,并关联 Workspace;b.选择并创建
94、 Project 实例;c.创建对应 Quota 实例;d.最后进行数据迁移,并创建 Task、Job 等实例。“创建 Workspace,就是创建数据云对象体系的实例”图:Workspace(工作空间)、Account(租户账户)、Project(项目)、User(子账号)对象的关系示意,以“多工作空间”场景为例数据资源数据资源其他项目其他项目项目-1项目-1基于角色的菜单和接口权限控制基于角色的菜单和接口权限控制任务调度任务调度Hive/Spark/Flink/同步等作业Hive/Spark/Flink/同步等作业存储资源存储资源任务(周期/手动)任务(周期/手动)Account-1(Da
95、taSimba租户对象)Account-2(DataSimba租户对象)子账号管理(User)子账号管理(User)项目管理(Project)项目管理(Project)其它平台管理其它平台管理工作空间-1工作空间-2集团数据云服务49Data Cloud寻找国产自主可控、安全合规的数据产品2019 年,CDH(Cloudera Distribution of Hadoop)社区版(免费版)宣布停止更新。出于对价格、迁移复杂度等因素的考虑,部分国内企业仍在使用 CDH 免费版产品(例如 CDH6)。但由于技术支持的缺失,CDH 不仅无法得到特性升级,还存在着众多安全漏洞。在当前政治经济形势及数据
96、安全合规的双重要求下,对寻找自主可控、稳定可信的国产大数据产品的需求,已从国央企拓展到国内的所有企业。确保企业数据产品的自主安全可控,刻不容缓。国产环境适配及平滑迁移。如何选择企业适合且自主可控的大数据集群管理引擎?需要寻找国产的、安全合规的替代产品。1.使用了免费版 CDH,或所使用产品的经营实体已退出中国(例如 Teradata)。2.有硬性要求,必须使用国内研发的自主可控数据产品(例如国央企)。落地实践重点关注关键问题常见痛点企业数据基础设施现状自主可控替代50数据云场景指南选择自主可控的大数据集群管理系统国产环境全适配奇点云大数据集群管理系统DataKun,提供企业级的大数据集群智能运
97、维能力,具备安全稳定、智能运维、云原生、自主可控四大特性,为企业大数据存算及运维管理降本增效。2022 年,DataKun 团队主导发起复活 Ambari。查阅附录或咨询奇点云客服,了解 DataKun 产品详情。奇点云具备多行业领域成熟的替代实践,提供CDH/云上EMR向DataKun的迁移服务,保障平滑、稳定、高效迁移。奇点云数据云产品现已完成从 IT 基础设施、基础软件到应用软件的全产业链国产产品兼容性互认证,包括龙芯中科、华为、麒麟软件、统信软件、人大金仓、达梦等等。以麒麟、鲲鹏为核心的全国产环境下,依旧表现不凡,可实现 95%以上性能(相较 Intel x86 环境),并仍在逐步提升
98、。功能覆盖度性能安全性稳定性迁移性全容器化国产兼容运维服务成本优势对比云上 EMRCDH 社区版自主可控替代51Data Cloud数据安全合规合规增就是核心竞争力数据安全和隐私保护是当今大数据时代的主流课题。企业作为数据(尤其是用户数据)的收集者,有义务控制滥用和误用数据等风险的发生;作为数据资产的持有者,也应采取必要措施,以预防并阻止违规操作、泄密、攻击等事件,规避对企业数据资产保密性、完整性、可用性的损伤。部分企业还为此设立了 DPO(Data Protection Officer,简称 DPO),即数据安全保护官的岗位,承担建立并管理企业的数据保护及数据合规的工作。1.数据安全管理应持
99、续遵守七大原则。2.确定分类分级管理规范,是有效实施数据安全管理的基础。1.如何设计清晰务实的数据安全管理蓝图?2.如何确保数据安全管理持续落地?1.数据安全相关法规、要求多,不知从何下手。2.需要同时满足数据安全合规与业务发展的要求。需要保障企业各系统内数据安全合规。落地实践重点关注关键问题常见痛点企业数据基础设施现状52数据云场景指南数据安全合规规划:数据安全管理的蓝图设计应清晰且务实数据安全管理需综合考虑管理要素、技术要素、基础要素。如蓝图所示,企业数据安全管理通常无法由 DPO 或数据安全部门完全独立承担:向内,需要数据全生命周期所涉部门的密切配合,从组织流程、管理制度等层面保障落地;
100、向外,需视所处阶段,寻求不同的支持,例如律师、咨询顾问、数据安全专家,及安全合规的数据产品和云基础设施。图:数据安全管理的蓝图设计管理要素需要律师和咨询顾问法律合规对数据的法律控制隐私政策数据保护影响评估条款和条件企业内部政策经营备案/安全认证数据处理协议告知基础要素 云厂商(IaaS)保障基础设施安全安全存储和计算复制系统使用备份虚拟机(VM)安全更新数据库技术要素 需要开发人员、安全专家和顾问安全策略在处理个人数据时对自然人的保护策略同意追踪审计追踪被遗忘权泄漏通知风险评估数据共享策略数据迁移拒绝权身份验证访问控制安全传输密钥存储静态加密数据冗余API 安全密钥轮转数据安全保护数据免受未经
101、授权的访问和操作53Data Cloud数据安全合规数据安全管理不是“一锤子买卖”,只要存在数据处理活动,就应当持续进行。除了本篇着重关注的“企业”,其他所有开展数据处理活动的主体也可参考下列原则。1.职责明确企业应明确设立数据安全管理者,明确各角色的安全职责,明确主要业务活动的实施主体,切实为企业数据及其应用安全负责。2.安全合规企业应制定策略和规程,确保数据的各项活动满足合规要求。合规依据包括但不限于理解并遵从数据安全相关的法律法规、合同、标准等。3.质量保障在采集和处理数据的过程中,企业应注重数据质量,采取适当的措施以确保数据的准确性、可用性、完整性和实时性。数据安全管理的 7 大基本原
102、则4.数据最小化企业应保证只采集和处理满足目的所需的最小数据,避免数据的过度采集。5.责任不随数据转移企业当前控制数据的组织应对数据负责,当数据转移给公司内其他组织时,责任不随数据转移而转移。6.最小授权公司应控制数据活动中的数据访问权限,保证在满足业务需求的基础上最小化权限。7.可审计公司应实现对业务各环节的数据审计。数据分类分级管理规范的制定过程按照“先分类,后分级”的方式展开,具体的实施过程需借助数据安全工具,实现全局资产盘点,并在盘点基础上,对行、列甚至是字段数据进行分类分级打标工作,从而构建企业的分类分级体系。在制定过程中,业务部门需为数据调研、数据规范标准需求确认等环节提供充分支持
103、。最终形成的数据分类分级管理规范应符合以下四大标准:科学性,稳定性,实用性,扩展性。数据分类分级,是在对公司的数据资产进行全面梳理的基础上,基于业务场景,将具有相同属性或特征等的数据进行分类,并结合数据的敏感程度以及数据遭到破坏、泄露等非法操作后所造成的影响程度进行分级。构建一个合理适当的数据分级分类管理规范,是企业有效实施数据安全管理的必要条件和基础,也为公司制定具有针对性的管控措施提供必要支撑。核心:确定数据安全分类分级管理规范图:数据分类分级实施步骤制定数据分类分级管理规范确定数据分类设定数据初始安全级别评估初始安全级别调整并确定最终安全级别123454数据云场景指南1.数据分类分级:是
104、基础,在数据安全工具中体现为分类分级标签;2.数据盘点:是前提,在数据安全工具中体现为全域数据资产;3.数据全生命周期安全管理:是职责分工的依据,在数据安全工具中体现为时间戳;4.数据访问权限安全:是系统保障,在数据安全工具中体现为权限管控体系;5.数据安全风险预案:配合案例库,可以起到“事前预防,事中监控,事后审计”的作用,在数据安全工具中体现为规则引擎;6.管理原则与管理组织:是有效实施数据安全管理的保障,可以帮助数据安全工具在企业内真正落地。*了解数据安全引擎 DataBlack,详见附录 P60。图:数据安全生命周期管理架构当企业最终建成完整的数据安全生命周期管理架构时,方才可视为已具
105、备完善的数据安全管理能力,能有效、持续地保障企业的数据安全合规。管理架构离不开数据安全工具及组织的支撑,具体包括以下六项内容:目标:建成数据安全生命周期管理架构数据安全合规 数据盘点2数据分类分级1数据全生命周期安全管理3数据安全风险预案5数据访问权限安全41 级(公开级)数据采集安全数据传输安全数据存储安全数据加工安全数据交换安全数据销毁安全2 级(内部级)3 级(保密级)4 级(机密级)5 级(绝密级)6数据全生命周期管理原则6数据安全管理组织55Data Cloud数据安全合规该合资车企经过多年的快速发展,积累了大量客户、车辆、车联数据,其中涉及员工和客户信息等敏感数据,根据数据安全法
106、汽车数据安全管理若干规定等国家相关法律法规,亟需建立标准化、系统化的数据管理体系,并依托技术工具持续落地。案例:某合资车企的数据安全合规与安全治理咨询项目背景痛点实践尚未建立安全管理组织和安全制度;未对数据进行分类分级,无法满足监管合规需求;数据安全管理较为随机,需要体系化开展数据安全治理。监管合规义务拆解:拆解法律法规,理解监管合规需求,构建安全合规标准流程;根据法条拆解,构建整体合规框架,设计合规蓝图。现状和差距评估:根据合规蓝图,评估现状和目标的差距,正确理解现状。建立企业数据安全管理制度,完善数据安全处理流程及保障体系。建立数据安全分级分类制度,明确分类分级方法、流程、组织流程等。建立
107、数据安全风险预案,明确不同等级安全事件的处理原则、响应流程、评估方法等等。完成涉及出境的 12 个系统的数据资产盘点,共计 14000 余张表,并针对盘点范围中涉及 L3 级以上的敏感数据进行打标,共计完成 300 余个敏感数据标签,形成了出境数据相关的资产清单和敏感数据清单。1.数据安全合规分析评估2.数据安全管理制度建立3.数据资产盘点和重要数据识别 56数据云场景指南奇点云,客户的数据云附录:奇点云(StartDT)是独立第三方的大数据基础软件提供商,成立于 2016 年,旗下有“奇点云”、“GrowingIO”两大品牌。聚焦数据全生命周期,奇点云以自主研发的数据云操作系统为能力核心,围
108、绕数据全生命周期提供数据产品体系,主力产品包括数据云平台 DataSimba、数据存算引擎 DataKun、数据安全引擎 DataBlack、增长分析、客户数据平台等。奇点云是国家级专精特新“小巨人”企业、国家高新技术企业,并通过了中国信通院、工信部等机构的权威评测及多项资质认证。至今,奇点云已服务零售、制造、金融、政企等多行业的1500+客户,陪伴客户成功实践数字化,加速产业转型升级,构建面向 DT 时代的竞争力。数据云操作系统是面向数据场景的新一代分布式操作系统。它将大数据领域的存储、计算、服务、调度、安全、租户等常用功能,抽象为一组标准对象模块,并提供开放的 API/SDK。基于数据云操
109、作系统提供的技术栈,数据业务的研发效率将大大提升,避免“作坊式”的低效耦合;进一步,可以工程化、体系化地构建协同、统一、安全的一组数据应用,避免“烟囱式”的应用孤岛,真正构建统一开放安全易用的数据云。数据云操作系统数据云操作系统数据研发应用SimbaOS KitSimbaOS KernelDataKun数据分析应用数据安全应用行业数据应用数据运维应用图:奇点云数据云操作系统数据云核心产品57Data Cloud产品特性产品优势产品架构全新一代中立安全、稳定易用的数据云平台 DataSimba,以跨平台、云原生、自主可控、数据安全为技术内核,从集成、研发、运维、治理到服务,提供客户管控数据全生命
110、周期的必备能力。以“产品+技术+方法论”,全面支撑客户构建其自有的数据生产力。DataSimba 内置 SimbaOS Kernel(数据云操作系统内核),向下封装多引擎、多依赖、多云、海量多源异构数据等带来的复杂性,并基于统一的平台,向上(应用层)以 API 的方式提供标准能力,帮助用户简化数据模型/应用的研发过程。中立安全、稳定易用的数据云平台企业可以使用统一的账号权限体系,对多个 IaaS 云基础设施、多个 Workspace(域)进行管理,实现分级多域、跨云跨平台部署,提升协作与管控效率。具备微服务、容器化编排、存算分离、CI/CD 等云原生技术特性,优化架构,为客户降低数据应用在云上
111、的存算成本,提升研发效率。向下搭载自主可控的数据存算引擎 DataKun,帮助企业快速构建智能化、轻量级的大数据基础平台,技术可控、成本可控。兼容国产研发软硬件环境,充分适配,性能优良。深 度 融 合 数 据 安 全 引 擎DataBlack,以数据为中心,帮助客户智能高效地完成数据全生命周期安全管控,为数据资产护航。跨平台云原生自主可控数据安全互联网级通量零售级效率金融级安全电信级稳定数据云平台SimbaIDE 数据云集成开发环境SimbaOS Kernel 数据云操作系统内核数据集成空间域存储域任务域账户域安全域元数据域数据研发数据运维数据服务数据治理指标工厂服务工厂算法工厂标签工厂数据云
112、核心产品58数据云场景指南产品特性产品架构应用场景数据存算引擎 DataKun,提供企业级的大数据集群智能运维能力,具备安全稳定、智能运维、云原生、自主可控四大特性,为企业大数据存算及运维管理降本增效。自主可控的数据存算引擎安全稳定流批一体智能运维湖仓一体云原生即席查询自主可控海量数据在线服务长期运行过程中,始终具备高可用、高性能;支持大数据安全组件,满足数据安全、稳定和合规性需求。通过智能运维模型,自动化监测、分析和优化系统行为,改变传统“人肉运维”的方式;围绕大数据运维全生命周期,从系统层、服务层、业务层实现 360可观测。具备弹性伸缩、存算分离、全容器化等特性,实现更高效、更灵活、更经济
113、的大数据存算处理。全面适配国产研发软硬件环境;具备成熟的替代实践,支持快速平滑迁移;技术可控,成本可控。多引擎计算系统分布式存储系统数据安全管控智能运维HiveClickHouseFlinkTrinoSparkImpalaHBaseESTezSimbaFSHDFSS3OSSMinIORanger集群管理监控告警智能巡检诊断分析LDAPKerberos数据云核心产品59Data Cloud产品优势核心功能数据安全引擎 DataBlack,遵循以数据为中心的安全架构设计理念,具备敏感数据自动化发现、数据脱敏和加密、权限管理、风险识别和监控、数据审计等五大核心功能,支撑客户完成数据全生命周期安全管控
114、,强化数据安全治理与风险防御能力,保障数据资产的保密性、完整性、可用性。面对数据系统日益多样而安全合规缺失的现状,企业的数据安全管理部门可以借助 DataBlack,对全域数据采取一致的数据安全策略与流程应用,给用户授予对应应用的安全角色、配置安全能力,从而真正提高数据安全管控效率,在不同业务场景下更放心地使用数据。数据全域全生命周期的安全引擎敏感数据自动化发现风险识别与监控告警数据审计和监控分级分类与数据脱敏精细权限管控数据加密与防拷贝事前事中事后数据云核心产品支持全面数据审计,完成对风险操作行为的识别和告警监控,帮助企业全面评估安全风险、完成合规管理。内置分级分类行业模板,开箱即用,自动生
115、成全景图;提供智能算法,扫描数据并识别敏感资产。支持数据云平台产品及多类数据应用产 品(例 如 CDP、UBA 等),提供一站式的数据安全管理能力。从采集、存储、传输、共享、使用到保留及销毁,围绕数据全生命周期,聚焦敏感数据,实施安全管控。全域全场景全生命周期智能分级分类全面审计60数据云场景指南免责声明本文档仅代表 StartDT Research Center 的观察和建议,内容来源于奇点云核心团队的实践经验,所有文案、图表均为原创,包括但不限于定义、方法论、发展阶段、建设内容和实施方式。由于实践过程中存在不确定因素,可能导致实际过程和本指南有较大出入。因此,本指南信息仅供参考,不构成任何要约或承诺。StartDT 可能不经通知修改上述信息,恕不另行通知。非经杭州比智科技有限公司同意,任何单位和个人不得擅自摘抄、复制本指南内容的部分或全部,并不得以任何形式传播。版权所有 杭州比智科技有限公司 保留一切权利