上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

KSG解决方案:数据湖还是数据沼泽?(16页).pdf

编号:120385 PDF   DOCX 16页 3.69MB 下载积分:VIP专享
下载报告请您先登录!

KSG解决方案:数据湖还是数据沼泽?(16页).pdf

1、1KSG 解决方案-数据湖还是数据沼泽?不要让 数据湖成为 数据沼泽数据湖还是数据沼泽?2KSG 解决方案-数据湖还是数据沼泽?简介越来越多的企业开始将他们的数据视为一项重要资产,因为数据可以帮助他们提高运营效率和盈利能力。随着人们收集时序数据方面的能力不断增强,相应的技术也逐渐增多,帮助人们深度理解这些数据。我们该如何选择正确的技术和方法来解决我们的业务问题呢?关于作者John de Koning 是工业数据处理方面的一名成功顾问,在石油和天然气行业打下了坚实的基础。作为壳牌公司的技术和创新经理,约翰在加工制造和生产数据方面采用了创新的方法,每年可以为公司创造 5 亿美元的价值。他在公司层面

2、引入数据架构,为制造和生产数据提供上下文、对数据进行集成和聚合,他是行业的领导者。他的经验和见解是这本白皮书的基础。本白皮书着重于帮助行业领导者们了解各种数据处理技术的特点,以及如何与企业数据湖计划相结合,综合使用这些技术为企业时序数据处理提供最佳解决方案。3KSG 解决方案-数据湖还是数据沼泽?时序数据解决方案有好多种。其中的一些解决方案甚至把自己装扮为数据管理的圣杯,并主张将传感器和机器数据直接传输到数据湖和云端,随后再对数据进行组织。但是工业数据流的性质以及已经存在的传统自动化设备该如何处理呢?特别是在工业数据环境领域,自动化系统的生命周期可长达 20 年,更换设备是一项巨大的投资。从这

3、些数据源向数据湖发送原始数据压根行不通,因为这些遗留的数据源根本就没有数据接口。数据访问应简单而可行,但应能支持企业范围内的报告和分析。时序数据的解决方案体系结构应遵循一些严格的规则:1.连接性确保企业解决方案能够连接各种(传统)数据源和未来的新数据源。2.时序能力系统应当能够处理时序数据(高保真、按时间索引、与时间同步)。3.上下文系统应当能够基于资产/设备,在各个数据流之间建立易于理解的关系,让用户能够在设备级别轻松比较、查看和分析数据,而无需成为 IT 专家或数据科学家。4.可访问流程用户应当能够分析数据,并对数据进行可视化呈现,从而优化使用生产设施。5.安全性确保生产设施安全可靠!不要

4、让意外的后门进入您的自动化系统。管理概述数据湖是企业收集和存储来自各种原始数据的简单方法,无需事先了解数据将如何使用。但为了通过数据来驱动业务成果,这些数据应当是有组织的、并且是可访问的。没有结构,数据湖就会变成沼泽。多种先进的实时软件系统能够与企业数据湖软件集成,帮助收集和构造数据,进而可以有效使用数据。4KSG 解决方案-数据湖还是数据沼泽?目前可用的数据湖技术常常只有一种形式,尚无能力以有效和高效的方式应对上述关键规则。为了确保来自各种(传统)源系统的数据能以正确的时间戳登录到云中、及时同步并具有正确的上下文,添加专门为此目的而设计的基础架构层非常重要。时序数据处理技术和数据湖技术(云或

5、内部部署)的结合将为企业的各个层面带来灵活性和重要性:(a)在生产层面确保数据安全并可访问;(b)在企业层面,允许为数据赋予上下文,并对数据进行整合和汇总,以实现更好的业务决策。结合实时架构和数据湖技术,可以提供不同的解决方案。根据上述规则,OSIsoft PI System 工具包与数据上下文自动化工具(如 Element Analytics 提供的工具)的技术组合是解决方案架构的主体策略,可支持运营方面的时序数据需求和企业的数据湖计划。专用的集成工具可以轻松地与云端以及企业内部的 Microsoft、SAP 或 Hadoop 的企业数据仓库和数据湖技术集成。全球能源企业这样的大公司已经证明

6、,通过引入企业工具和流程进行主动监控、基于例外的监控、旋转设备监控、基于状态的维护,余量可视化等,这样的技术组合可以轻松实现每年 5 亿美元的收益。所有这些举措将会延长正常运行时间,提升设施效率。图 1:混合环境5KSG 解决方案-数据湖还是数据沼泽?传统的数据仓库技术使用预定义的数据模型来描述数据库。其优点是用户可以预先知道数据结构的外观,缺点是不够灵活。由于新数据源的出现,以及人们期望从数据中了解更多,传统的数据仓库已经无法跟上数据模型的快速变化。变化速度是压倒性的,通过构建数据模型和数据库框架,传统的工作方式越来越难以持续。另外,传统的(数据)变更管理方式将不再适用,因为随着数据模型的快

7、速变化,版本控制将很难实现。在数据湖环境中,原始数据以原始状态推送到存储。这可以是结构化、非结构化,blob 形式等。与数据仓库一样,您不需要预先定义数据元素如何相互关联(数据模型),当您从数据湖中检索数据时才创建数据关系。这也是数据湖的主要缺点。借助数据库和数据仓库,业务人员(而非 IT 人员)可以在复杂的数据模型中查询数据,而数据建模工作是由 IT 专家事先完成的。在数据湖的情况下,用户需要具有数据科学家的知识,才能分析各种数据块并将它们连接在一起以便合理使用。表 1 总结了数据仓库与数据湖的关键特征。表 1:数据仓库与数据湖过渡到数据湖数据仓库与数据湖比对结构化,处理数据结构化/半结构化

8、/非结构化的,原始的写的架构处理读的架构海量数据的高昂费用 存储专为低成本存储而设计不够敏捷、配置固定敏捷高度敏捷,可以根据需要进行配置和重新配置成熟安全性成熟商务人士用户数据科学家等等6KSG 解决方案-数据湖还是数据沼泽?工业环境中的“完美世界”“完美世界”非常简单。您想要访问所有可用的数据(内部和外部)、以任意组合查询数据、运行合成分析以查找缺失的部分、使用您喜欢的工具将正在查找的信息进行可视化。但是,现实往往并非如此。与实时的时序环境相结合时,需要关注的核心问题是(传统)数据源的多样性、网络延迟和可靠性、数据延迟、数据流的时间同步以及数据流之间的上下文关系。图 2:数据处理的“完美世界

9、”。缺了什么?7KSG 解决方案-数据湖还是数据沼泽?工业环境中“完美世界”的绝佳替代方案由供应商生态系统提供的混合模式将有助于弥合“完美世界”与技术局限性之间的差距。根据公司规模和生产设备不同,时序数据源的多样性可能很宽泛。可能会有遗留下来的控制系统和自动化系统,特别是那些拥有多处生产地点的老公司,它们可能使用了不同品牌的系统,每种品牌又有许多不同的类型,每种类型还会有各种不同的版本。从这些数据源向数据湖发送原始数据压根行不通,因为这些遗留的数据源根本就没有数据接口。此外,设施位置可能会引起重大的数据可靠性问题。为避免数据丢失,通过低带宽(如卫星)连接的远程设施需要额外的功能支持。另一个重要

10、方面是安全性。为确保设施的完整性和安全运行,接口技术必须非常安全。将先进的实时时序系统添加到混合模型中可以解决数据湖技术中的关键问题。下表显示了具体的益处。图 3:系统特性概述8KSG 解决方案-数据湖还是数据沼泽?实时时序世界中数据处理的最优化数据湖技术和时序数据架构的结合将有助于解决“完美世界”的核心问题。在这种情况下,时序数据架构会收集来自现场的所有数据。时序数据架构还将确保用户可以在当地查看远程的现场数据,并进行处理和报告(边缘计算)或将数据提供给实时优化系统或高级控制系统。通过避免网络可用性和数据延迟问题,这种边缘计算在生产过程中可以确保运行和监视设备时所需的数据和系统的可用性。对数

11、据进行集成和标准化访问的益处时序系统和数据湖的集成为企业的运营和商务提供了“一站式”数据访问模式。这使企业范围的报告、企业大数据分析和企业应用程序在各种用例中的交付成为可能。这些企业应用程序和报告可以在整个企业范围内通过一个平台复用。由于公司内设备定义是相同的,因此在整个公司重复使用案例非常容易。来自某个位置的最佳实践可以在其他位置以非常低的成本重新部署,从而快速创造价值。当 IT 架构具有一致的数据访问方法以及一致的数据模型构建方式时,可以非常轻松地为每种设备类型构建一套一致的分析,并将其部署到整个企业的所有设施上。这避免了在不同设施上重新开发;应用程序的开发和部署将变得非常敏捷;最重要的是

12、,实现价值的时间非常快。全球能源企业这样的大公司通过引入企业工具进行主动监控、基于例外的监控、旋转设备监控、基于状态的维护,余量可视化等,可以轻松实现每年 5 亿美元的收益。所有这些举措将会延长正常运行时间,提升设施效率。在能源领域,热交换器的使用非常普遍。热交换器的结垢是一个严重的问题,因为它会减缓生产或造成意外停机。技术人员需要在所有设施中解决这个问题,他们试图发明一种方法来预测热交换器的结垢情况。然而,这种努力往往会因为重复工作而导致大量的返工。9KSG 解决方案-数据湖还是数据沼泽?集成了数据湖的时序数据架构时序或实时架构技术的选择取决于企业的特点和要求。实时架构系统的市场有以下几种情

13、况:基于供应商的自动化,如霍尼韦尔 PHD、或横河 Exaquatum 等 基于开源系统的 InfluxDB、Graphite 和 Prometheus 基于大型设备供应商,如西门子 XHQ 独立于供应商的系统,如 OSIsoft PI System基于自动化供应商的时序数据架构像霍尼韦尔和横河这样的自动化供应商有他们自己专用的实时架构。这些工具很好地集成在他们的自动化工具包中。缺点是与其他工具包相比,这些工具的分析能力有限,不能很好地整合到大数据环境中。开源的时序数据架构InfluxData 等系统起源于从联机系统收集实时信息以进行性能监控和警报。2013 年推出 InfluxData 后不

14、久,用于收集实时数据的接口在社交媒体中迅速扩展。其用例在物联网世界持续延展。InfluxData 是各种开源计划的整合:Telegraf 用于连接、InfluxDB 用于时序数据存储、Chronograf 用于可视化、Kapacitor 用于检测和警报。基于设备的时序数据架构西门子等设备供应商需要专门的系统来优化他们提供的服务。他们需要时序系统对大型旋转设备(如风力涡轮机)进行远程监控。涡轮机市场的增长也推动了这些平台的发展。基于独立供应商的时序数据架构独立供应商开始填补数据收集、分析和可视化等方面的空白。两个供应商在这个领域脱颖而出:开发了 InfoPlus 21 系统的 AspenTech

15、 以及开发了 PI System 时序数据架构的 OSIsoft。InfoPlus 21 更专注于小规模、类似 MES 的功能和本地工厂;而 OSIsoft PI System 则被设计为一个通用的实施架构,管理范围从风力涡轮机等单一资产到整个工厂。需要捕获、共享和分析数据的企业、企业社区、供应商和监管机构都可以使用 PI System。支持不同类型数据源(450+)的各种接口是 OSIsoft PI System 工具包的主要优点之一。数据没有任何障碍便可进入系统。这意味着客户不需要额外的开发或意外的 IT 成本来连接数据源。同时,具有流式分析功能的完整上下文引擎可确保捕获数据的巨大体量和多

16、样性,并将实时数据转化为有价值的信息供不同的人员使用-从工厂工程师到从事数据湖工作的数据科学家。10KSG 解决方案-数据湖还是数据沼泽?功能概述表 2:基础架构功能比较11KSG 解决方案-数据湖还是数据沼泽?表 2:基础架构功能比较-续12KSG 解决方案-数据湖还是数据沼泽?为使数据驱动业务成果,必须对数据进行组织并确保数据可访问。没有结构,数据湖就会变成沼泽。个别数据点对于靠近生产设施的工程师来说具有价值。工程师通常会详细了解设施的建造方式以及如何查找每个数据点。但是,当报告、监控或分析发生在本地环境之外时,为海量可用数据点添加结构、进行管理并提供上下文就变得尤其重要。通过名称了解单独

17、的数据不再是一种选择。示例:考虑大型设施中围绕单个润滑油泵的上下文数据。每个泵都有一个参数,用于定义泵名称、功耗、出口压力、出口流量、出口温度和过滤器压差。此外,组织中的任何人都应该知道泵所在的地理位置、它在流程中的位置以及流过泵的物质。鉴于泵的多样性及其不同的应用和流程,在缺乏上下文的环境下简单对“泵”进行比较没有任何意义。图 4:将操作数据流式传输到多个应用程序数据上下文是成功的关键13KSG 解决方案-数据湖还是数据沼泽?采用了模板方法后,复杂的数据上下文更易于被所有用户访问。使用模板,用户不必搜索数据流的多个标签名称,也不需要知道标签的名称。他们需要知道的只是泵的名称。对于其他参数,您

18、也不再需要知道数据流名称。在将泵添加(实例化)到系统时,您在特定的泵与该泵的实际数据流之间建立了该连接。一旦所有资产都在资产模板上建模,访问数据就变得非常简单。这使得非 IT 人员可以轻松使用这些数据,而且构建应用程序和报告将变得非常快速且易于部署。然而,所有可用系统的缺点之一是需要大量的人力来建立数据流和资产定义之间的连接。问题不在于自行构建模板,而是将模板的实例连接到现场的测量点。使用更大的 100k+系统数据流时,这会耗费大量的人力和产生昂贵的成本。图 5:利用 Element Analytics 加速实现数据结构与基于云的应用程序集成资产数据建模数据转换高级分析元素平台运营数据微软 A

19、zure 云前提就 OSIsoft 的 PI System 而言,可以使用工具包来自动化操作,从而显着减少构建模板以及将数据流映射到结构中所需的工作量。该工具包由 Element Analytics 提供,可将创造价值的时间缩短 80。数据科学家不仅需要考虑数据的背景,还需要考虑如何准备数据。这项工作需要花费大量精力。数据科学家需要通过选择数据集、清理数据、匹配数据、以正确的布局对数据进行格式化等操作来准备数据。对于希望利用时序数据进行高级分析的数据科学家来说,这是最大的挑战。敏捷的自助数据准备工具,如 OSIsoft 的 Business Integrators,结合使用 Element A

20、nalytics 等工具,有助于为不是 IT 专家或数据科学家的商业用户开放大数据分析。像 Cemex 这样的公司已经表明,分析前准备传统的时序数据需要 6 个月的时间,而使用正确的工具可以将准备时间减少到四分钟。OSIsoft 工具包敏捷并且用户友好,使用它可以显着减少从商业创想到实际价值的时间。此外,IT 专家和数据科学家不需要更多的参与,它可以显著降低同一业务价值的总体拥有成本(TCO)。14KSG 解决方案-数据湖还是数据沼泽?结论工业数据处理的完美世界尚不存在。将原始格式的生产和运营数据全部推送到中央大数据存储区将导致数据沼泽,而不是数据湖。只有专业的数据科学家才能挖掘数据中的价值。

21、在工业环境中,对所有实时数据进行预处理至关重要。为数据引入上下文是确保业务用户可以利用数据优化运营的必要条件。这意味着在工业环境中,数据湖与实时基础架构的结合将带来大数据处理的所有优势,如:连接到非常多样化的生产和自动化世界 通过结合所有数据,数据科学家能够发现有价值的 项目 企业应用程序开发和报告是通过为所有资产提供标准化数据模型的“一站式”数据来实现的 运营人员可以通过结构化和灵活的方式直接访问实时数据,优化日常运营图 6:企业运营基础架构是确保数据能够分析,进而支持数据计划的基础。15KSG 解决方案-数据湖还是数据沼泽?OSIsoft PI System 在生产和自动化级别(接口和连接

22、器)上的无缝集成,以及在商务智能级别与云和数据湖的无缝集成使 OSIsoft 的 PI System 基础架构成为一种非常受欢迎的产品,可以弥补生产和数据湖之间的差距。此外,PI System 构建在自助服务模型上,使用时不需要额外的软件开发和复杂的 IT 基础架构。无需大型(昂贵)的 IT 团队,OSIsoft PI System 就能成功实施。大多数业务创新可以由关键业务用户(主题专家)自己完成。易于集成、无需进行额外开发以及使用简单这些特性大大降低了这类基础架构的总体拥有成本(TCO)。OSIsoft PI System 与 Element Analytics 等供应商的集成,将会增强数

23、据建模和分析能力,并将所有的企业数据全部集成到数据湖平台内。这些举措为企业轻松实施大数据处理并快速实现大数据价值提供了一个理想的环境。版权所有2017 KSG Solutions 提及的所有公司,产品和品牌均为其各自商标所有者的商标。关于 KSG SOLUTIONSKSG-Solutions是一家服务和咨询公司,专注于工业信息系统。KSG-Solutions成立的目的是通过实施基于现成IT产品的智能解决方案,帮助工业公司通过安装资产创造更多价值。这些解决方案将有助于提高资产可用性,提高完整性,降低能耗,提高整体生产力。40多年油气专业经验以及30多年实时数据处理和MES系统经验,构成了KSG解决方案所提供服务的基础。有关信息,请访问我们的网站 www.ksg-solutions.nlWPLSZH4-102617

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(KSG解决方案:数据湖还是数据沼泽?(16页).pdf)为本站 (竹蜻蜓) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部