《GeoScene Notebook Server 数据科学利器.pdf》由会员分享,可在线阅读,更多相关《GeoScene Notebook Server 数据科学利器.pdf(46页珍藏版)》请在三个皮匠报告上搜索。
1、GeoScene Notebook Server 数据科学利器易智瑞信息技术有限公司 刘江慧内容概述1.数据科学&Notebook2.GeoScene Notebook Server 简介3.GeoScene 产品 Python 生态4.GeoScene Notebook Server 应用案例数据科学 Data Science数据科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。Why Python?Python 已成为当今使用最广泛的编程语言之
2、一,尤其是在数据科学领域。Python 是一种高性能的语言,易于学习和调试,并且具有广泛的库支持。这些库都有自己独特的功能,一些专注于数据挖掘,一些专注于数据可视化和神经网络。如IPython、NumPy、Pandas、Matplotlib和Scikit-Learn等等。Python has proven itself to be an ideal language for data science for several reasons:Its easyeasy to learnYou can use it both interactivelyinteractively and in the
3、 form of scriptsscriptsThere are(literally)tons of useful librarieslibraries out thereTheres a reason the data science community has embraced Python initially.During the past years,however,many new super-useful Python libraries came out specifically for data science.Integrated Development Environmen
4、t(IDE)Online Development Environment(ODE)单机服务器云Notebook是一种基于网页的交互式计算方式,用户可在Notebook中进行开发、文档编写、运行代码、展示结果以及结果分享。与传统非交互式开发环境相比,Notebook最大的特点是允许逐单元格(cell)执行脚本。Notebook是数据科学领域至关重要的工具,数据科学家使用Notebook进行实验和探索任务。近年来随着大数据的发展,业务分析师等非技术人员也越来越多地开始使用Notebook。Why Notebook?GeoScene 可以处理和分析各种类型的空间数据,包括矢量、栅格、三维、实时、大数
5、据等,支持在 GeoScene 内部或数据所在的源端进行分析。GeoScene 具有速度、可扩展性和互操作性,能够让用户利用所有相关数据来驱动行动。空间分析可以揭示海量空间数据中的模式、关系、异常和趋势GeoScene 支持使用包括机器学习和深度学习在内的一系列分析方法和空间算法进行空间数据科学,从数据中提取更深层次的洞察力,改善预测建模提供了一个全面的系统,满足不同类型和规模的空间数据分析需求。支持多种数据源和格式,实现数据的有效整合和利用。具有高效和灵活的分析能力,适应复杂和动态的空间问题。采用先进的分析技术和算法,增强原始创新能力和解决方案质量。提供丰富的学习资源和培训课程,帮助用户提升
6、空间数据科学素养和能力。GeoScene 产品之于空间数据科学GeoScene Notebook Server 介绍GeoScene Enterprise 组成部分 GeoScene Notebooks 提供一个基于 Web 的多功能界面,可进行强大的地理空间数据分析。通过 notebook,可以执行分析、自动化工作流,并立即在环境中可视化数据和分析结果 Notebook 是一种高效,现代的环境,将代码、图表、视频和地图以及数据工具进行了结合。在 notebook 编辑器中,您可以在同一个位置写入、归档和运行 Python 代码。GeoScene Notebooks 提供了一个集成式平台,用于
7、创建、共享和运行数据科学和数据管理。Notebook 创作者可以使用丰富的Python 资源(GeoScene API for Python 和 ArcPy)以及热门开源分析、统计和机器学习库。GeoScene Notebook Server 是什么GeoScene Notebooks 可运行多种空间数据科学工具,GeoSceneNotebooks 包含数百个 Python 库,可实现全方位功能:自动执行数据采集和清理。构建预测模型,为您的组织战略和方向提供信息。应用高级统计工具,如基于树的方法、神经网络和贝叶斯技术。利用热门机器学习库,如 scikit-learn,pytorch 和 Ten
8、sorFlow。将分析与全套 GeoScene 制图功能集成。通过共享和归档代码来提高透明度和可再现性。GeoScene Notebook Server 功能(1)数据科学工具包GeoScene Notebooks 为管理员提供了在 Web 端自动执行任务的功能:检查项目是否存在不安全的 URL 和损坏的链接。移除持续一段时间不活跃的用户。验证联合服务器和已注册的数据存储。创建服务报告以列出文件夹中的所有服务。设置过期许可通知GeoScene Notebook Server 功能(2)组织管理和数据管理任务GeoScene Notebook Server 内置 Python 库架构细节GeoS
9、cene Notebook Server 的组成GeoSceneGeoScene以Jupyter Notebook为基础Jupyter Notebook 简介一个综合 Ju(Julia)、Py(Python)和R 三种科学运算语言的计算工具平台,所以将其命名为Ju-Py-te-R。发展到现在,Jupyter 已经成为一个几乎支持所有语言,能够把软件代码、计算输出、解释文档、多媒体资源整合在一起的多功能科学运算平台Jupyter Notebook 功能特色 网页应用网页应用即基于网页形式的、结合了编写说明文档、数学公式、交互计算和其他富媒体形式的工具。简言之,网页应用是可以实现各种功能的工具。文
10、档即Jupyter Notebook中所有交互计算、编写说明文档、数学公式、图片以及其他富媒体形式的输入和输出,都是以Notebook的形式体现的。Notebook还可以导出为:HTML、LaTeX、PDF等格式。Jupyter Notebook 架构原理Jupyter Notebook 的架构包括以下组件:Web 应用:Jupyter Notebook 的 Web 应用提供了一个交互式的 Web 界面,以便用户可以在浏览器中运行代码、编写文本和可视化数据等操作。Kernel 服务器:在 Jupyter Notebook 中运行代码时,代码会在一个单独的进程中运行,这个进程称为Kernel。K
11、ernel 服务器负责管理所有的 Kernel。Kernel:Kernel 是运行代码的实际执行环境,它初始化 Python 或其他语言的解释器,并运行代码。内核程序:内核程序是实际执行代码的程序,通过启动 Kernel 来运行代码,然后将计算结果返回给 Web 应用。文档格式:Jupyter Notebook 支持多种文档格式,包括 Markdown、reStructuredText、HTML 和 LaTeX 等。用户可以选择适合自己的文档格式,开发包括文本、代码和图形的交互式文档。Notebook 文件:Notebooks 文件是以.ipynb 为扩展名的文件,包含了完整的代码、文本和图像
12、等内容,具有各种编辑、探索和共享功能。DockerDocker 是什么镜像(Image)使用Docker的镜像来创建容器(Container).GeoScene Notebook Server 包括俩个镜像:GeoScene Notebook Server StandardGeoScene Notebook Server Advanced可以与其他镜像联合使用GeoScene Notebook server 镜像在GeoScene Notebooks中我们把Docker images 作为notebook runtimes容器(Container)虚拟化的工作环境,打包你用户的应用程序,类似于
13、一个linux操作系统环境.并不是虚拟机虚拟机虚拟的硬件Containers 虚拟操作系统Why Docker?GeoScene Notebook Server 部署架构ArcPy&GeoScene API for PythonGeoScene 两大核心Python开发包GeoScene Python 生态ArcPy利用ArcPy可访问 1,600 多种地理处理工具的模块。获取、转换和绘制地理数据;执行高级空间分析、地理统计和网络分析、影像分析等。ArcPy 数据处理通过使用 ArcPy 自动执行重复性分析和管理任务来节省时间并提高效率。使用ArcPy 制图模块管理地图文档、图层文件及其中的数
14、据。地图绘制模块还能够自动生成地图并将其导出到其他产品中。ArcPy 自动化GeoScene API for Python 是一个功能强大的现代 Pythonic 库,支持连接最新版本的 GeoScene Enterprise 和 GeoScene Online,并为跨 GeoScene产品编写自动化脚本提供一致的编程体验。它用于三个关键工作流:GIS 组织管理:管理用户、群组、项目和服务器,自定义 GeoSceneEnterprise 或 GeoScene Online 组织的外观 内容管理:创作和发布内容(图层、web 地图、服务)、在组织内和组织之间克隆和移动内容、编辑和更新图层和服务
15、空间分析和数据科学:数据整理和工程,将空间数据作为pandas dataframe,空间分析,绘图和可视化,机器学习和深度学习GeoScene API for PythonGeoScene Notebook Server 探索眼见为实Notebook 项目管理页面管理页面示例代码支持地图展示实用案例 深度学习:探测游泳池 深度学习:缩小气候模型 深度学习:预测厄尔尼诺-南方的振荡 EBK回归:识别城市热岛 基于森林的分类:预测哮喘发病率 网络分析:调查金奈洪水 网络分析:跟踪河流污染物 栅格分析:计算野火滑坡风险 栅格分析:计算卫星图像中的要素 路线:找到最近的医院 选址:卫生所 选址:餐厅集
16、群 犯罪分析:波士顿警方 数据可视化:施工许可 数据摘要:施工许可 数据准备:飓风分析 探索性统计:飓风分析 相关性:飓风分析 管理:部署自动通知 管理:管理非活动用户 管理:为笔记本准备门户项目 管理:设置许可证到期通知 管理:验证所有联合服务器 管理:验证已注册的数据存储 管理:验证用户配置文件 内容管理:检查网址是否损坏 内容管理:按文件夹创建服务报告 内容管理:识别不安全的项目 内容管理:验证项目元数据Step 1.基于点数据IDW插值分析生成栅格数据预览栅格结果Notebook 实用案例 插值分析一.基于tensorflow的非监督分类Notebook 实用案例 插值结果的分类Notebook 实用案例 插值结果的分类二.基于sklearn.cluster模块的K-Means函数对预处理后的数据进行聚类Notebook 实用案例 调用分析工具Notebook 实用案例 系统管理案例Notebook 实用案例 发布为Web工具Notebook 实用案例 制定定时任务GeoScene Notebook Server资源软件模型算力结果