上海品茶

ACM SIGSPATIAL中国分会:空间数据智能大模型研究-2024年中国空间数据智能战略发展白皮书(117页).pdf

编号:166096 PDF    DOCX 117页 9.09MB 下载积分:VIP专享
下载报告请您先登录!

ACM SIGSPATIAL中国分会:空间数据智能大模型研究-2024年中国空间数据智能战略发展白皮书(117页).pdf

1、 空间数据智能大模型研究-2024 年中国空间数据智能战略发展白皮书 王少华1*,谢幸2,李勇3,郭旦怀4,才智5,刘瑜6,乐阳7,潘晓8,陆锋9,吴华意10,桂志鹏10,丁治明11,郑渤龙12,张富峥13,秦涛2,王静远14,陶闯15,陈正超1,卢浩16,李家艺10,陈红阳17,乐鹏10,禹文豪18,姚尧18,孙磊磊14,张勇5,陈龙彪19,杜小平20,李响21,张雪英22,秦昆10,宫兆亚6,董卫华23,孟小峰24*1中国科学院空天信息创新研究院;2微软亚洲研究院;3清华大学;4北京化工大学;5北京工业大学;6北京大学;7深圳大学;8石家庄铁道大学;9中国科学院地理科学与资源研究所;10武

2、汉大学;11中国科学院软件研究所;12华中科技大学;13快手自然语言处理中心和音频中心;14北京航空航天大学;15维智科技;16北京超图软件股份有限公司;17之江实验室;18中国地质大学(武汉);19厦门大学;20中国科学院数字地球重点实验室;21华东师范大学;22南京师范大学;23北京师范大学;24中国人民大学 E-mail for correspondence:孟 小 峰(),王 少 华()摘要:摘要:本报告是由 ACM SIGSPATIAL 中国分会组织撰写,是国家空间数据智能年度发展报告(2022)和空间数据智能与城市元宇宙白皮书(2023)的延续和拓展,并在第五届空间数据智能学术会议

3、(SpatialDI 2024)上正式发布。本报告以空间数据智能大模型为核心,聚焦空间数据智能大模型原理、方法和应用前沿,对空间数据智能大模型的定义、发展历程、现状与趋势、面临挑战等议题进行深入阐述,对空间数据智能大模型的关键技术以及在城市、空天遥感、地理、交通等应用场景做了系统性阐述,同时整理总结了现阶段空间数据智能大模型在城市、多模态、遥感、智慧交通、资源环境等主题的最新应用案例,最后对空间数据智能大模型的发展前景进行了总结与展望。空间数据智能大模型方面,本报告对空间数据智能大模型这一核心概念的背景和定义做了阐述,并深入讨论了空间数据智能大模型的三阶段发展历程,分析了空间数据智能大模型的研

4、究现状和发展趋势;在此基础上,本报告提出了空间数据智能大模型现今所面临的三个重大挑战。空间数据智能专题大模型方面,本报告围绕现阶段空间数据智能大模型的研究状况,梳理了空间数据智能大模型城市、空天遥感、地理、交通等四大专题领域研究进展。空间数据智能大模型关键技术方面,本报告系统介绍了空间数据智能大模型的关键技术、特点优势、研究现状、未来发展等核心信息,涉及时空大数据平台、分布式计算、3D 虚拟现实、空间分析与可视化等大模型的基础性能,以及地理空间智能计算、深度学习、大数据高性能处理、地理知识图谱、地理智能多情景模拟等大模型的复杂空间综合性能,解析上述关键技术在空间数据智能大模型的位置和作用。空间

5、数据智能大模型应用方面,本报告系统梳理空间数据智能大模型的最新应用案例,横跨城市、多模态数据处理、遥感智能计算、智慧交通、资源环境等五大领域,着眼于未来空间数据处理分析场景的发展变化,展望空间数据智能大模型的三个发展趋势,为未来空间数据智能大模型在产、学、研多方面发展提供了参考。本报告为促进 AGI 时代空间数据智能大模型的发展及其在城市、空天遥感、地理、交通等领域的应用,同时推动地理信息科学、计算机科学等领域在空间数据智能大模型交叉研究方面的理论、技术与应用的学术交流,解决空间数据智能大模型产业发展面临的重大挑战和瓶颈问题指明了方向。关键词:关键词:空间数据智能大模型;智能计算;AGI;Ge

6、oAI;多模态 Abstract:This report was organized and written by the ACM SIGSPATIAL China Chapter.It is the continuation and expansion of the National Spatial Data Intelligence Annual Development Report(2022)and the Spatial Data Intelligence and Urban Metaverse White Paper(2023).It was officially released

7、at the 5th Spatial Data Intelligence Academic Conference(SpatialDI 2024).This report takes the spatial data intelligent large model as the core,focuses on the principles,methods and application frontiers of the spatial data intelligent large model,and provides an in-depth explanation of the definiti

8、on,development process,current situation and trends,challenges and other issues of the spatial data intelligent large model.The key technologies of large data intelligent models and their application scenarios in cities,air and space remote sensing,geography,transportation,etc.are systematically ela

9、borated.At the same time,the current application scenarios of large spatial data intelligent models in cities,multi-modal,remote sensing,smart transportation,etc.are summarized.The latest application cases on topics such as resources and environment,and finally the development prospects of spatial d

10、ata intelligent large models are summarized and prospected.This report elaborates on the background and definition of the core concept of spatial data intelligent large models,and deeply discusses the three-stage development process of spatial data intelligent large models,and analyzes the spatial d

11、ata intelligent large models.Research status and development trends;on this basis,this report proposes three major challenges faced by large spatial data intelligent models today.This report focuses on the current research status of spatial data intelligent large-scale models and sorts out the resea

12、rch progress in four major thematic areas of spatial data intelligent large-scale models:cities,air and space remote sensing,geography,and transportation.This report systematically introduces the key technologies,characteristics and advantages,research status,future development and other core inform

13、ation of spatial data intelligent large models,involving spatiotemporal big data platforms,distributed computing,3D virtual reality,space The basic performance of large models such as analysis and visualization,as well as the complex spatial comprehensive performance of large models such as geospati

14、al intelligent computing,deep learning,high-performance processing of big data,geographical knowledge graphs,and geographical intelligent multi-scenario simulation,analyze the application of the above key technologies in spatial data The location and role of smart large models.This report systematic

15、ally sorts out the latest application cases of large-scale spatial data intelligent models,spanning five major fields including cities,multi-modal data processing,remote sensing intelligent computing,smart transportation,and resources and environment,focusing on the future of spatial data.It deals w

16、ith the development and changes of analysis scenarios and looks forward to the three development trends of spatial data intelligent large models,which provides a reference for the future development of spatial data intelligent large models in industry,academia,and research.This report aims to promot

17、e the development of large spatial data intelligent models in the AGI era and their applications in urban,air and space remote sensing,geography,transportation and other fields,and to promote cross-research on large spatial data intelligent models in the fields of geographic information science,comp

18、uter science and other fields.The academic exchange of theory,technology and application points the way to solve the major challenges and bottlenecks faced by the development of spatial data intelligent large model industry.Key words:Spatial data intelligent foundation model;Intelligent computation;

19、AGI;GeoAI;Multi-model 目目 录录 一、空间数据智能大模型背景一、空间数据智能大模型背景.1 1.1 空间数据智能大模型的定义及其发展历程.1 1.2 大模型研究现状.2 1.2.1 基础大模型.2 1.2.2 地理大模型.4 1.3 大模型的发展趋势.8 1.4 空间数据智能大模型面临的挑战.9 1.4.1 大模型的尺度定律(Scaling law).9 1.4.2 大模型的有效性(Effectiveness).11 1.4.3 大模型的生成式智能.12 二、空间数据智能专题大模型二、空间数据智能专题大模型.17 2.1 大模型的基本问题.18 2.1.1 商业和社会应用

20、潜力.18 2.1.2 药物发现等科研应用.19 2.1.3 伦理与价值维护.20 2.2 城市大模型.21 2.2.1 城市大模型路线图与数据活化技术体系.21 2.2.2 基于大模型的城市智能体模拟仿真与规划决策.23 2.2.3 城市时空大模型的建设与实践.26 2.3 空天遥感大模型.27 2.3.1 遥感 AI 大模型初步认知与实践应用.27 2.3.2 遥感与 GIS 一体化智能技术探索与实践.31 2.3.3 面向高光谱遥感大模型的数据基准与学习范式.33 2.4 地理大模型.34 2.4.1 地理大模型基本概念.34 2.4.2 地理大模型的关键技术.35 2.4.3 地理大模

21、型应用平台.37 2.5 交通大模型.38 2.5.1 图大模型.39 2.5.2 交通大语言模型.40 2.5.3 跨模态智能交通大模型.42 2.6 空间数据智能大模型新观点.42 2.6.1 地图作为一种模态数据.43 2.6.2 深度强化学习在空间优化中的应用探索.43 2.6.3 AGI 时代的地理知识图谱机遇与挑战.44 2.6.4 GeoAI 中大模型与知识图谱的互补.45 三、空间数据智能大模型关键技术三、空间数据智能大模型关键技术.45 3.1 时空大数据存储及处理技术.45 3.1.1 海量空间虚拟存储.46 3.1.2 分布式计算框架.47 3.1.3 云计算集成.48

22、3.1.4 3D 和虚拟现实.49 3.1.5 快速多终端应用.50 3.1.6 容器技术与持续交付.51 3.2 空间分析与可视化.52 3.2.1 空间因果推断.52 3.2.2 空间数据聚类.54 3.2.3 空间数据地图可视化.55 3.3 地理空间智能计算.57 3.3.1 深度学习.57 3.3.2 空间优化与规划.60 3.3.3 大数据高性能处理.63 3.3.4 地理知识图谱.66 3.4 空间智能地理多情景模拟.70 3.4.1 空间数据智能土地利用模拟.70 3.4.2 空间数据智能交通模拟.70 3.4.3 空间数据智能公共服务设施决策优化模拟.72 3.4.4 空间数

23、据智能自然灾害模拟.73 四、空间数据智能大模型应用四、空间数据智能大模型应用.74 4.1 地理大模型与时空知识图谱.74 4.1.1 JARVIS 和 Geo-JARVIS:基于 LLM 代理的 GeoAI 新范式.74 4.1.2 地理人工智能基础模型 Prithvi.75 4.1.3 顾及复杂时空关系的地学知识图谱自适应表达.77 4.1.4 地球科学知识图谱(GeoKG):发展、构建与挑战.80 4.2 多模态大模型.81 4.2.1 盘古:多模态气象预报大模型.81 4.2.2 SkySense 多模态遥感大模型.82 4.2.3 灵眸:跨模态遥感生成式预训练大模型.84 4.3

24、遥感智能计算大模型.86 4.3.1 SpectralGPT:光谱遥感基础大模型.86 4.3.2 多模态人工智能模型赋能对地观测.87 4.3.3 商汤:综合遥感智能解译大模型.88 4.3.4 苍灵ImageBot:一体化智能解译与应用大模型.91 4.4 城市交通与公共设施服务智能大模型.92 4.4.1 TrafficGPT:城市交通管理大模型.92 4.4.2 基于不规则卷积神经网络预测共享单车需求.94 4.4.3 解构城市设施分布大模型应用.95 4.4.4 深度强化学习的城市设施选址.96 4.5 资源环境大模型应用.98 4.5.1 全球土壤无机碳分布格局及其动态.98 4.

25、5.2 全球河流水域变化热点区域时空分析.102 4.5.3 基于卫星遥感的城市建筑损坏监测.104 五、总结与展望五、总结与展望.107 5.1 总结.107 5.2 未来展望.108 致谢致谢(Acknowledgement).109 参考文献参考文献(References).109 1 一、空间数据智能大模型背景一、空间数据智能大模型背景 人工智能技术的发展带动了创新成果不断涌现,大语言模型、ChatGPT 和其他人工智能基础模型越来越成熟。地理学与人工智能的结合,诞生了地理空间人工智能(GeoAI)与空间数据智能大模型,包含了与地理和人工智能相关的广泛研究,例如开发智能计算机程序模拟人

26、类对环境和空间推理的感知,发现关于地理现象的新知识,推进对人与环境相互作用和地球系统的理解。这些研究以空间视角为共同特点,专注于解决复杂的地理问题,以及社会面临的重大挑战,实现可持续发展的目标。目前,相关的应用并不局限于地理和地球科学,已成功地应用于人道主义救济、精准农业、城市规划、交通、供应链、减缓气候变化等下游任务(Gao et al.,2023)。1.1 空间数据智能大模型的定义及其发展历程 空间数据智能是利用先进通信技术、人工智能方法、大数据分析、先进计算机技术等技术方法对空间数据进行更好地感知、采集、分享、管理、分析及应用的一个多学科交叉的研究领域。随着 ChatGPT 等一系列大模

27、型的发展,标志着信息化社会进入了大模型主导的新阶段。空间数据分析迎来了一个划时代的变革空间数据智能大模型的时代。在这个时代,多种先进技术的融合,尤其是生成式人工智能、强化学习、自然语言处理等多种人工智能技术的结合,共同推动空间数据智能大模型的发展。空间数据智能大模型是指利用先进通信技术、人工智能方法、海量大数据分析、先进计算机技术等多元技术手段,构建一个能够对海量、异构空间数据进行全面、深入分析和处理的综合模型。这个模型不仅能够高效整合各类空间数据资源,实现多源数据的融合与交叉应用,还能够智能化地提取空间数据的潜在价值和规律,为各行业提供精准的空间信息服务和决策支持。空间数据智能大模型涵盖了数

28、据感知、数据管理、数据分析和数据安全等主要发展方向,通过对数据的全面感知、精细管理、深入分析和安全保障,实现对空间数据的全方位智能化处理和应用。该模型不仅关注数据的获取与感知,还注重数据的存储与管理、加工和深入分析,以及数据的隐私和安全等方面,确保空间数据的完整性、准确性和可靠性。与传统的人工智能模型相比,空间数据智能大模型具有以下显著特点:首先,它能够实现多源数据融合,整合来自地理信息系统、遥感技术、传感器网络等多个来源的空间数据,实现全方位、多维度的空间信息获取和分析。其次,它具有跨领域交叉应用的能力,不仅仅局限于计算机领域,还能与其他领域的数据和知识进行交叉融合,如数学、遥感、气象学、地

29、质学等,实现跨领域的综合分析和智能决策。再者,它具备高效处理海量数据的能力,能够应对大规模、高维度的空间数据,借助分布式计算和高性能计算平台,实现对海量数据的快速处理和分析。最后,它拥有智能推理和预测的功能,通过学习空间数据的规律和模式,实现智能化的推理和预测,为用户提供精准的空间信息服务和决策支持。空间数据智能大模型的发展历程可分为以下三个阶段:第一阶段是数据挖掘阶段。在这一阶段,空间数据分析主要依赖于传统的数据挖掘方法。研究人员致力于从海量的空间数据中挖掘出隐藏的规律和模式,以期能够更好地理解和利用这些数据。数据挖掘的方法包括聚类、分类、关联规则挖掘等,这些方法通过对数据的分析和挖掘,尝试

30、发现其中的潜在规律和关联。然而,在这一阶段,数据挖掘的过程主要依赖于人工制定的规则和逻辑,无法充分利用数据本身的特点和内在结构。因此,虽然数据挖掘在某些特定场景下取得了关键进展,但在处理大规模、高维度空间数据时往往显得力不从心。在数据挖掘阶段,空间数据分析的主要目标是发现数据中的潜在规律和模式,为后续的2 决策和应用提供支持。然而,由于数据挖掘方法的局限性,往往无法处理复杂的空间数据,并且对数据质量和完整性要求较高。因此,尽管在一些简单的场景下取得了一定的成功,但在实际应用中的效果往往不尽如人意。第二阶段是传统机器学习和深度学习的应用阶段。随着机器学习和深度学习技术的快速发展,空间数据分析逐渐

31、引入了这些先进的方法。传统的机器学习方法,如支持向量机(SVM)、决策树等,以及深度学习方法,如卷积神经网络(CNN)、循环神经网络(RNN)等,为空间数据分析带来了新的活力。这些方法通过特征工程和数据预处理,能够实现对空间数据的特征提取和分类,从而在遥感影像识别、地理信息提取等方面取得了重要进展。传统机器学习和深度学习方法的引入,使得空间数据分析的效果和精度得到了显著提升。这些方法不仅能够处理大规模、高维度的空间数据,还能够充分挖掘数据中的潜在规律和模式。尤其是深度学习方法的应用,使得空间数据的分析效果达到了前所未有的高度,为空间数据分析提供了全新的思路和方法。第三阶段是空间数据智能大模型阶

32、段。随着大数据技术和人工智能算法的不断发展,生成式人工智能为空间数据智能大模型的发展提供了新的视角。通过深度学习等技术,这些模型能够深入挖掘空间数据的内在规律和特征,从而生成更为精准、多样的数据。这不仅弥补了数据缺失的遗憾,更丰富了数据的层次和维度,使得空间数据的分析更为全面和深入。生成式人工智能的融入,不仅提升了模型的智能化水平,也拓展了其应用场景和深度。通过跨领域的数据学习,模型能够融合更多元化的知识,为空间数据分析提供更为丰富和深入的见解。这种跨领域的融合,不仅提升了分析的准确性和效率,也促进了不同领域之间的交流与融合,为空间数据智能应用的发展和创新注入了新的动力。在这一阶段,空间数据智

33、能大模型的出现为空间数据分析以及地理空间计算等领域带来了新的希望和机遇。这些模型不仅能够处理海量、高维度的空间数据,还能够智能化地分析和处理数据,并为用户提供精准的空间信息服务。随着技术的不断进步和应用场景的不断拓展,空间数据智能大模型的发展前景将更加广阔。它将在城市规划、交通管理、环境监测等众多领域发挥更加重要的作用,为我们的生活带来更多便利和福祉。同时,它也将不断推动空间数据分析和计算领域的创新与发展,为整个社会的进步贡献更多的智慧和力量。通过这三个阶段的划分,我们可清晰地看到空间数据智能大模型从起步到发展的轨迹,以及其所带来的技术革新和应用变革。随着技术的不断进步和应用场景的不断拓展,空

34、间数据智能大模型将继续发挥着重要的作用,推动空间数据分析领域的发展和创新。未来,我们期待看到更多基于空间数据智能大模型的创新应用,为人类社会的可持续发展和智能化进程提供更加有效的支持和保障。1.2 大模型研究现状 大模型是指机器学习领域中包含超大规模参数和架构的大型深度学习模型,通常包括成千上万的神经元和数百万到数十亿的参数,能够处理各种复杂和精细的任务。大模型的出现,极大推动了人工智能的发展,使得机器能够更好理解和处理人类的语言和图像等信息。随着大模型技术的不断进步,各行各业也在结合最新的大模型进展,定制属于自己的专用大模型。空间数据智能大模型则是地理学、空间科学与人工智能碰撞的火花,在交通

35、运输、智慧城市、国防、医疗、商业营销等领域已经有着广泛的应用。1.2.1 基础大模型 2006 年 Hinton 发表了关于深度学习的论文,引起了深度学习的浪潮;2012 年 Hinton 和他的学生设计的第一个现代化卷积神经网络模型AlexNet横空出世斩获ImageNet冠军;2015年何恺明提出残差网络结构,使其成为深度网络标配,大幅增加神经网络的层数;2017 年Google 研究团队提出 Transformer 架构的核心“自注意力机制”,抛弃了循环神经网络(RNN)3 的顺序结构,将人对事物的聚焦关注思路引入网络;2021 年 Google 在 ICLR 上提出的 Vision T

36、ransformer,将 Transformer 模型架构扩展到计算机视觉领域,取代卷积神经网络(CNN)成为主流算法;2022 年李飞飞等人关于大模型的综述,全面介绍了大模型的能力和技术原理,还有法律、医疗、教育等方面的应用,以及不平等、滥用、经济环境影响、法律和伦理等方面的社会影响;随着 ChatGPT 的发布,中国各大企业也纷纷发布自己的基础大模型。深度学习是一种前沿的机器学习技术,已经成为机器学习技术的主流模型,其核心原理是建立多层非线性变换,通过不断增加层数和节点数,捕捉复杂的输入,从而得到更准确的输出。主要的深度学习模型包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网

37、络(RNN),以及强化学习(RL)等。以深度神经网络为代表的人工智能技术推动着计算机视觉、自动驾驶、自然语言处理、语音识别等智能应用的成功落地。伴随着模型参数和架构规模的急剧增加,大模型横空出世,成为人工智能技术的一项革命性突破。现有的通用基础模型大概分为四类(Mai et al.,2023):大型语言模型,例如 PaLM、LLAMA、GPT-3、InstrucGPT、ChatGPT;大型视觉基础模型,例如 Imagen、Stable Diffusion、DALLE2、SAM;大型多模态基础模型,例如 CLIP、OpenCLIP、BLIP、OpenFlamingo、KOSMOS-1、GPT-4

38、;大型强化学习基础模型,例如 Gato。以下将对几个典型的大模型进行介绍:(1)GPT 自 2018 年开始,OpenAI 发布 GPT 系列大模型,使用 Transformer 架构,通过在大规模的互联网文本数据上进行预训练,在各种语言任务上有出色表现。2019 年,OpenAI 发布了GPT-2 模型,具有更大的模型规模和更高的预训练参数数量,使其能够产生更加流畅和连贯的语言生成结果。2020 年,OpenAI 推出了 GPT-3 模型,具有 1750 亿个参数,在各种自然语言处理任务上展现了惊人的表现。它可以根据给定的提示文本来生成连贯的、富有创意的文章、对话等;然而,高昂计算资源和成本

39、使得 GPT-3 的使用仍然受很大限制。2023 年 3月 15 日,OpenAI 正式推出 GPT-4,训练数量更大,支持图像和文本的多元输出输入形式,拥有强大的识图能力。目前,GPT 已实现创造知识的能力,以 ChatGPT 及其同类产品为首引发热议的大模型技术,提高了机器对自然语言的理解力,世界常识的掌握程度,以及逻辑推理能力。未来更强大、更智能的 GPT 将会继续登场。GPT-3 是由 OpenAI 开发的具有 1750 亿个参数的大型语言模型,可以生成高质量的文本、回答问题、执行文本分类和摘要等任务。GPT-3 基于 Transformer 结构,并采用了预训练和微调的方法,通过在大

40、规模的文本数据上进行自监督学习,学习了大量的语言知识,在预训练之后,模型可以通过微调来适应各种特定的自然语言处理任务,例如文本生成、问答、文本分类等。此外,GPT-3 在一些自然语言处理基准测试中取得了最好的结果,表明了它在各种自然语言处理任务中的出色表现。然而,由于 GPT-3 的复杂性和计算资源的需求,它的使用和开发也面临一些挑战;同时,由于其在大量预训练数据上进行训练,也引发了对数据隐私和公平性的关注。因此,研究人员和社会各界需要共同努力来解决这些问题,并使得GPT-3 等大型语言模型更好地服务于人类。2022 年 11 月 30 日,OpenAI 发布了对话式语言大模型 ChatGPT

41、,作为基于 GPT-3.5 架构的一个大型语言模型,该模型在自然语言生成方面表现尤为突出,允许用户使用自然语言对话形式进行交互,可以生成高质量、连贯、具有逻辑性的文本,可实现自动问答、文本分类、自动文摘、机器翻译、聊天对话等各种自然语言理解和自然语言生成任务,甚至可以完成像写作、创作、代码生成等创造性任务,还可以理解和执行多步指令,并可以从示例中学习新的任务。ChatGPT 在开放域自然语言理解上展现了出色的性能,甚至无需调整模型参数,仅使用极少数示例数据即可在某些任务上超过了针对特定任务设计并且使用监督数据进行训练的模型。当面对用户所提出的各种文本生成任务时,ChatGPT 在多数情况下可以

42、生成4 流畅通顺、有逻辑性且多样化的长文本。ChatGPT 发布后不久,OpenAI 随即发布了 GPT-4,窗口长度从 GPT-3.5 的 4096 词符提高到 32768 词符。除了能识别和提取图像信息并给出文字反馈之外,GPT-4 还能根据手绘草图快速生成网站代码。此外,GPT-4 无需特殊设计指令即可回答数学、编程、视觉、药物、法律、心理等众多问题,性能远超 ChatGPT,几乎达到人类水准,虽然尚不完备,但可被合理地认为是一个早期的通用人工智能系统(车万翔等,2023)。(2)SAM Segment Anything Model(SAM)是 Facebook Research 近来开

43、源的一种新的图像分割任务、模型。SAM 可以从输入提示(如点或框)生成高质量的对象掩模,并可用于生成图像中所有对象的掩模。它已经在一个包含 1100 万张图像和 110 亿个掩模的数据集上进行了训练,可以将 zero-shot transfer 零样本迁移到新的图像分布和任务。其分割效果较为惊艳,是目前分割效果最佳的算法。模型包含图像编码器、提示编码器、掩码解码器三个组件,借助了 NLP 任务中的 Prompt 思路,通过给图像分割任务提供 Prompt 提示来完成任意目标的快速分割。提示可以是前景/背景点集、粗略的框或遮罩、任意形式的文本或者任何指示图像中需要进行分割的信息。该任务的输入是原

44、始的图像和一些提示语,输出是图片中不同目标的掩码信息(Kirillov et al.,2023)。(3)CLIP 和 BLIP 视觉语言预训练(Vision-Language Pre-training,VLP)提高了许多视觉语言任务的性能。Contrastive Language-Image Pre-training(CLIP)作为 VLP 领域的一个突破性工作,是最早被广泛采用的视觉语言联合训练框架之一,由 OpenAI 在 2021 年发布,用于联合图像和文本模态的多模态学习任务,是近年来在多模态研究领域的经典之作,该模型收集大量的成对互联网数据,用 4 亿数据的大数据集进行预训练,使用自

45、监督对比学习来学习视觉和文本特征的联合嵌入(Radford et al.,2021)。Bootstrapping Language-Image Pre-training(BLIP)是一种新的 VLP 框架,通过训练从互联网收集的图像合成生成的字幕来改进 CLIP,采用图像文本对比学习、图像文本匹配和图像条件化语言建模三个视觉语言目标进行联合预训练(Li et al.,2022)。(4)Gemini Gemini 是一款由 Google DeepMind 于 2023 年 12 月 6 日发布的人工智能模型,可同时识别文本、图像、音频、视频和代码五种类型信息,还可以理解并生成主流编程语言(如Py

46、thon、Java、C+)的高质量代码,并拥有全面的安全性评估。首个版本为 Gemini 1.0,包括三个不同体量的模型:用于处理“高度复杂任务”的 Gemini Ultra、用于处理多个任务的Gemini Nano 和用于处理“终端上设备的特定任务”的 Gemini Pro。(5)Sora Sora 是 OpenAI 于当地时间 2024 年 2 月 15 日推出的一款新的人工智能文生视频大模型,OpenAI 将其视为(“世界模拟器”。该模型可以根据文字说明创建现实和想象的场景,具有文本到视频生成、复杂场景和角色生成、语言理解、多镜头生成、从静态图像生成视频、物理世界模拟等多种能力。作为一款

47、通用的视觉数据模型,其训练依赖于大量带有文本标题的视频数据,卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频,旨在帮助人们解决需要现实世界互动的问题。1.2.2 地理大模型 人工智能与地理空间科学研究的交集是有历史渊源的,人工智能技术在地理学和地球科学领域的应用并不新鲜。Smith(1984)和 Couclelis(1986)在 20 世纪 80 年代就讨论过人工智能在解决地理问题方面的潜在作用;Openshaw(1997)也发表了关于地理人工智能的专著。解决自然地理空间和社会人文地理空间产生的很多科学难题需要包括人工智能在内的新5 方法和新技

48、术的支持;不断产生的遥感卫星数据、人口移动位置大数据、车辆运营轨迹数据等时空数据也可以支持人工智能模型训练和新算法的研发(高松,2020;吴华意等,2019)。机器学习(ML)和人工智能(AI)的发展给基础的通用大模型带来了巨大的成功,但对于地理空间人工智能(GeoAI)相关专用大模型的探索相对较少,其关键技术是挑战 GeoAI固有的多模式特性。GeoAI 的核心数据模式包括文本、图像(遥感影像和街景图像)、轨迹数据、知识图和地理空间矢量数据(如 OpenStreetMap 的地图层),所有这些数据都包含重要的地理空间信息(几何和语义信息)。每种模态的数据都有特殊的结构,都需要空间表达的数据模

49、型,因此如何有效地将这些表示以适当的归纳偏差结合在一个模型中需要仔细的设计。GeoAI 的多模态特性阻碍了在 GeoAI 任务中直接应用现有的预训练基础模型。地理学包含了不同的子领域,是一门跨度非常广泛的学科,包括地理空间语义学、健康地理学、城市地理学、遥感科学等等。现有的大型语言模型在地名识别、位置描述识别、痴呆症的时间序列预测等一些地理空间任务上能够很好地胜过完全监督的任务特定的 ML/DL模型;但是在涉及点数据、街景图像、遥感影像等多种数据模式的任务时,现有的基础模型仍然不如特定的模型,如何从空间思维视角出发。由于空间数据的可用性和重要性日益增加,GeoAI 的研究也将为更广泛的问题回答

50、和智能数字助理做出贡献。作为空间数据科学的一个子领域,GeoAI 利用技术和数据服务的进步来支持为各种下游任务创建更智能的地理信息以及方法、系统和服务。其中包括图像分类、目标检测、场景分割、仿真和插值、链接预测、检索和问题回答、实时数据集成、地理丰富等。在 2015 年之后,与深度学习(如卷积神经网络、生成对抗网络模型、图神经网络)相结合的地理空间科学研究不断涌现。如今,机器学习已经成为地理信息中空间分析的核心组成部分,用于分类、聚类和预测,深度学习和人工智能算法已成功开发并应用于许多地理信息应用。DL 正在与地理空间数据集成,根据数据类型的不同,有不同的 AI 方法用于分类、语义分割或对象检

51、测,通过图像分类、目标检测、语义和实例分割,从卫星、航空或无人机图像中自动提取有用的信息(Pierdicca and Paolanti,2022)。地理空间位置是关联多专题图层(天气、水文、土壤、城市建筑等)、多要素(人、事件、地理对象)、多异构数据(图像、文字、视频等)的纽带,将人工智能技术应用于地理空间研究主要有空间隐式模型和空间显式模型两类建模方法。空间隐式模型是指在构建人工智能模型的过程中只把地理空间位置当作多维度特征向量中的普通维度,没有把空间位置特殊对待或没有把空间关系和其他空间约束引入模型。比如把地理坐标带入一个简单的 K 均值聚类模型只属于空间隐式机器学习模型,但是如果利用 D

52、elaunay 三角网构建空间约束的聚类模型则属于空间显式模型。举例来讲,一个包含城市地理位置和人口的数据集,如果是让机器仅基于人口数量进行城市排名,因为地理位置不属于分析对象的一部分,所以不是一个空间显式模型。相反,如果要回答人口密度高的城市是否在空间聚集在一起,则需要明确的空间分析视角,所以是一个空间显式模型。研究已经表明空间显式的人工智能模型要比不考虑空间的经典机器学习模型在计算机图像分类等视觉任务和基于地理知识图谱的智能归纳推理任务中的表现更加优越。因此,在开发新的机器学习模型支持地理空间的知识发现和智能化决策时,我们需要思考如何结合地理空间数据的特性和人工智能模型的特点计出合理的模型

53、。成功的 GeoAI 研究必须通过建立空间显式模型来解决重要的地理空间,还要展示如何将符号和子符号级别上开发的图形数据和新方法集成到当今的 GIS 工作流程中(Janowicz et al.,2020)。关于空间数据智能大模型的研究主要集中在空间表征学习、时空预测和空间插值、对地资源环境监测、地图学和地理文本语义分析等方面(高松,2020)。(1)空间表征学习 许多机器学习算法的成功通常取决于数据表示和特征工程的质量。因此,空间特征学习6 或表征学习对研发空间显式人工智能模型和推动 GeoAI 的创新发展尤为重要。研究者们利用表征学习技术提取出潜在的地理空间特征提高机器学习模型的预测准确率:Y

54、an 等提出Place2Vec 模型,采用自然语言处理的思路对于地图兴趣点数据(POI)、建筑环境和周边区域上下文语义进行特征表示学习,进而提升关于场所信息检索和智能推荐的能力,并把模型输出作为机器学习特征输入来进行城市土地利用分类;Liu 等提出 Road2Vec 模型,基于大规模的出租车运营轨迹数据,对道路之间的隐性交通相互作用关系进行量化,可以捕捉潜在的空间异质性和非线性交互特性进而提升路段的交通量预测准确率;Crivellari 和 Beinat 提出 Mot2Vec 模型,对利用大规模人群移动数据进行训练生成活动场所的特征向量进行表示,进而刻画场所的关联特性和相似性;Jean 等介绍

55、了应用于遥感数据的 Tile2Vec 模型,是一种无监督的表征学习算法,它将自然语言处理中的分布假说(即出现在相似上下文语境中的词往往具有相似的含义)扩展到空间数据分布中,通过空间表征学习显著提高了预测任务(比如土地覆盖类型、发展中国家贫困区域识别)的性能;Mai 等创新性地提出多尺度空间位置编码方法 Space2Vec,通过表征学习模型来编码地方的绝对位置和空间关系,发现该模型在位置建模和图像分类任务中的表现优于成熟的机器学习方法。(2)时空预测和空间插值 时间和空间预测的基本思想是根据多维属性变量估计一个目标对象或地理变量在未知时间或地点的数值。空间插值则是 GIS 中常见的空间分析功能,

56、利用已知位置的属性数值推测未知点相同属性的数值。传统的空间插值方法包括:反距离加权(IDW)、三角不规则网络(TIN)、和克里金法(Kriging)等。运用机器学习和深度学习方法来探索时空间预测和空间插值的新方法,已经在测绘、社会感知、智能交通等领域。Zhu 等设计了一种新型的深度学习架构,命名为用于空间插值的条件编码器-解码器生成对抗神经网络(CEDGANs),并应用于 DEM 中的高程空间插值;Li 等从稀疏采样的手机位置数据中提取人群活动地点和移动模式并提出新的模糊长短期记忆网络轨迹预测模型(TrjPre-FLSTM);Bao 等基于带有地理标签的社交媒体数据构建了一个基于空间聚类和深层

57、神经网络的 BiLSTM-CNN 模型来提升用户区域位置的预测精度;Liang 等引入时间动态属性改进了经典的商业地理哈夫模型并结合位置大数据对顾客到访商店的时空概率进行智能估算;Xing 等提出了一个通用的空间数据驱动的端到端智能预测框架 Neighbor-ResNet,基于遥感影像多层特征感知区域景观物理特征来进行人类活动量的估算;Pourebrahim 等比较了空间相互作用重力模型和卷积神经网络在出行空间分布预测上的表现;Yao 等对比了空间相互作用的多个经典模型和图神经网络模型在空间点对交互流预测上的性能。同时考虑到人类出行活动主要沿着道路交通网络,基于交通网络的相关研究也非常丰富;M

58、urphy 等利用卷积神经网络(CNN)对给定出行路线上的 GPS 轨迹数据的距离误差进行分类,以方便有条件地选择使用原始 GPS 轨迹数据和地图匹配后的路线作为驾驶路径的最佳估计;Zhang 等基于城市中的大量街景图片数据训练深度卷积模型进行沿街的交通流量时空类型预测;Zhang 和 Cheng 提出基于图深度学习的稀疏网络时空点过程预测模型 GLDNet,适合分析空间集聚特征明显但时间分布比较随机的交通事故、沿街犯罪事件等数据;对于稠密的时空数据,Ren 等提出了利用残差长短期记忆网络来进行城市尺度交通流量预测的模型;Zhao 等提出了一种新型的时空图卷积网络 T-GCN 用于交通预测任务

59、,采用了图卷积网络 GCN 学习复杂的路网拓扑结构以捕捉空间依赖性,并利用门控递归单元 GRU 来学习交通状态的时间动态变化以捕捉时间依赖性。随着多源地理大数据的出现,融合遥感数据和社会感知数据的研究也不断涌现。北京大学刘瑜教授团队提出了从人-地-静-动这四个维度并集成多源地理大数据和机器学习方法感知城市空间分异格局的理论和技术框架;Zhang 等利用机器学习方法融合社交媒体用户签到数据和城市街景图像,提出了从场所类型、访问量、人群信息、和周边环境多个维度定量刻画场所的智能分析框架支持挖掘不同特征的场所;Helbich 和 Yao 等结合城市街景与城市居民活动、7 调查问卷等数据源来进行多维度

60、感知和城市动态建模,发现了环境视觉变量和人们精神状态的影响;Cao 等利用残差神经网络(ResNet)、空间金字塔池化方法(SPP-Net)和堆叠双向长短期记忆网络(LSTM-Net)对社会感知数据和遥感数据多维度特征进行学习并用于城市功能区域智能分类,同时比较了连接、元素相加、和元素最大池化三种不同的融合方法;Ye等融合社交媒体和街景数据进行城市功能的精准识别;Law 等融合开放街道数据OpenStreetMap 和街景图片数据开发了一种卷积神经网络街面网(Street-Frontage-Net)并用于城市街面质量的智能评估。(3)对地资源环境监测 近年来,全球范围内对地观测卫星数量激增,基

61、于卫星遥感和航空影像的观测数据量剧增,对于调查和动态监测土地资源、森林覆盖、环境变化,分析城市扩张和土地利用变化趋势等提供了丰富的观测数据源。同时,多源、多时相、多波段、多分辨率的遥感数据特点也给实际应用分析带来一定的挑战。多种利用深度学习模型结合多源遥感数据提取时空间特征的方法正在探索。Reichstein 等建议将物理过程模型与数据驱动的机器学习耦合关联形成混合建模方法;Scott 等采用了迁移学习和网络调优技术、数据增强技术与深层卷积网络模型结合提高土地覆盖的分类精度;Huang 等提出了一种半转移深层卷积神经网络模型STDCNN,并从 WorldView 高分辨率影像中生成了高精度的城

62、市土地利用地图;Peng 等设计了基于图斑相似性的卷积神经网络 PSNet,利用光谱反照率数值而非原始图像数值进行模型训练,降低在光照不一致造成的数值误差;Yuan 等讨论了多源遥感大数据、时空信息和深度学习模型的多种融合方式。同时,地理大模型在国际上也引起了广泛关注,2023 年 8 月,针对地理空间大模型的关键因素、如何有效预训练大模型、利用训练数据的不同特征在地理科学领域推广等难题,IBM 联合 NASA 开源了地理空间大模型 Prithvi。模型基于 NASA 的 Harmonized Landsat Sentinel-2(HLS)卫星影像,实现了多时相影像重建,开展了洪水、火灾及其他

63、地理场景变化的高分辨率地图应用,揭示了环境发展变化过程。该模型采用 ViT 架构和掩膜自动编码器(Masked AutoEncoder,MAE)学习策略开发的自监督编码器,训练连续的 HLS 影像。模型包括跨多个 patch 的空间注意力以及每个 patch 的时间注意力,既能考虑不同区域的空间位置关系,又能考虑同一区域的时间演变规律(Jakubik et al.,2023)。(4)地图学 大数据与人工智能时代推动地图科学的创新发展,主要包括以下几个方面。第一,利用深层卷积模型可以自动提取地图和影像上的多类别地物目标、地图符号和文本标注信息。第二,利用强化深度学习方法可以精确标注当代地理要素在

64、历史扫描地图上的空间位置。第三,利用生成对抗网络模型可以进行地图样式风格的迁移学习,地形图的阴影自动渲染,并利用合成信息来改进制图风格设计或实现国土安全领域的地图位置电子欺骗。第四,人工智能与地图设计的整合可能会部分地实现制图综合的自动化工作流,比如建筑物多边形的简化与聚合、道路网的线简化与按联通性合并等步骤。此外,类脑计算和脑机接口(brain computer interface,BCI)等新兴技术的发展,使得地图学与神经科学的深度交叉结合成为了新的发展途径,利用认知神经科学的方法和成果分析地图,同样促进了地图和地理信息领域与人工智能的融合与深度应用(钟耳顺,2022)。(5)地理文本语义

65、分析 基于地理文本的数字地名词典和非结构化的地理文本数据在地理信息检索、时空知识组织和位置数据驱动的智能决策方面发挥着重要的作用。大多数地名词典数据库都是由权威机构采集制作,数据量大、制作成本高、更新周期较慢,如何从海量自然语言文本和社交媒体大数据中自动采集和提取地理文本信息显得非常重要。地理文本数据语义分析主要步骤包括地名识别、地名解歧和匹配、空间坐标提取等。Hu 总结了用于地理文本数据处理的多种分8 析方法,如主题建模、基于规则的匹配、深度学习模型等。地理文本语义分析的智能应用包括从用户文字评论中获取人们对场所和居住环境的意见和情绪表达,自动识别与理解用户空间查询语句并进行智能推荐 GIS

66、 空间分析功能和匹配操作工具等。此外,采用改进的深度学习模型来分析带有地理标签的社交媒体文本数据可以更精准的提取自然灾害期间用户所在位置,辅助灾害应急响应决策与救援工作。大模型作为人工智能技术的前沿成果,在自然语言处理领域得到广泛应用,例如文本分类、情感分析、摘要生成、翻译等,可以用于自动写作、聊天机器人、虚拟助手、语音助手、自动翻译等多个方面,并且在文本处理、图像识别、多模态数据处理等各个领域有着广泛的应用。目前,大模型正在彻底改变自然语言处理任务的状态,催生出更强大、更智能的语言技术,逐渐成为推动技术和社会发展的核心力量。1.3 大模型的发展趋势 大模型的研究和包括地理空间科学在内的其他学

67、科的发展是相互促进的,而非单向技术输入的知识生产过程。现有的通用型大模型已经在众多领域以及跨学科探索方面得到了广泛的应用,包括自然语言和音频处理,以及药物发现,甚至是心理测量等领域。然而,现有的大模型在对垂直领域的支持尤其在空间关系等方面理解力仍有不足,空间数据智能大模型的未来发展仍面临的几个重要的挑战:一是如何提升大规模的地理空间标注数据集的共享机制;二是如何提高模型可迁移性和可解释性;三是如何提升地理空间语义分析和推理能力。例如,未来的用户可能会询问父母去过的度假地点,一本关于他们正在开车经过的地区的有声书,或者只是一家位于市中心但安静的酒店,而不是询问埃菲尔铁塔的建造日期或开车去机场需要

68、多长时间。这些和类似的问题需要识别用户的位置、到其他特征的距离、对拓扑关系的推理、理解模糊的认知区域等等,目前的模型仍难以实现(Janowicz et al.,2020)。全世界的城市化程度日益加深、全球性问题日益凸显、交通出行挑战日益增强,如何将空间大数据与大模型的迅速发展相结合,成为我们日益关注的问题。利用来自交通和城市的时空大数据,通过人工智能、5G、数字孪生等新技术,打造具有空间感知能力和分析能力的、具有竞争力的空间数据智能大模型,抓住空间大数据大量增长的新机遇,最大限度地提高对于空间数据的利用效率,为各行各业赋能,成为了摆在各国政府,公司以及科学家面前的一道难题。近年,在国家信息化规

69、划和数字中国建设的纲领号召下,我国的科研机构和相关企业加大了在该方向上的科研投入,我国在全球空间数据智能的前沿研究发展上保持了相对强劲的增长势头。空间数据智能大模型正随着人工智能技术的不断创新与应用升级,逐渐步入全方位商业化阶段,对经济发展、产业变革、国家治理、人民生活产生重大的影响。在城市交通应用中,加快了城市交通由信息化向智能化转型,广大乘客出行以及运输机构和政府部门的管理服务更加智能化;城市防灾应急方面,能够提前预知一些自然灾害,灾难发生时实现紧急调度,灾难发生后智能管理,减少经济损失,有效避免二次灾害;传染病防疫方面,能够助力疫情的提前预警、传播预测、疫情排查和物资配给等方面;在能源领

70、域,可以大大提升能源领域的数字化、自动化和智能化,加快双碳目标的实现;国土空间规划方面,可以整合不同部门的多源地理数据,实现国土规划“一张图”,为政府部门提供准确标准的数据支撑(宋轩等,2022)。随着 5G 时代的到来、5G 的全面发展,5G 凭借其高速度和低延迟的重要特点,对于空间数据的感知、采集、处理分析全流程的实时性都有了巨大的提升,5G 基站与 5G 手机的普及,给很多对延迟敏感的应用(如智能交通,应急调度管理等)带来了全新的机遇,空间数据智能大模型也有了更好的时效性。空间数据智能大模型的未来需要学术界、业界和政府等不同部门和机构共同支持,融合系统思维、空间思维、计算思维于一体,汇聚

71、地球系统科学、地理学、计算机科学、数学、9 物理学等领域的学者和从业者的智慧,共同探讨地理空间科学领域的重大科学挑战和空间数据智能大模型的开发、部署和深度应用(乐阳等,2020)。1.4 空间数据智能大模型面临的挑战 空间数据智能大模型是一种新型的人工智能模型,它能够利用大量空间数据进行学习,并生成新的空间数据、进行空间分析和创作空间内容。空间数据智能大模型的发展为空间信息领域带来了巨大变革,但也面临着一些挑战。结合现阶段空间数据智能大模型的热点问题,本节从尺度定律、有效性、生成式智能 3 个方面讨论空间数据智能大模型面临的挑战。1.4.1 大模型的尺度定律(Scaling law)随着深度学

72、习技术的发展,大模型在各领域的应用越来越普遍,但是如何有效地设计和训练这些大型模型成为了一个挑战。就这一目标而言,大模型的尺度定律(Scaling law)是一个重要的理论工具,它可以帮助我们理解和预测大模型的性能表现,并指导我们在模型设计和训练中做出更合理的决策。在空间数据智能领域,往往涉及到大规模的数据和复杂的空间关系,而模型的性能通常会随着数据规模的增加而发生变化。因此,了解大模型的尺度定律可以帮助我们更好地设计和优化模型,以适应不同规模的数据处理需求。大模型尺度定律是 OpenAI 在 2020 年提出的概念,其简要定义是:随着模型大小、数据集大小和用于训练的计算浮点数的增加,模型的性

73、能会提高。并且为了获得最佳性能,所有三个因素必须同时放大。当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系。由于当不受其他两个因素的制约时,模型性能与每个单独的因素都有幂律关系。因此,当这种幂律关系出现时,我们是可以提前对模型的性能进行预测的。具体而言,大模型尺度定律包含以下内容:(1)对于 Decoder-only 的模型,计算量(Flops),模型参数量,数据大小(token数量),三者满足:6。(2)模型的最终性能主要与计算量,模型参数量和数据大小三者相关,而与模型的具体结构(层数/深度/宽度)基本无关。即固定模型的总参数量,调整层数/深度/宽度,不同模型的性能差距很小,

74、大部分在 2%以内。(3)对于计算量,模型参数量和数据大小,当不受其他两个因素制约时,模型性能与每个因素都呈现幂律关系。如下图所示,以大模型损失率表征模型性能,、三个自变量与模型损失率之间均显示出拟合水平较高的幂指数模型,三个自变量的对数与模型损失率呈线性关系。图 1-1 大模型的尺度定律 Fig.1-1 The scaling law of the large model(4)为了提升模型性能,模型参数量和数据大小需要同步放大,但模型和数据分别放大的比例还存在争议。(5)大模型的尺度定律不仅适用于语言大模型,还适用于其他模态以及跨模态的任务。总结上述大模型尺度定律的内容,可以得到尺度定律的核

75、心公式:10 ()=+(0)其中,指无法通过增加模型规模来减少的损失(Irreducible loss),可以认为是数据自身的熵(例如数据中的噪音);(0)表示能通过增加计算量来减少的损失(Reducible loss),可以认为是模型拟合的分布与实际分布之间的差。根据公式,增大(例如计算量),模型整体损失率下降,模型性能提升;伴随趋向于无穷大,模型能拟合数据的真实分布,让(0)逼近 0,整体趋向于。目前,美国 OpenAI 公司公布了自身研发设计的最新语言大模型算法框架 GPT-4 计算量和模型性能的关系曲线。横轴是归一化之后的计算量,假设 GPT-4 的计算量为 1,基于 10000倍小的

76、计算规模,就能预测最终 GPT-4 的性能;纵轴是“Bits for words”,这也是交叉熵的一个单位。在计算交叉熵时,如果使用以 2 为底的对数,交叉熵的单位就是(“bits per word”,与信息论中的比特(bit)概念相符。所以这个值越低,说明模型的性能越好。结果表明,GPT-4 的计算量和模型性能同样呈明显的幂律关系。图 1-2 GPT-4 计算量与性能的幂律关系 Fig.1-2 The power law between computation and performance of GPT-4 除了单个变量和模型性能的幂律关系外,我们还可以建立、和的联合幂律关系。根据下式,K

77、aplan 等(2020)推导得出,当模型的参数量为时,我们需要保证数据集大小大于(5103)0.74才能保证模型不会过拟合。(,)=()+与的幂律关系表明,每增加 10 倍的计算量,模型的性能就会有一定的提升。在计算量的预算有限的情况下,应该如何分配数据集大小和模型参数量,使得模型的性能达到最佳的问题上,OpenAI 认为,每增加 10 倍的计算量,应该让数据集大小增加为约 1.8 倍,模型参数量增加为约 5.5 倍,即模型参数量更加的重要;DeepMind 认为,每增加 10 倍的计算量,应该让数据集大小增加为约 3.16 倍,模型参数量也增加为约 3.16 倍。11 根据 Kaplan

78、等的研究,大模型尺度定律所揭示的幂律关系和联合幂律关系其实会推导出一些矛盾,因此这些矛盾可能能帮助我们思考尺度定律的极限,从而探索尺度定律给大模型的未来发展带来的挑战。具体来说包括如下三个方面:(1)如果不断的按照 5.5:1.8 的比例增加模型参数量和数据集大小,那么一定存在一个点和,使得(5103)0.74。换句话说,在达到和后,继续增加模型参数量和数据集大小,损失会继续降低,但按照联合幂律关系,模型会出现过拟合,并不会降低,反而会升高。因此,Kaplan 等认为在和增长到和之前,尺度定律会失效;同时和点的损失值是自然语言数据自身的不可约误差。实际的大模型实践中离和还有一定的距离,因为除了

79、自然语言数据外,还有其他模态的数据,例如图像数据,语音数据,这些模态的数据也存在着类似的尺度定律,但在多模态数据集中,尺度定律的极限更加难以达到。(2)随着损失的下降,一些下游任务的性能可能会出现突变,即涌现现象,然而这种涌现现象无法通过尺度定律进行准确预测。随着和的进一步增加,损失的进一步降低是否会导致更多的涌现出现仍然未知。只要尺度定律尚未达到极限,显著提升大语言模型的“智能”仍有机会,即使损失并未大幅下降。(3)在一个存在多个智能体交互的网络中,可能存在一种类似于梅特卡夫定律的经验法则,即随着网络内可交互智能体数量的增加,整个网络的“智能”也会不断提升。1.4.2 大模型的有效性(Eff

80、ectiveness)大模型的有效性是评价其性能和价值的关键指标。通过讨论大模型的有效性,我们可以了解大模型的优势和不足,从而更好地指导大模型的开发和应用。例如,如果发现某个大模型在特定任务上的有效性不高,那么就可以针对性地改进模型,提高其性能。大模型的有效性可从以下方面评价:(1)任务准确性:大模型的有效性首先体现在其完成特定任务的准确性上。例如,在遥感图像分类任务中,大模型可以准确地识别图像中的不同地物类型,例如道路、建筑物、植被等。(2)分析洞察:大模型不仅能够进行简单的空间数据处理,还能够从中挖掘出有价值的信息和洞察。例如大模型可以分析城市的人口密度和交通流量,并预测未来的城市发展趋势

81、。(3)创造性内容:大模型能够利用空间数据进行创作,这些创作内容往往能够反映出空间数据的特点和背后的规律。(4)应用场景:大模型的有效性还体现在其广泛的应用场景中。大模型可以用于自然资源管理、城市规划、环境监测、应急管理等多个领域。(5)用户满意度:大模型的有效性还需要通过用户满意度来衡量。如果用户能够认可大模型的性能和功能,并将其应用于实际工作中,那么就说明 大模型是有效的。空间数据智能大模型的任务是根据输入的文本、语言、图表、数据等信息生成符合特定用户需求的数据内容,这一点就决定了空间数据智能大模型本质上是一个多模态大模型。空间数据智能大模型通过融合多模态大数据,获得更加丰富和全面的信息,

82、从而提高其在空间信息理解、分析和生成方面的性能;在多模态数据集上训练,大模型就可以学习到不同模态数据之间的共性特征,从而提高其对新数据类型的泛化能力,使自身广泛应用于遥感图像分析、空间规划、虚拟现实等领域。从这一方面看,作为多模态大模型的空间数据智能大模型无疑具有较高的有效性,体现在以下方面:(1)融合多源空间信息,提升空间理解能力:空间数据智能大模型能够融合来自遥感影像、空间地图、空间文本描述等多种来源的空间数据,进行多模态信息融合,从而更加全面和准确地理解空间信息。例如,在进行土地利用分类任务时,空间数据智能大模型可以同12 时利用遥感影像、空间地图和空间文本描述等数据,综合考虑地物的视觉

83、特征、空间结构和语义信息,从而提高分类的准确性。(2)挖掘复杂空间关系,助力空间分析:空间数据智能大模型能够从多模态空间数据中挖掘出复杂的关联关系,例如土地利用与交通、植被与气候等,为空间分析提供新的思路和方法。例如,空间数据智能大模型可以分析城市的空间数据,发现城市布局与交通拥堵之间的关系,并为城市规划提供建议。(3)生成创造性空间内容,丰富空间表达:空间数据智能大模型不仅能够处理和分析空间数据,还能够利用空间数据生成诗歌、小说、绘画等创造性空间内容。这些创造性内容往往能够反映出空间数据的特点和背后的规律,具有较高的艺术价值和文化价值。例如,空间数据智能大模型可以根据遥感影像生成一首关于山川

84、河流的诗歌,或者根据空间地图生成一幅关于城市景观的绘画。(4)增强模型泛化能力,适应新场景应用:空间数据智能大模型的多模态数据处理能力使其能够学习到不同模态数据之间的共性特征,从而提高其对新数据类型的泛化能力。例如,一个在遥感影像数据集上训练的空间数据智能大模型,可以利用其多模态数据处理能力,直接应用于新的空间地图或空间文本描述数据集,而无需进行额外的训练。(5)解锁新应用场景,推动空间智能发展:空间数据智能大模型的多模态数据处理能力能够解锁新的空间智能应用场景,例如视频摘要、情感分析、虚拟助手等,为空间信息领域带来新的变革和发展。例如,空间数据智能大模型可以用于构建智能视频分析系统,自动识别

85、和理解视频中的空间信息,并为用户提供相关服务。(6)提升用户体验,实现自然交互:空间数据智能大模型能够提供更加自然和流畅的用户体验,例如构建智能客服系统,为用户提供更加个性化的空间信息服务。例如,用户可以通过自然语言与 空间数据智能大模型进行交互,例如询问某个地点的交通状况或附近的餐厅信息,空间数据智能大模型可以根据用户需求,提供准确和个性化的信息服务。空间数据智能大模型作为多模态大模型,其有效性体现在其融合多源空间信息、挖掘复杂空间关系、生成创造性空间内容、增强模型泛化能力、解锁新应用场景和提升用户体验等方面,展现出巨大的应用潜力和发展前景。随着技术的进步和数据的积累,空间数据智能大模型将在

86、空间信息领域发挥更加重要的作用,助力空间智能的蓬勃发展。1.4.3 大模型的生成式智能 生成式智能是指那些能够生成新的内容、如文本、图像、音频等的人工智能系统。在大模型中,生成式智能扮演着重要的角色,它们可以通过学习大量的数据来生成具有一定结构和语义的内容,具有很强的创造性和表现力。空间数据智能大模型是融合了空间数据、人工智能和自然语言处理技术的模型,能够对空间数据进行理解、分析和生成。空间数据智能大模型的生成式智能是指其能够生成新的、原创的空间数据的性能,如新的遥感图像(模拟不同时间、不同天气条件下的遥感图像,或更高分辨率的遥感图像)、新的空间地图(更高精度的空间地图、包含更多信息的专题地图

87、)、新的空间文本描述(根据现有的空间数据,生成新的空间文本描述,例如自动生成遥感图像的解释,或者生成空间地图的说明),以满足人们对空间数据的多样化需求,从而降低获取真实空间数据的成本,帮助人们更好地理解和分析空间数据。空间数据智能大模型的生成式智能还处于早期发展阶段,但已经取得了一些令人瞩目的成果。例如,OpenAI 的 DALL-E 3 模型可以生成逼真的图像,包括风景、人物、物体等。Google AI 的 Earth Engine 平台可以生成多种类型的空间数据,例如遥感图像、土地利用数据、人口数据等。总体而言,相比传统的分析性模型,基于生成式智能的空间数据智能大模型可以从大量多模态数据中

88、学习,并根据学习和挖掘到的数据模式泛化生成与原训练数据类似但并非完全相同的新样本,同时可以通过调整模型参数来控制生成样本的分布和属性,生13 成符合遥感和地理空间分析需要的专题数据信息,具有数据驱动、创造性和可控性。因此,生成式智能为空间数据智能大模型的构建和设计带来了显而易见的挑战,包括巨大的数据需求、高复杂度的模型,以及安全和伦理问题等。综合空间数据大模型生成式智能的发展方向和趋势,我们提出了几点空间数据大模型生成式智能需要思考的问题:(1)判别式 AI 或生成式 AI 对于空间数据智能大模型生成式智能的构建和设计,一个最基本的问题是区分判别式AI 和生成式 AI,以明确“生成式”智能的设

89、计方向。判别式模型的主要目标是建立输入数据和相关输出之间的关系,也就是学习条件概率分布(|),其中 Y 表示输出标签或类别,X 表示输入特征。这种模型关注如何根据输入数据来进行分类或预测,它直接建模了决策边界。判别式模型关注如何在给定输入情况下预测输出,因此它通常更专注于类别边界和决策面。判别式模型通常在特定任务上表现出色,因为它们专注于类别边界,使得分类更精确。常见的判别式模型包括逻辑回归、支持向量机、决策树、神经网络中的分类器等。但判别式 AI 只对(|)建模的模型不足以理解语义信息,也很难做出正确稳定的决策。生成式 AI 的基本思想可以用下图来表示。两堆点可以代表两个分布,或一个二分类问

90、题,参数化条件分布(|)的神经网络模型,会找出两者的分界线,并以此为依据对新来的数据进行分类。对于新来的黑色,该模型会分析是在蓝色的区域,而且远离分隔线,所以就会得出黑色属于蓝色的确定性结论。这显然是不合理的。虽然黑色位于蓝色区域,但它离蓝色数据汇集点也很远。所以贸然将它分类到蓝色是鲁莽的。如果我们在上面的模型中引入()即可得到,虽然(|)很高,但是()很低,所以最终的分数(,)的分数就不会高,进而得出一个不确定的结论,或者结论是蓝色数据,但是可信度不高。这样模型不光可以做出决策,同时也拥有了对于做出决策的信念程度。图 1-3 生成式 AI 的基本思想 Fig.1-3 The basic th

91、ought of generative AI 综上所述,()的构建就是重中之重。生成式智能的一个核心任务就是解决()的建模问题。通过设计空间数据智能大模型的生成式智能,我们可以做出与环境交互的方案,比如模型如果对于一些数据表示疑惑,就可以考虑是否要人为介入检查数据标注,或者创建一个新的数据类别。另外,我们也可以利用这种技术来评估环境的不确定性,进而对之后机器学习系统的搭建提供参考。(2)对话型(Chat)或代理型(Agent)对话型和代理型是当今空间数据智能大模型生成式智能的两个发展方向。从特点上来看,对话型生成式智能具有互动性、语言模型属性和个性化特点,与聊天机器人类似,依赖于强大的自然语言

92、处理能力并强调与用户的交互和沟通能力,需不断优化语言模型以提高理解和生成语言的质量;代理型生成式智能则具有重执行任务、强决策能力、多模态交互等特14 点,侧重于执行具体的任务,具备一定的决策能力,同时能处理多种类型的输入输出,包括语音、文字、普通数字图像和遥感影像、传感器数据、地理矢量数据、地图等,并在此基础上做出响应。就现阶段而言,对话型生成式智能(语言大模型)已经得到相当成熟的发展并且已有较多的成熟应用案例和模型产品,如 ChatGPT、Gemini、Claude、文心一言等,也有接受文本输入生成其他模态数据信息的对话型生成式智能,如文生视频模型 SORA、文生图片模型DALL-E 3 等

93、。然而,就空间数据大模型的生成式智能而言,仅具备处理和输出文本信息,并以聊天的形式完成用户交互显然是不足,需要在对话功能之上,开发出面向任务的代理型生成式智能。代理型生成式智能是一种超越简单文本生成的人工智能系统,它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,Agent 是一个具有复杂推理能力、记忆和执行任务手段的系统。代理型生成式智能主要有 4 个关键组件:规划(Planning):子目标分解将大任务拆分为更小的可管理的子目标,使得可以有效处理复杂任务;对历史动作可以自我批评和自我反思,从错误中学习并在后续步骤里完善,从而改

94、善最终结果的质量。记忆(Memory):包括上下文学习的短期记忆和利用外部向量存储和检索实现的长期记忆。工具使用(Tool use):对模型权重丢失的信息,agent 学习调用外部 API 获取额外信息,包括当前信息、代码执行能力、专有信息源的访问等。行动(Action):行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。图 1-4 代理型生成式智能的 4 大组件 Fig.1-4 The 4 components of agent generative AI 基于大模型的 Ag

95、ent 不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。生成式智能的革命演化至今,从人机协同呈现了三种模式:嵌入(embedding)模式。用户通过与生成式智能进行语言交流,使用提示词来设定目标,然后生成式智能协助用户完成这些目标,比如普通用户向生成式智能输入提示词创作小说、音乐作品、3D 内容等。在这种模式下,生成式智能的作用相当于执行命令的工具,而人类担任决策者和指挥者的角色。副驾驶(Copilot)模式。在这种模式下,人类和生成式智能更像是合作伙伴,共同参与到工作流程中,各自发挥作用。生成式智能介入到工作流程中,从提供建议到协助完成流程的各个阶

96、段。例如,在软件开发中,生成式智能可以为程序员编写代码、检测错误或优化性能提供帮助。人类和生成式智能在这个过程中共同工作,互补彼此的能力。生成式智能更15 像是一个知识丰富的合作伙伴,而非单纯的工具。例如微软开发的 Copilot 大模型,至今已演化出 Dynamics 365 Copilot、Microsoft 365 Copilot 和 Power Platform Copilot 等大模型产品,并提出“Copilot 是一种全新的工作方式”的理念。智能体(Agent)模式。人类设定目标和提供必要的资源(例如计算能力),然后生成式智能独立地承担大部分工作,最后人类监督进程以及评估最终结果。

97、这种模式下,生成式智能充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。图 1-5 人类与生成式智能(AI)协同的三种模式 Fig.1-5 Three modes of collaboration between humans and generative AI 从技术优化迭代和实现上来看,生成式智能的发展也面临一些瓶颈:上下文长度有限:上下文容量有限,限制了历史信息、详细说明、API 调用上下文和响应的包含。系统的设计必须适应这种有限的通信带宽,而从过去的错误中学习的自我反思等机制将从长或无限的上下文窗口中受益匪浅。尽管向量存储和检索可

98、以提供对更大知识库的访问,但它们的表示能力不如充分关注那么强大。长期规划和任务分解的挑战:长期规划和有效探索解决方案空间仍然具有挑战性。大模型在遇到意外错误时很难调整计划,这使得它们与从试错中学习的人类相比不太稳健。自然语言接口的可靠性:当前的 Agent 系统依赖自然语言作为大模型与外部组件(例如内存和工具)之间的接口。然而,模型输出的可靠性值得怀疑,因为大模型可能会出现格式错误,并且偶尔会表现出叛逆行为(例如拒绝遵循指示)。因此,大部分 Agent 演示代码都专注于解析模型输出。(3)数据复杂性挑战 空间数据智能大模型生成式智能的训练需要大量的空间数据,包括遥感图像、空间地图、空间文本描述

99、等。这些数据通常体量巨大、格式繁多,需要大量的存储和计算资源,例如一个高分辨率的遥感图像,其数据量可以达到数十 GB。因此,大量的数据处理也给生成式智能带来数据复杂性的挑战,主要包括以下方面:地理精确度、地理偏见、时间偏差、空间尺度、普遍性与空间异质性。地理精确度:在地理环境中,生成地理精确的结果对于几乎所有生成式智能任务都特别重要。如预期的答案应该是(“华盛顿,北卡罗来纳州”,然而 ChatGPT 仅显示北卡罗来纳州没有华盛顿,而且华盛顿州最大的城市应该是西雅图,这个州没有一个城市叫华盛顿。下图显示了由 Stable Diffusion 生成的 4 幅遥感图像,虽然这些图像看起来与卫星图像相

100、似,但很容易看出它们是假的遥感图像,因为这些图像中的地理特征布局显然不是来自世界上任16 何城市。事实上,生成地理精确的遥感图像是一项重要的遥感任务,其中几何精度对于下游任务非常重要。图 1-6 Stable Diffusion 生成的不准确结果 Fig.1-6 Inaccurate results generated by Stable Diffusion 地理偏见:生成式智能有可能忽视数据中存在的现有社会不平等和偏见且几乎所有当前的地理解析器在地理上都高度偏向于数据丰富的地区,如 GPT-4 由于这些模型中继承的地理偏见而生成不准确的结果。与美国加州州的圣何塞相比,菲律宾八打雁市圣何塞在许

101、多文本语料库中是一个不太受欢迎的地名;同样,与美国华盛顿州和首都华盛顿特区相比,纽约州华盛顿也是一个不太受欢迎的地名,这就是为什么 ChatGPT 和 GPT-4 都错误地解释了这些地名。与特定任务模型相比,生成式智能更容易受到地理偏差的影响,因为训练数据是在大规模收集的,可能由过度代表的社区或地区主导;其次大量可学习的参数和复杂的模型结构使模型解释和去偏更加困难;同时大模型的地理偏见很容易被下游所有适应的模型继承,从而带来更大的负面影响。因此,在生成式智能中迫切需要设计适当的地理去偏见框架。时间偏差:与地理偏见类似,生成式智能也冗余受到时间偏差的影响,因为当前地理实体的训练数据比历史数据多得

102、多。时间偏差也会导致不准确的结果,分别询问 ChatGPT 和GPT-4 两个模型 1878 和 1923 年美国纽波特市和大洋城的位置,结果 GPT-4 无法回答这两个问题,因为它严重依赖于偏向于当前地理知识的预训练数据。时间偏差和地理偏差是目前生成式智能开发需要解决的关键挑战。空间尺度:地理信息可以以不同的空间尺度表示,这意味着相同的地理现象/对象可以在生成式智能任务中具有完全不同的空间表示(点与多边形)。例如,城市交通预测模型必须将旧金山表示为复杂的多边形,而地理解析器通常将其表示为单个点。由于大模型是为各种下游任务开发的,因此它们需要能够处理不同空间尺度的地理空间信息,并推断出正确17

103、 的空间尺度以用于给定的下游任务,开发这样的模块是有效生成式智能的关键组成部分。普遍性与空间异质性:空间数据大模型生成式智能的一个开放性问题是如何在空间上实现模型的泛化性(或称“可复制性”),同时仍然允许模型捕获空间异质性。给定具有不同空间尺度的地理空间数据,空间数据大模型的生成式智能需能够学习一般的空间趋势,同时仍然记住特定位置的细节。然而仍需思考以下问题:这种普遍性是否会在下游生成式智能任务中引入不可避免的内在模型偏差?这种记忆的局部信息是否会导致全局预测问题的预测表面过于复杂?(4)生成式智能的安全与伦理 由于空间数据智能大模型的生成式智能需要面对大规模复杂空间数据处理和生成新的专题数据

104、信息,不可避免将产生精确度和内容方面的偏差。同时,生成式智能可能会被用于生成虚假或误导性的信息,这可能会对社会造成负面影响,并带来一些伦理问题,如偏见、歧视、隐私等。安全问题:生成式智能可以用于生成逼真的虚假信息,例如虚假的新闻报道、社交媒体帖子、图片、视频等;可以用于生成恶意代码、网络攻击工具等,以发动网络攻击。这些攻击可能会导致数据泄露、系统瘫痪等严重后果;可以用于制作深度伪造视频,如将某人的语音或图像嫁接到另一个人身上。伦理问题:生成式智能模型可能会学习到训练数据中的偏见,并将其反映在生成的样本中;可能会被用于制造歧视性的内容和生成侵犯个人隐私的内容。具体而言,生成式智能的伦理问题主要体

105、现在公平性、透明性、问责制等方面。生成式智能模型应该公平公正,避免产生偏见和歧视;同时应该透明可解释,让人们能够理解其工作原理。生成式智能模型的开发和应用应该受到严格的监管,确保其被用于正当目的。因此,政府应该制定相关法规和政策,规范生成式智能的开发和应用。例如,可以规定生成式智能模型的训练数据、训练过程和模型参数需要公开;可以规定生成式智能应用需要经过伦理审查等。研究人员应该开发能够检测和防止生成式智能被用于恶意目的的技术。例如,可以开发能够检测虚假信息和恶意内容的技术;可以开发能够防御深度伪造攻击的技术等。同时,提高公众对生成式智能的安全和伦理问题的认识,帮助人们识别和抵制虚假信息和恶意内

106、容。例如,可以通过教育、宣传等方式提高公众的媒介素养;可以鼓励公众积极举报虚假信息和恶意内容等。二、二、空间数据智能专题大模型空间数据智能专题大模型 第二届“空间数据智能战略研讨会”在北京友谊宾馆成功举办,由 ACM SIGSPATIAL中国分会主办。会议以“大模型与空间数据智能”为主题,聚焦于大模型对空间数据智能的助力及在垂直领域的设计与训练挑战。孟小峰教授在开场白中强调了 GIS 与 CS 学术共同体的重要性,同时探讨了大模型在空间数据智能中的作用。会议涵盖了通用专题和四个垂直领域专题,同时设有 panel、poster 展示和论坛,为与会者提供了充分的交流平台。专家学者们就大模型的基本问

107、题、城市、空天遥感、地理和交通等领域展开了深入讨论,分享了各自的研究成果和前沿观点。圆桌论坛环节则由刘瑜教授主持,各位受邀嘉宾共同探讨了时空大模型应具备的特点以及其解决的重要问题,呼吁共同推进大模型相关工作的进展。城市大模型、空天遥感大模型、地理大模型、交通大模型都兼具有以大数据驱动、人工智能赋能和应用为导向的特点,利用人工智能技术从中挖掘信息,构建对特定领域的复杂系统和运行规律的认知体系。这些大模型在城市规划、灾害管理、资源勘探、交通管理等领域都发挥着重要作用,为解决现实问题提供了强大支持。不同大模型在数据类型、重点以及应18 用场景上存在明显区别。城市大模型运用城市规划、人口、交通等数据,

108、关注城市结构和运行规律,用于城市规划、交通管理、应急管理;空天遥感大模型运用遥感影像和卫星数据,专注于地表特征和变化,可用于灾害监测、资源勘探、环境监测等;地理大模型利用地理信息数据,聚焦于地理环境和资源分布,可以用于土地利用、资源管理、生态保护;而交通大模型采用交通流量和道路网络等数据,注重交通流动态变化,用于交通规划、交通控制、交通安全等。2.1 大模型的基本问题 大模型正成为推动技术和社会发展的核心力量,其在生成式 AI 的多个领域具有广阔的商业应用前景,如提高企业运营效率、优化决策、推动智能助理和内容创作等,在社会层面也可推动教育公平、智慧城市规划等;将大模型应用于科学研究尤其是生物医

109、学领域,能从海量文献中提取知识、预测蛋白质突变对疾病的影响、甚至生成针对特定疾病的候选药物分子,大幅提高药物发现效率,加速科技进步(Thirunavukarasu et al.,2023);但我们必须运用社会科学的方法,注重算法公平性、隐私保护、技术透明度和公众教育,确保这些强大工具在增进人类福祉的同时,维护伦理和文化价值,让人工智能真正造福人类,推动社会可持续发展。2.1.1 商业和社会应用潜力 大模型在生成式 AI 的多个领域有广阔的应用前景,如自然语言处理、计算机视觉、语音识别等。它们可助力企业提高运营效率,优化决策;推动智能助理、内容创作、客户服务等领域发展。在社会层面,则可推动教育公

110、平,为残障人士提供无障碍服务。大模型技术还可用于气候模拟、智慧城市规划等,促进可持续发展。大模型技术在部分领域展示出超过人类平均水平甚至顶尖水平的能力,有可能会带来巨大的社会价值和商业价值。快手 AI 团队研发的“快意”大模型(KwaiYi)包含了大规模语言模型、多模态大模型等。在 MMLU、C-Eval、CMMLU、HumanEval 等绝大部分权威的中/英文基准测试(Benchmark)上,“快意”大模型取得了同等模型尺寸下的最先进效果。同时,“快意”大模型具备出色的语言理解和多模态生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务,人工评估结果表明“快意”大模型达到

111、了行业领先水平。此外,除了优异的通用技术底座能力,“快意”大模型也具备巨大的业务价值,正在快手的各业务场景中被广泛应用。图 2-1 KwaiYi 大模型研究流程 Fig.2-1 Research process of KwaiYi large model 作为一家以 AI 技术驱动的科技公司,快手及时把握大模型的重要价值和发展趋势,于19 2023 年初斥巨资启动了快意大模型研发专项,旨在打造自主可控、领先业界的大规模语言模型和跨模态大模型。快手在大模型研发方面具有几大优势:一是创新的场景驱动,能更好结合真实需求;二是拥有海量多模态数据,包括视频、图片、文本等,为大模型训练提供宝贵数据资源;三

112、是领先的 AI 算力基建,为大规模模型训练奠定坚实基础。在技术路线上,快手大模型将围绕搜索问答、素材智能生产、AI 小助手等核心场景展开研发,包括语言大模型、多模态大模型、垂类大模型等不同类型。同时,公司正在打造支持千亿参数大规模模型的训练和推理基础设施。在大模型预训练的数据准备阶段,快手积累了从 PB+原始数据中清洗获得的数万亿 tokens 中英文语料,涵盖百科、新闻、书籍、评论、菜谱、论文、问答社区、博客等多个领域。为确保数据质量,团队采取了黄反、隐私数据过滤、质量模型评估、数据去重(篇章内去重、哈希模糊去重)、异常检测与去除等一系列措施。在训练过程中,则利用了混合精度训练和 Spike

113、 自动恢复等先进技术,以提升训练效率和模型性能。其推动大模型技术创新和产业化落地,为企业和社会创造更多价值。2.1.2 药物发现等科研应用 将大模型应用于科学研究领域前景广阔,以生物医学为例,大模型能从海量文献中提取知识,预测蛋白质突变对疾病的影响,甚至生成针对特定疾病的候选药物分子。这不仅能大幅提高药物发现效率,降低成本,还可助力解决诸多棘手疾病。大模型也可应用于其他科研领域,如材料设计、新能源等,加速科技进步。基础大模型(Foundation Model)在各个领域正展现出深远的影响力,尤其在科学发现领域备受关注并蕴含着巨大的应用潜能。其中,药物发现领域无疑是最为瞩目的焦点。微软研究院科学

114、智能中心团队在构建面向科学领域的基础大模型方面取得了一系列最新突破性成果,他们的工作聚焦于药物发现这一关键领域。该团队提出了生物医学生成式大语言模型(BioGPT),这是一种专门针对生物医学领域训练的大型语言模型,在药物发现过程中发挥着数据挖掘和知识提取的关键作用。BioGPT 在靶点发现领域已展现出卓越成效,如 Insilico Medicine 公司便使用此类生物医学训练的大型语言模型,预测并发现了 9 个潜在的抗衰老靶点,开辟了全新的疾病治疗途径。图 2-2 适应下游任务的 BioGPT 框架 Fig.2-2 BioGPT framework for downstream tasks 微

115、软研究院科学智能中心的终极目标,是建立一个统一的科学基础大模型,以支持更加广泛的自然科学领域应用。该模型将以科学先验知识为基础,通过基本物理定律的第一性原理模拟来描述自然规律。这一科学基础模型需具备多模态输入输出能力,能接受文本、一维序列数据(如分子构象)、二维图像(如蛋白质结构图)和三维数据(如分子动力学模拟轨20 迹)等不同形式的输入。同时,它必须能够处理从小分子到大分子、从周期性结构到非周期性结构等不同尺度和复杂程度的分子系统,包括蛋白质、DNA、RNA 在内的生物大分子。为提高模型智能化水平和知识积累,需要整合大型语言模型的控制器、泛化工具以及大规模知识库,将先验科学知识与大数据知识有

116、机融合,使之成为自然科学领域的通用技术核心。基于这一通用技术,生成出高度智能化的科学基础大模型,实现对科学问题的预测和创新性解决,为学术研究和产业应用提供有力人工智能辅助工具,加速各个领域的科学发现过程。该模型最终可通过 API 接口,为化学、生物、材料、能源等诸多科学领域提供智能化服务,为推进科技进步贡献重要力量。在生命科学领域,科学基础大模型的应用前景十分广阔。它不仅能从海量生物医学文献中提取关键知识,还能精确预测蛋白质突变、分子与靶点的亲和力,甚至可以直接生成全新的候选分子结构,从而大幅提升药物发现的效率和成功率,有望加速多种疑难疾病新药的问世。2.1.3 伦理与价值维护 大模型技术的飞

117、速发展给人类社会带来了前所未有的机遇和挑战。其可以极大提升人类的生产力和生活品质,但如果缺乏必要的价值观引导和伦理约束,会导致一系列负面影响和风险。因此,必须运用社会科学的方法论,确保这些强大的人工智能工具能够在增进人类福祉的同时,维护伦理和文化价值观。例如,注重算法的公平性。避免数据或模型偏差而导致的不公平对待和歧视性结果。加强隐私保护,防止个人敏感数据被滥用。同时,提高人工智能系统的透明度也是必由之路,使公众能够监督和问责,促进信任(Jobin,et al.2019)。为了解决上述问题,亟需构建一个跨学科的研究体系,密切关注人工智能与社会科学的交融,确保人类智能的进步与我们的核心价值取向保

118、持高度一致。社会科学的研究方法能够帮助我们更有力地应对人工智能发展所带来的多元挑战。比如将心理测量学应用于人工智能系统的评测,就能够更全面客观地评估其认知能力结构,塑造 AI 与人类相契合的价值观。应用心理测量学的框架,为评估人工智能系统提供了科学严谨的方法论,这种跨学科融合不仅能帮助我们更好地理解人工智能,也将加深对人类智能本质的认知。首先需要进行构造识别,识别和澄清所要测量的人工智能系统中潜在的认知结构和能力因素,这可能包括逻辑推理、模式识别、语言理解、创造力等多个维度,需要通过理论分析和探索性研究加以厘清。其次是构造测量环节,需要为每个要测量的能力因素,精心设计测试场景和项目,制定量化的

119、评分标准,这些测试项目应覆盖不同的难度级别和知识领域,并具有足够的区分度,同时注意控制潜在的变量,确保测量结果的可信度。第三个环节是测试验证,通过对多个受试者进行为期足够长的测试,收集大量数据,根据回答情况验证测量方案的信度和效度是否达标,对于人工智能系统,可借助计算机模拟的大规模实验;对于人类,则需要组织实验室和线上线下的评估,测试验证环节非常关键,有助于不断完善和优化评估体系。构造良好的心理测量学评估框架,不仅可以对人工智能系统进行全面客观的能力评估,更重要的是能够推动人工智能与心理学、认知科学等社会科学领域的深度融合,通过对比人机智能的共性与差异,必将使我们对于人类智力的本质有更深入的认

120、识,也使人工智能系统能够更贴近并增强人类认知模式,这种跨学科整合将极大推进人工智能技术的发展,使之不再是简单的计算力量游戏,而是真正体现出与人性和智慧的高度契合。人工智能技术在全球范围内正广泛应用,其在经济、政治、文化等各个领域产生的深远影响已日益凸显。开发与人类伦理相一致的价值观对齐系统,使人工智能的决策更贴近人类的道德判断。通过这种跨学科的综合视角,我们才能真正推动一个更加负责任、透明、与人类利益高度契合的人工智能健康发展之路。人工智能的未来将深深影响人类文明的走向,把握好这一重大变革过程至关重要。以开放包容的胸怀拥抱创新,同时用严谨务实的社会科学方法论规范引导技术发展,努力实现人工智能与

121、人性智慧的融合共生。21 2.2 城市大模型 随着大模型技术的飞速发展,机器对自然语言的理解能力、世界常识掌握水平以及逻辑推理能力都获得了前所未有的提升。虽然通用大模型在诸多领域展现出卓越的表现,但在支持和理解涉及时空概念的城市问题方面,仍存在相当大的提升空间。所谓“城市大模型”是指基于海量城市数据和先进的人工智能技术,构建的城市智能化管理和服务系统。它综合利用交通、能源、环境、医疗卫生等各个城市领域的多源异构数据,通过建立数理模型,对城市运行状态进行分析预测,为科学决策和智能化管理提供有力支撑。城市大模型具有复杂性强、计算性能要求高、泛化能力强、自适应性好、支持端到端学习、具备迁移学习能力、

122、高度可解释等基本特征。它旨在融合城市时空维度的多源大数据,并深入整合城市地理信息、结构布局、功能分区等关键因素,从而对城市的动态演化和发展趋势形成更加全面深入的理解,为城市规划、智能化运营管理、可持续发展等提供有力支撑。本节将聚焦城市大模型相关话题,重点研讨和探讨大模型在城市时空数据处理、分析和应用等方面的现状、挑战及未来发展趋势。围绕如何优化和定制大模型架构,使其能更好地满足城市规划、建筑设计、交通运输等涉及空间关系的特定领域需求等问题展开深入讨论,并展望未来技术发展新趋势。2.2.1 城市大模型路线图与数据活化技术体系 现代城市管理确实面临着诸多重大挑战,包括城市规划管理、公共安全管理和公

123、共卫生管理等领域。为有效应对这些挑战,需要借助先进的大数据和人工智能技术,实现城市智能管理。(1)城市信息化 基于智能管理的理念,城市信息化是首要任务,旨在将物理空间中的数据转换至信息空间。该转换涉及城市信息基础设施,如 GPS、RFID、智能手机、LBS、可穿戴设备等,这些设施产生的数据包括手机信令数据、微博签到数据等庞大的城市数据。通过结合人工智能、数据挖掘和机器学习等前沿技术手段,对这些海量城市数据进行深度分析和处理,有助于为智慧城市管理、城市生活智能化以及商务智能服务提供有力支持(Ismagilova,et al.,2019)。所关注的核心方法涉及人工智能、数据挖掘和机器学习等前沿技术

124、,这些方法构成了城市大模型的基本雏形。(2)大模型的分类 根据输入数据的不同模态,大模型可以分为两类:一是“输入文本输出文本”的提问回答式大语言模型(Large Language Models),二是“输入图片输出文本”的看图说话式图像-语言大模型(Visual-Language Large Models)。目前,大模型虽然能够识别文字和图像,但对于时空数据的识别能力较为有限,无法准确理解时空信息(Birhane et al.,2023)。为了使大模型能够全面识别文本、图片和时空数据,需要采用多模态异构数据的统一向量表示方法,将不同模态的数据统一转化为向量形式,然后输入到基座大模型中进行处理。

125、这样一来,大模型就可以输出文本、图片和时空数据的结果,例如 POI 点、路网线、区域面、轨迹序列等各种形式的输出结果。(3)面向城市路网的表征学习方法 城市路网是城市空间结构的重要组成部分,对于城市规划、交通管理等具有重要意义。为了充分建模路网相关信息,需要采用表征学习的方法,将城市路网节点表征为欧式空间中的向量,以捕获路网的拓扑结构和功能特征。在这一领域,分层图神经网络模型 HRNR(Hierarchical Road Network Representation)提供了一种有效的解决方案。该模型将道路网络组织为一个三级层次结构,包括功能区域层(如商业区、住宅区等)、结构区域层(如街区)和路

126、段层。通过引入两个概率分布矩阵,分别负责路段到结构区域以及结构区域到功能区域的分配,可以关联不同层次的节点,体现路网的层次特征。同时,HRNR 模型运用基于22 网络拓扑结构重构的邻接矩阵和基于实际轨迹数据重构的连通性矩阵,从而有效捕获了道路网络的结构和功能特征。在模型内部,通过分层更新机制在整个网络上学习节点嵌入表示,最终实现对城市空间模式结构的发现和表征。该方法将城市路网节点映射为向量表示,不仅保留了路网的拓扑结构信息,还融合了功能区域和实际出行轨迹等语义信息,为城市交通分析、规划决策等提供了有力支持。图 2-3 HRNR 模型的总体架构 Fig.2-3 Overall structure

127、 of the HRNR model(4)面向个体轨迹的表征学习方法 除了对城市路网进行表征学习外,对个体出行轨迹的表征同样重要。通过将个体出行轨迹表征为欧式空间中的向量,可以充分体现个体出行相关信息,为个性化出行服务、交通流量预测等应用奠定基础。轨迹表征学习(Trajectory Representation Learning,TRL)是实现这一目标的强大工具。TRL 的目标是将复杂的原始轨迹数据转换为低维的表示向量,这种向量表示不仅体积小、计算高效,还可应用于轨迹分类、聚类、相似性计算等下游任务。Jiang et al.(2023)提出一种创新的自监督轨迹表征学习框架 START(Self

128、-supervised trajectory representation learning framework with TemporAl Regularities and Travel semantics)很好地解决了这个问题。该框架融合了时间规律和旅行语义信息,由两个阶段组成:第一阶段是轨迹模式增强图注意网络,它将道路网络特征(如路段拓扑关系)和旅行语义(如出行目的地)转换为道路段的表示向量。第二阶段是时间感知轨迹编码器,它将同一轨迹中的道路段表示向量编码为轨迹表示向量,并同时融合时间规律信息(如高峰时段、工作日/节假日等),使得轨迹表示能够较好地反映时空特征。该框架方法不仅可以跨越不同

129、城市,适应异构的轨迹数据集,而且将道路网络信息、语义信息和时间信息融合到轨迹表示中,为个体出行行为分析提供了新的视角和工具,对提升相关领域的分析能力具有重要意义。23 图 2-4 START 的总体框架 Fig.2-4 Overall structure of START(5)城市大模型与城市数据活化 城市数据活化是指利用城市中产生的丰富数据资源,并通过对这些数据的分析、处理和应用,提升城市的运行效率、改善居民生活质量以及增强城市规划管理的能力。这一概念包含了从数据收集、整理到分析和应用的整个过程。基于地图通用表征的城市时空大模型基础架构以向量地图为基础,集成了多模态通用大模型和城市数字孪生平

130、台,同时融合了地图要素表征算法和个体轨迹表征算法的基础模型。这一架构为城市的规划管理、安全管理以及公共卫生等重大挑战领域提供了重要支持和贡献。通过整合多源数据和模型,该架构能够为城市决策者提供全面的城市运行状态和趋势分析,帮助他们更好地制定政策、规划城市发展、提高应急响应能力,从而推动城市的可持续发展和居民生活品质的提升。2.2.2 基于大模型的城市智能体模拟仿真与规划决策 城市是人类活动和资源在时空维度上高度集中的载体,城市的有序运转和可持续发展有赖于人与城市环境之间错综复杂的交互模式。深入理解和准确模拟城市环境下人的时空行为,不仅具有重要的学术价值,也将为精细化城市管理、城市规划及政策制定

131、等实践领域提供坚实的技术支撑。近年来,大语言模型技术取得了飞速发展,凭借其出色的推理和规划能力在智能体仿真领域展现出了前所未有的应用潜力。本节将论述大语言模型在城市行为仿真中的价值,并介绍一种创新的大模型驱动的城市多智能体仿真系统。该系统将充分发挥大语言模型的优势,有效解决现有城市智能体(如车辆、行人、无人机等)仿真模型存在的环境感知能力差、行为动机模糊、行为连贯性欠佳等痛点,从而实现对城市智能体行为模式的高保真模拟。该仿真系统将构建智能体与城市兴趣点(POI)和基础设施之间的交互桥梁,使得仿真场景更加贴近真实情况。依托这一先进的仿真系统,生成极为逼真的交通流模式、人群活动轨迹和应急事件响应,

132、从而为城市管理者提供更为精准的决策参考。大语言模型在多智能体城市仿真领域亦蕴藏着巨大的发展潜力,将为推动未来城市的智能化、优化和可持续性发展。(1)城市知识图谱构建与应用 高质量的城市知识图谱是推动城市智能化发展的重要基础。通过构建一个包含百万级实体、千万级实例的大规模城市知识图谱,整合城市空间、人口、经济、交通、环境等多源异构数据,对城市数据进行组织和知识构建。基于知识图谱,建立个体行为模型、群体行为模24 型和宏观城市模型,并融合预测、生成和决策等人工智能能力,从而建立起生成式人工智能(AIGC)驱动的城市移动性仿真系统。该系统能够模拟千万级人口城市在不同尺度下的物理要素(如交通、能源、水

133、资源等)和社会要素(如人口迁徙、经济活动等),构建全要素跨尺度的城市模拟模型。构建如此庞大的城市模拟系统需要综合多种先进技术(Xu et al.,2021)。在交互系统方面,需要 Web 2D 可视化、3D 虚拟现实可视化以及决策优化 SDK 等,为决策者提供高效的可视化交互和决策支持、直观的数据呈现和辅助决策工具。模拟系统则需要并行计算、异构计算等技术实现高性能计算,并采用云原生技术如容器、微服务等实现可扩展的分布式计算架构,其中包括数据标准化工具链、分布式协调工具链、数据库等基础设施。模拟系统的核心包括电网模拟、交通模拟、人的模拟、通信模拟、水网模拟等各个领域的 API,由中心管理组件统一

134、协调。数据系统则负责从多源数据中生成高精度地图、识别关注区域、挖掘网络拓扑知识、发现移动规律、生成个人轨迹等,为知识图谱构建和模拟系统提供数据支撑。图 2-5 人类运动模型的范例和所提出的集体流动模型 Fig.2-5 The paradigm of human motion model and the proposed collective flow model(2)高性能模拟计算框架 针对大规模的城市模拟系统,高性能分布式计算框架是关键的技术支撑。传统的单机计算架构已经无法满足海量数据和复杂模型的计算需求,因此需要采用分布式计算的方式,将计算任务分散到多个节点上并行执行,从而获得大规模算力。

135、空间区域切分是实现分布式计算的一种常用方法。由于城市模拟涉及地理空间数据,可以将整个城市区域按一定规则划分为多个子区域,每个子区域的数据和计算任务分配给一个计算节点负责,将并行计算框架以最大限度地利用分布式系统的计算资源。在实施过程中,需要合理划分子区域的大小和形状,使每个节点的计算负载相对均衡。同时还需要考虑边界区域的数据交互,不同节点之间需要交换必要的同步信息,以保证整体数据的一致性。这就需要在节点之间建立高效的通信机制,比如可以利用 Redis 这种高性能的分布式内存数据库进行信息交换。除了空间切分,针对不同的模型特点和计算特性,也可以采用其他任务划分策略,比如基于模型分解将不同模型分配

136、到不同节点、基于时间切分将不同时间步的计算分散到不同节点等。在分布式计算框架中,需要有中央协调模块负责任务调度和资源分配,动态监控各节点的计算状态,根据负载情况动态调整任务分配,实现负载均衡和故障转移。同时还需要有日志监控和运维管理机制,保证系统的高可用性(Zheng et al.,2023)。除了并行计算,异构加速计算也是提高计算性能的重要手段。可以结合 GPU、FPGA、TPU 等异构计算加速器,将适合加速器的计算模块部署到加速器上,以获得更高效率。25 (3)支持城市科学理论研究与智能决策技术研究 支持城市科学理论研究与智能决策技术的发展,旨在全面探索城市发展的规律并提升决策效率。这项研

137、究涉及到实时通信优化、短期资源分配以及长期城市规划等多个方面,通过揭示城市宏观发展规律背后的微观行为机理,来优化城市功能和提升居民生活质量。动力学模型与人工智能仿真技术的结合是这一研究领域的核心。通过建立基于城市居民微观移动行为的动力学模型,结合人类迁移行为的长期记忆和动态社会互动等关键因素,并运用高效的人工智能模拟仿真技术,能够揭示城市宏观演化的规律。这些规律包括城市规模分布法则、人口与城市面积的超线性关系以及城市人口密度分布等,为理解个体移动行为与城市演化规律之间的关系建立了理论桥梁。这一模拟结合决策的方法具有多重优势,可以应用于解决诸如移动网络能耗优化、基于大规模真实网络流量与能耗数据的

138、挖掘分析,以及构建无线网络孪生模拟系统来寻求现网课部署的节能策略等问题。在实际应用中,相较于传统的数学建模与运筹优化方法,模拟结合决策的方法可以显著提升网络碳效率超过 40%,并能够帮助 71%的省份避免陷入碳效率陷阱(Li et al.,2023)。此外,这项工作还在医疗资源有限的情况下实现了遗传病的精准防控,以及实现了细粒度、快速响应的疫情仿真与政策制定。相比基准模型,每日疫情的预测准确率提升了 31%以上,并成功刻画了人群内部传染病风险的异质性。在疫苗策略方面,无论是在不同疫苗数量还是接种时间下,都能够保证所设计的疫苗策略的全面效用和多维度公平性(Chen et al.,2022)。(4

139、)全要素跨尺度城市模拟模型与系统实现 在全要素跨尺度的城市模拟模型与系统实现中,通过模拟城市社区的空间规划,关注城市社区空间规划的基本元素,对用地、道路等元素进行合理的空间布局安排,以实现城市发展。其核心思想是基于城市模拟和强化学习决策的社区规划,通过地块切割、道路修建等操作来模拟城市发展的过程,并结合动作选择、表征提取、城市空间拓扑建模等技术来进行强化学习决策,从而生成适应城市发展需求的规划方案。通过模拟和决策交互训练来不断优化城市规划决策模型,同时利用巨大的解空间高效搜索,为城市规划提供决策支持。模拟环境本身也能够通过生活圈社区仿真来反馈决策模型,形成一个互动的学习循环。城市作为一个复杂系

140、统,智能化需求日益增长,城市系统是一个多层次、多元素、高度互动的系统,涵盖了城市各个方面,构成了一个动态网络,其中人类活动与城市环境之间的复杂相互作用不断演变,以人为核心的动态网络与城市环境之间存在着复杂的相互作用。这种系统具有高度动态性和高度不确定性,元素之间的相互作用错综复杂。为了应对这种复杂性,需要建立城市生成式智能基础平台,其体系结构应该在开放式数字基础上构建,通过数据流传递实现城市模拟器与城市知识图谱之间的交互,通过语言界面与城市 GPT(生成式预训练模型)实现与用户的交互。这样的平台可以为城市规划提供旅行计划、选址优化、旅行调查等实际应用场景,从而提高城市规划的效率和准确性。城市

141、GPT 是一种特定领域的预训练语言模型,相较于一般的语言模型,它具有更强的领域适应能力和数据支持,能够更好地理解和处理城市规划领域的任务。通过与智能体的结合,城市 GPT 可以在城市模拟器中生成个体和集体的行为,为决策主体提供决策支持和协助。因此,模拟器结合城市 GPT 与智能体共同构成了城市生成式智能平台,为城市规划提供了强大的技术支持和决策工具。全要素跨尺度城市模拟模型与系统实现是一项具有挑战性和前景的工程,它将模拟技术、人工智能和城市规划领域相结合,为城市可持续发展提供了新的思路和方法。通过不断地优化模型和系统,可以更好地应对城市发展中的挑战,实现城市规划的科学化、智能化和可持续发展。2

142、6 图 2-6 社交网络仿真系统 Fig.2-6 Social network simulation system 2.2.3 城市时空大模型构建与实践 预训练模型和大语言模型的崛起,无疑为人工智能领域带来了革命性的变革。这些先进的模型极大地增强了机器对自然语言的处理和理解能力,为各行业的 AI 应用开辟了新的可能性,开启了各领域中与 AI 结合的新纪元。然而,在面对如此复杂的城市系统时,想要充分发挥新技术的优势,则需要深入思考如何将通用的语言模型应用于城市计算领域。虽然这些模型在自然语言处理方面表现出色,但无法直接将其应用于城市数据和实体场景。城市数据通常包含了复杂的时空维度、多源异构信息等

143、,需要对模型进行专业的调整和优化,以适应城市计算的特殊需求。同时,如何建立一个基于城市数据底座的大模型体系是另一个需要考虑的问题。城市作为一个庞大的有机系统,蕴含着丰富的数据资源,如交通、环境、人口、建筑等多维度信息。通过对这些数据进行深入的挖掘和建模,我们可以构建出专门针对城市问题的大模型,以更好地服务于城市规划、管理和决策等领域(Sassite et al.,2022)。智能空间是未来城市的发展趋势。借助人工智能(AI)与数字技术,现实世界与虚拟市界之间的边界正逐渐模糊,从而实现了深度融合,这种趋势使得世界的交互从传统的物理空间向虚拟与实体相结合的新境界不断演进。在城市空间内,生活、交通、

144、商业、治理等多元活动构共同建出错综复杂的时空关系网络。为了有效管理和利用这些时空关系,时空 IA 技术体系应运而生。时空 IA 技术体系是一种综合性的技术框架,旨在围绕数据建模、AI 计算和 XR 交互展开,以数字孪生为基石,以元宇宙为最终目标。在时空 AI 技术体系中,包括时空感知技术、时空数据引擎、时空图谱引擎。其中,时空感知技术负责收集和感知世界各地的时空数据,时空数据引擎则负责对这些数据进行处理和管理,而时空图谱引擎则负责构建和维护这些数据的关系和联系。大模型是耦合时空 AI 技术,是实现智能空间的进一步体现,也是智能空间发展的关键。大模型分为通用大模型与领域大模型。通用大模型使用统一

145、的模型架构,并采用相同的学习模式,构建可以适用于多种模态的通用词表,将所有任务统一成序列到序列任务。领域大模型,则是通用预训练与专用领域预训练相结合,共同构成专27 业的业务场景应用。领域大模型是实现智能空间的关键,构建领域大模型的方法多样,可以将通用大语言模型与垂域知识融合,在通用大语言模型之上打造垂域大模型;或者直接通过垂直领域数据,构建领域大模型(垂域小模型);以及 ChatGPT 和领域大模型的结合。时空AI 技术和大型模型的耦合应用实践场景丰富多样,可为城市的可持续发展提供智能决策支持。这些应用场景包括但不限于选址推荐、网点规划、区域研判、市场需求评估、交通便利性评估等,为城市管理和

146、规划提供了全新的视角和解决方案。城市大模型,作为现代技术与智慧城市建设的重要结合点,拥有广阔的发展前景和巨大的应用潜力。随着人工智能技术的快速发展,城市大模型的应用范围正在不断扩大。交通管理和规划、智慧城市建设、环境监测和治理,以及城市规划和土地利用等方面,都已经开始运用该技术,实现智能化管理和操作。这不仅提升了城市运行的效率,也极大地改善了民众生活质量。尽管在自然语言处理、图像识别等领域,大型模型已经取得了显著的进展,使得处理海量数据、实现精细化管理成为可能。然而,城市大型模型在应用过程中面临诸多挑战和难题,其中包括模型的可解释性、数据隐私保护以及成本控制等问题,这些仍是当前需要着重解决的任

147、务。如果能够解决上述挑战,将有助于大型模型在充分尊重个体权益的同时,最大限度地发挥其功能,从而推动城市智能化进步。可以预见,在未来城市大型模型在城市智能化管理、可持续发展以及提升居民生活质量等方面的重要性将逐渐增强。2.3 空天遥感大模型 目前全球已经进入了小时级的快速响应和亚米级遥感观测大数据时代。遥感技术利用电磁波作为信息载体,极大地扩展了人类的感知能力范围。随着学科交叉和跨界融合的发展,遥感的应用领域也进一步拓展,带来了更加广阔的应用前景。本节将介绍空天遥感大模型的关键技术、方法和应用。包括遥感 AI 大模型的初步认知与实践应用,这些大型模型利用深度学习等技术,能够处理海量遥感数据,从而

148、为地质勘探、环境监测等领域提供精准的信息支持。遥感与地理信息系统(GIS)一体化智能技术的探索与实践,通过将遥感数据与地理信息相结合,可以实现更加精确的空间数据分析与应用,为城市规划、资源管理等提供更全面的决策支持。以及面向大规模高光谱影像解译的自监督深度学习方法,通过深度学习算法自动提取高光谱影像中的特征信息,实现对地物类型的准确分类与识别。基于上述技术方法的理解,进一步探讨空天信息遥感大模型的应用实践模式,以及发掘空天遥感大模型的跃迁驱动力。通过深入研究和应用空天遥感大模型,更好地理解和分析遥感数据,并将其应用于环境监测、资源管理、城市规划等领域。2.3.1 遥感 AI 大模型初步认知与实

149、践应用 ChatGPT 的出现标志着人工智能进入了大模型时代,更大规模的神经网络模型为人工智能带来了更通用的应用能力,这也为遥感数据分析提供了新的机遇和挑战。同时,随着遥感大数据时代的到来,地球观测和遥感技术经历了快速发展,卫星星座不断涌现,使得我们拥有了比以往任何时候都更多种类、更大数据量的遥感数据。这意味着人类已经进入了亚米级和小时级的遥感大数据时代。遥感大数据分析系统是遥感领域大模型推动的基础。例如,苍灵系统,其是一个基于深度学习的遥感大数据智能信息提取系统,这类遥感信息提取系统为遥感 AI 大模型提供了数据样本。大量的数据样本和相对便捷的获取方式,推动了语言大模型和视觉大模型取得了突破

150、性进展,进而引领着整个社会进入大模型时代。基于当前人工智能和遥感信息智能解读的发展背景,本小节总结分析了遥感大模型的发展现状,并结合现有的研究工作,阐述了遥感大模型发展的初步趋势。遥感大模型的发展不仅要关注大规模数据的训练和处理技术,还要结合遥感信息智能解读的特点,充分挖掘遥感数据中的有价值信息,并提供更准确、高效的解读能力(Hong et al.,2021)。通过开发和应用遥感大模型,可以进一步提升遥感数据的分析和决策能力,从而推动遥感技术在各个领域的应用。28 图 2-7 遥感大模型的实现途径 Fig.2-7 The flowchart of remote sensing large mo

151、del(1)分割一切大模型(Segment Anything Models,SAM)分割一切大模型(Segment Anything Models,SAM)是指一类神经网络模型,用于图像分割任务,所以在遥感图像应用中还存在一些问题。由于目前的训练数据集中并不包含遥感数据集,因此 SAM 缺乏对遥感数据的理解。SAM 对于高分辨率遥感影像的分割表现较好,能够准确地分割各类地物,但在处理低分辨率的全球土地利用数据方面表现不佳。并且,由于遥感图像需要具有语义信息,而 SAM 生成的 Mask 却缺乏标签,这使得提示语义信息变得困难。SAM 专为分割和检测任务设计,无法完成一些遥感特有任务,如变化检测

152、和矢量输出。当遥感图像中地物边界定义不明确(由于复杂的场景),SAM 难以对遥感图像目标进行全面的分割,其结果严重依赖于提示的类型、位置和数量。遥感数据的多样性也是一个问题,SAM 的多模态主要集中在 Prompt,而在 Prompt 之外的数据模态只有自然图像。SAM存在网络结构限制问题,作为普通图像编码器,在效率和精细程度上难以满足遥感细粒度任务。图 2-8 分割基础模型 Fig.2-8 Segmentation fundamental model 但 SAM 也兼具一些在遥感应用中的优势。虽然 SAM 只针对自然图像进行训练,但却能对高分辨率的遥感图像进行识别和分析,展现出强大的泛化能力

153、和对图像的理解能力。这为视觉多模态大模型的研究提供了实验证明的基础,证明了视觉大模型是可行的。SAM 设计的数据引擎(Data Engine)为大数据集的构建提供了有效的方式,为视觉大模型的训练数据提供了保障。SAM 的网络结构设计符合两个规则:多模态的数据嵌入与融合的模型结构,完全打通了图像、文本、矩形框和其他先验知识之间的信息壁垒;并且 SAM 的模型参数量适中,为模型的训练和部署提供了灵活性。在 3D 应用、视频跟踪、图像生成、交互式标注工具、图像分割、目标检测和图像修复等多个领域的应用中,均有 SAM 的应用场景(Osco et al.,2023)。自从 SAM 被提出并开放训练权重以

154、来,在图像和视觉领域取得了显著的成果,29 其大模型展现出了出色的图像理解能力和智慧,在各个下游任务中都能发挥作用,对遥感视觉任务也产生了积极影响。尽管 SAM 在遥感图像应用中存在一些问题,但它也为视觉多模态大模型的研究提供了实验证明的基础,并在多个视觉任务中展现了强大的图像理解能力,在其基础上进发出的二次发工作,为各个下游任务赋能,在一些基本的遥感视觉任务上都有了 SAM 的影子。进一步的研究和发展可以进一步改进 SAM 在遥感图像应用中的性能,为遥感领域的研究和决策提供更好的支持。(2)遥感大型模型现状 现有遥感大模型包括 ViTAEv2、RingMO 和 RS5M。ViTAEv2 的优

155、点在于使用 ViTAE 网络进行预训练,并通过百万遥感图像分类任务进行优化,涵盖了不同传感器、图像尺寸、分辨率的多样遥感图像数据来源。它能够减少 CV 大模型在训练数据方面的偏差,并通过改进的 transformer 模块提高了效率和精度。然而,ViTAEv2 的缺点是预训练任务是场景分类,特征粒度相对较粗糙,而且需要大规模有监督训练数据,训练数据集获取成本大,仅支持作为预训练使用,缺少对深感任务的直接应用。RingMO 利用两百万遥感图像进行 MAE 预训练,影像数据来源多样,涵盖大量国产卫星影像,影像有不同时相、不同分辨率、不同地域遥感图像。它再遥感下游任务减少了 CV 大模型在训练数据方

156、面的偏差,并使用了 Swin 系列先进的 transformer 结构,在图像重建任务方面表现更好。然而,RingMO 的缺点是它的输入模态相对单一,缺乏多光谱、矢量、文本等模态的嵌入,并且仅支持作为预训练模型使用,缺少对遥感任务的直接泛化能力。RS5M 通过构建五百万规模的图像-文本匹配数据集,实现了通用大模型到遥感领域的迁移。它在图像分类任务中展现出了出色能力。然而,RS5M的缺点是数据集中文本描述的质量仍有待提高,并且缺乏基于庞大数据集构建更强大的遥感大模型的能力,同时在细粒度处理细节方面还有不足。现有遥感大模型在处理自然场景图像与遥感图像之间的域差异方面还存在一些不足,导致其在遥感任务

157、上的性能表现不佳。高质量的遥感图像数据集在大范围、多时相等各种应用场景方面仍然缺乏,这也限制了现有大模型的应用发展。后续的研究导向需要针对上述问题进行改进,以提高遥感大模型的性能和广泛应用。(3)遥感大模型的研究思路 目前大模型处理遥感信息的领域存在着许多问题,例如模型基于零散的小数据集训练、遥感信息挖掘和表达不够、地学等先验知识利用不足、模型精度和泛化能力较差、单一遥感数据信息局限性、面向细分任务训练代价大、大量研究人员低水平重复的问题。同时,大模型本身具有训练数据信息维度更高,有利于学习到本质特征;适用自监督学习算法,降低训练研发成本;学习任务无关的通用知识,支持低成本的细分任务泛化;具有

158、进一步突破现有模型结构精度局限的潜力等优势。因此,基于上述大模型的存在的问题与潜力,遥感大模型的研究思路总体趋于两个方向,即基于现有的其他大模型进行遥感适配与运用遥感数据进行预训练的重新构建。30 图 2-9 现有大模型总结 Fig.2-9 Summary of existing large models 第一个方向是基于现有其他大模型的遥感适配。现有 CV/NLP 大模型,具备很强的通用知识学习和表达能力,在经过少量的遥感知识引导或者提示下,可以很好的适配遥感任务。例如,MAE 拥有自监督学习的特点,具有大规模遥感图像预训练的潜力。SAM 拥有 zero-shot 实例分割特点,可用于遥感图

159、像语义分割,遥感样本标注。Grounding-DINO 通过开放集目标检测,在基于文本提示的遥感图像目标检测具有重大潜力。CLIP 和 BLIP 分别基于图文匹配、图像描述的特点,用于遥感图像分类,遥感图像-文字数据集构建。DELL.E 具有文本提示图像生成的能力,可用于辅助遥感图像生成。将上述的模型用于辅助生成遥感预训练数据集,用于后续处理。通过分割大模型(SAM、FastSAM)以及遥感提示,开展遥感图像半自动标注;运用图-文匹配大模型(BLIP、CoCa)实现遥感图像-文本匹配数据集或者遥感场景分类数据集构建;使用图像生成模型大模型(DELL.E),实现遥感图像自动模拟与生成。再利用视觉

160、大模型提取遥感图像的特征,再嵌入 Adapter 或者微调分类器,减少对遥感样本的以来,提升泛化能力。通过在 Fast SAM 提取特征,并经过 Adapter 完成遥感图像特征提取的适配,完成变化检测任务。基于遥感模型为大模型生成提示,配合大模型完成遥感任务。基于遥感变化监测网络独立生成变化监测点,生成点提示,用 SAM 分割能力,进行特征提取。综合利用视觉、文本等大模型通用性能共同完成遥感的语义分割(Yang et al.,2021)。以实现基于现有的大模型进行遥感适配,建立遥感大模型。基于遥感数据预训练的大模型建构是另一个重要方向。其需要从数据到模型训练再到任务实现的完整流程。从遥感样本

161、库构建出发,针对遥感大模型利用超大规模参数来挖掘遥感数据中的信息,包含样本影像、物候信息、矢量文件、地面观测信息、POI 信息遥感多模态知识的遥感样本库,构建出多模态遥感图谱化知识库,具备高质量、场景完整、模态多样、且大规模训练数据,满足模型对多传感器、多时相、多气象条件、跨区域、跨分辨率等应用场景的需求。在此基础上,针对遥感大模型的训练,建立多模型遥感知识理解与规则表达,提出“对象-数据-场景-任务”一体化的知识理解和表达方法,利用多模态遥感样本涉及的知识和规则,对数据源多样以及模态多样化的遥感数据进行大模型训练与优化。此外,还可以设计基于可形变卷积的遥感大模型网络。这个网络模型针对现有大模

162、型在图像编码器层次上获取特征不足以及遥感地物特性融合不够的问题,通过基于可形变卷积构建通感大模型图像编码器,学习多尺度下复杂结构遥感地物的通用特征。该网络结构在具备一定的效率优势基础上,可学习多尺度遥感地物的多层级特征。基于自监督学习遥感大模型预训练策略有效地利用大规模数据,因此当前大模型训练策略大多采用自监督学习完成大数据量的训练,常用的训练方式包括基于图像掩码-重建的 MAE 以及基于图像-文本匹配的 CLIP。MAE 与 CLIP 互有优劣,可以综合两种训练模式。最终通过任务迁移优化,实现遥感任务泛化突破。31 图 2-10 遥感多模态知识 Fig.2-10 Remote sensing

163、 multi-model knowledge 遥感大模型是解决遥感信息快速智能提取的有效和必然途径。目前,现有的视觉大模型在应用于遥感数据中还存在一些缺陷,包括训练数据的不足、网络结构的限制以及应用场景的差异等。因此,为了进一步提高遥感数据的处理效率和精度,需要采取一系列策略来发展遥感 AI 大模型。一方面,可以利用已有的视觉、自然语言和文本等大模型,通过对遥感数据和应用场景的调整和适配,来提升其在遥感领域的性能。例如,可以通过引入遥感数据的知识和先验信息,对现有大模型进行迁移学习或微调,使其更适合处理遥感数据。这种方法可以节省训练成本,同时保持大模型的泛化能力和精度。另一方面,可以从利用遥感

164、数据进行预训练开始,设计更加针对遥感数据特点和应用场景的网络结构,以提高大模型的精度和效率。通过在大规模遥感数据上进行预训练,并结合领域知识和先验信息,使大模型能够更好地理解和分析遥感数据,实现快速智能提取。随着遥感大模型的发展,可以从面向单一任务具有良好泛化能力和精度的大模型逐渐转向在广泛的任务和领域中具有通用性能力的预训练基础模型。这种预训练基础模型可以为不同的遥感任务提供基础支持,减少重复训练的成本,同时具备较高的精度和泛化能力。通过适配现有大模型和利用遥感数据预训练,可以发展出更加智能高效的遥感大模型,为遥感信息提取和应用带来更好的效果和效率。2.3.2 遥感与 GIS 一体化智能技术

165、探索与实践 大数据和云计算的进步为遥感和 GIS 一体化平台软件的研发带来了新的机遇。这些新技术的应用使得遥感和 GIS 数据处理更加高效和灵活。同时,大模型技术的发展也使得人工智能和遥感、GIS 技术的融合也变得更加紧密。人工智能在 GIS 和遥感领域的深度融合为空间智能技术的发展,优化了算法和模型的设计,提供了新的视野。通过结合深度学习和遥感图像处理算法,可以实现对遥感图像中的地物、景观和空间信息的自动提取和分析,并进一步应用于遥感图像的自动解译、地物分类、目标检测和变化监测等方面。人工智能和 GIS技术的融合还可以加强对遥感和 GIS 数据的智能管理和分析,通过利用人工智能技术对遥感和

166、GIS 数据进行智能化的存储、检索、处理和分析,可以实现对大规模、高维度地理数据的高效管理和利用(宋关福等,2020)。以实际应用为基础,实现智能决策和规划,为城市规划、环境管理和资源利用等领域提供科学支持。未来,随着人工智能技术的不断进步,空间智能技术和产品将进一步发展,为地球观测、资源管理和环境保护等领域提供更加准确和高效的解决方案。(1)GIS 一体化智能技术 GIS 一体化智能技术将空间智能(Geospatial intelligence)、人工智能(Artificial 32 intelligence)和商业智能(Business intelligence)相结合,从空间数据中提取信

167、息和知识,并利用人工智能技术进行数据分析和决策支持,以改善业务和管理决策。在这一领域,空间智能金字塔(GI Pyramid)提供了一种关于空间智能发展的框架,包括地理空间控制(Geo-control)、地理空间设计(Geo-design)、地理空间决策(Geo-decision)、地理空间可视化(Geo-visualization)和地理空间感知(Geo-perception)等方面。AI 技术的融合使得空间智能能够更好地进行地理空间控制(Geo-control)、地理空间设计(Geo-design)、地理空间决策(Geo-decision)和地理空间可视化(Geo-visualization

168、)等任务。同时,一些 GIS 技术公司如 SuperMap也提供了包括大数据 GIS、人工智能 GIS、新一代三维 GIS、分布式 GIS 和跨平台 GIS 等技术体系,以应对 GIS 一体化智能技术的需求(宋关福等,2021)。通过将 GIS 和人工智能相结合,可以实现更智能化、高效率且精准的地理空间数据分析和管理。图 2-11 SuperMap GIS 五大技术体系(BitDC)Fig.2-11 5 Technology systems of SuperMap GIS(BitDC)(2)遥感大模型探索与实践 SuperMap 人工智能 GIS 技术特点包括先进的模型算法、完整的流程工具、丰

169、富的 AI功能以及丰富的预训练模型,这些特点可以提升空间智能的应用效果。通过 Segformer、EffcientNet、Cascade R-CNN、Siam-Segformer、SFNet、RTMDet 等先进的模型算法,以优越的性能去处理遥感数据。运用样本管理、训练数据生成、模型训练、模型推理、推理结果后处理、模型评估等完整的流程工具,使得整个遥感数据处理流程更加高效完备。运用丰富的AI 功能,如二元分类、目标检测、地物分类、对象提取、场景分类、变化检测,满足不同遥感应用场景的需求。此外,SuperMap 还提供了丰富的预训练模型,包括城市水体提取模型、国内城市建筑物提取模型、飞机舰船目标

170、检测模型、国内耕地提取模型、国内大棚提取模型等。这些模型经过超过 10 亿标签的训练,具有较高的准确性和泛化能力。SuperMap 的 AI大模型集成探索,其内置超 10 亿标签训练的 SAM 图像分割大模型,提供批量和交互式遥感影像分割能力支持(宋关福等,2019)。SAM 图像分割大模型,其内置模型支持批量和交互式的遥感影像分割任务。结合影像目标检测预训练模型,可以输出语义信息和目标提示框,改善遥感影像中小目标的提取效果。该模型具有灵活的结构,支持自定义替换。输入为原始影像(用于批量分割)或提示信息(用于交互式分割),输出为地物对象的分割结果。除此之外,SuperMap 在融合 AI 技术

171、的空间赋能方面也取得了丰富进展,其中包括三维 GIS33 可视化的发展,实现了从日景到夜景的模拟效果。另外,SuperMap 还运用了 Retrieval Augmented Generation(RAG)的技术,通过结合大语言模型和外部知识库(如网页查询),实现了超越传统大模型的专业领域能力。这些探索和实践为遥感与 GIS 一体化平台软件研发提供了新的视野和方向,并将持续推动空间智能技术与人工智能的融合。2.3.3 面向高光谱遥感大模型的数据基准与学习范式 面向高光谱遥感大模型的数据基准与学习范式是为了克服目前高光谱解译所面临的挑战而提出的一种解决方案。高光谱遥感数据包含丰富的光谱信息,可以

172、提供更详细和准确的地表目标分类和识别结果。高光谱成像技术通过将成像技术和光谱技术相结合来探测地面目标的空间和光谱信息,是最重要的遥感成像技术之一。然而,目前的高光谱解译工作受限于数据集规模较小和网络泛化能力不足的问题,导致无法在大规模数据上获得准确的分类结果。为了解决这一问题,可以建立一个面向高光谱遥感大模型的数据基准。该数据基准包含大规模的高光谱影像数据集,其中包含丰富的地物目标类别和光谱信息。通过使用这个数据基准,可以提供更多的样本和多样化的场景,以充分训练和测试高光谱大模型,提高网络的泛化能力和迁移能力。为了更好地利用高光谱遥感数据进行深度学习,可以将自监督学习的方法融入到高光谱遥感数据

173、解译中。自监督学习是一种无监督学习的方法,通过使用数据本身的特征进行训练,而无需依赖人工标注的标签。通过建立适合高光谱遥感数据的自监督深度学习网络,可以通过数据的内在结构和信息进行自我学习,提高模型对高光谱数据的表达能力和解译能力。面向高光谱遥感大模型的数据基准与学习范式可以为高光谱解译的研究与开发提供强有力的支持。通过在大规模数据上训练和测试,以及利用自监督学习的方法,可以进一步提升高光谱遥感大模型的性能和应用能力,为高光谱遥感数据的解译和应用提供更准确和可靠的支持(Huang et al.,2022)。图 2-12 Transformer 模块 Fig.2-12 Transformer m

174、odel 空天遥感大模型在人类社会中带来了广泛的机遇和挑战,并为科学研究和决策提供了更准确、全面的信息支持。这些大模型在遥感图像处理中的应用不仅为地球观测和环境监测提供了更精细的数据分析能力,还为自然灾害预警、农业发展、城市规划、环境保护等领域的决策制定者提供了重要的决策支持。通过遥感大模型,我们能够更好地理解地球表面和大气层中的复杂变化和相互关系,优化资源管理和利用,减少能源消耗,改善环境质量,保护生态系统。此外,遥感大模型还能够帮助识别和解决全球性问题,如气候变化、自然灾害管理和人口迁移等挑战。但遥感大模型的研发也面临着巨大的挑战。遥感大模型的训练需要大量34 的高质量地面观测数据和标注信

175、息,以及强大的计算资源和算法支持。遥感数据的特殊性和复杂性使得大模型在处理遥感图像时仍面临遥感图像的多模态融合、低分辨率数据的准确分析等困难。为了进一步推动空天遥感大模型的发展和应用,需要不断改进算法和模型结构,提高遥感数据的质量和多样性,加强对遥感任务的理解和适配,提高系统的稳定性和可靠性。只有不断推动遥感大模型的创新和发展,才能真正实现其在人类社会中的有效应用。2.4 地理大模型 2.4.1 地理大模型基本概念“地理大模型”是一种综合利用地理信息和人工智能技术的模型。利用人工智能进行大规模处理和连续学习等优势,地理大模型更好地理解和处理各种类型的地理数据,从而为地理信息领域的各种任务提供更

176、加有效和全面的解决方案(Janowicz et al.,2020)。地理基础大模型的组成如图 2-13,主要部分包括:(1)地理数据生成(Geographic Data Generation)地理数据生成涉及获取和综合各种地理空间要素,包括 POI(兴趣点)、轨迹点、影像等相关数据集。POI 代表着特定的感兴趣位置,例如地标性建筑、商家、购物中心或地理特征,而轨迹点表示随时间记录的路径或移动。此外,影像包括卫星遥感影像、航拍照片、街景图片等视觉表示,为理解地理现象提供了重要的上下文信息。在地理大模型中,这些组成部分作为地理分析和建模的基础,可以揭示空间模式、趋势和关系,为后续的空间推理及地理问

177、答提供基础信息。(2)地理知识数据库(Geographic Knowledge)地理知识数据库主要包含地理文本语料库和空间数据库。地理文本语料库涵盖了大量的地理相关文本资料,如地理学领域相关论文、地图文本描述、地名解释等。文本是大模型学习的基础之一,丰富的文本资料为后续模型地理问答及建议提供了有力的文本信息资源。空间数据库则存储了地理实体及其相互关系的相关空间信息,包括地理要素的几何形状、拓扑关系、属性数据等,为模型能够进行地理分析和空间推理提供了基础数据支持。这些地理知识的存储和管理为地理大模型的建立和应用提供了必要的信息基础。(3)空间推理(Spatial Reasoning)空间推理作为

178、地理大模型的核心组成部分,其主要职责包括识别不同类型的地理数据,深刻理解地理数据之间的空间关系等。通过空间推理,模型能够精准地分析和解释地理数据,深入挖掘地理现象之间的关联关系,为解决许多实际问题提供了重要的支持,例如城市规划、自然资源管理、环境保护等。空间推理还在优化资源配置、规划城市发展、设计交通网络等方面有重要作用。通过分析地理数据和空间关系,可以提供优化方案和策略,最大限度地提高资源利用效率。(4)地理问答及建议(Geography Q&A and Recommendations)地理问答及建议是地理基础大模型的关键部分,主要根据知识和空间推理能力解答用户提出的各种相关地理空间问题,例

179、如路线推荐、旅行建议等。通过这一交互功能,用户可以获取关于地理位置、地标景点、交通路线、旅行目的地等方面的实用信息和建议。不仅如此,地理问答及建议还可以从与用户的对话中学习用户的需求和偏好,提供个性化的定制化建议,例如帮助用户更好地规划行程、探索未知地域、解决实际出行中的问题等。这种交互式的地理信息服务,为用户提供了便捷、高效的获取地理空间信息和相关建议的途径,是地理大模型的核心特点。35 图 2-13 地理基础大模型的组成 Fig.2-13 Composition of geographical large model 2.4.2 地理大模型的关键技术 近年来,在互联网规模的数据集上训练的极

180、大模型已经在各种领域的学习任务上实现了较为先进的性能,引发了现代机器学习(Machine Learning,ML)模型训练方式的范式转变。与从头开始学习特定任务的模型不同,预训练模型,也称基础模型(Foundation Models,FMs),通过微调或少量/零量样本学习进行调整,之后被部署在各种领域(Brown et al.,2020)。这些基础模型允许跨领域的知识转移和共享,且减少了特定任务训练数据的需求。基础模型包括大型语言模型(Large Language Models,LLM)、大型视觉基础模型、大型多模态基础模型以及大型强化学习基础模型。尽管如 ChatGPT 等大模型取得了成功,

181、但探索地理空间人工智能(Geospatial Artificial Intelligence,GeoAI)大模型的工作却相对较少。地理大模型的关键技术挑战在于地理人工智能固有的多模态特性。在地理大模型中,核心数据模态包括文本、图像(例如遥感影像或街景图像)、轨迹数据、知识图谱和地理空间矢量数据(例如来自 OpenStreetMap 的地图图层),所有这些数据都包含着重要的地理信息,例如几何和语义信息(Hu et al.,2023)。每种模态都呈现出特殊的结构,各自需要一定的表示方式,所以要求地理大模型能有效地整合所有这些表示(Hu et al.,2018)。这一性质阻碍了现有预训练基础模型在所

182、有 GeoAI 任务上的直接应用。考虑到所有这些多样化的数据模态,现有的目标是如何开发一个最好地集成所有的多模态基础大模型用于 GeoAI,即如何开发一个能有效整合多模态地理数据的地理大模型。现有的多模态基础大模型,例如 CLIP(Contrastive Language-Image Pre-Training),具有以下一般架构:(1)首先使用单独的嵌入模块来编码不同模态的数据,例如,使用 Transformer 来处理文本;(2)通过连接来混合不同模态的表示(可省略);(3)对不同的模态之间进行更多的 Transformer 层的推理,有利于根据语义来实现数据间一定程度的关联对齐,例如,将文

183、本“学校”与学校的图片相关联(可省略);(4)生成预测模块来实现不同模态的自监督训练。但这些架构仍存在缺乏与矢量数据整合的弱点,而矢量数据是空间推理的基础,是地理大模型中多模态数据对齐的核心和关键。因此,可以利用矢量数据增强数据表示的位置编码来对齐不同模态。例如,地理标记文本数据和遥感(或街景)图像可以通过它们的地理足迹(矢量数据)轻松对齐。这种模型技术的优势在于实现跨模态的空间推理和知识传递。除了对多模态特性的关键技术突破,地理大模型还需要考虑以下关键技术(Mai et al.,2022):36 (1)地理去偏见框架:基础模型有可能会放大数据中存在的社会不平等和偏见,例如,多数地理解析器在很

184、大程度上偏向于数据丰富的地区,所以地理大模型需要考虑的一个关键问题是地理偏见,但这在大模型研究中常被忽视。基础模型相比于任务特定的模型,更容易受到地理偏见的影响,主要原因是:用来训练的地理数据通常是大规模收集的,有一定的可能被过度代表的地区所主导;庞大的可学习参数数量和复杂的模型结构使得地理大模型的解释和去偏见变得更加困难;基础模型的地理偏见很容易被所有下游的适配模型所继承。这些都表明一个合适的地理去偏见框架在地理大模型中的重要性。(2)空间尺度的转换:地理信息可以以不同的空间尺度来表示,这意味着在地理大模型中,同一地理现象或地理对象可以具有完全不同的空间表示(点和多边形)。例如,城市交通预测

185、模型需要将北京市表示味一个具有多种信息的复杂多边形,而地理解析器通常将北京市表示为一个单一点。由于一组不同的下游任务要求模型能够处理具有不同空间尺度的地理空间信息,并能快速准确地根据下游任务推断出正确的空间尺度,所以地理大模型中关于空间尺度转换的模块是能实现有效处理地理数据的关键组成部分。(3)泛化性与空间异质性:地理大模型还有一个关键问题是如何在跨空间实现模型的泛化性(也称可复制性),同时仍允许模型捕捉空间异质性。鉴于具有不同空间尺度的地理空间数据,这要求模型能够从中学习一般的空间趋势,同时仍记忆特定位置的细节。但这一关键技术仍未得到有效解决,还存在一些问题,例如这种泛化性有无可能在下游任务

186、中引入不可避免的内在模型偏见等,并且随着大规模训练数据的增加,需要考虑的问题也随之增加。由于目前主流的地理空间智能算法多是数据驱动型算法,训练数据,或称为样本数据,是其中的关键部分,它直接影响到训练出的 AI/ML 模型的准确度和可用性。高质量的样本数据需要具备完整的元数据信息、溯源信息及质量评价信息,使 AI/ML 模型的训练、验证和测试过程更加准确。根据地理人工智能样本数据的特点与需求,主要考虑了标注、溯源、质量、更新、一致性五个核心,总结了描述样本数据所必要的基本概念实体如图 2-14 所示(乐鹏等,2023)。图 2-14 地理人工智能样本概念模型 Fig.2-14 Geographi

187、c artificial intelligence sample conceptual model 其中,样本数据集(Training Dataset)是多个样本数据单元的总体集合,作为 AI/ML 模型的统一输入。样本数据实例(Training Data)作为样本信息模型的核心组成部分,代表了训练数据集中的单个样本实体。它包含了单个训练、验证或测试样本的基本属性和数据内容,为 AI/ML 模型提供了必要的输入。样本标签(Label)样本数据单元的标注结果,指示每个样本的分类或归类,旨在确保训练过程中的准确性并提高模型的精度。样本任务(Task)描述了整个训练数据集所涉及的目标和任务。样本质量

188、(Quality)涉及整个训练数据集以及单个样本数据单元的质量信息,有助于数据用户识别样本数据集的可用性和可靠性。样本标注活动(Labeling)是对生产样本数据集中样本数据的一次人工标注活动的信息描述。样本标注者(Labeler)是对生产样本数据集的人工标注活动中某一参与标注人员的信息描述。样37 本变更集(Changeset)是对样本数据集两个版本之间所有样本数据更新信息的描述。该地理空间人工智能样本信息模型考虑了标注、溯源、质量、更新、一致性,有助于实现多源异构地理空间智能样本数据的标准化表达。它不仅为样本库组织提供了信息模型基础,也为地理空间人工智能样本数据在网络环境下的共享提供了交互

189、操作基础。地理空间人工智能样本可以依据 AL/ML 任务目的进行前期准备,并根据标准的样本信息模型进行组织,能够直接满足模型的输入要求。AI 就绪工作流的完整流程如图 2-15 所示,分为生产、映射、组织、共享、集成、训练共六个步骤,可以实现样本数据和模型耦合的服务模式。图 2-15 AI 就绪工作流 Fig.2-15 AI-ready workflow 不同的地理空间智能应用样本数据内容和组织形式多样,如何构建统一的数据样本信息模型,是地理空间智能样本数据共享与交互操作的前提,也是构建地理大模型的基础。而如何考虑多模态特性、地理偏见、空间尺度等核心问题更是地理大模型设计的基础,将决定模型可以

190、捕捉到的地理信息和空间关系的类型和质量以及交互性能的质量。目前,有关地理大模型关键技术的研究正热,如高智能空间计算团队利用先进的计算方法和人工智能技术来分析和处理时空大数据,以实现空间环境的智能化决策和优化,其提出的 ReCovNet 模型、SpoNet 模型等,基于深度强化学习求解面向城市的空间优化问题,支撑了地理大模型空间优化方面的决策基础,推动了地理大模型相关技术的发展。2.4.3 地理大模型应用平台 在现实世界中,非专业用户要提出一个地理信息问题,通常需要先转换成地理专业语言,再由专业人员或模型利用现有地理工具进行解答(De Sabbata et al.,2023)。例如,非专业用户可

191、能仅描述需求为“找到靠近公园和公交站的地方”,而不是“使用缓冲区工具在公交站和公园的图层上找到靠近它们的地方”等专业语句。这是地理大模型面临的实际问题之一,而 GeoGPT 是一个可以自主和适应性地规划和执行地理信息系统工具来解决基于非专业用户的多样性需求的地理空间任务的地理大模型。GeoGPT 尝试通过将 LLMs 固有的语义理解能力与 GIS 社区内成熟的工具结合起来,降低非专业用户解决地理空间任务的门槛,即 GeoGPT 可以仅通过自然语言指令进行地理空间数据收集、处理和分析。GeoGPT 框架如图 2-17 所示,通过逐步思考、规划和执行这些工具,该平台可以自主解决复杂的地理空间任务,

192、包括地理空间数据抓取、空间查询、设施选址和制图等。GeoGPT 的主要功能如下:(1)多源数据集成:将来自不同来源的地理空间信息数据进行整合和汇总,以创建更全面、更多样化的数据集。这些数据可能来自于卫星遥感、地理信息系统(GIS)、全球定位系统(GPS)、社交媒体、传感器网络等多个源。通过自主决策整合这些数据,为后续的空间分析与计算提供了充足的数据支撑,从而能够更准确地理解和解决各种地理空间问题。(2)空间分析计算:预先构建了各种地理分析工具,这些工具能够补充大语言模型在38 地理空间分析与计算方面的能力。这些工具可能包括地理空间数据的处理、地理空间关系的分析、地图投影转换、地理空间模型构建等

193、功能。通过将这些工具与大语言模型结合使用,可以更高效地进行地理空间分析和计算,从而提高问题解决的效率和准确性。(3)结果可视化:为了更直观地理解空间分析的结果,增强了可视化手段,可以多维度展现空间分析的结果。这可能包括使用地图、图表、热力图、散点图等多种可视化技术,将分析结果呈现给用户。通过可视化,用户能够更清晰地了解数据分布、空间关联和趋势,从而更好地进行决策和规划。(4)分析报告生成:根据用户的需求,生成地理分析报告,为最终的成品报告撰写提供了前期参考,减少了从业人员的写作负担。这些报告可能包括分析方法、数据来源、分析结果、结论和建议等内容,通过报告可以将分析过程和结果清晰地呈现给用户,并

194、为后续的决策和行动提供支持和指导。图 2-16 GeoGPT 框架 Fig.2-16 Framework of GeoGPT 地理大模型应用平台为地理空间数据的整合、分析和应用提供了全面的解决方案。这种综合性的平台不仅能够满足专业人士的需求,还能够降低非专业用户的门槛,让更多人能够轻松地进行地理空间数据分析和应用。随着地理大模型的不断发展和完善,相信它会为社会经济发展和科学研究提供更强大的支持和帮助。2.5 交通大模型 党的二十大报告强调加快建设交通强国、网络强国、数字中国,我国的智慧交通建设进入快速发展期。随着大模型、大数据、云计算等新兴技术在交通领域的深度融合发展,通过对城市海量行为数据进

195、行训练和学习,可以实现对交通时空数据更为精准有效的处理,为自动驾驶、交通分析管理、交通行为感知、交通事故处理、智能交通决策等应用场景提供新的驱动大脑(图 2-17)。39 图 2-17 智能交通大模型解决方案 Fig.2-17 Intelligent transportation large model solution 城市交通是一个非常复杂的网络系统,受到时空特征、人员流动的动态性以及多种环境因素的影响(Du et al.,2021),是非常典型的从感知、认知到预知的系统过程。也正因如此,专注某一方面学习训练的人工智能模型往往只能在交通中做零碎化应用,大模型的出现为实现交通全域管理提供了可

196、能。2.5.1 图大模型 图大模型技术利用城市路网遍布的传感器所产生大量的空间时序影像数据来完成交通管理和交通行为预测等应用。大模型首先将路网中的时空数据进行收集,完成数据协调与融合处理,这类数据不仅能直接反映交通状况,还提供了车辆位置信息、轨迹数据和流量信息数据。然后利用空间分析模块完成空间拓扑关系提取,完成数据预训练。在训练框架中完成多任务学习,迁移学习,完成训练的模型执行预测功能。图像大模型关键技术包括图神经网络集成,多模态数据融合,时空序列深度学习模型,动态路况适应算法,交通流量数据特征自动提取、长期趋势分析,和多任务学习等。40 图 2-18 图大模型在交通领域的应用 Fig.2-1

197、8 Application of large model in the field of transportation 图神经网络集成:交通管理的挑战在于道路网络的复杂性,而图卷积递归神经网络是解决智慧城市交通预测问题的有效方法(Liang et al.,2023)。通过将图神经网络集成到交通大模型中,准确捕获道路网络的复杂空间依赖性,提高交通预测的准确性。图神经网络集成结构的应用对于学习交通系统复杂网络空间结构具有重要作用,保证了交通管理和规划中决策支持的可靠性。多模态数据融合:交通领域的数据组成极为复杂,具有多源性和异质性,交通大模型所需要处理的数据包括视频监控图像数据、GPS 追踪数据、

198、社交媒体数据和流量图片数据等。通过融合大数据分析、先进的机器学习技术和可靠的交通知识,在交通大模型中将不同模态数据进行融合,以获取更全面的交通流信息建立车道级别的道路网络。能够处理多模态的大模型可以在数字化、信息化和智能化等多方面为多时空尺度的城市交通规划、网络设计、交通基础设施建设和交通管理提供高精度的决策支持。时空序列深度学习模型:时空序列数据是交通领域数据的重要特征,根据多时相的空间数据可以完成轨迹推断和交通流量分析,为智能出行提供更加全面的服务。为了更好的处理时空数据,在大模型中集成时空图卷积网络和递归神经网络,同时学习交通网络中的时间序列和空间序列的特征,结合位置和时空信息预测移动信

199、息(Yao et al.,2023)。交通大模型对于时间和空间之间的关联性捕捉更为精确,同时也能大幅提升交通网络预测的准确性和效率。动态路况适应性算法:路况变化的不间断性是交通路网的重要特征。通过动态路况适应性算法,交通大模型可以实现实时调整模型,根据路网实时信息的变化调整模型参数,让模型算法也成为一个动态的模型,能够根据当前路况和预测变化改变调节预测策略。交通大模型是一个灵活智能模型,大模型的大数据处理和集成学习能力能更好地适应不断变化的交通环境,做出更为精准的预测服务。交通流特征自动提取:交通流特征是交通管理中的重要依据。在大模型中应用深度学习算法自动从大量数据中提取交通数据流的关键特征,

200、去除人为参与设定特征的过程。这种自动特征提取方法能够更全面地捕捉交通流的特征,从整体网络结构理解交通流,生成跨模式交通任务的解决方案。实时预测与长期趋势分析相结合:交通管理任务中需要即时应对当前情况,也需要对未来趋势进行预测,大模型集成实时数据分析模块和历史数据趋势学习模块,为交通管理和规划提供双重支持。通过对实时预测数据的长时间累积,对其进行重复学习并将直接传递给趋势学习模块,完成长时期和分场景的趋势预测。图大模型技术与交通领域相融合,可以实现实时交通流量预测,道路异常检测(Yu et al.,2023)、交通拥堵预警以及路线的推荐等。这些信息对于交通管理者来说至关重要,有助于其更好地规划交

201、通路线、优化交通信号控制、调整道路容量分配等,从而提高城市交通的效率和流畅度,减少拥堵和交通事故的发生。2.5.2 交通大语言模型 大语言模型基于深度学习模型和自然语言处理技术在大量数据上进行学习,形成一种通用的自然语言理解能力和生成能力。通用型大语言语言模型不需要进行专门的训练就可以执行多领域的任务,大语言模型的出现增强了交通基础模型在文本处理和分析方面的能力,将大语言模型集成到交通领域大模型,可以完成多项更为复杂的交通任务,比如交通事故报告的自动生成,交通状况生成,事故现场检测分析和事故现场理解以及智能交通助手等,这意味着交通大模型可以更为细致的为普通用户服务,成为普通用户的个人智慧交通助

202、理。41 图 2-19 交通大语言模型交互过程 Fig.2-19 The interaction process of traffic large language model 交通大语言模型是在多个细分领域模型的基础上集成多源交通基础信息数据构成的集成大模型,由大语言模型理解用户语义信息,用户输入的信息也是文本数据持续用于模型的训练,在大语言模型内部完成对语义任务的自主规划和评估并调用交通基础模型用于问题求解,分析交通问题模式和任务类型,并完成任务输出,回到大语言模型,反馈给用户(图 2-19)。在交通大预言模型中,关键技术包括语言-视觉交叉编码,语言理解与交通预测整合,迁移学习与领域适应以

203、及模型融合与集成学习。语言-视觉交叉编码:交通领域会产生大量的文本信息和视觉信息,将文本信息输入语言大模型(如 BERT、GPT),视觉信息通过图像模型进行处理,将得到的文本特征和视觉特征整合之后编码成为一个统一的特征向量,以表示交通场景的语义信息。融合后的多模态特征表示可以作为输入,用于训练深度学习模型,例如用于交通事件理解、交通流量预测等任务的神经网络模型。同时,在实际预测时,将交通场景的新文本描述和视觉信息输入到训练好的模型中,可以得到对交通状态的预测结果。语言理解与交通预测整合:将语言大模型用于理解交通相关的自然语言文本,例如交通新闻报道、社交媒体评论等,提取出文本中的关键信息、事件描

204、述和情感倾向等,将文本描述中的交通事件和事件发展趋势作为额外的特征与其它交通数据进行集成训练,以获取更为全面的交通事件和趋势的理解。这些理解结果可以与交通预测模型结合起来,为交通管理和规划提供更全面的决策支持。迁移学习与领域适应:利用语言大模型在自然语言处理领域的预训练能力,通过迁移学习的方式,将其应用到交通领域的任务中,在交通领域的数据集上对语言模型进行参数微调,以适应交通数据的特点和任务需求,在微调过程中,特别关注交通领域的特定语言表达和术语,使模型能够更好地理解交通相关的语义和上下文。同时,调整模型的训练策略,以适应交通数据的分布和任务的目标。模型融合与集成学习:将语言大模型与交通大模型

205、的预测结果进行融合和集成,以提高整体预测性能。采用集成学习方法,将多个基础模型的预测结果进行结合,以进一步提高预测性能。对融合后的模型进行性能评估,验证其在交通任务上的预测性能。根据评估结果对模型进行调优,优化融合方法和集成学习策略,以进一步提高交通预测的准确性和稳定性。交通语言大模型可以解决语言大模型的数值处理和交互模拟问题(Zhang et al.,2024),大幅提升数据分析效率,更加全面的释放各个交通领域各个参与者的能力。通过交通大模42 型,管理者和运维者能更直接获取客观真实的数据和报告,从而可以从全局视角出发给出客观分析,而基础用户通过交通大模型可以获得更为实时全面的交通预测信息。

206、交通大模型的出现将不仅改变交通系统的运行方式,也将深刻影响人们的出行体验和城市发展模式。2.5.3 跨模态智能交通大模型 跨模态智能交通大模型是基于多源数据和多种深度学习模型构成的综合系统,跨模态智能交通大模可以整合多源数据,包括传感器数据(雷达数据、摄像头数据)、视频监控数据、GNSS 定位数据和社交媒体数据,并以多模态形式进行数据融合,将多源数据转换为统一形式的特征向量。通过智能决策支持能力,模型能够预测交通流量、识别交通拥堵、优化交通信号配时,规划交通路线,实现交通系统的智能化管理和优化,此外,模型根据不断变化的交通环境和需求,动态调整模型参数和学习策略,通过实时响应和决策,有助于应对交

207、通事故和突发时间,替身交通系统的应急响应能力。交通大模型使交通管理者、规划者和普通用户能够直观地了解交通状况和趋势,获取个性化的交通建议和服务。其关键技术主要包括自动驾驶技术融合、增强学习和自适应决策、边缘计算和物联网技术应用以及区块链技术应用。自动驾驶技术的融合:随着自动驾驶技术的发展,交通大模型将融合自动驾驶相关的数据和技术。这包括从自动驾驶汽车、交通信号灯、智能交通设施等多源头收集的数据,将这些数据整合后输入到智能交通大模型,用于自动驾驶决策、路线规划和紧急事故避让等应用场景。通过与自动驾驶技术的深度融合,交通大模型可以更准确地理解和预测交通行为,并支持智能交通管理和车辆控制。增强学习和

208、自适应决策:通过增强学习技术,让交通大模型更加智能化,使其能够通过与环境的交互来自主学习和优化决策策略。这种自适应决策能力可以使交通大模型更好地适应不同的交通场景和变化的路况,从而实现更智能、更灵活的交通管理和服务。边缘计算和物联网技术的应用:随着边缘计算和物联网技术的普及和发展,交通大模型会更多地利用边缘设备和传感器收集的数据。这些数据可以包括车载传感器、交通摄像头、智能交通信号灯等设备采集的实时交通信息,通过与云端模型的协同工作,实现更快速、更实时的交通分析和预测。区块链技术的应用:区块链技术的去中心化、安全性和透明性特点使其在交通领域具有强大的应用潜力。交通大模型利用区块链技术来确保交通

209、数据的安全性和可信度,以及实现交通数据的共享和交换。通过区块链技术的应用,可以建立起更可靠和安全的交通数据平台,支持交通管理和服务的智能化和优化。跨模态智能交通大模型将多个领域的专业模型与交通基础模型的专业知识无缝融合,这种方法不仅有助于推动交通管理领域的发展,而且还为利用该领域的人工智能功能提供了全新的视角。智能交通大模型的适应性和灵活性允许根据特定业务需求合并交通基础模型,再加上根据具体任务要求自主选择和执行交通基础模型,是在交通和城市规划领域解决复杂问题方面的重要应用。2.6 空间数据智能大模型新观点 随着大数据时代的来临,空间数据智能模型作为地理信息科学领域的核心研究方向,正逐渐展现其

210、重要的应用潜力。空间数据不仅涵盖了地理实体的位置、形态等基本信息,更蕴含着丰富的空间关系与语义信息,这为深入理解物理世界和社会空间现象提供了强有力的支撑。作为现实世界的重要载体,地图不仅提供了丰富的空间信息,也为理解物理世界和社会空间现象提供了关键视角。深度强化学习作为一种新兴的机器学习方法,其在空间优化问题上的应用也逐渐展现出巨大的潜力。本节将在城市、空天遥感等大模型的基础上,围绕空间数据智能模型的新技术点展开探43 讨,重点关注地图作为模态数据在地理信息处理中的应用,深度强化学习在空间优化问题中的探索,以及知识图谱耦合人工智能的实例应用。通过深入分析地图数据的特性及其在大型语言模型中的融合

211、方式,探讨如何有效地处理地理文本信息并将其适配到大型模型框架中,阐述深度强化学习在空间优化问题中的建模方法和应用实例,解释新时代人工智能与知识图谱的结合机理,为推动地理信息科学的发展和应用做出积极贡献。2.6.1 地图作为一种模态数据 地图在理解物理世界和社会空间等复杂现象中发挥着关键性的作用。它是观察、解释和理解现实世界的一种可视化表达形式。在具体应用中,可以利用多源数据来创建展示特定信息的地图,比如使用兴趣点(POI)、出租车轨迹数据、归一化植被指数(NDVI)等数据。下一代地理信息系统将整合传统的空间数据处理、空间分析技术和空间推理能力,实现对地理空间数据的 GPT 化。在大型语言模型架

212、构中,地图可以被看作一种模态数据,就像音频、图像和文字一样,可以被有效地融合。深度学习和自然语言处理的研究已经证明了文本、图像等其他形式的模态数据与地图之间的相互关联。例如,遥感图像可以通过自然语言处理技术进行描述和分析,而地理知识图谱的提取和组织可依赖于文本数据的处理。然而,以往的研究在地理理解方面局限于经纬度本身以及经纬度之间的关系,而地理信息包含的远不止经纬度。地理实体之间存在着多种复杂关系,如包含和交叉。因此,目前地理信息在地理文本处理领域的应用仍远未充分利用。但地理文本由于其丰富的表达以及与地图联动的多模态属性,一直是自动化处理的一个难题。因此,如何处理地图信息并将其适配到大型模型框

213、架是当前研究的重点。目前的研究较少关注地理文本信息的处理,更多地集中在地理文本本身。已有的地理信息在地理文本处理方面的应用主要包括滴滴提出的 PALM 模型和 GeoBERT 模型,以及百度提出的 STDGAT模型和 Ernie-GeoL 模型。PALM 和 STDGAT 属于 BERT(Bidirectional Encoder Representations from Transformers)之前的模型,PALM 模型通过 CNN 对经纬度进行离散化表征,从而使模型能够学习查询与 POI 之间的距离关系。STDGAT 在 PALM 的基础上添加了用户的时间序列行为。BERT 时代的 Er

214、nie-GeoL 主要关注将用户在地图上的各种行为(如打车、点击采纳、多次输入)融入到预训练中,并在预训练任务中加入了经纬度的预测(使用 GeoHash 表示经纬度)。GeoBERT 将地理库中的实体文本按照距离远近和行政包含关系进行图建模和图学习,并将学习到的实体文本向量与输入的地理文本进行融合。基于地图-文本的多模态架构,我们可以利用多任务预训练技术,结合注意力对抗预训练、句子对预训练和多模态预训练等方法,训练适用于多种地理文本任务的预训练底座,以提升对下游广泛的地理文本处理任务的性能。在这个过程中,需要将作为数据源的地图进行符号化处理,对输入的文本数据进行标记化处理,并将其通过嵌入层转换

215、为向量表示。根据地图的类型(栅格或矢量),选择合适的数据结构。通过表征学习,模型可以学习地图数据和文本数据的共同表征,并将地理知识整合到其中,以提高对地理空间数据的理解。所学习到的表征可以应用于人工智能的下游任务,如路径规划或地点推荐。同时,还需要制定相应的处理规则,并分析不同数据表示之间的关系,以优化模型的性能。在处理高维数据时,可以采用稀疏表示来降低计算复杂度。这样,地图数据就能够有效地融入大型语言模型中,提高模型在处理地理空间信息时的性能和准确性。2.6.2 深度强化学习在空间优化中的应用探索 马尔可夫决策过程(MDP)和深度强化学习在解决空间优化问题方面有着良好的适应性。MDP 是一种

216、基于状态作决策的过程,其决策只与当前状态有关,与过去的状态无关。这使得 MDP 与深度强化学习非常匹配。通过将空间优化问题建模为 MDP,我们可以利用深度强化学习来解决该类问题。深度强化学习结合了强化学习和深度学习的优势。深度学习44 用于感知环境并提供当前状态信息,强化学习用于决策并根据预期回报评估动作的价值。通过与环境的交互和奖励信号的反馈,深度强化学习能够自主学习和优化智能体在复杂环境中的行为。深度强化学习通过自我学习来建立决策规则,并通过多次试错来不断提高性能。它的核心思想是利用强化学习来进行决策,通过与环境的交互来获取奖励信号,并根据奖励信号来调整决策策略,从而使得智能体能够在复杂的

217、环境中自主学习和优化其行为。在空间优化中,我们可以利用深度强化学习来解决诸如路径规划、资源分配、布局设计等问题。将空间问题建模成马尔可夫决策过程,其中状态可以表示为空间中的某种状态,动作可以表示为在空间中的移动或操作,奖励可以表示为优化目标的评价指标。在决策过程中,深度强化学习算法将根据当前的状态选择相应的动作,并通过观察环境反馈的奖励信号来评估动作的价值。通过不断尝试不同的动作,智能体可以逐步学习到如何在不同的状态下做出最优的决策,从而实现空间的优化。在应用深度强化学习进行空间优化时,需要考虑问题的复杂性和计算的成本。深度强化学习需要大量的训练样本和计算资源,特别是在大规模的空间问题中,优化

218、算法的设计和训练过程的调优非常关键。深度强化学习在微观尺度行人模拟与选址问题中具有强大的应用潜力,其可用于应急疏散、物流配送、广告牌选址等领域,验证预案的效果、发现优化的动作。与传统的微观尺度行人模拟方法(如 Social force 模型和 Pathfinder 软件)相比,深度强化学习能够提供更准确的模拟结果,尤其在细节方面表现更出色。2.6.3 AGI 时代的地理知识图谱机遇与挑战 在人工智能(AI)向通用人工智能(AGI)的发展过程中,AI 技术产生了“质的飞跃”,但以语义网络为基础知识图谱在地学中的依然不可或缺。地理知识作为对自然现象和人类现象的地理思考和推理的产物,在回答地理学相关

219、问题中扮演着重要的角色。地理知识具有多层次、多样性、多维度和多粒度的特点,包括技术方法中的专业技术知识、地理常识与地理学科基础知识,以及地理数据中的专业应用知识。地理知识图谱通过以语义网络为主体的表示方法建立地理知识库,实现了人与机器对地理知识的理解、计算和交互。它打造了一个人机可理解、可计算和可交互的地理知识体系。地理知识图谱是“人-机”融合的地理语言系统,学科知识是地理知识图谱的基础。地理知识的认知体系建立机理涉及人脑智能产生的人类语言和地理学科知识,以及将其表达与输出内容进行数字化并导入数字知识载体,利用机器语言进行信息理解。搭建智能系统将地理知识作为核心和桥梁,通过人机协同构建地理知识

220、库并进行知识体系交互映射,耦合地理知识库与地理大数据,进行协同计算和推导知识发现,从而解决地学问题。为了实现高效的地理知识管理,可以利用基于云原生架构的地理知识库引擎,其中核心是以 GeoKE 为中心的全链条的知识型地理信息系统(GIS)平台。这一技术框架采用统一的云原生架构系统(OneSls),开发环境使用 Java、SpringBoot 和 Maven 项目对象管理模型。数据存储方面采用 NebulaGraph(知识图谱)、PostgreSQL(关系数据)、PostGIS(空间数据)和里里 OSS(文件数据)。核心模块包括多模态地理知识存储、多模态地理知识管理和多模态地理知识查询。地理知识

221、图谱的未来发展面临着多重挑战,在学科交叉方面,面向人工智能的地理知识体系构建需要将地理思维和人工智能思维融合。这意味着地理学领域的专业知识需要与人工智能技术相结合,以推动地理知识图谱的发展和应用。地理知识图谱、大语言模型以及地理模型将成为未来发展的重要方向,它们相辅相成,共同推动地理人工智能的发展。这意味着需要在地理学和人工智能领域同时进行研究和发展。地理知识工程的可持续建设需要充足的资金支持和长期的机制保障。这包括建立开放的地理知识共享平台,促进不同研究机构和个人之间的合作与交流,以推动地理知识图谱的共建共享。地理知识图谱的应用实践至关重要。需要开放资源,打造样本工程,奠定地理人工智能在学科

222、和领域中不可或缺的地位。这意味着需要在实际应用中验证和完善地理知识图谱,并逐步推广到更广泛的领域和行业。45 2.6.4 GeoAI 中大模型与知识图谱的互补 在地理人工智能(GeoAI)中,大模型和知识图谱具有互补性。大模型采用参数化形式表达知识,而知识图谱则采用结构化形式表达知识。大模型适用于处理隐性的非确定表达,而知识图谱则能够提供显性的确定性表达。这两种方法在知识表达和建模方面相辅相成。在GeoAI 中,随着全空间各类自然要素数据的爆发式增长,数据获取和分析的能力也面临巨大的挑战。传统的数据挖掘方法在处理高维空间数据上存在一定的限制,并且对应用方面的探索还比较有限。为了克服这些限制,G

223、eoAI 引入了向量(Vector)作为人工智能和大型模型时代的基石,从而实现了地理空间的智能化。地理向量具有明确的空间结构特征、显著的空间拓扑关系、复杂的语义连接和特定的自然资源要素表征,具备多粒度和多时空尺度的特点。GeoAI 的研究趋势可以分为空间管理、空间智能和空间决策三个方面。在空间管理方面,需要将二维地理信息系统(GIS)的理论和方法拓展到三维空间,并开发一套对全空间、全要素、全内容的三维空间计算方法,以实现地理空间要素、格局、过程、模式和规律的组织管理和表达分析。在空间智能方面,研究可解释性知识图谱和地理知识嵌入的方法,以提高地理空间数据的智能化程度。在空间决策方面,需要支持国家

224、重大战略和基础设施建设。这些研究方向可以为各个领域提供精准的时空赋能。大模型和知识图谱的互补性可以实现将地理经验约束融入到地理知识图谱中,同时也可以将知识图谱的结构嵌入到大模型中。GeoVector 数据库是实现通用地理空间智能的基础,其内嵌了物理知识神经网络(Physics Informed Neural Network,PINN),可用于构建多时空尺度的地理表征、分析、预测和解释框架。GeoAI 不仅深入地球的水、土、气、生、山、林、田、湖、草等时空领域的大数据研究,还重塑了测绘地理信息理论和技术,为国家重大发展战略提供了支撑。三、空间数据智能大模型关键技术三、空间数据智能大模型关键技术

225、3.1 时空大数据存储及处理技术 随着信息技术的进步,处理、分析和可视化时空大数据的需求急剧增加。在大数据时代,地理信息系统面临着新的挑战。为了克服大数据带来的困难,GIS 必须发展其技术来应对大数据。GIS 面临的一些挑战包括分析和处理时空大数据、聚类和分布空间大数据、索引和管理大数据以及在系统中计算和可视化大数据,同时保持高性能。目前,流行的大数据平台(例如 Hadoop 和 Spark)不具备执行空间分析、空间计算或空间数据挖掘的能力。为了实现大规模空间数据分布式存储和管理、分布式空间数据的突破和创新,计算、实时大数据处理和可视化,GIS 有必要集成通用的大数据技术。另一方面,面对数据量

226、的增加和数据类型的不断增多,传统关系数据库很容易出现存储效率低、并发访问能力弱、横向扩展困难等瓶颈问题,开发新的空间数据存储技术势在必行。容器技术(如 Docker)有利于 GIS 的快速、大规模部署,负载均衡中的最佳同步和发现机制为 GIS 服务的动态扩展和灾难恢复提供支持。如果 GIS 系统试图使用数据来执行查询或生成地图,则必须转换 Spark 的输出数据并将其传输到 GIS 平台。该过程通常非常耗时且消耗存储空间。另外,传统 GIS 系统仅执行作业队列中的计算任务,无法处理流式数据。传统的 GIS 软件和单机处理架构无法分析大量(例如超过 10 亿条记录)的时空大数据。此外,这些集成过

227、程需要高规格的计算机硬件,并且需要重写 GIS 中大数据的大多数算法。因此,空间数据智能大模型的时空大数据存储和处理平台架构应包括海量空间虚拟存储、分布式计算框架、云计算集成、流式数据处理(大46 数据流式高性能处理在 3.3.3 节详细介绍)、3D 虚拟现实、快速多终端应用、容器技术与持续交付等性能。3.1.1 海量空间虚拟存储 在空间数据智能大模型中,一个关键问题是数据存储。随着数据产生的数据类型多样性高、价值密度低,传统的文件系统和数据库已经无法在继续满足大数据存储需求的同时保持高性能。近年来,虚拟存储领域的技术和解决方案不断涌现,其中不少已被互联网平台广泛应用于地理空间数据,但还需要将

228、传统的文件系统和关系数据库存储解决方案演进为分布式、虚拟化和软件定义的存储系统,以便存储可扩展性和处理能力能够应对未来的挑战。虚拟存储系统可以分为三类:分布式文件系统、分布式关系数据库、NoSQL/NewSQL存储系统。分布式文件系统主要用于解决单机系统存储空间有限、成本高等问题。通过多复制副本运行并发 I/O 不仅可以增加计算带宽,还可以增强系统的负载平衡、容错能力和动态可扩展性。该系统可以部署在云计算环境中,支持大文件大小、内存缓存、空间共享和 REST Web 服务。这种类型的一种流行数据库是 Hadoop;其他类似的系统包括 Ceph 和 IPFS。分布式关系数据库主要是在传统数据库中

229、新增分布式集群和分布式事务处理特性来实现(实现示例包括 PostgreSQL 集群、MySQL 集群、基于 Docker 技术的 CrateDB)。由于与原有数据库的高度兼容性,这些系统可以更好地支持 SQL 和事务处理。由于原有的管理方法和软件仍然可以应用,数据迁移和系统扩展变得更加容易。由于这些系统大多是开源的,成本相对较低;尤其是当系统需要部署在多节点集群环境中时,这一点尤为重要。NoSQL/NewSQL 存储系统注重减少 ACID 事务数量,使其数 据处理性能得到显著提升。如今,许多不同的虚拟存储系统存在于各种环境中,并且以不同的方式使用。如何充分发挥各个系统的优势,同时实现系统间资源

230、的共享和转移?如何提供统一的数据访问、读写方式,同时具备多种平台存储数据的能力,让数据变得更有价值?为了解决这些问题,空间数据智能大模型基于 SDX+中的多源空间数据与 GDBCLI 中的接口的无缝集成,集成了虚拟时空综合服务系统 DaaS(Data as a Service),实现统一的 REST 服务框架,可以轻松连接多种类型的数据存储系统,同时与现有连接的数据库系统配合使用。该系统支持分布式、多级空间数据库存储服务,以及云/本地数据一站式管理。通过使用统一的数据接口,该系统可以与 Hadoop 存储生态系统、MongoDB 存储系统、PostgreSQL 集群、MySQL 集群以及其他现

231、有数据库连接(图 3-1)。47 图 3-1 从 SDX+到 DaaS Fig.3-1 From SDX+to DaaS 随着存储空间需求的增加和维护成本的增加,数据的价值不断下降。如果能够在合理的时间内消耗数据,数据将会成为更宝贵的资产。相反,如果数据使用不当,可能会成为企业的负担。例如,如果没有足够的数据安全投资,企业就会面临敏感数据泄露的风险,这可能对公司造成损害。仅仅拥有数据并不会给企业带来好处。事实上,数据的使用效率决定了其价值。因此,建立连续的数据处理基础设施来满足应用程序的需求至关重要。此外,维护和应用数据价值是开发空间数据智能大模型的一个关键方面。3.1.2 分布式计算框架 当

232、摩尔定律走到尽头时,很难通过提高 CPU 的时钟频率来追求进一步的处理器速度,而多核 CPU 成为新常态。通过使用多线程和进程技术来管理和并行处理任务,或者使用显卡的 CUDA 和 OpenCL 并行计算机制,系统可以突破单个 CPU 内计算能力的限制。在空间数据智能大模型中,CUDA 的多线程支持、多进程服务以及基于 OpenMP 的空间分析算法,显着提高了空间数据处理和模型分析的效率,它使对象可视化功能能够实时运行。Hadoop 中的 MapReduce 模块专为批处理而设计,被认为是新一代分布式计算的先驱。然而,它有许多弱点。这些弱点包括启动速度慢、部署复杂、无法进行回归计算等。基于分布

233、式内存计算模型和更好地支持流计算的 Flink 构建的模块已经开始被 Spark 取代。由Apache 软件基金会主导的 Hadoop/Spark 开源生态系统已经成为大数据领域的标准,许多业务解决方案都是基于这个框架构建的,这些业务解决方案包括 Databricks、Amazon、IBM 和Oracle 的大数据服务云。随着 GPS 系统、卫星图像、无人机摄影和智能测量设备的进步,对空间数据存储和处理的要求迅速增加。因此,将 GIS 功能导入 Spark 框架中,构建空间数据智能大模型集成的分布式时空数据处理平台就显得尤为重要(汪富生,)。如最新的 SuperMap GIS 平台全面支持 S

234、park 计算框架。空间数据智能大模型具有完整的大数据解决方案,包括 GIS 核心引擎、客户端 SDK 和应用系统三个主要组件。GIS 核心引擎既可以作为 Scala 导入到 Spark 环境中,也可以通过支持 Python 在不同的前端大数据分析软件中实现。通过将 iObjects for Spark服务集成到 iServer 产品系列中,可以通过 REST 暴露分布式空间分析模型计算服务。其返48 回结果可以在具有 iObjects、iDesktop、iDesktop Cross、iMobile、iClient 和其他 2D/3D 链接客户端的应用程序中轻松使用和可视化(图 3-2)。图

235、3-2 海量 GIS 集群架构 Fig.3-2 Massive GIS cluster structure 通过这一举措,空间数据智能大模型将能够充分利用现代计算硬件和数据中心带来的大规模存储、分布式内存、集群管理及其部署能力,可以在分布式调度和存储上,基于时空相关性进一步提高时空流的高效管理(李悦艺,张丰,杜震洪,等.,2023)。此举还将解决传统 GIS技术中存储空间不足、计算能力不足等问题。空间数据智能大模型使得构建大规模的应用系统或进行高精度的空间关系研究成为可能,促进地理空间模型或算法的众多类型的应用和突破性的发展,不仅将 GIS 科学和地理科学提升到一个新的水平,还将提高环境管理、

236、灾害管理、城市规划等方面的效率。3.1.3 云计算集成 云计算提供了一套共享计算资源的模型和方法。采用边缘-云-混合计算范式动态分配计算资源,不仅提高了系统利用效率和计算数据收集效率(Chen et al.,2022),也使得短时间内聚集大规模计算能力成为可能。基于云的遥感平台的最新进展颠覆了大数据处理方法的常态,尤其是在遥感大数据(RSBD)分析的方面(Xu et al.,2022)。亚马逊、谷歌、微软、IBM都大规模提供云数据中心服务。在中国,里里云、百度云、腾讯云也提供多样化的云计算服务。近年来,不少初创公司开始提供基于 Docker 技术的服务,如七牛、青云等。这些云计算平台都允许用户

237、管理计算资源,按需租赁资源,快速建立大规模的云计算集群。在过去,传统的服务器租赁服务是主要焦点。如今,基于 Hadoop/Spark 的分布式云计算集群已经成为大型数据中心的标配服务。随着 Docker 容器技术的快速发展,其所基于的云计算服务可以进一步降低维护和成本,提供更灵活、敏捷的解决方案来分配和部署资源。使用 Docker 技术,不同数据中心之间或公共云和私有云中心之间的服务迁移也变得更加容易。综上所述,云计算服务已经从基于虚拟机的服务器租赁服务转向基于 Docker、Hadoop/Spark 等新技术的分布式集群服务和微服务。在 Docker 中,云服务可被业务组件封装为微服务,并可

238、以在部署时根据需求进行组装。Docker 实例可以在公有云、专用云、行业云、私有云中按需开发、测试、运行和部署。这将大大降低云计算服务的维护成本和开发难度。GIS 云计算集成基础设施必须与 Docker 技术49 充分结合,基于微服务概念模型来设计、开发和部署系统。如 SuperMap iServer、iExpress、iPortal、iManager 已支持 Docker;基于其技术标准和微服务结构的服务可以部署到不同的云计算数据中心。其他功能,例如不同类型的计算基础设施之间的集成以及自动管理系统的功能也都包括在内。此外,企业用户和个人用户可通过地图或在线门户直接访问这些服务(图3-3)。图

239、 3-3 基于云计算和 Docker 的微服务架构 Fig.3-3 Microservice structure based on cloud computing and Docker 通过实现基于 Docker 的微服务基础设施,可以将 GIS 系统部署为云计算模块,实现多云的统一集成和管理。我们还可以将地理空间大数据完全集成到云计算基础设施中。这些特性已经成为现代数据中心的核心能力,甚至成为智慧城市、环境资源等众多行业必不可少的系统组件。它还提供地理空间数据管理、空间格局分析、地理空间数据可视化、API 共享等应用服务的核心功能。3.1.4 3D 和虚拟现实 近年来,3D 相关信息技术取得

240、了长足的进步。随着图形卡处理能力的进步,其支持的软件标准和技术如 OpenGL、OpenCL、WebGL 等也迅速发展。VR/AR 耳机和眼镜的突破将数字 3D 应用带入了新时代。由于 IT 革命,GIS 取得了两项关键的改进:倾斜摄影集成和2D3D 联动功能。从检索完整的地理空间数据到构建模型,最终终端应用程序中使用数据的过程已得到简化。空间数据智能大模型的 3D GIS 技术,为导入数据、发布服务、分析应用、获取 Web 访问和改进移动应用程序提供全面的解决方案。它与多种服务器类型、组件、移动平台、Web、桌面软件、现有数据库、云计算服务和其他 IT 基础设施兼容。通过将实景三维和 BIM

241、 技术与空间数据智能大模型相结合,我们可以进一步将空间数据智能大模型应用到多个微观管理领域,例如构建零件和管理组件对象,以及开发智能建筑或物联网网络的支持系统。通过将 VR/AR 与空间数据智能大模型相结合,城市规划和管理可以提供更丰富的用户体验,从而提高土地管理、市政管理、城市规划等方面的公共服务质量。空间数据智能大模型的 3D 虚拟现实不仅简化了数据收集过程,还提供强大的现场管理功能。此外,它还创建了一个公共 IT 平台,允许用户进行进一步的空间规划、应用和优化50 (图 3-4)。图 3-4 空间数据智能大模型 3D 虚拟现实技术和解决方案 Fig.3-4 Spatial data in

242、telligent large model 3D virtual reality technology and solutions 3D GIS 已经成为空间数据智能大模型的关键组成部分。然而,未来的 3D GIS 将超越当前的 3D GIS,对现实世界进行模拟。它还将支持实际实例模型的 bool 操作。此外,将物理引擎和碰撞检测算法导入 GIS 将使模型和时空环境的模拟更加真实。它将推动规划、设计、管道、交通、施工等领域的业务应用。未来空间数据智能大模型的 3D 虚拟现实性能还将影响高精度导航、自动驾驶汽车、机场管理等新进步。3.1.5 快速多终端应用 软件就像数据价值的放大镜。数据使用得越

243、多,产生的价值就越大,并且需要的软件兼容性就越高。因此,空间数据智能大模型不仅需要具备强大的数据能力,还需要具备多样化的应用程序兼容性,同时大模型及其软件平台应该适用于不同的环境和所有移动设备。客户端可以分为设备、操作系统、硬件基础设施和编程语言。支持的客户端类型越多,兼容性就越强。这也意味着更多的用户可以为数据创造更多价值。在空间数据智能大模型及其软件产品的快速多终端应用实践中,SuperMap GIS 产品家族提供了非常丰富的客户端支持。基于.NET 的 iDesktop 和基于 Java 构建的 iDesktop 可以直接访问云计算资源和海量存储。它具有专业 GIS 用户处理数据、生成地

244、图、分析空间格局的功能。iClient 提供 WebGIS 功能,兼容不同浏览器。其功能包括访问服务器共享数据、执行在线分析、可视化场景等,可在多种操作系统上使用,无需安装插件软件。iMobile 不仅提供 iOS 和 Android 开发的 SDK,还支持元信 OS 等嵌入式操作系统。由于 GIS 功能易于访问和便携,SuperMap 合作伙伴或其他车辆测量设备在手持平台上开发了大量应用程序,以满足自己的专业需求。SuperMap 是支持终端数量最多的 GIS 平台,提供桌面、Web、移动端的 SDK,并支持通过 API 访问云服务(图 3-5)。用户可以使用 SuperMap 提供的 SD

245、K 和插件框架来开发通用应用程序。支持飞腾、龙芯等众多中国本土 CPU 品牌,以及中国操作系统 Kiron OS。总而言之,GIS 系统在兼容性方面取得的进展,将让系统从大数据中释放出额外的潜力,产生更多的数据价值。51 图 3-5 空间数据智能大模型多客户端解决方案 Fig.3-5 Spatial data intelligent large model multi-client solution 3.1.6 容器技术与持续交付 在互联网技术的推动下,软件开发方法论得到了彻底的发展。随着 Git/Gitlab/Github 的出现,分布式版本控制取代了传统的集中式软件开发方法。如今,社区开发

246、、公共代码审查、自动测试和持续集成已成为标准的开发方法论。与虚拟化相比,Docker 容器可以部署在系统底层,直接运行在 Linux 内核之上。Docker 允许用户将软件编译为包并隔离运行环境。通过实施 Docker,可以轻松建立可定制的微服务系统框架。Docker 还缩短了系统部署时间,简化了数据中心之间的迁移过程。为了满足在线平台的最新需求,持续交付理念和DevOps 方法已经取得了长足的进步。与 Mesos、Kubernets 等集群管理系统的集成也已经开发出来。容器框架上的自动化流程和持续交付方法大大缩短了软件更新和修复错误的时间,提高了软件开发的响应速度。这种快速迭代可以加快软件创

247、新速度并减少系统风险。为了实现快速迭代、实时测试、运行时验证和受控交付功能,空间数据智能大模型分为三个部署区:开发区、验证区和生产区。除了测试数据和源代码之外,还包括开发工具、用例库和测试系统。验证区包括验证数据、验证系统和评估系统。生产区包括生产系统,其中包含当前运行的系统和最新更新的系统。这使得灰色发布成为可能,即通过 AB 测试方法迁移到新版本系统的行为。在空间数据智能大模型的可靠性验证和解决多版本带来的复杂性问题上,SuperMap 研究团队开发了覆盖整个解决方案的持续交付系统,建立了软件开发、集成和测试的自动化工作流程。为了向线上平台迈进,地图慧和在线服务门户逐步构建了支持持续交付和

248、 DevOps 的框架。目前,SuperMap iServer、iExpress、iPortal、iManager 等产品已经集成了 Docker 和微服务框架。其本身应该能够发展和更新。容器和持续交付方式使软件迁移过程更加顺畅,确保系统和数据能够按需部署。这可以提高效率并提高系统可用性。传统软件开发中的开发、测试、验证、部署、生产维护/管理/更新都将被集成。系统将实现快速响应时间、运行时错误修复以及不需要停机的更新功能。总之,利用云计算框架、虚拟化技术、容器技术构建持续交付和 DevOps 工作流程的系统,将是未来软件开发的主流趋势。这将成为适应大数据挑战的必要步骤。52 3.2 空间分析与

249、可视化 3.2.1 空间因果推断 因果关系的发现有助于理解自然或物理机制。在地球系统科学中,因果关系也起着基础性作用,并引起了越来越多的关注。然而对于空间尺度的研究来说,设计和进行对照实验来揭示因果关系是不可行的。因此,在(“因先于果”的假设前提下,从时间序列数据中进行因果推断的方法经常被采用。虽然时间推理能有效地确定变量之间的大部分因果关系,但仍然存在局限性。如果时间序列不够长,无法捕捉到因果关系的重大变化,一些重要的因果关系可能会被忽视。这种局限性在地球系统科学中尤为突出,因为全球变化的演变可能需要很长的时间才能呈现出明显的变化。鉴于地球系统科学的研究对象具有大规模空间分布的特点,而且通常

250、缺乏完整的时间序列数据,因此可以从另一个角度进行因果关系推断,以充分利用空间差异。具体来说,虽然一个变量的变化在时间上可能无法被发现,但该变量的广泛分布使得其变化在空间上很容易被识别。从时间序列数据中推断因果关系的一般原则是基于时间变化-反应机制。同样,空间变化(变量在不同空间位置的变化)和相应的反应也可用于因果推断。因果关联是内部机制的重要组成部分,可以通过观察和分析它们呈现的现象来识别。空间分布是提取因果关联的重要现象,是对时间变化的补充,相应的空间横截面数据记录了空间过程及其相互作用,空间差异(顺序)为理解因果关联提供了有价值的参考。通过形式化的数学方法,使推理框架能变得易于理解和可移植

251、,以供来自不同学科的研究人员或人工智能(AI)从大数据中推断因果关系。从这一角度来看,空间因果推断涉及大规模地理时空面板数据的处理、分析与归纳,针对这一目标,在空间数据智能大模型中内置空间因果推断算法模块,并与深度学习算法耦合,有助于基于面板数据的高性能因果模式推理,并将得到的因果模式赋予深度学习算法中进行训练以提供地理因果关系维度的特征信息。考虑到地球系统科学中对空间横截面数据因果推理的需求以及现有时空因果模型的局限性,设计一种采用动力系统理论和广义嵌入理论的地理会聚交叉映射(Geographical Convergent Cross Mapping,GCCM)算法以引入空间智能大模型实现空

252、间数据因果关系的快速识别与提取。GCCM 能够识别空间横截面变量之间的因果关系,并估计相应的因果效应。对于同一组空间单元上的两个空间变量 X 和 Y,组织为规则网格(栅格数据)或不规则多边形(矢量数据),它们的值和空间滞后可以被视为从每个空间单元阅读值的观测函数。根据广义嵌入定理,它们的影子流形 Mx 和 My 可以使用(或,)来构造,s 是当前研究的焦点单元。对于给定的 x,其对应 y 的值可以根据从 Mx 中识别出的其近邻来预测。这种基于最接近的相互邻居的预测被定义为交叉映射预测:=()+1=1 其中,s 表示 Y 的值需要被预测的空间单元,是预测结果,L 是嵌入的维数,是预测中使用的空间

253、单元,(是(处的观察值,并且同时是 My 中的状态的第一分量,记为(,)。53 图 3-6 用于交叉映射预测的互邻域 Fig.3-6 Mutual neighborhood for cross-mapping prediction 图 3-6 显示了 GCCM 的基本思想。在图 3-6(a)中,重建流形中的互邻点是可靠的交叉 映 射 预 测。标 记 为(,)(的 色 点 是 拟 预 测 的 焦 点 单 元 状 态,四 个 蓝 色 点54 (,1),(,2),(,3)和(,4)是加入预测的最近邻居,它们是通过 Mx 和 My 之间的一对一映射找到的。(,)是 Mx 中(,)的对应态。在 Mx 中

254、搜索到的最接近(,)的邻居是(,1),(,2),(,3)和(,4),并且可以用于利用相互空间位置来标识 My 中的(,1),(,2),(,3)和(,4)。3.2.2 空间数据聚类 聚类用于根据特征空间中元素的接近程度发现相似模式,其广泛应用于计算机科学、生物科学、地球科学和经济学。虽然基于划分和基于连通性的聚类方法已经发展起来,但数据的弱连通性和异构密度阻碍了它们的有效性。对于空间数据智能大模型而言,内置一种空间聚类算法使得大模型的神经网络结构在训练和输出过程中对空间数据的连通性和异构性更加敏感,将对提升大模型空间数据的聚类效率乃至结果输出的稳定性和准确性具有重要作用。边界寻求聚类算法使用本地

255、方向中心(Clustering by Direction Centrality,CDC),并采用一种基于 K-最近邻(KNN)分布的密度无关度量来区分内部点和边界点,以解决空间数据聚类在连通性和异构密度方面的局限性。边界点生成封闭的笼子来约束内部点的连接,从而防止跨集群连接并分离弱连接的集群。CDC 的核心思想是根据 KNN 的分布来区分聚类的边界点和内部点。边界点勾勒出簇的形状,并生成笼来绑定内部点的连接。聚类的内部点在各个方向上都被其相邻点包围,而边界点只包括一定方向范围内的相邻点。为了测量方向分布中的这种差异,算法将 KNN 在2D 空间中形成的角度的方差定义为局部方向中心性度量(Dir

256、ection Centrality Metric,DCM):=1(2)2=1 中心点的 KNN 可以形成 k 个角1,2,(图 3-7a)。对于 2D 角度,条件=1=2成立。当且仅当所有角度相等时,DCM 达到最小值 0。该条件意味着中心点的 KNN 在所有方向上均匀分布。当这些角之一为 2 而其余为 0 时,它可以最大化为4(1)22。当 KNN 沿同一方向分布时,会发生这种极端情况。根据极值,DCM 可以被归一化到范围0,1,如下式所示:=4(1)2(2)2=1 DCM 计算的一个样本结果表明,集群的内部点具有相对较低的 DCM 值,而边界点具有较高的值(图 3-7b)。因此,内部点和边

257、界点可以由阈值 TDCM 划分。两个合成数据集DS5 和 DS7 的划分结果验证了有效性(图 3-7c,d)。在计算 DCM 和连接内部点之后,我们通过将每个边界点分配给其最近的内部点所属的聚类来完成该过程。CDC 包含两个可控参数,k 和 TDCM。k 调整最近邻的数量,TDCM 确定内部和边界点的划分。在实践中,考虑到 TDCM 随数据分布而变化,我们采用内部点的百分位数比率来确定 TDCM 为按降序排序的第(1 )个 DCM。参数比值具有直观的物理意义和更好的稳定性,比 TDCM 更容易指定。根据实验结果,70%99%的内点是推荐的比率默认参数范围,以获得较好的聚类结果。然而,当聚类彼此

258、混合时,需要更多的边界点(较低的比率)来分离接近的聚类。55 图 3-7 2D 空间中的 CDC 算法和中间结果 Fig.3-7 CDC algorithm and intermediate results in 2D space 图 3-7 显示了在 2D 空间中的 CDC 算法及其中间结果。图 3-7(a)表示由中心点的 KNN形成的中心角;图 3-7(b)表示样本数据的 DCM 计算结果;图 3-7(c)和图 3-7(d)表示两个合成数据集上的内部和边界点的划分结果,对于 DS5,k=10 和 TDCM=0.1,对于 DS7,k=30 和TDCM=0.1。红色点表示内部点,蓝色点表示边界

259、点;图 3-7(e)表示内部点的可达距离;图3-7(f)表示连接内部点的关联规则;图 3-7(g)和图 3-7(h)表示 DS5 和 DS7 上内部点的连接结果。3.2.3 空间数据地图可视化 地图是一个古老但又常用的产品,既要“准”又要“美”;在地图元素、图幅等设计过程中平衡两者需要扎实的专业功底,因此地图学一直以来门槛较高。地图通过将各种信息可视化以达到地理数据高效利用的目的,如展示地物要素的空间格局、做出自然灾害的预警分析、评定人口流动的活动差异等(Gao Q L,Yue Y,Tu W,et al.,2021)。目前有诸多尝试地图制图与 AI 的结合,谈论最多的是风格迁移、图像生成等 A

260、I 模型。但该类方法直接将地图视为整体一次性生成,容易错过地图制图的过程化管理与单个地图元素的设计,难以达到(“准”。基于大模型智能体框架,通过组合调用基础制图工具来完成空间数据的自动渲染(实现“准”),并内嵌 DALLE-3 模型根据用户意图生成创意性符号(实现(“美”),构建空间数据智能地图可视化大模型 MapGPT。该框架可扩展且可交互,即用户对结果地图元素、整饰不满意,可与大模型智能体交互完成内容的重新调整和更新。56 图 3-8 MapGPT 的基本框架 Fig.3-8 Basic framework of MapGPT MapGPT 基于 LangChain 框架,使用 OpenA

261、I 的 GPT4(0613 版本)作为框架的 Agent,定义了多个制图工具,实现各个地图元素的细粒度调整与绘制。通常,大语言模型(LLM)接受文本作为输入,同时将文本作为响应输出。因此,为了让大语言模型具备制图能力,需要给其配备专业的制图工具。同时,也需要建立一个环境,为语言模型与制图工具模块建立连接,让其“学会使用”制图工具。在本文中,采用了 LangChain 框架将大语言模型与专业制图工具连接起来。LangChain 是一个专为大语言模型开发应用程序而设计的框架,其主要目标是帮助开发人员无缝集成大语言模型与其他数据源、工具,并实现交互。在本文中,我们设计了图 3-9 所示的提示,以引导

262、大语言模型识别、调用适当的制图工具完成制图任务。图 3-9 框架提示设计 Fig.3-9 Frame prompt design MapGPT 针对多个地图元素定义了相应的制图工具,以实现对不同地图元素的细粒度控制,用以满足用户精细的制图需求。工具主要包括六个方面:地图初始化、使用文生图模型设计地图符号、添加地图图层、修改地图元素参数、添加地图元素、保存输出地图。(1)地图初始化:根据用户指定的地理空间数据,使用该部分的工具构建地图框架。具体来说,地图初始化模块内的工具主要用于根据用户给定的地理空间数据定义地图范围和相应的坐标系统,并根据用户需求设置地图背景颜色等。(2)使用文生图模型设计地图

263、符号:地图符号设计是一个具有挑战性的工作,设计合理的地图符号可以使地图更有效地表达相应的地理信息。为了解决地图符号设计的难点,MapGPT 引入了目前文生图模型 DALLE-3 模型,其可以接受文字输入,然后生成匹配文字描述的图片及符号。为了让 DALLE-3 能够更好地生成表达地理要素的地图符号,MapGPT设计了如下提示:“Please help me design a map symbol that represents keywords.Try to keep it simple and understandable,using only one color tone and refl

264、ecting the style of a simple drawing.There should be as few elements as possible.Try to present only the symbol I need.”.其中,keywords 是大语言模型根据用户需求输入自主进行推理后输入的相应内容。同时,由于地图符号设计是一个较为主观的任务,MapGPT 设计了一个交互策略:在一次工具调用中,模型57 会同时生成 3 个符号,用户可以自主选择其中一个符号来表达相应的地理要素。(3)添加地图图层:这部分的工具主要用于控制添加地图图层,包括点、线、面要素图层。模型可以自动识

265、别相应的地理要素,并进行根据需求加载相应的地图符号来表示地理要素。(4)修改地图元素参数:针对不同的地图元素,设计可以调整其细节表达的多个工具,例如针对地图指北针元素,设计了 modify_compass_location、modify_compass_width、modify_compass_color、modify_compass_style 等多个工具来调整其表达形式。基于这些工具,本框架可以实现对地图元素的细粒度控制。(5)添加地图元素:修改完相应地图元素参数后,使用添加地图元素工具将其绘制到地图上,地图元素包括常见的指北针、比例尺、图框、图例、图名、图文注记等。(6)保存输出地图:输

266、出保存地图。图 3-10 MapGPT 制图工具模块 Fig.3-10 MapGPT Mapping tool module 3.3 地理空间智能计算 地理空间智能计算很快成为地理学、地理信息科学(GIScience)和许多涉及复杂模式和过程的学科的新研究和发展的主要主题,这些复杂模式和程序可以在地理领域(即地球的表面和近表面)找到。地理空间智能计算代表了一组新的挑战,但它以与之前根本不同的方向振兴了地理科学的旧领域。它受益于完美的趋势风暴:来自遥感、社会媒体和传感器网络的许多新闻数据源的可用性;访问几乎无限的计算能力资源;以及数据分析和机器学习的强大新方法的融合。3.3.1 深度学习 在空间

267、数据智能大模型中,深度学习算法和神经网络结构是最为核心的部分。深度学习算法是指通过构建多层神经网络来学习数据特征的方法。其中,卷积神经网络(CNN)、循环神经网络(RNN)和变分自编码器(VAE)等是常见的深度学习算法。神经网络结构则是58 指神经网络中节点和连接的方式,包括层级、神经元类型、激活函数等。不同的神经网络结构适用于不同的任务和数据类型。在深度学习算法的基础上,优化方法是大模型深度学习技术中的另一个重要部分。优化方法是通过调整模型参数,使得模型在训练数据集上达到最优性能的过程。常用的优化方法包括随机梯度下降(SGD)、Adam、RMSprop 等。这些优化方法具有不同的特点和适用范

268、围,需要根据具体情况选择合适的优化方法。空间数据智能大模型中的深度学习算法还与大模型的泛化能力有关,且泛化能力也是大模型质量的评估指标之一,为了提高模型的泛化能力,可以在深度学习算法中采用数据增强、正则化、集成学习等方法。这些方法能够提高模型的稳定性和泛化能力,从而提高模型的性能。深度学习算法在以下方面实现空间数据智能大模型的空间智能计算性能:(1)特征提取与表示学习:空间数据通常具有高维度和复杂的特征,深度学习可以通过神经网络学习到数据的高级特征表示,从而更好地捕捉数据的本质特征,提高模型的表达能力和泛化能力。(2)空间数据分类与识别:深度学习可以应用于空间数据的分类和识别任务,例如遥感影像

269、中的地物分类、城市建筑物识别等,通过训练深度学习模型,可以实现对空间数据中不同类别的自动识别和分类。(3)空间数据分析与预测:深度学习可以应用于空间数据的分析和预测任务,例如气象数据的时空预测、交通流量的预测等,通过学习数据的时空关系,可以实现对未来空间数据的预测和分析。(4)地图生成与模拟:深度学习可以应用于地图的生成和模拟任务,例如通过生成式对抗网络(GAN)生成逼真的地图图像,或者使用循环神经网络(RNN)进行地图的模拟和预测。(5)空间数据关联与推理:深度学习可以帮助空间数据之间的关联和推理,例如通过图神经网络对空间网络结构进行建模,实现对空间数据之间关联关系的学习和推断。现阶段广泛应

270、用于空间数据智能大模型的深度学习算法包括:(1)卷积神经网络(CNN)。卷积神经网络是一种专门用于处理图像数据的深度学习模型,它通过卷积层、池化层和全连接层等组件来提取图像特征并进行分类或回归任务。CNN的最基本模块是卷积操作,指利用卷积核(filter)对输入图像进行滤波操作,从而捕捉到图像中的局部特征,如边缘、纹理等。在卷积操作后,通常会使用激活函数对特征图进行非线性变换,以增加模型的非线性表达能力。池化操作用于降低特征图的维度,减少参数数量并提高模型的计算效率。在经过多次卷积和池化操作后,得到的特征图会被拉平成一维向量,并通过全连接层进行分类或回归任务。CNN 在空间数据智能大模型中主要

271、应用于以下几个方面:遥感影像分类与识别:CNN 可以应用于遥感影像的分类和识别任务,例如识别不同地物类型(如水体、森林、建筑等)或监测地表覆盖变化。通过训练 CNN 模型,可以实现对遥感影像的自动化分析和识别。地理物体检测与分割:CNN 可以用于地理物体检测和分割,例如在遥感影像中检测和分割建筑物、道路、车辆等地理物体。这对于城市规划、交通管理等领域具有重要意义。地图图像生成与增强:CNN 可以应用于地图图像的生成和增强,例如通过生成式对抗网络(GAN)生成逼真的地图图像,或者通过 CNN 对地图图像进行增强处理,提高图像质量和清晰度。空间数据关联与推理:CNN 可以用于处理空间数据中的图数据

272、,例如社交网络、交通网络等,通过学习网络结构和节点特征,实现空间数据之间的关联和推理。(2)循环神经网络(RNN)。循环神经网络是一种专门用于处理序列数据的神经网络模型,它具有记忆功能,能够记住之前的信息并应用于当前的计算中。RNN 通过循环结构来59 处理序列数据,每个时间步都会接收当前输入和上一个时间步的隐藏状态,并输出当前时间步的隐藏状态和预测结果。RNN 的设计思想是通过循环结构来处理序列数据,并具有一定的记忆能力,可以记住之前的信息并应用于当前的计算中。RNN 的基本原理可以分为三个部分:输入层、隐藏层和输出层。输入层接收序列数据的输入,隐藏层是 RNN 的核心部分,它包含一个循环结

273、构,可以接收上一个时间步的隐藏状态,并将当前时间步的输入和上一个时间步的隐藏状态进行计算,得到当前时间步的隐藏状态。输出层根据当前时间步的隐藏状态计算输出结果,可以是一个预测值或分类结果。传统的 RNN 存在梯度消失和梯度爆炸的问题,导致难以处理长序列数据。为了解决这一问题,后续发展出了长短期记忆网络(LSTM)和门控循环单元(GRU)等结构更复杂的循环神经网络变种,可以更有效地处理长序列数据。RNN/LSTM/GRU 在空间数据智能大模型中主要应用于以下几个方面:时空数据预测:RNN 可以用于时空数据的预测任务,例如气象数据、交通流量数据等。通过训练 RNN 模型,可以学习时空数据之间的关系

274、,从而实现对未来时空数据的预测。时空序列分析:RNN 可以用于分析时空数据的序列特征,例如研究不同地点之间的时空关联关系、探索时空数据的周期性和趋势等。地理环境模拟:RNN 可以用于模拟和生成地理环境的时空数据,例如通过学习气象数据的时空特征,生成逼真的气象数据,或者模拟城市交通流量的时空变化。异常检测与预警:RNN 可以用于检测和预警时空数据中的异常情况,例如监测交通流量异常、预警自然灾害(如洪水、地震等)的发生等。地理事件预测:RNN 可以用于预测地理事件的发生和影响,例如通过分析时空数据,预测城市发展趋势、土地利用变化等。(3)图神经网络(GNN)。图神经网络是一种专门用于处理图数据的神

275、经网络模型,它可以有效地对图结构数据进行学习和推理。图数据通常表示为由节点和边组成的网络结构,每个节点表示一个实体,每条边表示节点之间的关系。GNN 通过学习节点之间的连接和节点的特征来实现对图数据的分析和预测。在 GNN 中,每个节点都有一个特征向量表示其属性信息,除了节点特征外,图中的边也可以有特征表示。在此基础上,GNN 通过信息传递的方式来学习节点之间的关系和特征表示,除了节点级别的特征表示外,还可以学习图级别的特征表示。图卷积层是 GNN 中的核心组件,用于实现节点之间的信息传递和特征更新。通过多层堆叠的图卷积层,GNN 可以逐步学习图中节点和边的特征表示,从而实现对图数据的有效学习

276、和推理。通过反向传播算法进行参数优化,GNN 可以自动学习到最优的节点和边的特征表示,从而实现对图数据的高效处理和分析。GNN 在空间数据智能大模型中主要应用于以下几个方面:空间关系建模:GNN 可以用于建模空间数据中的地理关系,例如城市之间的交通网络、地理位置之间的距离等。通过学习地理关系,可以实现对空间数据之间的连接和影响关系的建模。地理环境分析:GNN 可以用于分析地理环境中的复杂关系,例如通过学习气象数据中不同地点之间的关联关系,实现对气象数据的空间分析和预测。地理信息推理:GNN 可以用于推理地理信息中的隐藏关系,例如通过学习城市之间的交通流量和人口流动数据,推断城市发展趋势和未来规

277、划方向。地理事件预测:GNN 可以用于预测地理事件的发生和影响,例如通过学习地震、洪水等自然灾害的历史数据,预测未来灾害的可能性和影响范围。空间数据可视化:GNN 可以用于空间数据的可视化,例如通过学习地理位置之间的关系,实现对地图数据的可视化呈现,帮助用户理解和分析空间数据。(4)生成式对抗网络(GAN)。生成式对抗网络(Generative Adversarial Network,GAN)60 是一种深度学习模型,由生成器(Generator)和判别器(Discriminator)组成,通过对抗训练的方式学习生成逼真的数据样本。生成器负责生成逼真的数据样本,而判别器负责区分生成器生成的样本

278、和真实样本。两者通过对抗训练的方式不断优化,最终生成器可以生成逼真的数据样本。生成器负责接收随机噪声作为输入,并生成逼真的数据样本;判别器负责区分生成器生成的样本和真实样本,并给出一个概率值表示样本是真实样本的概率。GAN 的训练过程是一个对抗过程,生成器和判别器通过对抗训练的方式不断优化。GAN 在空间数据智能大模型中主要应用于以下几个方面:地图图像生成:GAN 可以用于生成逼真的地图图像,例如生成城市街道的图像、森林的图像等。通过训练生成器,可以生成具有地图特征的逼真图像,用于地图可视化和分析。地理环境模拟:GAN 可以用于模拟地理环境的变化,例如通过学习气象数据和地理位置数据,生成逼真的

279、气象场景图像,或者模拟城市交通流量的变化。地理信息增强:GAN 可以用于增强地理信息的可视化效果,例如通过学习地图数据,对地图图像进行增强处理,提高图像的质量和清晰度。地理事件预测:GAN 可以用于预测地理事件的发生和影响,例如通过生成器生成不同地理环境下的图像,判别器可以评估生成图像的逼真程度,从而预测地理事件的可能性和影响。异常检测与预警:GAN 可以用于检测地理数据中的异常情况,例如监测地图图像中的异常区域、预警自然灾害(如洪水、地震等)的发生。3.3.2 空间优化与规划 空间优化与规划是空间数据智能大模型实现空间智能计算性能的重要主题,主要涉及如何利用空间数据和智能算法来优化和规划空间

280、资源的利用和布局,以达到最优的空间配置方案。这一主题通常包括以下几个方面的内容:空间优化:空间优化是指利用智能算法对空间数据进行分析和优化,以获得最佳的空间布局方案。空间优化可以应用于城市规划、交通规划、资源配置等领域,通过分析空间数据和约束条件,找到最优的空间布局方案,以提高空间资源的利用效率和质量。空间规划:空间规划是指在特定的空间范围内,根据规划目标和约束条件,制定合理的空间发展和利用方案。空间规划可以应用于城市发展、土地利用规划、自然资源保护等领域,通过对空间数据进行分析和规划,实现空间资源的可持续利用和发展。智能算法:空间优化与规划中常用的智能算法包括遗传算法、蚁群算法、粒子群算法等

281、。这些算法通过模拟生物进化、群体行为等机制,寻找最优解或接近最优解的空间布局方案,以应对复杂的空间优化与规划问题。空间数据分析:空间数据分析是空间优化与规划的基础,包括空间数据的采集、存储、处理和分析。空间数据可以是地理信息数据、遥感数据、传感器数据等,通过空间数据分析,可以获取空间特征、规律和趋势,为空间优化与规划提供依据和支持。应用领域:空间优化与规划的应用领域广泛,涵盖城市规划、交通规划、环境保护、资源管理等多个领域。通过空间优化与规划,可以实现城市的可持续发展、资源的合理利用和环境的改善。所涉及到的主要算法包括遗传算法(Genetic Algorithm,GA)、蚁群算法(Ant Co

282、lony Optimization,ACO)、粒子群算法(Particle Swarm Optimization,PSO)等。(1)基于深度学习的城市社区空间规划 有效的城市社区空间规划对城市的可持续发展起着至关重要的作用,空间数据智能大模型将基于人工智能的城市规划算法应用于生成城市社区的空间规划。为了克服多样性和不规则的城市地理的困难,构建了一个图来描述任意形式的城市的拓扑结构,并制定城市规划作为一个顺序的决策问题的图。为了应对巨大的解决方案空间的挑战,在大模型中引入基于图神经网络的强化学习算法。在合成社区和现实社区的实验表明,计算模型在客观指标上优于人类专家设计的计划,并且可以生成响应不同

283、情况和需求的空间计划。在城市规划人工智能61 协作工作流程中,设计师可以从大模型中受益从而提高生产力,用更少的时间生成更有效的空间规划。大模型将所有的地理元素转化为多边形、线束、点三种几何类型,然后将整个社区表示为一个图,其中节点是几何形状,边代表这些几何形状之间的空间邻接关系,即如果底层的两个几何形状彼此接触,则两个节点是连接的。每个节点将其地理信息存储为节点特征,包括几何形状的类型、坐标、宽度、高度、长度和面积。通过这种方式,空间规划可以转换为在动态图上做出选择的问题,其中图根据代理的动作而演变。大模型在进行生成式规划时,遵循深度强化学习框架,其中 AI 代理通过与空间规划环境交互来学习布

284、局土地使用和道路(图 3-11)。顺序马尔科夫决策过程(Markov Decision Process,MDP)(图 3-11e,f)包含以下关键组件:当前的空间规划与邻接图包含丰富的节点功能和其他信息,如不同的土地利用类型的统计数据;动作指示放置当前土地使用或构建新路段的位置,这些位置从邻接图中的选定边或节点转换而来;所有中间步骤的奖励为 0,除了每个阶段的最后一步,其中评估土地使用和道路的空间效率;过渡描述了给定所选位置的布局的变化,并且过渡发生在原始地理空间(地图上的新土地使用和道路)和转换后的图形空间(图形的新拓扑和属性)中。图 3-11 深度学习城市社区空间规划算法框架 Fig.3-

285、11 Deep learning urban community spatial planning algorithm framework 在每一步中,智能体通过使用 GNN 对图进行编码来表示状态。通过多个消息传递和非线性激活层,GNN 状态编码器生成边、节点和整个图的有效表示(图 3-11a),这将被价值和策略网络利用(图 3-11b-d)。具体来说,因为选择土地使用的位置相当于选择图上的边,所以土地使用政策网络采用边嵌入并使用边排名多层感知机 MLP 对每条边进行评分,如图3-8b 所示。获得的每个边的分数指示相应边的采样概率,该采样概率被返回到环境,并且成为将土地使用放置在该边指定的位

286、置处的概率。类似地,在道路规划中,道路策略网络采用节点嵌入并使用节点排名 MLP(图 3-11d)对每个节点进行评分,输出选择一个地块边界并将其构建为道路段的概率。最后,价值网络采用图嵌入,总结了整个社区,并通过完全连接62 的层预测规划回报(图 3-11c)。为了掌握空间规划的技能,在训练过程中,通过该模型完成数百万个空间规划,搜索大的解空间,并将其作为实时训练数据更新神经网络的参数。(2)城市居民流动和交通模式预测模拟 了解人类在大规模交通网络中的移动方式和交通方式的选择对于城市拥堵预测和交通调度至关重要。空间数据智能大模型基于大量的异构数据(例如,GPS 记录和交通网络数据)构建一套名为

287、 DeepTransport 的智能算法,用于模拟和预测城市范围内的人类移动和交通模式。DeepTransport 的关键组件基于深度学习架构,旨在从大数据和异构数据中了解人类的移动性和交通模式。基于学习模型,给定任意时间段、城市的特定位置或人们的观察运动,算法可以自动模拟或预测人们在大规模交通网络中的未来运动及其交通方式。结果和验证表明,该算法效率和上级性能,同时人类运输模式可以预测和模拟比以前认为的更容易。算法架构如图 3-12 所示,由四个主要组件组成:数据库服务器,预处理模块,深度学习模块以及可视化和评估模块。数据库服务器模,存储和管理数据源。它可以提供索引、检索、编辑和可视化服务。预

288、处理模块可以清洗数据并将人类移动映射到交通网络中。最后,该模块在大规模交通网络上生成大量带有交通方式标签的人类 GPS 轨迹。深度学习模块是DeepTransport 的关键组件,它包括四个用于训练的 LSTM 层:一个编码层用于分离的输入序列,一个解码层用于分离的输出序列,其余两层是共享相同参数的隐藏层。最后,可视化和评估模块可以将结果可视化并评估整个系统的性能。图 3-12 居民流动和交通模式预测模拟框架 Fig.3-12 Framework for forecasting and simulating resident mobility and traffic patterns(3)基于

289、网络搜索和空间优化的消防设施部署规划 几十年来,公共投资和服务的效率一直是地理研究人员感兴趣的问题。在私营部门,效率低下往往导致价格上涨、竞争力丧失和业务损失,而在公共部门,提供服务的效率低下不一定导致立即的变化。空间数据智能大模型耦合网络搜索、GIS 空间分析、空间优化等方法,估计城市尺度的消防服务空间效率。大模型通过一个网络搜索过程确定主要城市地区的消防站当前部署模式,并将搜索结果与现有数据库进行比较。大模型使用空间优化所估计的部署水平需要满足理想的覆盖水平的基础上的位置,然后比较这个理想的部署水平,以现有的系统作为一种手段估计空间效率。GIS 是通过整个文件来模拟需求的位置,进行基于位置

290、的空间分析以及可视化消防站数据,并映射模型模拟结果。图 3-10 展示了网络搜索工具的模块化设计,该环节主要是为了进行大规模的网页爬取,以发现消防站的存在及其位置。由于网络是相当庞大的,有必要确定那些部分的网络有很大的可能性包含消防站地址。这一行动旨在控制搜索范围,同时防止网络搜索工具漫无目的地搜索,浪费资源和时间。因此,第一步是确定网络爬虫应该从何处或从哪些网页开始访问网页。63 图 3-10 公共服务设施网络搜索工具 Fig.3-10 Public service facility network search tool 大模型消防设施部署规划所遵循的位置集覆盖问题 LSCP 结构如下:=

291、限制于 1 对于每个 0,1 对于所有站点 其中:i 表示表示给定需求的索引,其中所有需求的集合被定义为 I;j 表示表示给定的潜在站位置的索引,其中所有站点的集合被定义为 J;dij表示需求 i 和站点 j 之间的距离或行程时间;s 表示最大服务距离或时间标准;=,可以为需求 i 提供覆盖的站点集合 j;当站点 j 被选择用于站点布置时,xj=1,反之 xj=0。3.3.3 大数据高性能处理 地理空间大数据涵盖了广阔的地理空间范围和丰富的信息内容,数据量通常非常庞大,且来源多样,包括卫星遥感数据、地理信息系统(GIS)数据、传感器数据等,数据类型和格式复杂多样。同时,地理数据具有明显的时空关

292、联性,数据之间存在空间位置和时间关系,部分地理数据需要实时采集和处理,以支持实时决策和应用;不同的数据源和数据格式的地理空间数据,需要进行数据融合和集成处理。因此,地理空间大数据是空间数据智能大模型空间智能计算的重要目标。(1)大数据流式处理 随着 GIS 技术的发展,GIS 系统的数据来源发生了巨大的变化。过去的数据主要来自于传统的地图数字化和测量输入,通过平面工作台、全站仪等设备输入,常见的数据格式是静态矢量地图,缺乏更新精度和通用性。新的测量工作广泛使用摄影测量方法来收集原始数据。主要数据来源包括卫星、飞机、无人机和测量车辆产生的图像、视频、雷达和 GPS 数64 据。全景相机、街景相机

293、、观测卫星、激光雷达系统等最新设备能够获取全方位图像和空间信息。其中一些设备支持流媒体服务,以便数据可以动态地传输给用户。如今,传统的静态数据存储、静态制图和定期数据更新方法已经不再那么重要。这也导致传统数据存储、处理、分析和使用方式发生巨大变化。空间数据智能大模型能够通过流式传输生成、处理和使用实时数据。由于数据类型的变化和处理数据量的增加,GIS 系统结构一直在不断发展以适应这场革命。目前大模型的流媒体实践有几种,以分布式计算为体系结构,以 Spark Stream 为流数据框架,集成 Kafka 等面向消息的中间件,将消息接收、处理、高效数据存储与实时数据结合起来。时间空间分析作为满足

294、LiveGIS 需求的时空综合软件平台。已有许多成功的解决方案应用于电子商务、社交媒体、物流和运输行业。例如,最新的 SuperMap GIS 平台将该系统解决方案与先进的 GIS功能集成在一起,使流数据能够利用 GIS 空间分析和可视化功能。该平台极大地丰富了传统 GIS 系统的能力和用途。后端处理能力以及移动应用程序的灵活性可以为物联网和应用程序提供可靠的平台。智能设备来处理其时空数据(图 3-11)。不仅可以随着业务范围的发展而扩展,还可以在环境之间快速迁移。综上所述,它已成为智慧城市发展和运营的核心基础。图 3-11 流式数据处理的流程和体系结构 Fig.3-11 The flow a

295、nd structure of streaming data processing(2)社交媒体大数据分析的可扩展框架 在过去的几年里,社交媒体(例如 X 和 Facebook)的受欢迎程度急剧上升,并已成为无处不在的话语、内容共享和社交网络。随着移动的设备和基于位置的服务的广泛采用,社交媒体通常允许用户共享日常活动的行踪(例如,签到和拍照),从而加强了社交媒体作为理解人类行为和地理空间中复杂社会动态的代理的作用。与传统的时空数据不同,这种新的数据形式是动态的、海量的,并且通常以非结构化媒体流(例如文本和照片),这对传统的时空分析和地理信息科学提出了基本的表示,建模和计算挑战。空间数据智能大模

296、型搭建了一个可扩展的计算框架,利用大量的基于位置的社交媒体数据进行高效和系统的时空数据分析。在此框架内,时空轨迹/路径的概念被应用于表示社交媒体用户的活动配置文件。基于时空轨迹的集合,大模型设计分层时空数据算法即时空数据立方体模型,以表示多时空尺度下社交媒体用户跨越聚合边界的集体动态。该框架是根据社交媒体 X 发布的公共数据流实65 施的。为了展示该框架的优点和性能,开发了一个交互式流映射接口(包括单源和多源流映射),以允许在多个尺度上对基于位置的海量社交媒体数据中的运动动态进行实时和交互式视觉探索。图 3-12 显示出了框架的系统架构和通过不同组件的数据流。第一步是从 X 中检索数据。虽然数

297、百万社交媒体用户正在生成大量社交媒体内容,但作为这些数据的主机,社交媒体服务通常限制对这些内容的直接或完全访问。特别是 X,它提供了多个级别的接口来访问 X 的提要语料库。尤其是 X 流媒体 API 允许任何人通过指定一组过滤器(如感兴趣的地理边界)来近乎实时地检索所有数据的 1%样本。基于 X 流媒体 API 开发了推文爬虫算法,用于收集发布的推文。返回的推文被组织为一组元组(,)。在第二步中,将文本挖掘方法应用于非结构化文本消息 m 通过监测与流感样疾病(Influenza like illness,ILI)症状相关的关键词词典,例如“流感”,“咳嗽”,“打喷嚏”和“发烧”,来诊断 X 用

298、户感染 ILI 的概率。应该注意的是,根据应用场景,可以将其他数据挖掘方法插入到该步骤中,以从每个推文中获取感兴趣的信息。图 3-12 算法框架 Fig.3-12 The algorithm framework(3)大数据和机器学习的融合 作为地理空间研究的新燃料,空间数据智能大模型利用机器学习和先进计算的最新突破,实现地理空间大数据的可扩展处理和智能分析。空间数据智能大模型位于人工智能、地理空间大数据和高性能计算(HPC)的结合点,为数据或计算密集型地理空间问题提供了一种有前途的解决方案技术。图 3-13 展示了空间数据智能大模型作为 GeoAI 的概念性三支柱视图。作为人工智能的跨学科扩展

299、,GeoAI 大模型的目标是让机器获得像人类一样进行空间推理和分析的智能。GeoAI 大模型随着 AI 的发展而发展,它有两个主要的方法类别:知识驱动,称为自上而下的方法,以及数据驱动,称为自下而上的方法。毫无疑问,以机器学习为主导的数据驱动方法已经成为当今的主流人工智能,因为它具有出色的学习能力,可以从大量数据中进行预测,而无需显式编程分析规则。深度学习作为机器学习领域的最新突破,从两个方面改变了数据分析范式。66 图 3-13 GeoAI 大模型的概念性三支柱视图 Fig.3-13 Conceptual three-pillar view of the GeoAI large model

300、机器学习也为更传统的、自上而下的、基于本体的 GeoAI 大模型方法提供了动力。这些方法通过利用本体和逻辑推理来解决空间认知问题,例如语义相似性度量。与数据驱动的方法不同,本体方法依赖于知识库以三元组的格式提供真实世界实体及其相互关系的语义定义。知识发现过程遵循预定义的推理规则和约束,并使用演绎推理,以确保每个新派生的事实可以正式验证其推理路径清晰可追溯。虽然这种方法具有高度的可解释性,但它有两个缺点:(1)本体工程,即构建知识库的过程,严重甚至完全依赖于专家知识和手工工作。虽然可以建立一个非常深的结构来描述实体之间的复杂关系,但以人为中心的方法很难扩展到使知识库全面,以确保其性能;(2)虽然

301、本体试图捕捉人类逻辑的复杂性,但它需要以机器可理解的方式实现,因此一些简化和抽象是不可避免的。这在做出准确的预测和决策方面又增加了一层性能挑战。GeoAI 的两种方法论线程在地理空间领域都有广泛的应用。遥感社区广泛使用 CNN 进行场景分类(自然和城市),变化检测和其他图像分析任务。深度学习已被用于支持制图任务,如综合、智能制图和地图元素检查。机器学习越来越多地用于社交媒体数据和其他自然语言文本文档的语义和情感分析。在空间信息检索中,知识图已成为智能问答、隐藏链接预测和语义搜索等的关键组件和骨干技术11。多维地理空间数据,如激光雷达和来自数值模拟模型的科学数据,也可以受益于处理能力,如用于 3

302、D 对象检测和事件分类的 3D CNN。从物联网(IoT)传感器传输的时间序列数据可以利用递归神经网络(RNN)来实现实时预测和分析。地理空间数据的多样性和基于位置的服务的普及使 GIScience 成为这些用途和人工智能繁荣的自然家园。3.3.4 地理知识图谱 地理知识图谱(Geographical Knowledge Graph,GKG)是一种以地理空间信息为基础,将地理实体及其属性、关系、事件等信息进行结构化表示和组织的知识表示形式。它可以帮助人们更好地理解和利用地理信息,支持地理信息系统、地理数据挖掘、地理智能等领域的研究与应用。空间数据智能大模型与地理知识图谱高度互补,尤其是空间数据

303、智能大模型在处理自然语言的数据处理需求场景下。地理知识图谱的优势在于它是一种结构化的知识存67 储、表达方式,以三元组的形式存储了大量的事实。同时,GKG 也可以随着新知识的增加不断演化,通过构建专家领域的专业知识知识图谱,我们可以做到对专业领域的事实知识进行增删改查。(1)地理知识图谱自适应表达模型 地理知识图谱通过将各类地学知识组织成计算机可理解、可计算的语义网络,可实现地学知识的统一认知、精准关联、计算推理与智能服务,是当前最有效的地学知识组织和服务方式,已经成为基于大数据和人工智能的现代地学研究的基础,正成为地学研究的前沿和热点。地学知识包含众多的学科领域知识,具有复杂的时空特征及关系

304、,呈现出多尺度、多粒度、多维度等特点。因此,面向不同学科和类型的地学知识,建立符合地学知识特点并顾及复杂时空特征及关系的地理知识图谱表达模型,是地理知识图谱构建与应用的基础和前提。地学知识图谱自适应表达模型应用流程如下图 3-14 所示。首先对拟表达的多学科、多类型的地学知识进行时空关联度的计算。时空关联度计算可采用前述提到的基于规则或深度学习模型的方法;根据时空关联度(直接表达时空信息的地学知识,以及与时空特征强关联、中度关联、弱关联的地学知识),在地学知识图谱自适应表达模型的基础上,自动选择与时空关联度匹配的更为紧凑和精准的表达模型。这些表达模型既有共性的主题内容元组、元知识元组的表达以及

305、统一时空本体的支持,又有个性化地依据时空关联度的时空信息的表达。采用统一的描述语言和图数据库,如网络本体语言(Web Ontology Language,OWL)和JanusGraph 图数据库,可对地学知识图谱进行统一的存储管理。自适应表达模型可根据时空关联度的不同,将地学知识灵活表达为三元组或紧密关联时空信息的四元组及五元组。因此,可利用 SPARQL(SPARQL Protocol and RDF QueryLanguage)、GeoSPARQL 或 Gremlin 等查询语言,实现地学知识更为高效和精准的检索与计算推理。68 图 3-14 地理知识图谱自适应表达模型应用流程 Fig.3

306、-14 Application process of adaptive expression model of geographic knowledge graph(2)地理知识图谱自动摘要的空间显式强化学习模型 网络规模的知识图谱,如全球关联数据云,由数十亿个关于数百万实体的个体陈述组成,近年来激发了人们对知识图摘要技术的兴趣,知识图摘要技术为给定的节点集合计算代表性子图。此外,知识图谱中许多连接最密集的实体是地点和区域,通常由与其他地点、参与者、事件和对象的数千个传入和传出关系来表征。在本文中,我们提出了一种新的摘要方法,该方法将空间显式组件纳入强化学习框架,以帮助总结地理知识图,这是一个

307、在相关工作中尚未考虑的主题。我们的模型考虑了内在的图结构以及外在的信息,以获得对摘要任务的更全面和整体的看法。通过收集标准数据集并评估我们提出的模型,我们证明了空间显式模型比非空间模型产生更好的结果,从而证明了空间就概括而言确实是特殊的。对于在空间数据智能大模型基于地理知识图谱的强化学习算法实践,首先利用维基百科摘要来指导使用强化学习的地理知识图摘要过程,该方法不是主要依赖于内在信息,例如基于分组和聚合的方法中的节点组以及基于位压缩的方法中描述图所需的位数,而是通过将任务框架为可以使用强化学习优化的顺序决策过程,使用维基百科摘要从图结构和外部知识中获得内在信息的互补优势。其次,考虑了地理知识图

308、中地理空间语义的丰富性,并将这些信息纳入摘要过程中,以便更好地捕捉地理实体的相关性并提供更好的结果。大模型通过遵循既定的地理信息方法来做到这一点,即从信息论的角度对距离衰减进行建模。第三,创建一69 个数据集 DBP 369,其中包括来自维基百科的 369 个地点摘要和 DBpedia 的一个子图,用于地理知识图摘要任务,并使其公开可用。缺乏标准的数据集一直是阻碍地理知识图摘要和地理信息检索领域研究发展的障碍之一。第四,大模型为 DBP369 数据集的地理知识图摘要任务建立了不同的基线。验证结果表明,通过考虑空间上下文组件的总结图更好地类似于维基百科的摘要。在空间数据智能大模型中考虑地理知识图

309、摘要问题是必要的,主要原因是网络规模的知识图,如关联数据,存储了数千万个位置,通常有数千个相关语句(主语-谓语-宾语三元组)。图 3-15 地理知识图环境和基于策略的代理在强化学习模型中交互 Fig.3-15 GKG environments and policy-based agents interact in reinforcement learning models(3)基于地理空间距离约束的知识嵌入地理知识图补全 地理知识图谱利用地理实体和地理关系的语义,将地理关系三元组连接成一个大规模的语义网络。然而在 Web 上的地理相关信息分布的稀疏性导致的情况下,信息提取系统很难检测到足够的地

310、理信息在海量的 Web 资源,能够建立相对完整的 GKG 的引用。由于 GKG事实三元组中缺少地理实体或地理关系,这种不完整性严重影响 GKG 应用程序的性能。空间数据智能大模型设计一种基于地理空间距离约束的 GKG 补全知识嵌入优化方法,该方法将地理实体和地理关系的语义信息和地理空间距离约束编码到一个连续的低维向量空间中,进而可以通过向量运算来补充 GKG 的缺失事实。具体而言,地理空间距离的限制实现为当前的翻译知识嵌入模型的目标函数的权重。这些优化的模型输出地理实体和地理关系的优化表示,以完成 GKG。用一个真实的 GKG 实例验证了该方法的有效性。与原模型的结果相比,该方法在地理实体预测

311、中的 Hits10(Filter)平均提高了 6.41%,在地理关系预测中的Hits1(Filter)平均提高了 31.92%。此外,该方法的能力来预测未知实体的位置进行了验证。结果表明,地理空间距离的限制减少了 54.43%和 57.24%之间的预测的平均误差距离。所有的结果都支持隐藏在 GKG 中的地理空间距离限制,有助于细化地理实体和地理关系的嵌入表示,这对提高 GKG 完成的质量起着至关重要的作用。70 图 3-16 地理知识图谱示例 Fig.3-16 Example of a geographic knowledge graph(蓝色:实体;绿色:值;连接边:在实体之间输入不同类型的

312、关系或属性)3.4 空间智能地理多情景模拟 3.4.1 空间数据智能土地利用模拟 多情景土地利用模拟是空间数据智能大模型中的重要应用之一,其主要目的是模拟和预测不同情景下的土地利用变化,帮助决策者制定合理的土地利用规划和管理政策。空间数据智能大模型在进行多情景土地利用模拟时,首先需要确定模拟的情景,包括不同的发展策略、政策措施或自然条件变化等,这些情景将影响土地利用的变化。输入数据包括土地利用现状数据、土地规划数据、人口数据、经济数据等。在进行土地利用模拟之前,空间数据智能大模型根据输入的自然语言形式的数据分析需求,筛选土地利用模型进行模拟,常用的模型包括细胞自动机模型、马尔科夫链模型、遗传算

313、法模型等,且可以根据不同情景和目的选择合适的模型,参数设置包括模型的初始状态、转移规则、影响因素等参数,以及不同情景下的参数设置。运行模拟模型,根据不同情景进行土地利用变化的模拟和预测。模拟结果可以反映不同情景下土地利用的变化趋势和空间分布。最后,空间数据智能大模型还对模拟结果进行分析和评价,比较不同情景下的土地利用变化情况,评估不同情景对土地利用的影响,为决策提供参考依据。3.4.2 空间数据智能交通模拟 多情景智能交通模拟是空间数据智能大模型中的重要应用之一,旨在模拟和评估不同交通情景下的交通流量、交通拥堵等交通现象,以支持交通规划和管理决策。空间数据智能大模型在对交通场景进行模拟时,首先

314、确定模拟的情景,包括不同的交通网络结构、交通管理措施、交通需求情况等。常见的情景包括道路建设方案、交通管制措施、交通事故或突发事件等。模拟时大模型所需的数据包括道路网络数据、交通流量数据、车辆轨迹数据、交通规则数据等。大模型将智能选择或根据自然语言输入的特殊需求,选择合适的交通模型进行模拟。常用的交通模型包括微观仿真模型、宏观仿真模型和混合仿真模型等,根据模拟需求和复杂度选择合适的模型。参数设置则包括交通流模型参数、交通控制参数、交通需求模型参数等,以及不同情景下的参数设置。运行交通模型,根据不同情景进行交通流量和交通拥堵的模拟和预测。模拟结果可以反映不同情景下的交通状况和影响。最后,空间数据

315、智能大模型对模拟结果进行分析和评价,比较不同情景下的交通状况和影响,评估不同情景对交通系71 统的影响和可行性。在空间数据智能大模型中广泛使用的多情景交通模拟模型和算法包括:(1)微观仿真模型:微观仿真模型基于车辆行为和交通规则,对每辆车辆的运行轨迹进行模拟。常用的微观仿真模型包括 VISSIM、SUMO 等。这些模型可以模拟车辆之间的相互影响,捕捉交通拥堵的动态演化过程。(2)宏观仿真模型:宏观仿真模型将交通网络划分为一系列交通分区,并对每个交通分区进行整体的交通流量模拟。常用的宏观仿真模型包括 TranSims、MatSim等。这些模型适用于大范围的交通系统模拟,能够快速评估交通规划方案的

316、效果。(3)交通需求模型:交通需求模型用于估计不同情景下的交通需求,包括交通流量、交通出行模式选择等。常用的交通需求模型包括四阶段模型、行为建模模型,基于多智能体强化学习的出租车重新定位模型(Liu C,Chen C X,Chen C.,2021)。这些模型可以分析交通出行行为和出行模式选择的影响因素,为交通规划提供数据支持。(4)交通控制模型:交通控制模型用于评估不同交通控制策略对交通系统的影响。常用的交通控制模型包括信号优化模型、交通管制模型等。这些模型可以通过模拟不同的交通控制方案,评估交通拥堵的缓解效果和交通系统的运行效率。(5)机器学习和深度学习方法:机器学习和深度学习方法可以用于优

317、化交通模型的参数估计、预测交通流量和交通拥堵等。例如,可以利用循环神经网络(RNN)、长短期记忆网络(LSTM)等模型对交通流量进行预测,以及使用强化学习算法优化交通控制策略。现阶段研究人员引入了卷积神经网络(CNN)等深度学习方法来对时空数据进行建模,并取得了比传统方法更好的结果。然而,这些基于 CNN 的模型采用网格地图来表示空间数据,这不适合基于道路网络的数据。空间数据智能大模型构建一种基于道路网络的数据建模的深度时空残差神经网络(DSTR-RNet)。该模型构造局部连接神经网络层(LCNR)来建模道路网络拓扑结构,并集成残差学习来建模时空依赖性,通过预测滴滴出租车服务的交通流量来测试

318、DSTR-RNet。实验结果表明,DSTR-RNet 在保持路网空间精度和拓扑结构的同时,提高了预测精度。为了对空间和时间依赖性进行整体建模,我们提出了一种基于 ResLCNR 单元的深度时空残差神经网络,用于基于道路网络的数据建模(DSTR-RNet)(图 3-17)。我们开发了三个子模型来分别从最近模式、每日模式和每周模式来建模时空特征。然后,我们将这些特征合并到最终的特征映射中;tanh 函数激活映射来预测值。这三个子模型共享相同的结构:LCNR 层,其接收历史道路网络数据序列并输出特征图,其中元素的数量等于道路网络段的数量;具有 N 个隐藏的 ResLCNR 单元的深度残余 LCNR

319、结构,其对特征图的时空依赖性进行建模。在特征图上集成空间和时间特征,同时支持空间和时间上的相关性建模。我们通过基于参数的方法合并三个特征图(分别表示为 STFMw,STFMd 和 STFMr)。表达式如下:=+=tanh()其中 Ww、Wd 和 Wr 是三个参数向量,其形状与三个特征图的形状相同。STFM 是最终的时空特征图。然后,tanh 函数激活 STFM 以形成预测值 xt。DSTR-RNet 根据地面实况和预测值计算损失,表达式如下。式中,均方误差(MSE)表示损失函数,这里,yi 是地面真值,yi是预测值,N 是所有预测值的数量。将输入数据分为三个子数据集:训练集,验证集和测试集,并

320、将训练集分批输入模型。对于每个批次,模型计算前向传播后的损失,然后使用优化器 Adam 通过反向传播优化所有训练参数。通过最小化损失函数,训练所有的训练参数。=1()2=1 72 图 3-17 DSTR-RNet 总体框架 Fig.3-17 The overall framework of DSTR-RNet 3.4.3 空间数据智能公共服务设施决策优化模拟 智能公共服务设施选址模拟是空间数据智能大模型中的重要应用之一,旨在通过模拟和评估不同选址方案对公共服务设施覆盖范围、服务质量等方面的影响,以支持公共服务设施的优化布局和规划。空间数据智能大模型将收集和准备模拟所需的数据,包括公共服务设施现

321、状数据、人口分布数据、交通网络数据、土地利用数据等。这些数据将作为模型的输入。大模型对公共服务设施的需求进行评估,包括人口需求、服务范围需求、服务质量需求等。可以使用数据挖掘和统计分析方法对需求进行评估和预测。大模型结合公共服务设施的需求和地理空间数据,以预测不同选址方案对公共服务设施的影响,包括基于规划算法的模型、基于机器学习的模型等。对选址模型进行参数设置,包括选址规则、影响因素权重、约束条件等,根据不同情景和目标设置不同的参数,之后运行选址模型,根据不同选址方案进行公共服务设施的选址模拟。模拟结果可以反映不同选址方案对公共服务设施的覆盖范围、服务质量等方面的影响。大模型将对模拟结果进行分

322、析和评价,比较不同选址方案的优劣。可以使用多种指标进行评价,如覆盖范围、服务质量、成本效益等。根据模拟结果,制定优化公共服务设施选址的方案。可以通过调整选址方案、改进服务设施布局等方式优化公共服务设施的布局和规划。空间数据智能大模型中的智能公共服务设施选址模拟广泛应用多种算法和方法,包括:(1)基于规划算法的选址模型:基于规划算法的选址模型通过制定选址规则和约束条件,确定最佳选址方案。常用的规划算法包括线性规划、整数规划等。这些算法可以考虑多种因素,如人口分布、交通网络、土地利用等,以最大化公共服务设施的覆盖范围和服务质量。(2)基于最优化算法的选址模型:最优化算法通过优化选址方案的目标函数,

323、确定最佳选址方案。常用的最优化算法包括遗传算法、蚁群算法、模拟退火算法等。这些算法可以73 在考虑多个目标和约束条件的情况下,找到最优的选址方案。(3)基于机器学习的选址模型:机器学习算法可以通过对历史数据的学习,预测不同选址方案的效果。常用的机器学习算法包括决策树、随机森林、神经网络等。这些算法可以根据数据特征和需求情况,生成预测模型,帮助决策者做出合理的选址决策。(4)基于空间分析的选址模型:空间分析方法可以考虑地理空间数据的特征,对选址方案进行评估和优化。常用的空间分析方法包括空间插值、空间关联分析等。这些方法可以帮助识别适合建设公共服务设施的地理位置。(5)基于深度学习的选址模型:深度

324、学习算法可以通过对大量数据的学习,提取特征并预测最佳选址方案。常用的深度学习算法包括卷积神经网络(CNN)、循环神经网络(RNN)等。这些算法可以对复杂的选址问题进行建模和求解,提高选址模拟的准确性和效率。将深度学习和强化学习的优势结合起来,空间数据智能大模型可以内置处理大规模多模态数据性能更加强大的深度强化学习算法,以更高效的解决多情景公共服务设施智能选址问题。基于深度强化学习的公共服务设施选址算法首先,需要定义选址问题的状态空间,即所有可能的选址方案。状态可以包括地理位置、人口分布、交通网络等信息,以及公共服务设施的规模和容量等。然后,定义选址问题的动作空间,即可供选择的候选选址方案。动作

325、可以包括在不同地理位置建设公共服务设施、扩建现有设施等。接下来,定义选址问题的奖励函数,即对每个动作的评价指标。奖励函数可以包括公共服务设施的覆盖范围、服务质量、成本效益等方面的指标。设计深度强化学习模型,包括状态表示、动作选择和奖励反馈等部分。常用的深度强化学习模型包括深度 Q 网络(DQN)、双重深度 Q 网络(DDQN)、深度确定性策略梯度(DDPG)等。使用历史数据对深度强化学习模型进行训练,以学习选址问题的最优策略。在训练过程中,模型通过与环境的交互不断优化参数,以最大化累积奖励。训练好的深度强化学习模型可以应用于实际选址问题的模拟运行。模型根据当前状态选择动作,并根据奖励函数反馈结

326、果进行策略更新。对模拟结果进行评估和优化,比较不同策略的效果。可以通过调整奖励函数、增加状态空间维度、改进深度强化学习模型等方式优化选址算法的性能。总体而言,基于深度强化学习的公共服务设施选址算法具有以下优点:能够处理复杂的选址问题,包括多个目标和约束条件;能够从历史数据中学习,并根据环境变化自动调整策略;能够灵活地适应不同情景和目标,具有较强的泛化能力。3.4.4 空间数据智能自然灾害模拟 空间数据智能大模型中的空间数据智能自然灾害模拟是指利用空间数据和智能算法对自然灾害(如洪水、地震、风暴等)进行模拟和预测,以评估自然灾害对人类和环境的影响,指导应对措施的制定和实施。空间数据智能大模型收集

327、和准备模拟所需的空间数据,包括地形地貌数据、气象气候数据、水文水资源数据等,这些数据将作为模型的输入。大模型根据不同的自然灾害类型,选择相应的模拟方法和算法,对模型进行参数设置,包括地形地貌参数、气象气候参数、水文水资源参数等,根据实际情况和需求进行调整。之后,大模型运行灾害过程模拟模型,模拟自然灾害的发生和演变过程。模拟结果可以反映不同条件下的灾害影响范围、程度和持续时间。最后,对模拟结果进行风险评估,评估自然灾害对人类和环境的潜在影响。可以采用概率分析、风险分析等方法进行评估。根据风险评估结果,制定相应的自然灾害应对措施,包括预警系统建设、灾害防治规划、应急响应准备等。以城市区域洪水淹没和

328、疏散场景为例,空间数据智能大模型设计个简化的二维水力模型(FloodMap-Inertial)推导出上海沿海洪水淹没图。该方法在基于栅格的环境中采用一种计算效率高的惯性算法求解二维浅水波方程,使用 Forward Courant-FreidrichLevy Condition 方法计算时间步长。该模型已在包括上海和纽约在内的一些沿海城市进行了校准和验证。为了驱动沿海淹没建模,需要边界条件和洪泛区地形。大模型生成了 100 年,200 年,500 年和1000 年一遇的洪水重现期在当前条件下的动态边界条件(空间和时间网格),插值站为基础74 的水位和随后缩放台风温妮的阶段过程线。进一步将当前的

329、1000 年洪水边界条件与现阶段估计的 RCP 8.5 下的局部 SLR(包括降降)预测相结合,从而能够制定未来(2030 年和 2050年)的洪水情景。接下来,一个“裸地球”的数字高程模型(DEM),从 0.5 米的地形等高线构建的上海,与网格单元分辨率为 50 米。由于防洪设施的改善具有很大的不确定性,因此假设上海现有的海堤和防洪堤在未来几十年内保持不变。大模型使用堤坝可靠性函数,以确定沿海岸沿着的海堤以及沿黄浦江沿着的防洪堤的潜在故障位置。潜在的突破部分被删除,剩余的防洪高度,然后覆盖到原始 DEM 的每一个方案。最后,大模型在模拟中使用基于经验的洪泛区粗糙度系数(Mannings n=

330、0.06)来表示城市特征对流量路由的影响。图 3-18 沿海大城市人口有效转移的暴雨洪水战略疏散规划理论框架 Fig.3-18 Theoretical framework of rainstorm-flood strategic evacuation planning for effective population transfer in coastal megacities 四、空间数据智能大模型应用四、空间数据智能大模型应用 空间数据智能大模型有着更好的性能,能够整合多种空间数据源,还可以通过自监督学习在大规模未标记数据上进行训练,从而减少对标记数据的依赖,提高模型的效能,基于深度学习等

331、先进技术,空间数据智能大模型能够对地球表面的各种现象和变化进行精准预测,这正彰显着其强大的数据处理能力,还能够有效融合多种空间数据源,将复杂的空间数据信息以直观、可视化的方式展示出来,更直观地理解数据等。基于空间数据智能大模型的特点和优势,目前空间数据智能大模型已经被广泛的利用与很多领域:城市规划与建设、交通管理与优化、环境监测与保护、灾害风险评估与应对、智慧农业与精准种植、资源管理与节约利用、军事与国防安全等,主要介绍以下几个应用场景。4.1 地理大模型与时空知识图谱 4.1.1 JARVIS 和 Geo-JARVIS:基于 LLM 代理的 GeoAI 新范式 在人工智能(AI)技术迅速发展

332、的背景下,自然语言处理(NLP)技术也逐渐成熟。于是,JARVIS-连接语言模型(LLM)和 AI 模型的协作系统应运而生。这个系统通过紧密结75 合语言模型和 AI 模型,实现了更高效、更精准的自然语言处理应用。JARVIS-连接 LLM 和 AI 模型的协作系统在各种应用场景中都有广泛的价值。例如,在智能客服领域,该系统可以为电商平台、银行、电信等企业提供高效、精准的客户服务。在智能写作领域,这个系统可以自动生成新闻报道、科技论文、广告文案等文本内容。同时,它还可用于智能推荐、智能搜索等场景,帮助用户更快地找到所需信息。JARVIS-连接 LLM 和 AI 模型的协作系统通过以下方式实现:

333、首先,语言模型对自然语言文本进行预处理,以便于 AI 模型后续的分析和处理。然后,AI 模型利用预处理后的文本数据进行各种类型的分析和处理,如情感分析、主题分类、实体识别等。最后,基于分析结果,AI 模型可以自动生成相应的文本响应或实现其他类型的智能应用。相较于传统的机器学习模型,JARVIS-连接 LLM 和 AI 模型的协作系统具有以下优点:首先,该系统可以更好地理解和利用自然语言文本的含义,避免了传统机器学习模型在处理自然语言时的诸多限制。其次,通过 AI 模型的引入,该系统可以自动化学习和适应新的知识和语言现象,避免了传统机器学习模型需要手动调整参数和模型的繁琐过程。最后,JARVIS-连接 LLM 和 AI 模型的协作系统可以显著提高自然语言处理应用的准确性和效率,为用户提供更好的智能服务体验。要实现 JARVIS-连接 LLM 和 AI 模型的协作系统,需要掌握先进的深度学习技

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(ACM SIGSPATIAL中国分会:空间数据智能大模型研究-2024年中国空间数据智能战略发展白皮书(117页).pdf)为本站 (破茧成蝶) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

135**10... 升级为标准VIP wei**n_... 升级为高级VIP

wei**n_...  升级为高级VIP  wei**n_...  升级为至尊VIP 

  wei**n_... 升级为标准VIP  wei**n_...  升级为高级VIP

wei**n_... 升级为高级VIP  135**22...  升级为高级VIP 

 wei**n_... 升级为至尊VIP 181**62... 升级为至尊VIP 

黑**...  升级为至尊VIP  wei**n_... 升级为至尊VIP

 178**61... 升级为高级VIP  186**20... 升级为高级VIP

wei**n_... 升级为标准VIP  wei**n_...  升级为高级VIP

wei**n_... 升级为标准VIP  wei**n_... 升级为至尊VIP

  wei**n_... 升级为标准VIP 152**94... 升级为高级VIP 

wei**n_...  升级为标准VIP wei**n_... 升级为标准VIP  

185**27... 升级为标准VIP  135**37... 升级为至尊VIP

159**71...  升级为高级VIP  139**27...  升级为至尊VIP

wei**n_... 升级为高级VIP  wei**n_... 升级为高级VIP

188**66...  升级为标准VIP wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP  wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP wei**n_... 升级为高级VIP 

wei**n_...  升级为至尊VIP  177**81...  升级为标准VIP

185**22...  升级为标准VIP 138**26... 升级为至尊VIP

军歌  升级为至尊VIP 159**75... 升级为至尊VIP

 wei**n_... 升级为标准VIP wei**n_...  升级为至尊VIP

wei**n_... 升级为高级VIP  su2**62...  升级为至尊VIP

 wei**n_... 升级为至尊VIP   wei**n_... 升级为至尊VIP

186**35... 升级为高级VIP    186**21... 升级为标准VIP

 wei**n_... 升级为标准VIP  wei**n_... 升级为标准VIP 

wei**n_... 升级为标准VIP    137**40... 升级为至尊VIP

wei**n_...  升级为至尊VIP  186**37...  升级为至尊VIP 

177**05... 升级为至尊VIP  wei**n_... 升级为高级VIP

wei**n_...  升级为至尊VIP  wei**n_... 升级为至尊VIP 

 wei**n_...  升级为标准VIP wei**n_... 升级为高级VIP

155**91...  升级为至尊VIP  155**91... 升级为标准VIP

 177**25...  升级为至尊VIP  139**88... 升级为至尊VIP

 wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP

 wei**n_... 升级为标准VIP  135**30... 升级为标准VIP

wei**n_... 升级为高级VIP 138**62... 升级为标准VIP 

洛宾  升级为高级VIP wei**n_... 升级为标准VIP 

wei**n_...  升级为高级VIP  wei**n_... 升级为标准VIP

180**13... 升级为高级VIP   wei**n_... 升级为至尊VIP

 152**69...  升级为标准VIP 152**69...  升级为标准VIP

 小**... 升级为标准VIP wei**n_... 升级为标准VIP

138**09...  升级为标准VIP wei**n_...   升级为至尊VIP

邓**  升级为标准VIP   wei**n_... 升级为标准VIP

wei**n_... 升级为至尊VIP   186**22... 升级为标准VIP

微**...  升级为至尊VIP wei**n_... 升级为至尊VIP 

zhh**_s...  升级为标准VIP  wei**n_... 升级为至尊VIP 

wei**n_... 升级为至尊VIP  wei**n_...  升级为高级VIP

 wei**n_...  升级为至尊VIP  131**00... 升级为高级VIP

wei**n_... 升级为高级VIP 188**05... 升级为至尊VIP 

139**80...  升级为至尊VIP   wei**n_... 升级为高级VIP

 173**11...  升级为至尊VIP 152**71...  升级为高级VIP