4-2 可扩展的图神经结构搜索系统.pdf

编号：102381

PDF 34页 12.27MB 下载积分：VIP专享

下载报告请您先登录！

4-2 可扩展的图神经结构搜索系统.pdf

1、张文涛北京大学博士，腾讯Angel Graph团队成员|PaSca:可扩展的图神经结构搜索系统1个人主页:https:/zwt233.github.io/01问题02实验03方法04总结目录 CONTENT|2问题01|3|图数据许多数据都是以图的形式存在:社交网络知识图谱药物和新材料推荐系统药物发现图神经网络被广泛应用于多个场景：异常检测蛋白质结构预测4|图神经网络图卷积神经网络(GCN)的表达形式：第层的模型参数度矩阵含自环的邻接矩阵通过消息传播机制聚合高阶邻居的信息提升自身的表达能力GCNGATGraphSAGE1 Kipf T N,Welling M.Semi-supervised

2、classification with graph convolutional networks.ICLR,2017.2 Velikovi P,Cucurull G,Casanova A,et al.Graph Attention Networks.ICLR.2018.3 Hamilton W,Ying Z,Leskovec J.Inductive representation learning on large graphs.NeurIPS,2017.第层的节点表示第+1 层的节点表示5|Neural Message Passing(消息传递机制)传统的GNN(如GCN1,GAT2)都遵循

3、 neural message passing(NMP，消息传递机制)paradigm:Aggregate the neighborhood information(通信)Update the message via neural networks(计算)缺点:频繁地从其他机器上拉取信息大规模图数据上每个epoch都有的高通信开销Machine 1Machine 2Input Graph1 Thomas N Kipf and Max Welling.2017.Semi-Supervised Classification with Graph Convolutional Networks.In

4、 ICLR.2 Petar Velikovi,Guillem Cucurull,Arantxa Casanova,Adriana Romero,Pietro Li,and Yoshua Bengio.2018.Graph Attention Networks.In ICLR.ABCDEFGIF from https:/ 系统大多数GNN系统使用消息传播机制DGL1PyG2大规模图数据带来的挑战NMP范式导致了高的训练/预测时间针对任务设计GNN需要知识丰富的专家1 https:/ https:/ GNN端到端系统，无需人为定义网络结构和训练流程10|消息传递(Message Passing)范

5、式Aggregate FunctionMessage FunctionUpdate Function消息传递范式从节点层次来刻画数据的流动，主要由三个操作构成：1.Message Function：定义了从生成信息的方式；2.Aggregate Function：定义了聚合信息的方式；3.Update Function：定义了更新中心节点特征的方式。The formula is from https:/pytorch-geometric.readthedocs.io/en/latest/notes/create_gnn.html不断迭代的“聚合-更新”流程。11|方法概览Scalable Gr

6、aph Neural Architecture Paradigm(SGAP建模范式)定义可扩展训练流程的抽象自动搜索系统(PaSca)预处理(Aggregating)模型训练(Updating)后处理(Aggregating)可扩展的设计AggregatingUpdating不可扩展的设计Fetch information during trainingFetch information before and after trainingTwiceThe number of training epochs12|SGAP范式=_(,)(1)!=_()(2)=_(!)(3)SGAP从图的层次刻画数

7、据的流动，主要由三个操作构成：(1)：在图的层级传播信息，得到不同传播层数的消息，M；(2)：聚合不同传播层数的消息，得到新的特征，!；(3)：将!送入一个机器学习模型（如MLP）进行训练，得到最终输出，。13|SGAP抽象预处理从邻居节点聚合消息（特征）后处理从邻居节点聚合消息（软标签）Pre-processing(Aggregating)Model Training(Updating)Post-processing(Aggregating)可扩展设计ABCDEFInput GraphABCDACABEFAGraph Aggregators14|Graph Aggregator（图聚合器）抽

8、象Augmented normalized adjacency(used in GCN1)Personalized PageRank(used in APPNP2)Triangle-induced adjacency(used MotifNet3)1 Thomas N Kipf and Max Welling.2017.Semi-Supervised Classification with Graph Convolutional Networks.In ICLR.2 Johannes Klicpera,Aleksandar Bojchevski,and Stephan Gnnemann.201

9、9.Predict then Propagate:Graph Neural Networks meet Personalized PageRank.In ICLR.3 Federico Monti,Karl Otness,and Michael M Bronstein.2018.Motifnet:a motif-based graph convolutional network for directed graphs.In 2018 IEEE Data Science Workshop(DSW).IEEE,225228.15|SGAP抽象训练聚合来自预处理阶段的消息更新聚合后的消息Pre-pr

10、ocessing(Aggregating)Model Training(Updating)Post-processing(Aggregating)!#!$!1!-step2#$-step3%$-step&-step可扩展设计16|Message Aggregator（消息聚合器）抽象非自适应聚合器(mean,max)自适应聚合器(gate with trainable parameters)应该给不同节点的不同层表示消息不同的权重!17|SGAP范式基于SGAP 范式来设计GNN：1.前处理对每个节点,变换消息聚合次数从 1 到%(,并使用graph_aggregator 来聚合%(次邻居节

11、点)的特征。2.训练基于聚合后的特征,利用 message_updater(如MLP)来学习节点的软标签类别分布。3.后处理讲软标签当做新的特征，并使用graph_aggregator 来聚合邻居的标签信息*!次，得到最终预测。18|方法概览可扩展范式(SGAP)自动化搜索系统(PaSca)两个模块(自动化)搜索引擎(分布式)评估引擎搜索引擎推荐一个 configuration instance.评估引擎评估被推荐的configuration instance.19|Search Engine（搜索引擎）处理不同优化目标之间的 tradeoff设计空间:在SGAP 3 个阶段的局部设计(参

12、数)预处理(Aggregating)模型训练(Updating)后处理(Aggregating)可扩展设计Message AggregatorDense Layer使用什么聚合器?Dense Layer使用多少层的dens layer?局部设计20|Design Space（设计空间）216 个参数可供选择+每个阶段2个参数超过 150k 种可能的 configuration instances现有的Scalable GNN都存在于我们设定的空间中21|Suggestion Server(推荐服务器)建模配置和优化目标之间的关系推荐能兼顾多个优化目标的配置更新观测到的历史记录22|E

13、valuation Engine(评估引擎)Graph data aggregator(图数据聚合器)切分大图基于已经计算好的第(i)步消息来计算第(i+1)步消息Neural architecture trainer(网络结构训练器)Mini-batch 训练基于parameter server的异步网络更新23实验03|24|实验设置数据集验证目标SGAP 比基于NMP的消息传递机制更scalable。PaSca搜索出来的结果能够很好地处理不同搜索目标之间的tradeoff。搜索结构能够取得更高的预测性能。25|Scalability Analysis(可扩展性分析)对比方法基于 SGA

14、P的APPNP基于NMP的GraphSAGE基于 SGAP 的GNN可以取得接近线性的加速比并且更加接近理想的加速比。Reddit(230K nodes)ogbn-product(2.4M nodes)26|Search Representatives(搜索出来的代表性方法)代表性方法(在帕累托平面上的)从SGAP设计空间搜索出来的方法能兼顾多个搜索目标之间的tradeoff。PaSca-V3 取得了最低的预测误差但带来了比PaSca-V2更长的预测时间。我们搜索出来的结果GBP1,一个 SOTA 的可扩展网络结构1 Chen M,Wei Z,Ding B,et al.2020.Scalabl

15、e graph neural networks via bidirectional propagationJ.In NeurIPS.27|Search Representatives(搜索出来的代表性方法)搜索出来的模型能很好兼顾训练时间与测试准确率。PaSca V2 和 V3 都获得了比 JK-Net 更好的准确率，但是只需要明显更少的训练时间。1 Xu K,Li C,Tian Y,et al.2018.Representation learning on graphs with jumping knowledge networks.In ICML.28|预测性能和其他不scalable的建

16、模范式相比，基于SGAP的网络结构能取得有竞争力的模型性能。PaSca-V3 在不同数据集上都取得了最好的性能。29总结04|30|系统应用l实现了能自动化建模10亿节点的超大规模图神经网络系统，部署于腾讯太极机器学习平台，并广泛应用于视频推荐和内容风控等场景l系统部分功能已在Github开源：https:/ A类数据挖掘旗舰会议WWW 2022 唯一“最佳学生论文奖”（中国第2个）l系统相关工作刷新了国际图学习榜单OGB的3项第一刷新国际图学习榜单https:/ogb.stanford.edu/docs/leader_nodeprop/https:/www2022.thewebconf.o

17、rg/awards/31|总结我们设计了PaSca,一个新颖的构建和探索可扩展 GNNs的网络结构搜索系统，而不是仅研究单个的网络结构设计。PaSca搜索出来的代表性模型能够在预测性能、效率以及可扩展性等多个方面超越现有的SOTA GNN 模型。PaSca能够帮助研究者来探索不同的Scalable GNN结构设计，并且理解不同设计的特点和功能。32|系统开源同构图异构图图算子消息算子算子数据接口SGAP建模网络结构搜索模型主动学习数据标注图结构优化数据处理不均衡处理异常噪声处理模型蒸馏图表示学习节点分类应用聚类链路预测1.高可扩展性:基于SGAP,SGL 能处理超大规模图数据2.自动化:根据指定的多个目标自动化搜索网络结构3.易用性:针对多个任务定制的用户友好的接口4.针对数据的优化多种数据处理操作5.Bag of Tricks内置多种有效的提点方法SGL系统设计目标33https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（4-2 可扩展的图神经结构搜索系统.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。