上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

白玉兰开源:2022中国人工智能软件基础设施高质量发展报告(57页).pdf

编号:98270 PDF 57页 4.54MB 下载积分:VIP专享
下载报告请您先登录!

白玉兰开源:2022中国人工智能软件基础设施高质量发展报告(57页).pdf

1、 !#$%&()*+,-./01234 上海白玉兰开源开放研究院 上海交通大学人工智能研究院 2022 年 8 月 !#$%&()*+,-./0123456557!2!#$%#$%!数字经济时代正在拉开帷幕,数字化转型成为时代趋势,人工智能无疑是这个时代驱动数字化转型的重要技术,对数字经济发展将发挥重大而深远的影响。开源开放是人工智能发展的全球共识,其中,开放数据具有举足轻重的基础性作用。弘扬开源精神,打造有利于人工智能创新发展的开源生态,是人工智能基础设施建设的重要抓手和必由之路。建设并最大化人工智能基础设施的开放创新赋能作用是一项系统工程,需要从人才、数据、算力、工程和运营等多维度多环节协

2、同发力、同步推进,充分发挥各利益相关方的积极性和主观能动性。!梅宏 2022 年 8 月 31 日!#$%&()*+,-./0123456557!3!&!作为数字经济时代的重要新型基础设施,人工智能基础设施的发展水平已经成为衡量国家科技创新实力的重要指标之一,相关产业也将成为全球数字化经济发展的核心推动力。2017 年 7 月,国务院制定并发布了新一代人工智能发展规划,将人工智能技术上升到国家战略层面,积极推动中国产业界构建人工智能在全球范围内的先发优势。在过去的 10 年间,人工智能理论和工程化产品日渐成熟,在新一轮科技革命和产业变革的大背景下,人工智能与产业深度融合,大量的算法、产品和方案

3、落地,进一步释放数字化转型倍增效应。“十四五”规划和 2035 远景目标提出要以高质量发展为主题,以深化供给侧结构性改革为主线,以改革创新为根本动力,以满足人民日益增长的美好生活需要为根本目的,统筹发展和安全,加快建设现代化经济体系。这就要求人工智能技术进一步加快作用于国民经济活动,持续提高生产力水平,为高质量经济发展提供技术支撑。通过完善数字化技术和支持能力,在此之上构建智能化商业模式是数字化转型的核心目标,人工智能技术对于完成这一目标起到重要作用。另一方面,人工智能技术落地的问题上,存在着诸多障碍,技术价值贬值和可行性困难在具体市场和应用场景中时有发生。时值“十四五”开端的当下,梳理当前人

4、工智能软件基础设施建设,了解现状,发掘问题,参考优秀案例,尝试找出困境突破口,对于推进人工智能基础设施落地并促进产业转型升级具有重要参考意义,也是对高质量发展要求的回应。本报告认为,人工智能软件基础设施建设不仅需要囊括算力要素、数据要素作为核心底层架构,更应当将人才培养、工程开发、运营推广作为发展模块,从而可以更好实现人工智能作为基础设施的赋能作用。因此,本报告重点从人才、数据、算力、工程和运营五个维度进行了阐述。人才层面人才层面,展现我国人工智能开发者分布现状及提出人才培养的可行方式。数据层面数据层面,数据治理涉及的技术路线、法律法规、企业战略选择,以及产业生态演变趋势。算力层面算力层面,异

5、构计算及其应用场景特别是大算力场景逐渐清晰,算力与软件算法协同优化将是未来发展重点。工程层面工程层面,在异构计算范式要求下,人工智能开发涉及的软硬件环境愈加复杂,借由人工智能开发平台和软件框架降低开发运维成本将是可行方向。运营层面运营层面,在复杂的商业化环境中,软件基础设施类型项目的推广依赖有效的开发者关系运营加持。总体来看,本报告认为人工智能赋能传统行业落地降本增效,是人工智能软件基础设施高质量发!#$%&()*+,-./0123456557!4 展的重要内涵。这要求人工智能人才、基础软件框架、数据治理、工程落地、基础软件社区生态等不同维度的协同发展。由于目前人工智能发展速度空前之快,与产业

6、融合态势也在不断变化,我们对于人工智能、对于人工智能软件基础设施的理解和认识还有待进一步深化,不足之处,欢迎指正批评。金耀辉金耀辉 上海交通大学人工智能研究院教授、博士生导师、上海白玉兰开源开放研究院执行院长 陈葆立陈葆立 英特尔数据中心与人工智能集团副总裁兼中国区总经理 马艳军马艳军 百度 AI 技术生态总经理 堵俊平堵俊平 华为计算开源业务总经理 张晴晴张晴晴 Magic Data 创始人兼 CEO !#$%&()*+,-./0123456557!5 ()*+,-.()*+,-.!上海白玉兰开源开放研究院携手上海交通大学人工智能研究院、木兰开源社区、OpenVINO 中文社区、飞桨社区、亚

7、马逊云科技、英特尔、阿里云、腾源会、微软Reactor、昇思MindSpore社区、FATE社区、BigDL 社区、MagicHub 社区、Ray 中文社区、ModelArts 社区、OpenMLDB 社区、语音之家、希尔贝壳、Zilliz、思贤科技、CSDN、InfoQ、思否、稀土掘金、亿欧咨询、示说、GDG 上海、极术社区、SeaTunnel 社区、DolphinScheduler 社区、Juicedata 社区、开放群岛开源社区(排名不分先后)等30 余家人工智能技术社区、数据社区及垂直媒体,共同参与本项目,围绕定量和定性分析,希望从中国人工智能开发者的视角,剖析人工智能技术在不同行业与

8、场景中深耕落地现状和趋势,探索人工智能基础设施高质量发展之路。本项目从定性和定量两个部分开展研究。定性部分在桌面研究的基础上,深度访谈二十余位在中国企业就职的中高层技术人员,上至CIO/CTO,下至AI开发团队负责人/总架构师等,覆盖了互联网、金融、自动驾驶、新能源、智能制造等行业,访谈总时长超过 30 小时。定量调研共收集问卷 748 份中国的 AI 开发者问卷,通过各个维度筛选出实际有效问卷近 400 份,涵盖 AI 应用挑战与趋势、AI 开发者现状、开发者触媒方式与AI产品运营、基础设施平台认知等维度。在此基础上剖析了不同维度上AI软件基础设施建设的若干经典案例,供各方参考交流。人工智能

9、应用是一个系统化工程,是对人才、基础软硬件设施、算法、数据、项目管理等等的全方位挑战。本报告将围绕人才、数据、算力、工程、基础软件设施产品运营及几个维度展开论述,其中诸多内容得到了相关社区和企业的大力支持、建议和供稿,并采用远程协作编辑的方式完成。案例部分均由相关企业和社区提供材料编撰,意在展示优秀方案,加深读者了解相关的背景和优秀实践参考。!#$%&()*+,-./0123456557!6 /0123456789:/0123456789:!上海白玉兰开源开放研究院、上海交通大学人工智能研究院、木兰开源社区、示说、开放数据中国、华为、英特尔、百度、阿里云、腾讯、亚马逊云科技、第四范式、爱数智慧

10、科技、亿欧咨询、Juicedata 社区、FATE 开源社区、开放群岛(Open Islands)开源社区 /0;3456789:/0;?;A;A!人工智能技术作为“未来数十年”最先进的生产力代表之一,正逐渐渗透到各行各业,推动数字经济高速发展,预期未来十年 AI 相关解决方案市场的复合增长率将保持在 65%,并于 2027 年达到万亿美元。据权威专家估计,目前中国跨学科复合型人工智能行业人才缺口高达 500 万,人才短缺现象会因为需求对人才标准要求之高而将长期存在。!#$%&!#$%&()*+()*+(,(,-典型 AI 开发业务流程与传统软件项目开发流程类似,都是系统工程,而非仅仅是算法模

11、型,它由多个岗位分工明确的工程师共同参与。如图 1“V”字开发流程所示:!#$%&()*#+,-./01234 相比传统软件项目研发,AI 项目的研发技术人员涉及的岗位职责更多,除了包含软件项目经理、产品经理、测试、实施等人员配备外,还需配备的核心岗位如表 1 所示:5*#-.6789:;=?A!BCDE8BCDE8(FGHI8FGHI8(FG128FG128(-.-.JK12JK12(LMNO12LMNO12(-.-.PQ12PQ1288(RS;8RS;8(!#$%&()*+,-./0123456557!9-.BCTUVWX6(-.FGHIY(-.FGZ4(-.JK12Z4(-.H2Z4(-

12、._12Z4(R S a%(bcBCd(eFfgh(V()i)jFGHIY(eFfghFGZ4(-.JKkl12Z4(-.mnH2Z4(-.kl12Z4(o R S Z4(BC pq rTV6ZstBCuv6(wxayHIY(wxayFGZ4(-.JK12nz(-.PQ4|12Z4(-.l12Z4(R S Z4(bcnz(q FGHIY(V(|EFGHIY(|EFGZ4(-.JK12Z4(-.H2Z4(-.12Z4(-.st|BCTU(fayHIY(|FGZ4(-.JK12Z4(t-.PQnzH2Z4(-.Z4(6ZstBCuv6(“)”FGHIY(“)”FGZ4(-.H2Z4(6ZstHI(

13、FGHIY(!#HE 核心岗位包括 7 大类:技术管理岗位、算法研究岗位、算法开发岗位、应用开发、平台开发、基础设施开发,以及数据类相关岗位。不同企业、组织、产品或者技术团队,由于客观场景需求不同,对于不同岗位人员配比不完全相同,我们也将 7 大类岗位划分为三个层次:第一层次:技术管理岗位第一层次:技术管理岗位。该岗位要求具有 AI 思维的管理者,对其综合能力要求相对较高,需要在算法、数据、系统、软硬件基础设施、软件工程等领域都有所涉猎,并能够结合场景实际需求,用最具效益的方式推动相关产品或者项目落地。第二层次:工程应用开发岗第二层次:工程应用开发岗。此类人才具备行业知识,知道如何结合场景和需

14、求,采用合适的技术、算法、工程来完成实际应用场景落地,属于非常稀缺的行业复合型技术人才。第三层次:算法研究和基础设施开发岗位第三层次:算法研究和基础设施开发岗位。由于该岗位对专业性要求极强,导致人才非常稀缺。!#$%&()*+,-./0123456557!10 同时考虑到商业化周期通常较长,早期投资非常大,有此类岗位设置的组织往往属于行业头部研究所和企业,一些企业甚至出现薪资上不封底的口号来招募人才。!.#(,/0!.#(,/0-人才是推动人工智能产业高质量发展最为重要因素。人才的规模、质量以及结构分布决定了我国人工智能领域在全球范围内的竞争潜力。为了更加精确定义 AI 开发者人才,我们根据岗

15、位职者简单划分为两大类:一是一是核心核心 AIAI 开发者开发者。此类人才负责核心算法模型的设计和研发。如:算法研究员、算法工程师、AI 框架开发工程师等。二是二是相关相关 AIAI 开发者开发者。此类人才把控产品需求,将人工智能算法及各项技术(例如机器学习、自然语言处理、智能语音、计算机视觉等)与客户需求相结合,实现相关应用工程化落地的岗位。如:产品经理、AI 应用开发工程师、系统架构师、技术管理等。调研中,我们将中国 AI 开发者限定为:在中国大陆地区工作、所工作的组织大于 50 名员工并有实际工作经验的开发者,结合国家统计局发布的 2021 年相关行业企业数量,我们大致估算出核心开发者数

16、量约为 40 万,AI 相关开发者约为 180 万。!#HI:)=#-.12!1#(,23!1#(,23-人才分布与各地的经济活跃程度息息相关,一方面体现了各地区对于人工智能领域人才和企业的聚集效应,另外一方面也与应用场景端需求旺盛程度有关。1.1.区域分布区域分布 !#$%&()*+,-./0123456557!11 !#H()#-.12:根据定量调研国内人才工作地,人工智能开发者人才主要分布在长三角、京津冀、和珠三角地区。这三个地区是产业人才的主要聚集地,也是当前人工智能发展主要区域,体现出企业人才需求和人才职业发展意向均列全国前列。2.2.性别分布性别分布 !#H()#-.12:人工智能

17、开发者的性别分布上,明显男性占据多数(84.75%),女性从事技术类型工作相对较少,仅占 12.92%。3.3.学历分布学历分布 !#H(!#$%&()*+,-./0123456557!12)#-.12a-:AI开发者主要构成并非完全是高学历人员,仍然有大量的基础工程性技术工作需要有熟练的IT研发技术背景人才参与,从调研中可见,大部分的学历集中在本科和硕士。4.4.所在所在企业规模企业规模分布分布 !#H()#-.12:AI 项目的竞争,是对人才、设备、资金的全面竞争,大中型企业对于人才的需求和储备可见一斑。高达 61%的开发者人才供职于 500 员工以上的规模企业。5.5.所属行业及所服务的

18、行业分布所属行业及所服务的行业分布 !#H()#-.12:!#$%&()*+,-./0123456557!13 !#H()#-.PQ:我们将人才所属企业类型与他们的 AI 项目所服务的行业类型进行对比,互联网企业、技术驱动型企业、云服务提供商、AI 技术和解决方案以及技术服务类企业囊括了 59%的 AI 人才,他们共同服务了金融、医疗、泛工业,交通运输、零售业、电商、教育、媒体等体现了传统行业的 AI 人才储备不足与旺盛的场景需求之间的矛盾。以互联网、云服务提供商和技术服务提供商为例,他们人才集聚效应强,研发实力强,愿意结合自身业务规模和数字化基础设施完备的优势,投入基础研究,建设技术平台,积

19、极布局产业生态圈。然而,人工智能技术落地不但需要强大的软硬件基础设施平台和先进算法支撑,更需要对业务模式、行业知识的深刻理解。传统行业、企业对于 AI 人才的聚集效应有限,项目技术落地门槛较高,这也是企业对人才、资金、软硬件基础设施、数字化等投入的全方位挑战。!4#(,56!4#(,56-人工智能应用落地涵盖数据场景、算法理论、软件工程,硬件设备等多个领域,需要多层次的复合人才,相比传统 IT 信息化的软件开发人员,人工智能技术研发岗位要求更强调人的作用。前文提到的人才大致可以分为三个层次:算法与基础设施研发人才、工程应用人才、技术管理人才;这三类人才分工协作,在不同维度上推动人工智能产品或者

20、项目的落地。1.1.算法与基础设施研发人才算法与基础设施研发人才 算法及基础设施研发人才的主要工作内容包括算法理论、算法研究、AI 芯片、芯片之上的系统软件、软件框架、平台开发等与实际场景业务无关的基础性技术工作,包括基础科学研究和前沿技术开发,他们的工作成果决定了人工智能项目落地的门槛和成本,也决定着人工智能产业的边界。此类人才的成长主要分为 2 个阶段,分别是高校基础教育与产研结合培养。中国人工智能人才培养报告!#$%&()*+,-./0123456557!14 指出,高等院校在全球人工智能人才培养中扮演关键角色,是研究型人才培养的高地。一方面通过开设“人工智能+”的跨学科专业,另外一方面

21、通过产业头部技术企业,共建学科、实验室、创新合作平台等方式完成人才基础教育和联合培养。!#$%&()*+,-./0123456789:;?1()*ABCD&EFGHI3 JKJL MNOPQ91RS7&98TUV%WX?1YZO_T(aEbc+de%EFfghEF-.1YZO/ijkXlmEF-.no:Xpq%rsGtu17vwxyTXYZO%zEbc+|rs-./015UVhUXV%8Xk156:x-1Yr1:Yr1:Xrs1X1TX“”HIWXYr%18XkXEbc+T(a 1OXk1”bk_-EF%-.GHI3M%156:x-h&9%1:;?Z;EHI K H1”EF%-.%G!L!2.

22、2.工程应用与技术管理人才工程应用与技术管理人才 工程应用与技术管理人才的主要工作内容包括方案开发与应用,他们对行业知识和应用场景极为熟悉,此类人才决定了人工智能产业发展规模,其中的佼佼者往往在职业发展中逐渐成长为技术管理类人才。应用人才以高校培养为辅,在具体商业应用及场景落地中学习提升为主。他们与软硬件基础设施方案提供商形成天然的合作关系,共同推动 AI 应用方案落地。基础软硬件设施提供商通过行业大会、技术峰会、技术工作坊、案例参考等方式,加强其产品生态推广和对应用型人才的沟通与培训。!X-BX-B!JKJJ X-BXh9bQ11 JKL M|1Qo%X-B1!Q9X-W*OG!v&TBv&

23、TB!v&TB!#!$&!de%TB123%&?Y(%1)*+,-d./0T12345678/-17v9:W-1;?4G!ABCTBABCTB!BCTB%DEFGH JKK M%IB1JKLL MJKAB-TB1 JKL MLMNzBCTBGBOPQRS3TUJO1oWV78W1XYBZ4rs1TU“”1&QB/i”1_dB/i“”-aG!bcdBkbcdBk efghifhjefghifhj TBTB!efghifhj&B/iW%kB1lMm-n“”78op&TZ%XYhbcdBk?56q(”%/“”h”WV1”78GrstTB1uv”wT3xyu?YZ%jz1Q9XY8u&XYQ9”Q9X

24、Y+1813BZ;r7G!J !#$%&()*+,-./0123456557!16!B?B?CDACDA!数据对于人工智能产业的重要性不言而喻。数据作为数字经济时代最有价值的生产资料已是共识,是人工智能应用落地成败的最关键因素之一,也是产业化中最重要的一环。企业数字化转型浪潮持续推动数据爆炸式增长,涌现出许多系统集成商,助力企业信息化落地;另外一方面,大量场景端的数字化转型和新技术应用并没有预期进展,技术与场景之间仍然存在巨大偏差。在 AI 开发者定量分析研究中,有关 AI 训练困难的调研,前六个痛点中四个与数据相关:获得标注数据成本太高(36%)、数据预处理、清洗、版本管理、数仓等数据资产管

25、理成本太高(34%)、数据采集比较难(28%)、应用场景配套的数字化程度不高,有价值数据难以获得(25%)。其中企业数字化进程慢的根本原因可能如下:企业管理者对于数据价值认知程度不一、持续 IT 高投入与滞后的业务回报风险、IT 技术与业务结合有鸿沟、IT 实施历史包袱大,数据标准化程度低。!#789:;=;!#789:;=;-数据基础设施主要为采集、存储、治理、计算、应用五大维度,每个维度都会涌现大量基础架构技术和商业模式创新,外加数据安全与隐私法律法规的监管,涉及到的底层技术相当复杂。数据基础设施整体呈现服务化、融合化与合规化的趋势:1.1.服务化趋势服务化趋势 虽然云计算和面向服务的架构

26、从功能上来说,它们能够存储和处理数据,但它们更关注的是软件或平台,而不是数据本身。近年来,数据即服务(DaaS)已成为企业的关键概念。数据架构技术创新与云计算技术的发展密切相关,逐渐呈现服务化特点,对用户(特别是开发者用户)屏蔽大量技术细节,降低了使用门槛,用户使用特定 API、操作命令或者功能界面等即可完成数据访问。下表是关于云计算服务与数据服务的对比说明。5=#(.(qq(U(eF(kl_(klPQ(RS(x(eFW(_t(PQQ(RS(QX(QX(PklPQ(PRS(!#$%&()*+,-./0123456557!17(V(_(PQ(RS(Q(RSQ(LMnzQ(LMnzJKQ(LMnz

27、JKQ(:(:(:(:(RS(_W(PQ(RSRS(:T(aF(a1ikXwR%b?1iG 2.2.融合化趋势融合化趋势 融合化趋势包括交易型数据和分析型数据的融合(HTAP),实时数据流与历史数据的融合(数据仓库),音视频等非结构化数据与结构化的数据融合(数据湖产品)等,以及多源异构数据的交叉、关联分析等。不同的融合方式,面向不同场景的需求,对应也有不少相应技术方案。从数据管理技术演进的历史看,我们经历了数据库、数据仓库、数据湖、数据中台等形态,他们分别适用不同场景,也能看到 AI 和数据挖掘的需求,数据基础架构走向融合化趋势明显。数据库数据库:通常指关系型数据库,用关系模型和数据结构来组织

28、、存储、和管理数据的应用系统,具有结构化强、独立性强、数据冗余低等特点,主要用于联机事务处理(OLTP),比如银行等交易数据处理。数据仓库数据仓库:随着信息的爆炸式增长,传统关系型数据库提供的联机事务处理(OLTP)已经不能满足研究数据之间关系、挖掘数据价值的需求,比如不同数据库系统之间很难做到数据共享,数据集成和分析工作很难开展。为了解决企业级数据集成和分析,我们需要引入联机分析处理(OLAP)架构来对日积月累的 OLTP 数据进行分析,为决策者快速从大量数据中分析出有价值的信息提供系统支持,支撑 OLAP 的数据架构被称为数据仓库。数据湖数据湖:随着企业进一步发展,数据不断堆积,企业管理者

29、希望可以把生产经营中产生的所有数!#$%&()*+,-./0123456557!18 据都完整保存下来形成数据湖,并寄希望于有效管理和集中治理后,从中可以挖掘探索出更多价值,这里的数据包括非机构化数据(如音视频数据等)、半结构化数据(如程序日志文件),以及结构化数据(如交易记录)。数据湖可以理解为是一个存储企业各种原始数据的大型仓库,其中的数据可供存取、处理、分析、转换、发布甚至可以再次存储。数据中台数据中台:数据中台并非一种技术,而是企业的战略选择。依据企业特有的业务模式和组织机构,以数字化的手段构建的一套持续把不同业务部门的数据变成资产并抽象成服务的方法,并经过跨业务类型,跨数据格式甚至是

30、跨越不同工具整合分析处理,最后应用于前端业务决策。统而言之,数据库是数据联机存储处理即服务,数据仓库是分析报表即服务,数据湖是原始数据即服务,数据中台是数据 API 即服务。虽然都是围绕数据进行组织、存储、处理的系统或者平台,但是它们属于不同场景下的技术应用产物,在迈向企业全面数字化转型时代,既对 IT 基础设施提出要求,也对企业组织架构管理治理提出新要求。3.3.合规合规化趋势化趋势 数据合规是指确保敏感数据免于损坏、丢失、被盗、滥用而制定的正式标准及实践规则,包括数据如何组织、管理、存储等,并严格接受法律法规的监管和约束。欧盟于 2018 年 5 月出台通用数据保护条例(General D

31、ata Protection Regulation,简称 GDPR),对于违法企业的罚款可高达 2000万欧或者全球营业额的4%。上海也于2022年初出台了首份企业数据合规指引,对企业的数据合规管理架构与风险识别处理规范做出了相关规定,还特别对不合规使用和处理数据会导致刑事犯罪的风险进行提示。数据作为新型生产资料,一方面可以协助传统产业升级、打造新兴产业和经济形态,成为推动社会经济发展的引擎;另外一方面数据作为企业重要资产被深度开发。与此同时大规模数据泄漏事件也频频发生,带来极大的社会安全甚至是国家安全威胁。国家层面上,涉及隐私保护相关的法律法规诸如数据安全法、网络安全法、个人信息保护法等先后

32、颁布。在挖掘数据核心价值需求和数据合规使用的要求下,隐私计算技术变得炙手可热。隐私计算技术是指在确保数据处于隐私保护的前提下,对数据进行分析处理的一类技术,以密码学为核心,依托可信执行环境,融合隐私保护技术等联合建模。密码学为核心密码学为核心:1982 年姚期智院士提出安全多方计算(MPC)概念,即一种可以保障多个参与方!#$%&()*+,-./0123456557!19 协同计算出结果的同时,各个参与方除了计算结果之外,无法获得其它任何信息,逻辑层面实现数据的可用但是不可见。类似技术还有差分隐私,差分隐私通过在查询结果中加入随机噪声,以保证公开输出的结果不会泄漏个体的数据集归属信息;同态加密

33、,通过对数据先完成基础的加密操作,然后使用加密后的数据进行计算,并确保得出的计算结果与计算原始数据得到的结果一致,从而完成对原始数据的保护。可信执行环境可信执行环境:Trusted Execution Environment(简称 TEE),是由可信赖的计算芯片硬件提供支持、独立于操作系统存在的隔离环境,数据计算只能存在于隔离的安全环境内进行,并通过特别授权代码才能对数据进行访问。hjf!#$!j!ef!e!jfhh#$!_#$1%#$!$4&_%j(1+3#$!);!%*13#P&_+,Q;rF-&%!zh!if$Gu./40?12jh!3!4u156uv7XY8M9:%_;3?QA1#$!

34、%SF564&_%BC%&#$MDUuv?1E,FGHQ%(a;IJKLM;NOG#$JKJL M-n%PQRQ%&”STIUC!FVWX13UC!VWWVQ&Y#$!1H%zROC*1UF3RQQ!L3!R%GMT%1Z+RMMT%8(a1MT(a%/i%*G!#$!6_ab1+cd1(aMM&SMF%#$Gj%rFTs%?Gt4#u4_%?u1#$!%j(v+Yw8hno&_?1xVWy”%&M”G z 融合隐私保护技术的联合建模融合隐私保护技术的联合建模:本质是分布式机器学习,在保证数据隐私安全的基础上,不用将数据传输到中心系统平台上运算,而是在本地节点训练好一个小模型后,与其它节点训练

35、好的模型一并传给中心系统平台统一整合,实现共同建模。gffe!jf!fh|!h!feh)b5%X/iq)1(a&*O(a?1n/ijWXXX&U%j(G Z4fefj!efff!h&/iOGZ1(afF/%b X/ixy1 X/i“”MP1j;3Y$(a&%D*1O(a?G!JKL MqU1 I K 1 i_-U K 1b+g”-i&b+g&/iO&GaQ9-5/%9/iWV4;qHI1HQ qHIG!ID1 qA!3!e“”BB!efB!j!eQ9 b/G_P|5-l/j;T 7k3%L PQ1a qA);3zqY,“”-_*1*7H!#$%&()*+,-./0123456557!20 JK

36、 1L4-%K G!JKJJ Mq1 q)41 T-q/i)1JKJJ M Aq X)!ffe!jff1/i X%q4OGtu1WX K PQ-9%99*F/iqAfh!h$qASzm-“”-“5q14JKJJMqz&9b-“/iq)G !.#78?!.#78?-数据治理(Data Governance 简称 DG)是指管理企业系统中涉及数据资产的有效性、可用性、完整性和安全性的一整套管理流程,它控制数据使用的内部数据标准和策略,既包括管理行为也包括有效的辅助管理工具平台。按照国际数据治理研究所(DGI)的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达

37、成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。在部署 AI 应用时,数据资产质量和运维决定了企业 AI 应用的落地效果。因此,推进 AI 应用的高质量落地,开展针对性的数据治理工作非常重要。很多企业在数据质量、数据字段丰富度、数据分布和数据实时性等维度还不能满足 AI 应用对数据的要求。比如:客户名称在销售、物流以及客户服务系统里不一致,这会使数据集成工作变得非常复杂化,进而影响商业智能(BI)、数据分析的准确性等等一系列问题。再比如,数据治理不当还可能会导致出现数据合规性问题,违反了欧

38、盟的 GDPR 或者上海市颁布的企业数据合规指引等法律法规,造成经济和行政处罚等后果。1.1.数据治理的目标数据治理的目标 一是一是打破数据孤岛打破数据孤岛。企业信息化之初,不同业务部门缺乏统一的企业级数据架构概念,各业务系统平台需求也不完全一致,从而导致不同的业务平台系统相互独立,出现了数据孤岛现象,因此协调不同业务部门的 IT 平台系统,让相关数据可以汇入到同一个数据平台里,消除业务部门之间的数据壁垒是至关重要的,但是这需要 IT 设施的投入,也需要高层管理者的战略组织与协调。二是二是确保数据有效使用确保数据有效使用。借助数据治理工具产品,创建统一的数据使用策略、监控管理策略以及持续的执行

39、策略,降低数据管理成本同时,确保企业级数据满足实时性、有效性、完整性、安全性、一致性等需求,并开放给数据科学家、分析师以及其它业务场景使用。对于数据的实时洞察和决策,会给企业带来更大的核心竞争力。!#$%&()*+,-./0123456557!21 三是三是确保数据合规性确保数据合规性。企业和组织如何存储、检索和保护包括个人信息、客户信息等隐私敏感数据,在遵守法律和法规的前提下,使用内部设定的规则和策略来管理数据,保证其可用性、安全性、可用性的过程,对网络安全及访问限制等 IT 基础设施进行改造,利用工具和流程来规范数据合规收集与使用。2.2.数据治理责任归属数据治理责任归属 数据治理是企业级

40、的战略,需要至上而下的推进,通常来说包括如下主要内容:识别数据资产和现有的非正式治理流程、提高企业内的最终用户的技能以及数据的敏感度、定义可度量的数据治理工作指标。企业内部通常会有许多不同角色都会参与到数据治理过程,包括业务部门主管、数据管理专家、IT 部门还有企业内部的数据使用者等。也有不少企业会设立专门的数据治理委员会,由相关的决策部门主管组成,制定相关策略流程、设定数据访问规则、协调并跟踪流程、解决争议等等。3.3.数据治理的主要挑战数据治理的主要挑战 数据治理起步阶段可能是最困难的,不同业务部门通常对关键数据实体有不同的看法。例如通用数据定义和格式。很多时候达成一致意见是很艰难的,一般

41、需要有明确的争议解决流程。除此之外,数据治理面临的其它常见挑战包括:一是难体现一是难体现商业价值商业价值。无论是向企业管理团队还是参与数据治理的各个角色,呈现数据治理的商业价值有时候很困难,数据治理往往是长期而艰巨的任务,短期内甚至会增加企业运营成本,如何制定数据治理阶段性计划,并呈现预期的业务收益非常关键。二是难二是难制定可量化的业务价值指标制定可量化的业务价值指标。数据质量、数据集和相关属性的准确性和错误率、数据完整性和一致性等指标均可用于显示数据治理的价值。但是针对不同场景和需求,业务指标如何与数据价值对应,甚至数据本身之于企业的商业价值如何度量,需要审慎评估。三是难三是难支持自助数据分

42、析支持自助数据分析。数据治理最终的目标,还是将数据交到企业内的更多用户手中。数据治理必须确保数据可供授权用户自助访问,同时还要确保这些用户业务分析师、数据科学家、业务主管、IT 人员等不会滥用数据或违反数据隐私和安全的规定。除此之外,还需要提供多样化的平台工具,让这些数据用户可以高效、实时处理和分析数据,并快速形成商业决策和洞察。四是四是大数据平台架构复杂大数据平台架构复杂。数据治理程序传统上专注于存储在关系数据库中的结构化数据即可,但在大数据时代,必须处理海量数据中的结构化、半结构化数据和非结构化数据,这些数据往往以及!#$%&()*+,-./0123456557!22 各种形式存储,包括存

43、放于分布式文件系统中,或者对象存储系统中等等,还比如海量历史数据和实时数据的融合处理等等。异构的数据存储、处理、分析外加实效性的要求,如何透明的提供各种数据访问、处理引擎、合理分配计算资源等,对底层数据平台的架构设计、运维能力和资源管理,都带来极大的技术挑战。ABAB!j!e!j!e&Q(a”-4AM(aQrs1(H+(ar(a(a-(a(a&(aq(a78(a%&18+q(&7joPQ()*m%91(a7%G!”-xy%|h%!L%(aGK8(aq%(aZ18Q%(a%5G!Jw/(ay7aG7A(aQ156(ar(a%rsy*1F-JOG!:(aG56?qO*1%(ay*%WV+,1(aT

44、zl:HI1zF%lHIG!z;r(a&G(a$+,1D(a&7+,1(a&”-1(anoCVf;r(a&G!bcdBkbcdBk!f!e!jh!f!e!jhF3r/&%(aG(a&%QC1j(aXqF4q%qC(aG(a1Fqx(aTZ%q1“?M%8yGsY(ahT%:81(a(aY8Gr!f!e!jh!“r(a1P(aq1%&G1!f!e!jh!B(aCQIq(a*%8qjWXDG !1#78ABCD!1#78ABCD-数据标注数据标注的本质,是依据人的经验对各类不同数据的特征进行标记的过程。人对于各类不同数据、信息的接收、理解与消化,在机器学习领域,实际上等价于计算机的数据输入、特征识

45、别与数据分类。能够进行数据分类,是计算机实现“接近或等价于人的判断”能力的基本标准。而数据标注,则是教会机器学习算法“什么特征对应了什么类别”。大到一个 3D 场景,小到若干文字,无不如此。对于数据标注而言,客观世界的信息/数据大致可以分为:文字、声音、图像三大类别,在每个类别中,又可以划分更垂直的分类。例如图像可以分为 2D 视觉和 3D 视觉,2D 视觉中又可以划分出无透视关系和有透视关系的特征数据。数据标注的完整流程,从来源到结果,可以大致分为数据采集,数据清洗,数据标注,数据质检四个步骤:数据采集数据采集是数据标注的关键核心,包括两点要求:一是要符合目标场景的要求一是要符合目标场景的要

46、求。模拟出真实场景下的数据,例如,假设要求最终产出的是两个人在室外环境下的对话,那么采集的时候就不能在静音环境下进行,也不能由一个人单独进行。一般来说,目标场景要求会有很多细节,这些细节对应了算!#$%&()*+,-./0123456557!23 法工程师对于数据中的特征的需求,因此采集时必须严格遵守规则,以确保数据特征能够全部被覆盖到。二是数据的采集要符合国家、地区(一般指境外)对于数据合规的法律法规要求二是数据的采集要符合国家、地区(一般指境外)对于数据合规的法律法规要求。采集活动本身应该合法,采集所得的数据,其数据敏感性、所有权等一系列与法律法规相关的细节,都需要密切关注。数据清洗数据清

47、洗的主要目的是确保数据进入标注生产流程前,100%的符合标注的前提,否则会对标注生产造成巨大困扰。数据清洗是一次最基础的分类和修正工作,不同的数据类型、数据生产需求面对的数据清洗的执行方式、规则都不尽相同。数据标注数据标注在当下是一套工业化、技术化、人机结合、对数据进行结构化标注的生产过程总称。工业化指的是数据标注一般具备标准的生产流程规范,不同阶段的不同工种,分别会对数据进行多个维度的标注操作。技术化指的是数据标注通常在一个成熟稳健的系统化平台上实施,系统平台的主要任务是为繁杂的数据处理工作,提供标准化流程下的技术解决方案,以提高人工处理的效率,降低人为出错的概率,以期提高数据生产的效率与质

48、量。人机结合是当下机器学习已经发展到一定阶段的生产协作方式,人主要提供判断与标注操作,机器基于已经掌握的特征识别能力,为人提供醒目的、及时的提示、数据预处理、警示等。数据质检数据质检是符合工业化思想的最终生产环节。数据质检一般依据生产需求构建正向和逆向的规则校验,通过抽查、遍历等多种不同手段,查找或验证生产成品中的瑕疵(不符合标注规范)数据,以提高最终的数据质量。!44#EF78AGHIJ#EF78AGHIJ-除了企业内部的业务数据极具价值外,公共(甚至是开放)数据集的价值也不可估量。数据开放是指向社会公众提供容易获取和理解的数据。对于政府而言,数据开放主要指公共资源的数据开放,对于企业而言,

49、主要指披露企业运营数据,推动公共企业特别是上市公司的信息公开,让公众公平参与企业投资决策等。公共数据集比如普通话发音的标注数据,中文的词性标注数据等。hhj!je!c+*a!|!j!-(M4Ebc+%”IWV18TXY(aUb1(aVWG4(aaaHI8FqF*c+*a7TGFY4(aa81!:a1aF*oR#:a+14aM6$UG(a%a%&+1T%E,GP$1F LKKG!#$%&()*+,-./0123456557!24 公共数据集一方面对于建立基础 AI 能力赋能价值巨大,另一方面,有助于降低更多研发团队参与成本,共同推进基础理论研究。从数据使用的角度,公共数据集包括三种类型:1.1.

50、公共(或者开放的公共(或者开放的)原始数据集)原始数据集 美国国家环境信息中心公布了地方气候数据集(LCD)就是典型的公共原始数据,该数据集包含美国各地的大量气候和天气数据集,涵盖了气候数据、海洋数据、气象数据、大气数据以及地球物理数据,这对于其它科研机构和商业组织,研究美国气候变迁、农业种植、生态保护、渔业捕捞等吸引公众参与研究意义重大。2.2.开放的标注数据集开放的标注数据集 最著名的开放数据集有:MNIST 图像数据集和 ImageNet,以及百度联合众多科研机构共同发布的千言数据集等,对于推动 AI 开发者人才培养和科研成果推广意义重大。8 3.3.开放的开放的 AIAI 数据模型数据

51、模型 我们知道 AI 应用开发主要包括训练和推理两个重要环节,如图 9 所示:!#$%&()4#+,-.PQ#!(a)*()+1K0q K,1u(a-.XP=%(a1/lQ -0B1b#|2 3%NG!|f#fj 561246 LzKK!(aO:51+Q%N67hq-81(a9:;TX%E4 JKK M3/ij-nG JKLK M|1lM0B!|f#fj THQ9/ijXBQ9Q-8XBYZ-9%IHV%q(aHI123:Q-8V%OG JKJK M J-n|1|KvLbTQkM Lz PQ%(a?PYZrs1ID LK IHV%81)ejWNxjWZnOPq8GzGHI%(aQR*haG !

52、#$%&()*+,-./0123456557!25 机器学习训练之后得到的模型数据,往往需要针对特定的推理设备进行后处理,包括剪枝、量化、压缩、格式转化等处理,其中训练环节涉及到诸如数据标注、清洗、规整、验证等工作非常复杂冗长。为了简化 AI 应用开发流程,不少厂商直接公开优化处理后的模型数据,它们被称为预训练模型,推理应用可以直接下载对应硬件平台模型,即可完成相应的学习测试,也可以部分应用与真实场景的 AI 推理。!KK#LM78NOPQ#LM78NOPQ-针对人工智能研发过程中的数据流转和权利界定,当前尚无被业界普遍接受并且在实际应用中不造成歧义或带来不确定性的数据许可协议文本。学术界或产

53、业界目前所共享开放的数据资源在发布时,一般会使用知识共享协议或开源软件协议如 MIT、GPL 等,当然也存在部分采用私有自定义条款的情况,但上述协议并非专为数据流转和开发利用而设计。因此,在人工智能对数据处理加工并抽象化为模型并最终应用于系统中的各生命周期阶段和中间产物而言,数据的权属让渡和权利责任分配应当有更为细致的界定从而去符合人工智能的生产和科研需要。同时,面对人工智能数据集的来源的复杂性,当前开源软件协议或知识共享协议也很难非常好的处理互联网公共信息汇集而成标注数据集的情形,因而带来相应数据授权过程中的越权授权等情况。在这一背景下,国际上先后由 Linux Foundation 起草推

54、出了 Community Data License,加拿大 Element AI 起草推出了 Montreal Data License,微软牵头制定了 O-UDA/C-UDA 系列许可协议等,试图在公共信息汇集型数据集授权问题、数据开放性授权问题、非商业使用的定义问题等难点和痛点上予以突破。而在国内,上海白玉兰开源开放研究院在木兰开源社区框架和精神指导下,制订并发布了木兰-白玉兰开放数据许可协议(以下简称 MBODL),旨在探索创建一组标准化的、立足中国人工智能实践、推动数据要素流通、优化人工智能发展环境的数据许可协议。WqWq!3%Q1-SS4O-16TEbc+%-1X+UT%”i1V-R

55、W”-%XY0XZYG4t1(WG!WIDi(46 KK 1)6W%gh39Q%BZW”-1 J 07+Z%W _1uv6T%1P13+qf588cdG3t1vIx!qIaa!qa)&!=$I”-%-e&g%ZZ-b_1hb%cb:d%b%bWy_nob_1-%1,%WG !#$%&()*+,-./0123456557!26 协议的草拟由白玉兰开源联合开放数据中国共同完成,并参考了国际通用开放协议如知识共享协议、开放数据库协议(ODbL),国际社群人工智能领域数据流通的授权协议如微软起草的 O-UDA、C-UDA,Linux Foundation 起草的 Community Data Lice

56、nse,Element AI 起草的 Montreal Data License等,也借鉴了对中国现行民法典,数据安全法草案、个人信息保护法草案等其中相关的术语定义。拟定采用该协议发布的数据,应满足公开发布、免费发布的基本前提,并且发布的数据必须符合国家数据安全的要求,不涉及国家秘密、国家安全、社会公共利益、商业秘密、个人隐私等。由于数据集的天然属性,从权属角度可分为两大类情形:一是数据由数据发布者合法合规所有或具备用益权。二是数据由数据发布者通过合法合规的方式自第三方处获取汇编组合而得。因此木兰-白玉兰开放数据许可协议对上述两类情形产出了两组不同起草策略:第一类第一类为为默认数据由数据发布者

57、合法合规所有或具备处置权默认数据由数据发布者合法合规所有或具备处置权。借鉴知识共享协议,草拟了一套 4份协议,即:MBODL:宽松开放协议,适用于最小化限定仅要求注明数据来源的数据发布 MBODL-NC:非商业使用协议,适用于禁止使用者商业化使用和分享数据及成果 MBODL-SA:相同方式许可,适用于要求下游传播数据能够以相同方式给予许可,但不要求对产出的成果使用协议的传染性 MBODL-CU:仅计算使用协议,适用于数据发布方禁止对数据自身的直接使用、展示的情况(如电视台作为数据发布方会希望禁止视频数据本身的播放、拷贝、售卖等,但会允许使用视频数据作为训练数据训练视频语义标签等任务)上述四个协

58、议,均以 MBODL 为基础,在许可限制小节中予以增加不同的限制而形成。但正如CC协议,在这4套协议的基础上,也可再进行许可限制的叠加交叉,形成新的协议,如MBODL-NC-CU,即规定非商业使用且仅计算使用。!#$%&()*+,-./0123456557!27 第二类第二类为为数据发布者数据为自第三方合法合规获取数据发布者数据为自第三方合法合规获取。借鉴了 ODbL(开放数据库协议)的策略,对数据库/数据集的结构(即数据选取、组织的方式,database scheme)和数据内容予以了拆分授权的方式。此类授权策略目前仅为实验性,还需业内专家进一步探讨可操作性和是否是真实需求:案例一:数据发布

59、者通过 wikipedia 和 flickr 等渠道获取了各类鸟类的图片数据,图片数据各自分别授权在 CC 等开放授权协议下,数据发布者通过选取和组合这些鸟类图片,添加了自身对鸟类的标签(鸟类照片对应的鸟类名称、科目等信息),最后形成了一个鸟类图片训练数据集需要授权发布。则在第二组协议的策略下,其将采用白玉兰开源开放数据协议(仅授权结构)+标注数据(授权内容-发布者选用新授权)+各图片原有协议(授权内容-依照各自协议)的方式授权发布整个数据集。案例二:数据发布者通过授权方式(假设授权允许发布者重新发布影像图片)从 N 家医院各自获取了脱敏后的肺部 CT 影像图片数据,数据发布者自身投入人力完成

60、了对上述影像数据的肺结节标注。数据发布者希望将影像图片数据+标注数据组合发布为肺结节标准训练数据集,因此可采用其将采用木兰-白玉兰开放数据许可协议(仅授权结构)+标注数据(授权内容-发布者选用新授权)+各图片原有协议(授权内容-依照各自协议)的方式授权发布整个数据集。基于上述案例的场景描述,草拟了 MBODL(结构内容分离版)协议,作为一个单独的实验性协议供业界讨论。木兰-白玉兰开放数据许可协议是中国民间专家团体在人工智能开放数据集,针对数据资产安全和数据传播权益的法律模版协议的一次尝试,此举旨在鼓励基础公共开放数据的流通,降低中国人工智能基础研究和产业落地在数据集采用、编辑、分发的法律风险,

61、明确各参与方职责,增强道德意识。随着人工智能技术的发展和开放数据集的丰富,与时俱进推动开放数据协议完善升级,需要更多基础研究领域的 AI 专家,也包括法律专家共同参与,共同构建和谐的 AI 基础研究生态。!#$%&()*+,-./0123456557!28!E?E?FGAFGA!#!#RSRS TUVWTUVW-不同场景对于处理 AI 工作负载的硬件需求很不一样。比如:AI 计算的数据源包括文本、视频、音频等,有些还需要对数据进行前置处理;AI 训练时通常都是批量数据处理,系统的整体数据吞吐率是核心考量指标之一,AI 推理时,往往都是单个请求,系统的响应延迟是核心考量指标之一。核心需求决定了算

62、力芯片架构选型,通常有如下人工智能芯片架构类型:CPUCPU(中央处理单元)(中央处理单元):是一种通用处理器,通常具有 1-32 个硬核。CPU 非常适合运行逻辑运算、数值计算、I/O 操作以及驱动其它子系统模块任务等等,因此,对于机器学习中传统模型推理或者不会涉及太多并行处理操作的浅层模型,CPU 也可以做到非常低的计算延迟。GPU(GPU(图形处理单元图形处理单元):是一种快速图形渲染处理器,因其有多个高度并行运算内核(甚至可以高达数千核)处理数学矩阵运算,这些运算彼此并没有很强的依赖,很适合 AI 的模型训练和推理。由于其并行处理的特性决定了它更擅长 AI 训练(批量数据处理),如果应

63、用于推理(单个数据请求),则可能导致大量计算核心资源闲置,造成算力资源利用率不高。FPGAFPGA(现场可编程门阵列)(现场可编程门阵列):是可配置的逻辑门电路,功耗低于 CPU 和 GPU,但是需要有硬件编程专业知识的工程师才能够对它进行编程,虽然灵活性高,不过在切换应用配置时,耗时几分钟甚至数小时甚至更长,不太适合运行时重编程配置相关功能。ASICASIC(专用集成电路)(专用集成电路):定制功能集成电路的统称,采用更简化硬件代码实现和先进制程(比如5 纳米),可以实现超低功耗,常用于特定功能的计算功能加速。不过 ASIC 的设计、制造封装等耗时非常长且一次性投入成本非常高,因此,ASIC

64、 通常只用于有大量量产机会的产品,比如:ISP(图像信号处理器):图像信号处理器,常用于高清摄像头;TPU(张量处理单元):谷歌为定制开发的芯片,用于边缘推理和数据中心训练加速;NPU(神经网络处理单元):类似 TPU,专门针对神经网络打造的用于 AI 训练或者推理目的专用芯片。!#$%&()*+,-./0123456557!29 5#-.eF;,!;,(56(78(eFt(9:;x(Q?(ABC7B(Cq=(tDEFGHRaIF(ABC7B(JqC-(K78L78M($Qt?(N(-.#-.STEnz )*#-.EeFEnz !.#!.#RSRS XYXY-1.1.GPUGPU 与与 CPU

65、CPU 对比对比 如图 10 所示,调研结论中,72%的开发者声称他们的 AI 训练采用的处理器架构是 GPU,GPU 的绝对算力针对深度学习训练场景特别高效,不过也有不少 AI 开发者仍然采用 CPU 作为 AI 训练架构。可能原因为:!#$%&()*+,-./0123456557!30 一是一是 GPUGPU 的硬件成本较高,一次性投入较大的硬件成本较高,一次性投入较大。GPU 价格昂贵,典型厂商针对 AI 计算的 GPU 价格可高达几万美金一块,其中“一机多卡”相对 IT 管理成本也较低,但在集群环境中的节点间互联,涉及的网络设备投入和管理成本也是非常高昂的。二是现有二是现有 CPUCP

66、U 服务器算力未被充分挖掘服务器算力未被充分挖掘。现代 CPU 厂商也在并行化和向量计算上做了大量优化工作,针对特定数学运算进行优化,比如 Intel 的数学核心库(MKL),ARM 的 NEON 及 SVE 指令集。针对算法模型做特定优化后,充分挖掘CPU的算力,某些浅层模型或者传统机器学习模型的训练上,CPU的性能尚在可接受的范围内,甚至可能快于 GPU。三三是复用大数据集群,减少硬件成本投资是复用大数据集群,减少硬件成本投资。基于大数据的 AI 训练,包含数据预处理、清洗、解压、加载等工作,这些工作主要由 CPU 来完成,然后才正式进入 AI 训练过程。从端到端运行时间来看,AI训练并非

67、占据绝对时长,因此采用 CPU 完成 AI 训练,可能会降低比如数据迁移(比如从 CPU 集群迁移至 GPU 集群)带来的额外运行时间;T(HI0efghl%jh!hjf 8X%1VuvPj8O4VMT(a4hW 3|h!j!sH I q 3|JK jjg|jhjf,!h!j3|1!f!JK!fhf$G!YFt3efgh;rn%jh!hjf13Pur 3|JK Ovw3xk%Q7U y$1FwT3%QFz78W$Gtu1e|q*ra m fhe;e$;rn%jh!hjf%o09:b:V17mSTIUCFVW,LJ nT*VG!ZZ%gZZ%gb gOo*(a%V#4(oo*1oY1_o*1Yv

68、wpk%g%;G!ww(akXPxR%gOwZZ%qn(aVo$!#$%&()*+,-./0123456557!31 ZZ%ZZ%/i/i$3|#$!F-&_f+,ejf!fjh!hiehfhj!$1Hp&_&1;rqn%$jWXei!effeih|!hf!f!ehh|!$1+$ZZ(aoP(aqjWXX8$%qnEbc+G LK 2.2.国产国产 AIAI 训练训练 GPUGPU 进展进展 GPU 由于拥有多达数千个并行计算核心,流水线较长,控制逻辑比较简单,非常适合处理大规模并行数学运算,因此也逐渐成为深度神经网络训练的最佳选择。这个领域基本上由国外厂商英伟达长期垄断,国内厂商也在奋起直追

69、,华为、寒武纪、百度等企业相继发布云端训练芯片。华为昇腾 910芯片整数精度(INT8)算力高达 640 TOPS。寒武纪思元 370,采用芯粒技术(Chiplet),整数精度(INT8)算力高达 256 TOPS。百度昆仑芯 2 芯片采用 7nm 制程,搭载其自主研发的第二代 XPU 架构,整数精度(INT8)算力也达到 256 TOPS。还有一大批国产 GPU 针对 AI 训练市场的企业和产品,都取得了突破性进展。!1#!1#RSRS Z?Z?-1.1.GPUGPU 与与 CPCPU U 对比对比 CPU 由于其设计架构原因,比较适合做复杂的逻辑和数学计算,特别是不需要大量并行计算的任务,

70、针对不易并行化的实时推理和机器学习算法、依赖顺序数据的循环神经网络推理、对请求数据的特征提取有大内存需求,比如图片搜索等场景。GPU 和 CPU 相反,架构设计上就是针对大规模并行操作,特别是类似数学矩阵运算等,所以在 AI推理中比较适合,因为其:容易并行化的事实推理和机器学习算法、神经网络处理(训练和推理都涉及大量并行操作)大规模批量输入数据的 AI 推理。在数据中心中,高性能计算(HPC)常用于 AI 推理,高性能计算(HPC)服务器通常将多个 CPU 和 GPU 组合在一个系统中,用特殊的数据总线连接,组成异构计算平台,共同服务于不同的 AI 推理应用。在边缘推理时,由于场景特别碎片化,

71、对于计算平台的功耗、散热、计算延迟要求等可能完全不一样,选择成本和性能兼顾的计算平台非常重要。GPU 通常价格昂贵,功耗很大,可能适用于性能要求极高的场景;反观 CPU 型号和性能选择非常多,从英特尔高性能可扩展处理器,到低功耗 ARM A 系列和 M 系列 CPU,涵盖了数据中心到边缘推理的各种场景。从调研结果中也可以看到,无论高性能 CPU!#$%&()*+,-./0123456557!32 和嵌入式的 CPU 用于边缘推理的比例均不低。此外,企业部署 AI 推理时要充分考虑规模化部署的投入产出比,而且要考虑相关资源将来的复用灵活性,尽可能基于企业既有的 IT 基础设施上构建 AI 推理,

72、充分复用能够支持多种工作负载的 CPU架构,可降低整体软硬件投资成本,提升投资回报率。随着 CPU 技术的发展,其针对 AI 应用的优化也在不断丰富,充分应用开发、部署和性能调优的一系列软件工具,能够进一步加速多种 AI 模型的推理部署。2.2.AIAI 推理芯片的长足进步推理芯片的长足进步 AI推理由于其场景非常碎片,不同场景的市场体量不够大,导致专用AI推理芯片研发、流片等一次性投入与商业回报不成正比。随着 5G 与物联网的发展以及各行业的智能化转型升级,Gartner 的分析报告指出,到 2025 年,75%的数据处理将在边缘端进行,我国在 AI 推理场景也逐渐显露出较大体量的细分市场,

73、也出现了专用 AI 芯片厂商的身影:智慧家居智慧家居:主要用于图像识别、语音识别、语义理解等,算力要求小于 1TOPS,对功耗要求较高的小型家居产品,如全志科技的 R329,内置安谋科技周易 NPU 0.25TOPS 算力,满足各种智能语音产品需求。智慧安防智慧安防:主要用于图像、视频识别、检测等,对于算力要求从 2 20 TOPS,但是会追求比较低的功耗,因此,专用的神经网络处理器在其中发挥大量作用,比如酷芯微的Edge AI SoC产品系列,支持存算一体、数据压缩、多层次缓冲等特性的低功耗高性能的 NPU。自动驾驶自动驾驶:主要用于实时环境数据感知融合、物体分割及识别和路径规划等,根据智能

74、化需求不同,对算力要求从 24000 TOPS(L2-L5)不等,有不少车厂采用英伟达公司基于 GPU 的 Xavier 方案或者英特尔的高性能可扩展 CPU 方案。除此之外,也有不少厂商根据自动驾驶、辅助驾驶以及智能座舱的要求,定义出不同芯片规格,其中对于 AI 推理芯片部分,涌现出了地平线 J2/J3/J5,华为昇腾910,基本覆盖 L2-L4 的算力需求。据预测 2021-2025 年,中国的车载计算芯片市场将从 15.1 亿美元增长至 89.8 亿美元,年复合增长率高达 56%,自动驾驶由于其巨大的市场规模,催生了国产车载 SoC(System on Chip 片上系统)的研发热潮,面

75、对新兴的巨大计算需求蓝海,AI 推理功能在其中起着重要作用,如何突破其中的神经网络处理单元(NPU)等关键芯片设计技术实现是核心。车载智能计算芯片,是对芯片设计、制造及封装的全面挑战,需要支持高性能 CPU、图像处理(ISP)、音视频(VPU)、图形加速(GPU)、实时环境感知 AI 推理(NPU)等模块的同时,还需要兼顾算力、成本、!#$%&()*+,-./0123456557!33 功耗、信息安全、功能安全、易用性等多重因素。面对技术挑战,国内涌现出地平线、黑芝麻、芯驰等众多 SoC 厂商,已经逐渐在上汽、长安、理想等国产汽车上列装,随着深圳经济特区智能网联汽车管理条例于 2022 年 8

76、 月 1 日正式实施,全无人自动驾驶也将驶入一个新的里程碑,有望带动包含AI 推理功能的国产芯片进一步发展。!4#P_!4#P_-1.1.协同优化的必要性协同优化的必要性 当前学术界尚不存在统一的适用于任何场景的神经网络模型。比如早期 CNN 模型采用若干个卷积层作用于输入图像以生成低维特征,然后再将几个全连接层用作分类器产生识别结果的输出;ResNet则使用了多分支和并行层,以实现多尺度采样和避免梯度消失;再比如循环神经网络的各种变体:LSTM、用于语音识别的双向 RNN,以及用于机器翻译的 Seq2Seq 模型,以及最近 2 年比较火的Transformer 模型等等,他们的并行性、计算依

77、赖性、网络层数、模型大小、以及数据访问模式都不尽相同。AI 芯片市场持续增长且竞争异常激烈,不同的芯片供应商都在性能、成本和灵活性等维度寻找生存空间,这就需要 AI 芯片设计厂商提供相应的 SDK(软件开发库)和示例代码,提供性能分析工具帮助分析性能优化方案,让 AI 应用开发者理解如何充分发挥硬件特性。从 AI 应用开发者角度而言,理解 AI 芯片基本架构和特性,根据场景需求针对性选型设备,甚至理解硬件部分基本架构,充分利用现有系统软件工具包完成功能开发和性能调优是非常重要的。2.2.异构计算是主流异构计算是主流 异构计算指计算机程序运行在一种以上硬件计算处理器单元上,比如 CPU、GPU、

78、VPU 或 FPGA 等,一个计算机程序可以综合利用不同处理器的特性来完成不同特定任务,从而达到整体提高计算效率的目的,因此,必须有一种机制来控制应用程序调度和协同执行。较为复杂的计算芯片,又被称为 SoC(System on Chip),也叫片上系统。在同一片硅片上,可能包含有 CPU、GPU、NPU、I/O、WIFI,VPU,ISP 等多个计算单元,而 CPU、GPU、NPU 等又常常是多核架构。!#$%&()*+,-./0123456557!34 !#!U%0)$V!&0)-!3V1!+VW$*&*VJ0&V$&1X+-,-3YV=()*=#J 2020 年特斯拉 Autopilot 硬

79、件团队揭秘了特斯拉 HW3.0 FSD 芯片,包含 12 个 CPU 核,2 个 NNA(神经网络加速器),一个 GPU(图形显示处理单元),一个 ISP(图像信号处理器)和 VPU(视频处理单元),一个功能安全和信息安全模块,以及其它周边接口模块等,将功耗控制在 100 瓦以下,其中 CPU 负责控制管理和部分自动决策算法执行,ISP,GPU,VPU 负责图像数据的预处理和后处理,2 个NNA 提供 72TOPS 的算力可完成 2300 帧/秒的环境感知计算。异构计算是高性能 AI 应用的主流计算方式,既复用了传统 CPU 的成熟软件生态,也可以结合场景,用特定硬件加速器完成 AI 推理、前

80、处理和后处理,真正做到兼顾性能、功耗、成本考量。3.3.编程模型的统一编程模型的统一 AI 计算是非常复杂的过程,对于性能要求极高,多核架构可以有效提高性能已经是不争的事实,不过这种并行架构在内存访问延迟、计算核心作业调度、计算核心控制和数据并行性、多层次缓存结构以及进程间相互依赖等方面,涉及到编译器、多核编程,数据压缩量化等技术,对 AI 应用开发者而言并非完全透明,甚至需要开发者自己对性能数据进行分析、调试、跟踪。这一整套代码编写、调试涉及的 SDK/API 调用规范,可以简单理解为编程模型。深入理解编程模型,需要对硬件架构有一定理解,也是充分发挥应用程序计算性能的前置条件,对于很多 AI

81、 应用开发者而言并不轻松,而统一的编程模型至少带来三个好处:一是一是统一编程习惯统一编程习惯。对于应用开发者而言,熟练使用同一套编程 API 和编程方式,有助于降低开发人员学习成本和团队沟通成本,提高日常开发工作效率,也有助于保持软硬件平台演化的一致性。比如深度学习主流框架之一的 Keras,代码简单很容易扩展,非常直观的定义神经网络,初学者非常!#$%&()*+,-./0123456557!35 容易入门,最初 Keras 为了训练自定义的神经网络,采用了 Theano 作为默认的后端实现来完成 AI 训练,随着 TensorFlow 训练框架的兴起,Keras 也支持 TensorFlow

82、 以及其它多个 AI 训练框架为其后端执行器,影响了大量的 AI 开发者。简单、易用、完备、高度抽象、兼容性强的 API 定义,对于吸引 AI开发者非常重要。二是二是简化调试部署简化调试部署。同一个系列不同版本的芯片,功能或者性能可能有所不同,芯片厂商提供统一的 SDK,可以屏蔽芯片实现细节和硬件差异,可以避免用户代码的改动甚至可以避免用户代码重新编译。对于 AI 应用开发者而言,可以做到开发环境调试和目标设备运行基本保持一致,特别是目标设备不完全一致时,也会极大简化开发、调试和部署的工作量,降低成本。三是三是异构计算支持异构计算支持。CPU、GPU、NPU、FPGA 等都可以作为 AI 应用

83、的目标计算单元,AI 开发者可以使用同一套代码,只用稍作微调或者配置,即可将计算调度到不同的计算处理器中。比如在 AI 实时推理中,可以调用ISP(图像信号处理单元)完成数据的预处理和特征提取,进而采用NPU完成实时推理任务等。大部分的 AI 应用开发者,不会感知类似底层芯片架构、多并发任务调度策略等,需要由下层SDK 来完成功能封装,尽可能让开发者使用便利,对于异构计算的透明支持,可以帮助应用开发者充分挖掘芯片的计算潜力。#$#$!hfhfb4”Ia%#$!_-b14z8);rwl1+”W1Ts%1b?G!,hefhef);156&_$+1T+_*a*!L!Z);x1”+_*!J!&_r1g

84、a*!iy1+“;ic”!z!ST=P1|q-+);o!f!f!f!f&_%1qi-77P3WZPhq-.*&_P1/aE+);s/7_%rsO“c”G3WqDZZ1DZ8.H*I/i%U:Q=$1ZO*/iQ/in%:Q=$14tIJWW3&_l%nG38:Q=$13W0BOnoo*G&_/-.3W%9:=-n%IJW15F56!fe!%!#!=*jWn%6$3&_%Ffn!hf!f$G LL !#$%&()*+,-./0123456557!36 H?H?IIJAJA!与传统的软硬件项目落地相似的是,人工智能项目的落地,需要有大量的工程开发人员参与。然而,由于人工智能项目的系统复杂性,以及算

85、法模型的泛化能力、数据质量以及实施过程中研发人员能力层次不齐等因素,造成实际项目落地未必能达到预期效果。为了进一步降低工程落地难度,涌现出众多基础架构设施产品、方案和服务形态,降低开发者在相关场景下的能力门槛,让普惠 AI 走入各行各业。!#!#RSRS XYabXYab-就全球市场而言,TensorFlow 与 Pytorch 仍然占据不小的市场份额,六成以上的受访者表示他们主要采用 TensorFlow 或者 Pytorch 完成深度学习 AI 训练;就中国市场而言,也涌现出了多个深度学习训练框架。!f!f!f!fx9-q%WXG4x9W7“”13A4;r-,o1378+,MDd2o14

86、fhe e Q9”S%X)+GI%F&4x97W+1;r9W*4%W+GU JKJJ M 1/*z-78 LJ PQ“r G!vv ),),hefhef1Z7B&”-“e1“&”%3y1-=123-lUe“TTIa1Z,;N L178(46 KKK 1 JKJJ M J 91ABN&S9SG7 LJKk?1A KK1JJ N,hef o-nxGJKJJ MKF-qA2O6G!LJ 构建一个AI训练框架及其应用生态,并广泛被市场接受并非易事。从定量调研中可以看出,AI开发者认为选定一个深度学习框架的核心因素用于日常工作,该框架的技术社区一定要非常成熟,已经有大量的开发者使用,周边生态非常丰富,对

87、应的文档、模型库、开发套件完备,且最好是知名企业支持下的开源项目。!#$%&()*+,-./0123456557!37 !#H()*#wxaySTmn_,a AI 训练框架往往都是开源项目,需要长期大量的人力、物力、研发和生态培养投入,短期内很难给主导项目的企业或者机构带来直接商业回报,背后的“经济帐”需要与企业的战略经营目标保持高度一致。!.#!.#RSRS cdBZ?cdBZ?-部署和推理对AI应用落地而言是至关重要的。AI推理分为数据中心推理和边缘设备推理,它们对推理的响应延迟、设备算力、功耗等有着非常大的差异化要求,需要针对运行硬件环境优化编译模型,这些工程开发工作对 AI 应用带来非

88、常大的工作量和稳定性挑战。因此,针对部署和推理的创新项目及产品逐渐进入我们的视野。主流的 AI 训练框架都会有配套的模型部署和推理框架,可以很好的管理模型版本,热替换、A/B测试以及支持多种语言调用的 API。比如 TensorFlow 有 Tensorflow Serving,PyTorch 有TorchServer,PaddlePaddle 有 PaddlePaddle Serving,昇思 MindSpore 有 MindSpore Serving 等,他们专为生产环境而设计,对模型文件甚至可以做到开箱即用,提供“模型及服务”(Model as a Service)特性的高性能应用系统。

89、为了降低在不同设备上的 AI 推理及部署工作量,Apache TVM 项目提出了自己的实践方式:!#$%&()*+,-./0123456557!38 !#-%./$(Wpb cd$%&()*#-%./$(Wpb nz TVM 项目将 AI 训练框架生成的模型转化为中间表示(Intermediate Representation),并根据相应硬件执行目标对模型的中间表示层进行优化,然后通过后端编译器将模型代码转化成相应的硬件平台可执行文件,由于最终的可执行代码是针对特定硬件目标优化的,其执行效率非常高。Apache TVM项目提供了一个开放架构,允许开发自定义硬件执行代码编译器扩展,方便硬件厂商

90、将自己的硬件平台编译后端接入到 TVM 项目中来。M|w10%(a*$OX1TB%w|10(aT+1S+3Xi%li1VWpqMU%0?G#$!X#$!3j$%01Z0(a%0?nP!,LJ!nQ15!,LJ#!g-.nh!,LJ3L!jL$1q!#J%$!3L$%G!4U+X%#$-fh#fh#bb_bb_4hf-137B%8#$1YMMw%+eWQ14!fh#!bb_%z31TVl1wW”;r1*;r761+-3+QeU+8iG!e W%o+u1K%zAG+uT%GB7Z”-1TZ”-%i4 e%+(1TZ+%-_TTGU%+1%1H+toY8%UGuT1Ze%U+_Ze%U+_%&d2%

91、ZU+%o1-TVe%oG!hef!jfhef!jf,hef&”-e_1&”-e+,156&Z%d%&Z+o*&1Z7BTZ”-%e1Zv4*e 1xy 4*sD9%e(hef!jf ZBZ%+,156Z X1xylG Fe16X3BZ;7O%aG!h!effh|e!1F/i!+,7G*7e1!h!effh|e!#f o*1F56wM”t?56%3W!#$%&()*+,-./0123456557!39 G#f!?!f!j!ef!fhf*%#f,HIqIJ1-EFmTZsDP(_G L!1#!1#RSRS LefgLefg-人工智能开发平台通常是集成了硬件算力,软件框架、运维开发、数据及模型存储

92、管理等的综合平台,支持大数据处理、机器学习训练、算力资源调度与分配、模型推理部署等,其软硬件技术栈也通常有四层,每一层都有相应的系统软件对该层的服务提供抽象访问接口,这些软件针对特定的底层硬件异构计算技术、通信技术、资源调度等做了大量的定制开发,这些开发工作复杂度大,投入研发成本高、熟悉相关技术栈的专家工程师人才少,由专家级基础设施开发工程师完成的通用 AI 开发平台,极大方便商业智能(BI)、算法开发者以及数据科学家们的日常工作。!#$%&()*#-.12JKnz AI 开发平台作为 AI 开发工程的集大成者,包含软件和硬件的整体方案,往往以 SaaS 或者 PaaS 的形式存在,是许多 A

93、I 训练框架和推理服务框架开发商的主要盈利模式。AI 开发平台可以基于公有云IaaS 也可以基于私有云的 IaaS 独立部署。各家公有云厂商也都推出了各自的公有云 AI 开发平台方案,国外云厂商产品比如:Google Cloud AI Platform(Unified),Amazon SageMaker,微软 Azure AI Platform 等。国内云厂商产品比如:百度飞桨零门槛开发平台 EasyDL 及全功能开发平台 BML,华为云 ModelArts,阿里云 PAI,腾讯云智能钛等。公有云 AI 平台通常按照用户使用的时长、算力、服务器型号等进行结算。除此之外,公有云 AI平台也与其它

94、公有云产品深度绑定,比如企业级大数据产品、对象存储、在线数据标注等。!#$%&()*+,-./0123456557!40 影响 AI 开发者选择公有云还是私有云开发平台因素众多,我们分别对使用公有云和私有云的理由及动机进行调查:!#H()*#_efghfay12JKi !#H()*#_ejghfay12JKkli 由上图对比可见,选择公有云主要动机是灵活的付费方式、弹性资源申请,特别是对于企业内运维相关部门的依赖性非常低等因素。选择私有云开发平台主要原因为个性化的需求与相关联的业务无法迁移至公有云,以及合规性的要求。私有云和公有云开发平台对 AI 开发者而言,并非二选一的选择题,他们是互为补充

95、关系,在我们的调研中发现,有超过 80%的受访者表示其使用过公有云 AI 开发平台,仅 38%的受访者表示其使用的是私有云 AI 开发平台。公有云基础设施建设,是普惠 AI 非常重要的发展方向,降低中小企业日常 AI 开发的综合成本,其中数据合规性等原因造成公有云部分客户群体流失,相信随着隐私计算、数据加密计算、跨云融合等产品形态成熟会有所改观。Bc+jWXBc+jWX,#$!bx%&%IjWX781Y(a%V;r%&g-Gc+jWXY%i_1i)1!”-%G!ABjWXABjWX-Y1 b&Q%BjWXG(aafrF*r:_18 0?-7$1UU+UF%l1c+*G!|f M!Q9jWX”S

96、1aXY+qG!vBvB fejfejE -Y%I -1 W eh fq(TTqGHQ1 W)i-(aVa7+u1xheffheei%)e)1%N-nefejv +,1F4 e b-41&g%IG fq(a!1 ”-*G!bcdjWXbcdjWX!h!|f!fe!h!|f!fe42&S%sbb?g3jWXQ;rejWXghG56o*%s-%q1rbW,U LK y1 zGbME+O“”1m(akX%8qx%wIJ+GZ:*a*%!1T;reG Lz!4#9:0h!4#9:0h-1.基础模型的概念基础模型的概念 2021 年 8 月,斯坦福大学以人为本人工智能研究所(HAI)发表了一份 200

97、多页的大型报告-On the Opportunities and Risks of Foundation Models,专家们首次提出了“基础模型”一词,并调研基础模型的能力、应用、基础技术以及相关的社会影响。基础模型(Foundation Models)并非一个新的技术,在过去几年提出的 AI 模型包括 BERT、GPT-3、CLIP 等都算是基础模型。基础模型本质是在大量未标注的数据上进行大规模训练得到的模型,然后经过下游领域数据微调(fine-tuning)或者提示学习(Prompting),便可以适应广泛的下游 AI 推理任务,增强了模型的泛化能力,这些基础模型基本上也是使用了自我监督

98、学习训练的大型神经网络。很多时候,我们认为基础模型和(超)大规模预训练模型是同一概念。2.基础模型的特点基础模型的特点 经典的监督学习需要大量标记数据,标注数据可以是分类标签、图片包含红绿灯的像素区域坐标,也可以是蛋白质的空间结构。标注数据通常都是人工标定的,成本较高,也不具备扩展性。而自监督学习是基于未标注数据的训练,至少有两方面好处:一是由于原始未标注的数据非常多,扩展性比有监督的训练效果更优。二是更丰富的表示空间,人为标注的数据,可表示的信息范围有限。!#$%&()*+,-./0123456557!42 基础模型是基于自监督学习的。它降低了 AI 应用的门槛,把基础数据和领域知识分离,基

99、础数据训练不需要大量的标注数据,保障了基础数据底座,外加少量的包含标注数据的领域知识,可以迅速挖掘大量领域信息,解决了 AI 应用的标注数据不足的问题。基础模型也部分解决了模型泛化问题,还凸显出模态融合与基础赋能的特点。模型泛化模型泛化指的是摆脱传统 AI 需要大量标注的领域数据束缚,转而在海量通用数据上训练,提升模型的泛化能力。模态融合模态融合指的是通过联合训练优化集成自然语言处理、知识图谱、计算机视觉、智能语音等多个核心 AI 领域,多种模态数据融合,丰富了 AI 模型的功能边界。基础赋能基础赋能指的是应用落地时可以针对多个领域知识进行微调,广泛适用于不同垂直场景,比如金融、医疗、物流等,

100、解决传统 AI 应用共性和基础能力泛化的问题。3.基础模型的基础模型的成本成本 基础模型虽然在很多场景中被验证非常有效,零标注数据与小样本学习的能力也大大减轻人类工作量,不过基于大规模未标注数据的预训练过程,成本极高,比如表4,其中如GPT-3的训练,以当时最低的公有云 GPU 服务器租用价格估算,训练成本在 460 万美金以上。表 4:基础模型参数和数据集大小 !#m3()/$(3Y$+*(!1()!./*)-.(q+!)*n(1XhFx5GT#T!Tz4T/iTh79g-Q9Yr%TG JKL MU13IHxz4IxdeMH13IaQH+BCG!JKJK M1=#+Ebc+TB!UH G!

101、56T79WX)-1%&“”%91Ts -%=1”-Q%1L-T:*%WG!ID1T(7j;1-(46 13(”-QG!_EkM-8%W41Ek3“b?QTF;%WbG4TT&%14T=#%TF56M%1|M4%noG56_PT1_FpRO%I14Ix7W%18%0FG!t4u1c+S6Eki“b?%WWVG9T%c+c+/41l“YGGQ9T%Ebc+0?14%T1_WV&F56If%cTY-8“78QX:;8781ID%sDPIf(!1&c+ShQ9c+S%d2QGT_WV%If+,1xY=1YMc+%“1S%+1Y%61Y6G!3Q1;*(a(apWU K1!lEbc+V;*(a U%!

102、G#TT?-91Mz%Ebc+-”y1rs$*%Ebc+1TU8Ebc+,188GID!#$%&()*+,-./0123456557!44 3N!=&_Q%fc+&I&WVp”-O1MF%G!ZVZicdxW%”-G(T)3i8QVT%Z1%Z*+I%8R3Z8QW,T%E,G4=#T%+,1)ZQ%*+O:x&1c+M%o-8648G6c+1PZ%Vq15 K q%EbVPZ1 L q5F21FE,1xb?K y$hw1?8|,TG!3-Q1-?Li1#./o1hw%.Oa0#./%WDG+7?1!WVh1%T!=,!14D2XY1-+.Oa3u+.O&a3%Ebc+1H+a_456%!q&

103、./1P(#G”%47J%X1%TR#4Eba%(a1R#4(aO18TZ%O10STs%1?563%O*&8./%w1uahG!39”:1TS;J W1+U*;-81%a*G4 9%a81Ts%aw139-%=t T%9?cq1;mo*1uT%pP1(9,T%hcd%D-G!v,v,hefhef 56 56TTde“”de“”!AB4,!hef!&!JKKK!(Q!#!TCD1j3%X!zK3!%Q(aG3+1CD3!L!*8Q+ao4+!31CD3&E&%deGCDT388%IH”-*-?1j%IJ(a3 fh!FcAOq1_TYZ7%d%*“”b?Q1TUGHCD%,T,G!Qk:*4,

104、!hef!%&G(T4TIwN156z4Io EjfwEK/Q,T%”GIwNZmq%q156q%qq(+r156k4IwNL*M%1Zq?v4O1-F3IwNIJ%“”GID1IwN3GM-8%I:;NO%c+PQR:%cST”-r!AB4,!hef!)%&%-1jXde%!1)UV;%aqW7qn?%ah”XYZs/71+(9G-%+,1(9Xj;TT”9%c7“(G3XYZ*IXY$%Q1-TCT%8_+,1XYZ(a1EkF3_W(?cZ%8_Gn3M%A!zKKK!?cZ1-!XYZqW%3(W!K!?cZGD7F1uSLT%a,G!bcTX%&dP,hef 2O#%bc!1)&eP

105、!c+x)bc!#!+TeP!(abc!14M!q,AGHmeP(a3%!sfgT(a5fK*T#1Ff5“r(a5oc)7(aZV#GIDX33-9()hiA0”-1j-Ok8./l/mr4+,pqnTeP(a1eP7%”-1()hi-Oa?E!#$%&()*+,-./0123456557!45 op&Ua-qrs*+,G!Z1tTXuvf5TXwubTXQk/UVkL34,hef L*xmITyaT zgTz4ePTjg”|%aTG L 5.基础模型治理基础模型治理 基础模型使用大规模、自我监督的广泛数据进行训练,可以适用与许多通用任务。很多企业因此不再需要为每个 AI 应用程序从头开始训

106、练模型,这种突破性的方法一方面提高了 AI 技术落地范围,同时也因为下游任务的后果难以预测而带来风险。基础模型研究仍处于早期阶段,即便是行业顶尖专家,也很难预测这类技术在未来几年将走向何方。但如果管理不善,类似 GPT-3、PaLM、DALL-E 2 等基础模型可能会对个人和社会造成重大伤害。因此,建立基础模型的发布和治理规范也势在必行。建立基础模型的发布和治理规范,至少会让不同的研究人员有机会分析基础模型的适用性。目前,微软、谷歌、OpenAI、DeepMind、百度、华为等公司在如何发布他们的模型上都采取了不同的立场。斯坦福大学以人为本人工智能研究所(HAI)的基础模型研究中心研究人员提出

107、了四个关键问题的思考框架以供参考:一是发布内容一是发布内容。论文、模型、代码、数据可以单独发布,每一项都会被相关专家评审或者评估,从而降低潜在的伤害风险产生影响。二是访问权限二是访问权限,即谁可以访问的问题。例如:值得信赖的同行核心圈,或者申请访问权限的研究人员或者公众。三是何时发布三是何时发布。应取决于如安全性评估结果和基础模型应用试点等。四是如何发布四是如何发布。发布时应保持基础模型开发人员、外部研究人员等核心利益关切者的顺畅沟通,确保模型更新得到及时的评估、验证。斯坦福以人为本人工智能研究所的基础模型研究中心研究人员还提议,创建一个基础模型审查委员会,促进开发人员向外部研究人员等开放基础

108、模型的发布过程,有利于扩大研究和改进基础模型的研究人员群体,同时帮助管理和控制风险。在我国,基础模型研究和发布都发展迅速,大量机构都参与到基础模型的研究和训练中。但基础!#$%&()*+,-./0123456557!46 模型开发人员应该以透明的、公平的方式开展合作,提供集体治理,制订基础模型发布的最佳实践流程;下游用户,包括应用程序开发人员和研究人员,也应该更加了解他们正在使用的模型、用于训练这些模型的数据以及模型是如何构建的,并正确评估相关风险。!#$%&()*+,-./0123456557!47!K?K?LMALMA!成功的 AI 基础设施产品,除了需要大量的底层技术专家参与和领先创新技

109、术外,也需要有专门的运营团队参与开发者生态运营。针对基础设施的生态运营,无论是百度、谷歌、华为云、腾讯云、阿里云以及大量的 IT 基础设施科技公司,都设立了 DevRel 岗位,DevRel 是开发者关系(Developer Relation)的缩写,和 PR(Public Relation)公共关系、GR(Government Relation)政府关系,IR(Investor Relation)投资者关系等等岗位类似,DevRel也代表与开发者关系的营销策略,是一种针对开发者的营销投入,确保基础设施产品(通常是面向开发者的产品或者服务)与其使用者(通常是基于该产品的开发人员)通过相互沟通建

110、立良好、持续的关系。受惠于基础工具的流行和开源文化的影响,IT 企业在全球范围内开展合作一方面变得越来越容易,另外一方面也变得越来越重要。无论小型初创公司还是国际巨头,基础设施开发商的研发团队可以与全世界的软件开发用户交流协作,倾听反馈,甚至鼓励用户主动提交代码并发布早期测试版。许多成功的 IT 软件基础设施产品,都是通过无数次类似的迭代,打磨产品并培养忠实的开发者拥趸。DevRel 的核心作用和工作流程示意如下,大多数基础架构型产品或者平台与实际场景落地仍然有一定距离,需要由第三方研发团队基于基础平台 SDK 或者基础软件框架进行二次开发与适配,而第三方研发团队的开发者用户基数,反映了基础平

111、台或者基础软件架构产品的普适性。开发者关系为基础平台和软件架构的研发团队与大量潜在第三方研发团队搭建了一座沟通桥梁,方便两者之间的高效互动。!#$%&rsct()*#$,u$&GvQwZvx4 !#$%&()*+,-./0123456557!48 DevRel 工作主要涵盖如下四个方面:!#ijklmn!#ijklmn-与传统的产品市场营销类似,负责竞争对手分析、市场分析、内容和品牌推广、策划系列活动并赞助市场广告等等。不过通常基础架构型产品,特别是 AI 训练或者推理框架产品,它们的投入和回报周期更长,商业模式也往往区别于方案服务商,需要与公司战略保持高度一致。我们对 AI 开发者关注的信息

112、进行了划分,AI 开发者对于技术类信息关注度要大于 AI 资讯类信息的关注度。!#$%&H()*4#-.12yz|此外,区别于 toC 的消费级市场营销,toB 面向开发者的营销面临更多的挑战:一是一是开发者绝对数量小开发者绝对数量小。如前文所述,中国 AI 开发者人数预计规模 220 万左右,相比中国 14 亿庞大人口基数而言,大约 600 700 人之中才有一个 AI 开发者,大众渠道的媒体广告投放对于开发者的影响力几乎可以忽略,如何寻找有效的垂直媒体、开发者社区或者意见领袖,整合各方宣传资源才能达到满意宣传效果。二是二是营销内容专业性强营销内容专业性强。AI 基础架构型软件或者平台,往往

113、是在众多知名(开源)项目中寻找新的技术突破点,专业性极强,很难用 1-2 句话广告用语描述产品提供的核心价值,通常是由相关产品研发工程师,通过图文或者 PPT 及视频介绍的方式,才能完整概述产品亮点和优势。“市场运营人员搭台,专家开发者唱戏“方能有效传达产品信息。三是三是信息迭代更新快信息迭代更新快。早在 2006 年 Geoffrey Hinton 等人在深度神经网络(DNN)概念和工程上的突破之后,开启了深度学习在工业界和学术界的热潮,AI 基础架构产品的创新层出不穷,特别是在大数据和分布式计算工程逐渐成熟后,有大量的 AI 软件基础设施创新项目,围绕如何降低开发者准入!#$%&()*+,

114、-./0123456557!49 门槛以及降低 AI 场景落地的综合成本不断涌现。市场上几乎每天都可以看到有关数据、算力、算法、工程实践等动态消息。在 AI 基础设施百花齐放的时代,产品趋同化逐渐显露,精确及时释放产品价值亮点非常重要。四是四是量化成果难量化成果难。AI 基础架构产品或者平台,往往以开源项目形式发布,早期并不能有效评估商业利益回报,如何赢得开发者用户的青睐,扩大项目或者平台影响力是核心诉求。从量化目标管理角度,代码托管平台如 Github 的”点赞”数、代码提交次数、参与提交代码开发者数等等数字很容易被视项目的“影响力“,一旦这些“影响力因子”被作为运营指标,市场上就会出现“参

115、与有奖,贡献送礼品”等行业怪相,开源项目代码质量及口碑会受到极大挑战。建立高质量发展战略,制定合理的效果评估机制,引导并关注开发者用户及市场需求,摒弃单一量化指标非常重要。对于AI资讯类信息的获取,从市场消息传达有效性角度看,IT类垂直媒体网站(及公众号)、云厂商网站、IT 综合类网站等是主流发布平台。!#H()=#12-.;|!.#opqrst!.#opqrst-技术文档主要包括产品平台介绍和基础设施 SDK/API 参考文档及指南,这个是开发者用户使用基础设施产品所必须的唯一官方参考。当然,文档也包括方案案例、技术原理等博客文章等,方便开发者用户理解背后基础设施产品技术原理和参考实践,对于

116、帮助开发者用户理解并正确使用平台和基础设施产品或者服务非常重要。要做到精准的内容传达,需要重视合适渠道的内容投放:1.1.重视官方渠道建设重视官方渠道建设 !#$%&()*+,-./0123456557!50 !#H()=*#-.12-.1STmn|如图 21 所示:前面 6 条基本上都是从官方渠道入口,从产品在线文档、参考代码、公众号文章推送,技术博客、线上(及线下)技术沙龙,线上视频社区以及微信群聊,AI 开发者用户希望可以从产品官方渠道看到多个维度的权威消息,并看重与相关技术专家产生直接沟通机会。2.2.重视搜索引擎优化重视搜索引擎优化 根据 IT 技术在线研讨会及 PPT 回放平台示说

117、的统计数据,其主要流量 70%来自于 PC 端浏览器,绝大部分访问时间在工作日 8:00 22:00,搜索引擎约贡献了近一半流量。虽然在移动互联时代,手机占据了个人绝大部分碎片化时间,但是 AI 开发者的日常工作,仍然以 PC 为主,传统的互联网网站平台,仍然是内容投放的主要战地。3.3.重视代码托管平台的交流重视代码托管平台的交流 !#H()=#-.12|kl 针对基础设施开源项目,开源代码的托管平台是开发者用户唯一最准确的一手信息来源地,无论!#$%&()*+,-./0123456557!51 是报告程序缺陷、查找基础设施代码特定处理逻辑,还是与专家级工程师基于特定问题在线交流,都能形成内

118、容沉淀与沟通记录,也方便搜索引擎检索。开源代码托管平台的交流,一方面体现了开源项目背后主导的企业对于项目架构,代码质量的自信,另外一方面也是与开发者用户高效交流的主要场所,同时也是扩大开发者影响力、吸引更多用户参与到基础设施项目建设的重要手段。对于开源基础设施项目的考核指标,可以设定为:核心代码贡献者多样性、开发者用户的问题反馈、改进建议条数、报告缺陷数、专家工程师平均回应时间、社区活跃度等综合指标。!1#op!1#opuvuv-技术社区是一个抽象概念,并非某一个特定渠道,更不仅仅是微信群聊,AI 基础设施产品经过不同的渠道营销宣传后,会吸引到一些精准的开发者用户关注,在代码托管平台、邮件列表

119、、即时通信工具、线上(下)活动等方式进行沟通,在传达产品特性和更新并收集反馈同时,也构建一个开发者用户群体之间的沟通平台,随着社区的壮大和成熟,对于构建有效开发者生态意义非凡,也是基础设施产品逐渐被 AI 开发者认同的过程。从此次问卷调研中,64%的 AI 开发者用户表示获取基础架构产品技术信息最重要的渠道就是代码托管 Github,由此可见,开放源代码对于与开发者用户形成了最直接的沟通渠道。U JKJL M91qA/f j 46 K 1=;fq%q46 LKKK EGaJKJL Q9qM31JKJL M j Q9HI“!K Q1a HI1HQq)Q_SG!cT -!j X7A1(aqiGi,

120、1%&U%X+,U%OUU%81q2%&-78G!j X7AY46 LK G(a1/&9lUV0X3!j OXGlM!j cT-6%Gi,1rs KKK 0V1JJK”1LK(a1h K HIG L 如图 23 所示,在问卷调研对象中,34%的开发者声称其所在企业发布过 AI 开源项目,31%开发者以各种形式参与过 AI 开源项目。重视技术社区的建设,积极通过代码托管平台与开发者形成良性互动,是有效吸引开发者关注、采用和反哺开源项目的重要手段。!#$%&()*+,-./0123456557!52 !#H()=#-.121/0_e 开发者社区运营主要工作内容包括:技术平台的公众形象,社交媒体、论

121、坛等与开发者用户的互动,线上研讨会、线下沙龙、技术峰会中的演讲策划,直播视频、短视频、文章等内容制作,维系基础设施项目专家开发者、产品经理等与开发者用户间的关系等。自 2020 年初新冠疫情爆发以来,技术社区运营已经线上化和虚拟化趋势明显,我们针对疫情对社区活动参与意愿也做了相关问卷访问,有意愿参与线下活动(线下沙龙及技术峰会)的比例非常低,线上直播或者线上会议成为社区的主要活动形式。加强线上内容传播形式,采取线上会议或者线上直播形式或许是疫情期间的主要社区互动手段。!#H()=#-.12BC:(!4#op3w!4#op3w-是,我司发布过AI开源项目是,我参与过AI开源项目没有34%31%4

122、4%!#$%&()!#$%&()*+*+,-./0#$12,-./0#$12*+*+()(),-,-!#$%&()*+,-./0123456557!53 布道的英文单词是“Advocacy”,是为传教之意。开发者生态建设虽然厂商有相应资源和预算支持,但是 AI 开发者人数众多,分散在全球各个城市甚至是高校学生群体中,除了企业自身的工程师制作内容、答疑解惑以及参与各种线上线下社区活动分享外,积极鼓励开发者用户中积极分子成为技术布道师,参与产品宣传和社区活动组织,DevRel 团队定期对布道师进行培训、鼓励以及相应资源支持,可以极大降低社区运营成本和人力资源要求。布道师机制的设定和有效运营,可以加

123、快技术社区的影响力扩大进程。通常开源软件基础设施项目的用户生态如图 25:在应用开发者和基础设施项目核心开发者之间,引入认证专家和社区志愿者,在技术内容制作、传播和学习交流中,起到传、帮、带的作用,!#$%&()=#LMNOKQ(对于 DevRel 团队而言,需要设定激励机制和开发者的组织形式,引导正确信息传播,并及时监控并指导日常技术布道和交流活动的开展:为开发者提供直接交流平台(论坛、微信群等),实施认证计划如:飞桨开发者技术专家(PPDE),亚马逊云科技Hero、微软MVP、昇思MindSpore优秀开发者,设定互动和社区行为准则,创建可持续的流程和环境等。-|f!fiffe!e 6$&

124、,%-A41ID3&LzK 91Y LKKK-1HQ3Q9 JJ Ar/-Guv0%“-YZ$1-l*%fg“:1#mB!ef4fhe h de%&1lMSB3|f!TBD8Tfg“:17HjAq:G!bcdBkbcdBk fe!efe!e-ktXq(-O“:%fgq(%AGZ156q(bcdBk781-xyz%G1bcdBk fe!e A&r46!zK J 91Y/K NGfe!e!AU%-GA*B1bcdBk-1bcdBk?56h11 YZ%:7q(OGxk&+%fe!e A|q%l1lAd“MA“:pqG!#$%&()*+,-./0123456557!54 AA-k%q41&8%-:Ad

125、“-#”?17?56qo19e -+G!-/0!f!f!fiffe!fej!6$-%“1-J;G3&/JJK QGpk5%1SqA%E1i“38BOfg-Q156nJqIJ q4G k4-8P%b1-nW=%1_d gGtu1*Enx%k568“:3&87q(fg1 G!MBXX-fg1MXQ;M31*noXkf de1 JK EGMBP4XD2f Xk%fg“:17X+Yr4%!e!fhf deAmqHI1%&“%D%!e!fhf qA1r/WX+1:k“”7W+G!t%-q41ASr/“%qYrj(G“:XD2 i7%4“:GID)KKK X-7HQ1/q44 JKK 1no“Aq(QR4

126、 LKG“:1no qde1h!qIaa!qa!=#E&J.IHVC*XG“:!j 3A+,1h f!LKK i,1cr9W)!f!fAB1O;rD2d2%q+,1Z,Mk1Q9q4rs,G!Xc!f!f!jh$&-%Xde3“:11b-)IJ%7Yr%“:GXc“:T1_A LKKK-73N1Y KK1zKK8dGXc81?i-&_(aGHzXkxG56X“:1ruZ-j(1TUY“%A-1Q9q4rs,G!#:!f!f!f!hjfefj!e15$156:%q1*nZ:%-1pkXYrq(%G3/J M%A1Y/LJ:146 LKQ!hjeje A LKKqHI1fLKK=1LK f1h-r

127、s(aab4?sYNQU1 J hef:GZ h O_1u Jz/hef!j!e6$JK hef#:6$1&Qd-P=05&”-GT h!h X1ZA7 1d-K L 7qG!hef!j!e$Yqs A UV fh!h!fT“:3:/0G A1-%*fg1DY39u/Jz 1 JL QG UV1_V-XhwE01ID6 LKKUVG*Ak1 1xy”-*X1L*xy1D TA“:1 z Tde“:Gfh!h!f1kH“:1D ”1,4+1q(D2-1G 3:1JKJL M l1Ar/-8%7Y(5156A|TPO$-!#$%&()*+,-./0123456557!55 81Xl%,JKJJ M

128、 z O1AOqHI16xO1E#$SHpXnop-8%-1F56q%|YZo*uI1A7&9EYZzG!,hef A-n9 qA%-1ID JJ Q-,hef o-nx6Gn9u LKKUV%x-LK!-17 hef 8de%-1hef”B !hj!hfe-HQQo-3 3!TQ1Mo“1qA,G!h!h X1,hef A 0%&%A:7%XkB1A3|1qA1M8deT1q(D213_dP:%-P%+GID h!h XY 1LKKK-7AG LJ!#$%&()*+,-./0123456557!56!N?N?OPOP!“十四五”是我国人工智能产业重要的发展战略机遇期,人工智能软件基础设施高质

129、量发展,对于赋能传统行业人工智能落地降本增效,降低项目实施成本和从业者能力门槛,有着无比重要的意义。人工智能软件基础设施建设是一项系统工程,其中开发者用户推广和商业化价值回报直接决定了人工智能软件基础设施的投资驱动力,从而推动人工智能软件基础设施的良性迭代和生态孕育。人工智能产业的高速发展使得我国的人工智能人才需求持续扩大。对于人才的培养,除了高校作为核心培养主体之外,企业和市场也在发挥着重要的引领作用。其中,做好面向开发者的开放源代码项目的推广,在推动人才培养渠道的同时,也带动了企业的良性发展。近几年,开源在大量学者、产业界人士的宣讲教育下,已经被国人广泛接受。开放源代码本质是软件开发商与其

130、开发者用户之间建立良性互动、互信交流的桥梁。面向开发者的项目和产品推广,则是以源代码、SDK/API、源代码案例的方式提供或者培训开发者。高质量的基础软件项目,离不开高超的软件架构和技术打磨,更离不开开发者用户的积极反馈。不过开发者用户特别是人工智能领域的开发者用户绝对数量稀少,通过垂直社区、社群以及高质量的技术文档和内容传播链接开发者,需要长期的专业的运营投入。开发者关系管理(DevRel)在过去很长时间并未被基础软件开发商重视。伴随大量基础创新技术层出不穷,开发者用户的数量被视为非常重要的项目成败衡量指标,专业化运营对于快速拓展基础软件用户基础,及时响应开发者用户反馈非常重要,也是吸引开发

131、者,建立良好品牌口碑的重要因素之一。人工智能软件基础设施项目离不开算力协同、数据服务、工程实施以及社区生态运营等维度协同发展,在这其中,企业作为人工智能生态的核心培育主体起着不可忽视的作用。对于企业来说,想要长久驰骋于人工智能赛道,就需要探索提升人工智能项目商业价值回报的路径,就需要解决人工智能项目周期长、回报慢的问题。从目前的探索来看,以云厂商为代表的创新企业,其商业模式转变为云端服务,让所有用户共同平摊软件基础设施的投入成本,可以有效降低 AI 应用落地的算力资源、工程运维、数据服务等成本投入。人工智能头部企业及云计算企业也充分发挥其核心技术和工程研发能力优势,构建 AI 和数据平台,赋能

132、中小型企业以及传统行业,完成商业回报并推动基础软件产品研发的良性发展。纵观当前全球的软件基础设施开发商,特别是知名的软件项目,无一例外在开发者用户推广和商!#$%&()*+,-./0123456557!57 业价值都取得不少成绩,作为高质量发展的重要目标,本报告通过多维度展示部分优秀企业和项目案例,希望为国产人工智能软件基础设施提供参考,从而助力我国的人工智能软件基础设施建设。QRSTUVQRSTUV,WX,WX!1 中国 AI 基础数据服务行业发展报告:艾瑞咨询,2020 2 中国隐私计算行业研究报告:艾瑞咨询,2022 3 中国成长型 AI 企业研究报告:Intel、Deloitte、深圳

133、市人工智能行业协会,2020 4 2021 2022 智源人工智能前沿报告:智源研究院,2022 5 人工智能基础设施发展态势报告:中国信息通信研究院,2021 6 2021 年中国 AI 开发平台市场报告:头豹研究院、弗若斯特沙利文咨询(中国),2021 7 2021 中国集成电路行业投资市场研究报告:亿欧咨询,2022 8 2022 中国 AI 芯片行业研究报告:亿欧智库,2022 9 车载计算平台标准化需求研究报告:全国汽标委智能网联汽车分技术委员会,2021 10 百度文心大模型:https:/ OpenAI:https:/ 阿里云帮助中心:https:/ 华为云数据湖治理中心:htt

134、ps:/ 英特尔 AI:https:/ 15 Compute Solution for Teslas Full Self-Driving Computer:Tesla Motors Inc,2020 16 On the Opportunities and Risks of Foundation Models:HAI,2021 17 Foundation models have forever changed AI research.In the future,they need to be released responsibly:Percy Liang,2022 18 How to Use Massive AI Models(Like GPT-3)in Your Startup:Elliot Turner,2022 19 知乎:https:/ CSDN:https:/ 思否:https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(白玉兰开源:2022中国人工智能软件基础设施高质量发展报告(57页).pdf)为本站 (淡然如水) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部