《上海交通大学&机器之心:激活AI创新之源—人工智能开源开放发展报告(65页).pdf》由会员分享,可在线阅读,更多相关《上海交通大学&机器之心:激活AI创新之源—人工智能开源开放发展报告(65页).pdf(65页珍藏版)》请在三个皮匠报告上搜索。
1、 ? AI ? ? Open Source AI Landscape Report ? ? 2020 ? 7 ? 报告?写?明: 本报告中实?和案例数据来源于上海交?大学人工智?研究?、 机器之心的 专业?研以及中国人工智?开源?件发展?盟等平台和研究机构的相关报告、 统 ?和?测。 本报告的?制,是在对国?、国内人工智?开源开放发展深入、广泛?研基 础上, 结合权威?和机构的相关?料和数据, ?梳理人工智?开源开放发展 现状, 对开源开放的内容?畴?细?梳理和汇总, 并提出了开源开放生态的发 展特点和建?建?。 本报告由?写团?共同完成, ?写团?在研究?围上未?做 到无一?漏,加之水平所?
2、,报告一定存在不?之处。欢?社会各界专家学?提 出建?,我们将积极听取各方专家的意?,继续改?完善。 ?写组组?: ?、张晨琛 ?写组成员: 汪洋、周?、张悠曙、何依?、?正、张?宇、李亚洲、?、?少游 目录目录 一、人工智?开源开放及其意义. 1 (一)开源开放有利于?低 AI 的使用?槛,加?新技术的推广及创新. 2 (二)开源开放有利于?低研发成本和应用效率,加? AI 技术的成熟. 2 (三)开源开放有利于优化技术发展?线,促?形成?好生态. 3 (四)开源开放助力 AI 核心技术共享,打破技术垄断. 4 (五)开源开放实现 AI 人才、应用、创业、基?等创新?素?. 5 二、AI 开
3、源开放体系的典型发展模式 . 6 (一)开源开放体系推动 AI 发展的经典案例. 6 (二)开源开放体系推动 AI 发展的常?形式. 11 三、国内外主? AI 开源开放平台及?目. 16 (一)AI 开源开放标准 . 16 (二)AI 开源工具体系 . 18 (三)AI ?源共享平台 . 20 (四)AI 开放生态平台 . 22 四、上海 AI 开源开放建?的?景及建?. 24 (一)中国 AI 开源开放的发展?景. 24 (二)对上海 AI 开源开放的建?. 26 参?料. 28 ?录一:中外典型的 AI 开源开放平台?细介绍. 31 (一)中外典型的 AI 开源开放标准?细介绍. 31
4、(二)中外典型的 AI 开源工具体系?细介绍. 34 (三)中外典型的 AI ?源共享平台?细介绍. 44 (四)中外典型的 AI 生态?平台?细介绍. 47 ?录二:全球主?开源开放生态平台?目列?. 55 (一) AI 开源开放标准 . 55 (二) AI 开源工具体系 . 56 (三) AI ?源共享平台 . 59 (四) AI 开放生态?平台 . 60 前前 ? 人工智?(Artificial Intelligence)从 1956 年?特?斯会?生以 来,理?和技术日益成熟,应用?域不断扩大,目前已成为新一?科技?命和 产业变?的?动力?,将对未来人类社会生活带来深刻改变。作为以?件
5、 算法为基础的新一代变?技术和产业,人工智?与开源开放天生具有紧密? 系,?年来人工智?的技术演?和产业?地,离不开?业开源开放生态的?勃 发展。人工智?开源开放是?动人工智?技术创新和发展的?支撑力?,是 实现技术积累和快?代的?创新模式,更?为全球不同?业和产业的智? 化提供?的契机。 人工智?的开源开放发展受到国家和地方政府的?度关注。我国提出人工 智?发展战略之后,政府文件多次提到推动人工智?开源开放发展,人工智? 开源开放生态及平台建?备受关注。中国国务?在 2017 年发布的新一代人工 智?发展?划中点明,下一代人工智?发展包含“科技引?、系统布局、市 场主导、开源开放”四?基本原
6、则。上海将人工智?作为?点发展的三大产业 之一,?焦创新策源、应用示?、制度供给和人才?,加快建?人工智?发 展的“上海?地”。上海市在 2019 年发布的关于建?人工智?上海?地构 建一流创新生态的?动方案(2019-2021 年)中提出?打?开放前沿共性的 创新平台,“?动国?源,打?开源开放社区平台”是其中一?任务。 开源开放是上海人工智?发展生态中最为核心和具有活力的创新?素。在此新 形势下,上海交?大学与机器之心?合?写了激活 AI 创新之源上海人工 智?开源开放发展报告。 开源开放?含着一定?组织属性,有其?的发展?律和特点。在政策? 励的大?景下,?一步探索明确发展?径,发挥?业
7、内各个主体的积极 性,共同打?多元参与的开源开放生态。为此,?对 AI 开源开放的演?历 程、现有情况、发展?律和?势有整体把握。 本报告?先?了人工智?开源开放的?景及意义。报告?写组?文献 ?研分析,探?了人工智?开源开放体系发展模式。其中,包含了推动人工智 ?发展的经典开源开放案例和常?形式。?写组将其?归类划分,包含开源 开放标准、开源工具体系、?源共享平台和生态?平台。?展现经典案例 特别是最新成果(截? 2020 年 5 月),反映 AI 开源开放的最新?势,?一步 ?明开源开放对 AI 发展的?作用和意义,为包括政府?在内的?业各方推 动 AI 开源开放提供参?借?。最后,?写组
8、总结目前国内开源开放的现状,并 根据上海的?特点和建?人工智?开源开放的优势和不?,提出了参?性建 ?。 1 一、一、人工智?开源开放及其意义人工智?开源开放及其意义 2016 年 AlphaGo 作为人工智?再次爆发的标志横空出世,击?世界冠军李世石。同年, AlphaGo 代码就在 GitHub 上开源,每个对?一新生事物好奇的开发?可以?下?,搭建? 己的?级围棋巨人。同时,开源社区已在人工智?各类细分技术?域出现,如?算机?开源社 区 OpenCV、?然?处理开源社区 OpenNLP、机器人操作系统 ROS 开源社区等等。?些开源事 件和?目的出现?明, 开源?件与人工智?的深度?合,
9、 是全球人工智?产业呈现加?发展态势 的?动?素。 开源,又称为开放源码,其精神(文化)关?在于使用?可以?由使用、复制、散布、研究 和改?件。2012 年 Mike Gancarz 出版了?开源?件开发?为圣经的Linux/Unix ?思 想,对开源技术和文化做出?。Linux/类 Unix 为代?的开源操作系统是开源文化最? ?的符号。 ?件开源的历史可?溯到 20 世纪 60 年代,?今已有半个世纪的发展。纵?开源文化的? 大事件,从 1969 年 Unix ?生以及类 Unix(BSD)发展到 1983 年 GNU ?目的发?,标志着?由 ?件?动的开始,到 1985 年 Stallm
10、an ?由?件基?会的创立,再到 Android 开源移动操作系 统击? Nokia 巨头,OpenStack 开源云平合的典型架构,1991 年 Linux ?生,?来?多的开源事 件?明,开源可推动研发?度加快、?约成本、效益最大化,是推动技术创新和产业发展的有效 ?径。最?的例?,就是大名?的 Android 操作系统源?开源操作系统 Linux。由 Linux 或 类 Unix ?生的操作系统已经?盖了? Windows 操作系统以外各种?备,在企业级商用?备和移 动?备上更是独占?头。 ?件技术发展?循一定的?体结构和?机制。其用户?愿?献体现个体智?的可?产 出物, 并?智协同汇?
11、合成?体智慧涌现的?知?成果或产品, 形成了一大批以开源 ?件社区、大众生产、?答?站、众包等为代?的在线开放协作?目。?些?目及其展现的?智 协同模式,正以前所未有的深度和广度改变着人们?取知?、协作生产、?决?、共享产出等 的?程和方式 1。 作为人类社会的?知?库,?基百科(Wikipedia)是最大的在线百科全书,其特点是用 户既是使用?,又是?献?,其?条可?由定义、?由?。它是全球?络上最大且最受大众欢 ?的参?工具书,名列全球十大最受欢?的?站。百度百科在 2019 年将其收录的?条数正式提 升到 1640 万条,成为满?民“定义类知?求”的权威服务。?两?相?于传统的?典,如
12、牛津?典、汉?典,具有容?大、新?全、更新快等优势。?得益于对传统?中处理思?和 原有百科全书体系的开放,它不仅是技术创新,也为新技术找到了?应用,?也是创新的终极 目标。 如果?“开源”是?件技术实现层?的共享形式,?么作为科技发展的动力源泉,“开放” 意味着从数据到应用的多层次创新。 它打?多方?源汇?合的技术创新生态圈, 促?技术持续 健康发展。当前,?着世界?围内?络?信技术的快?发展,大?模线上协同?步常态化,特别 是今年以来全球新冠疫情的爆发,加快了线上办公、在线教?、?智协同等新模式普及的步伐。 可以?,信息化、智?化的不断延伸,将使未来社会?入更加开放创新的发展模式。 对于人工
13、智?科技和产业发展?,开源开放有以下?意义: 1 在?开放协作?中?户?智协同?为?分析与?, CCCF ?01? ? 11 期 2 (一)(一)开源开放有利于?低开源开放有利于?低 AIAI 的使用?槛,加?的使用?槛,加?新新技术的推广及创新技术的推广及创新 ?开源开放,可以大幅减少?复性工作,提?研发效益,?约研发?源和时?成本。?几 年来,AI 技术?域?猛发展,AI 相关科技创业公司如?后春笋?涌现,在?些 AI 创业公司的? 后,开源开放的 AI ?程框架、工具、平台等功不可没。?点从始终占据 AI 开发框架榜?的 TensorFlow 上可?一斑。 2015 年 11 月,Goo
14、gle 内?已经使用了? 5 年的机器学习系统 DistBelief ?简化和?构 (参与人员包括 Geoffrey Hinton 和 Jeff Dean 等人工智?专家),形成了一个更为快?、健壮 的应用级别代码库并开源,名为 TensorFlow。?系统?够使用“大?模机器?在深度?络中 分发?练和推理”,其不仅?动了 Google 内?多产品包括搜索、相册、地图、?、YouTube 等, 更为广大人工智?从业?和研究人员提供了一个快?强大的开发框架和工作流, 不仅可以 用于学术研究,?用于工业界的产品开发。 根据?向开源?件托管平台 GitHub 2019 年末最新的统?数据,Tenso
15、rFlow 以 9.9k 的?献 ?数?排在开源?目第五位,仍然是人工智?框架?域的?头?大,有? 46k 个?目依?于 TensorFlow ?建立。?多企业在构建?己的人工智?决方案时,?会大?用到 TensorFlow、 PyTorch 等开源框架、算法、工具包、乃?数据?。在开源开放的推动下,AI 技术?地、应用、 推广的?槛?低,各?各业?可以借助开源 AI 技术的力?优化?业内的各种?决方案,?无 ?担心在?些?生、前景不明的 AI 技术上投入?开发成本。 (二)(二)开源开放有利于?低研发成本和应用效率,加?开源开放有利于?低研发成本和应用效率,加? AIAI 技术的成熟技术的成
16、熟 专业的 AI 研究机构和企业会开源开放如深度学习框架、算法、数据等?素,持续加大? 和人力投入,加快人工智?技术的成熟应用。图像分类?域的 ImageNet(ILSVRC) 和 推?系统 ?域的 Netflix Prize 挑战?是印?此价值的优秀案例。 ImageNet 是?算机?(CV)?域的一个大型数据库?目,是斯坦福大学的李?教授受普 林斯?大学 Christiane Fellbaum 教授的 WordNet ?目启发于 2006 年开始研究创建的。截? 2018 年,?数据库对? 1400 万张图像?了手动注?,标注出图片中的对?类别(涉及? 2 万多典型类别),并在其中? 10
17、0 万张图像?标出了物体的?框,可用于物体?别和图像分 类等多种?算机?任务。 在大多数 AI 研究?在专注于模型和算法本?的时候,李?希望?改?和扩展可用于? 练 AI 算法的数据来推动?算机?相关技术的发展。?数据?目于 2009 年的 CVPR 学术会?上 以 Poster 形式?次公开亮相,并于次年(2010)开始,举?了基于?数据?的大?模?别 挑战?, ImageNet Large Scale Visual Recognition Challenge (ILSVRC)。 此后数年, ImageNet 一直作为 CV ?域算法和模型 Benchmark 的标杆之一,引得研究?竞相参与
18、。到 2017 年,当年的 38 个参?团?中有 29 个均?到了低于 5%的?率水平,ImageNet 挑战?也?此?到了最后一 届,开始?由知名数据竞?平台 Kaggle ? 2。 ?了促?各?域算法的发展以及 GPU 算力的广泛?用,?多大型 AI 公司或机构也相继推出 不同?域的开放数据?。2010 年以来,?歌、微?和加拿大?级研究所(CIFAR)相继推出了? 己的?数据?。?歌、Facebook 和亚?等互?企业也相继基于数以百万?的图像、声 2 3 ?片段和文本创?己的内?数据?, 在不同平台上分享。 ?来?多的科研机构和企业开始构建 并开源?己的数据?,以吸引更多的研究?和更先
19、?的算法,加?推?域内 AI 技术的发展。 与 ImageNet 类似的是推?系统?域的 Netflix 挑战?,? 2006 年?挑战?公布以来,不 仅将经典的 SVD,RBM 等算法推向市场,?促?了?合多种机器学习算法的?成学习(Ensemble Learning)算法的发展。与此同时,工业界在?到推?系统巨大价值的同时,也有了研发上的 依据和基础,推?系统?此开始?渐在包括?、?、新?等各个不同?域扩散流?。 可?,开源开放的数据与算法共享大大促?了学术交流、算法改?与工业?地,加?了 AI 技术的成熟与发展 (三三)开源开放有利于优化技术发展?线,促?形成?好生态开源开放有利于优化技
20、术发展?线,促?形成?好生态 开源开放允?更多 AI 技术使用?参与到技术发展的?估及决策中,优化技术发展?线。当 前很多科技企业和研究平台?在一?, ?建立?盟关系, ?决单一企业人工智?技术创新? 力不?和产品生态构建困?等? 3,实现技术创新最佳实?。?价值的最佳体现当属“Open Access”开放?取?动。 Open Access 是指免?开放经?同?审的学术研究成果的在线?,兴?于 1990 年代的 学术出版界,初?是?决当时的“学术期刊出版危机”, 促?学术交流,其主?有两种出版形 式: (1) “?”OA:?将他们的期刊文章?存档(self-archiving)存入开放信息库,
21、也即 作?在任何期刊发?之后,在他们的机构知?库、中央知?库(如 arXiv,PubMed)或其他开放 ?取?站中?存档?文章的一个允?“免?”公开使用的版本 (2) “?”OA:?开放?取期刊(Open access journal)上发?,即作?直接在开放 ?取期刊上发?,?些期刊会直接对他们所有的文章提供开放?取,?常会在出版社的?站上。 始于 1991 年的?文?印本库 arXiv 是典型的“?”OA 出版渠?,也是推动 Open Access ?动的因素之一, 更成为现今人工智?域?文最常?的?取渠?。 很多人工智?域的学? 习惯先将其?文上传? arXiv,再提交?专业的学术期刊或
22、会?,?样的?为模式和?势对传 统学术期刊的经?模式?成了不小冲击。 尽管 arXiv 并不包含同?, 想?提交?文的科研人 员?是?将?文按照一定的排版格式整理后,按学科类别上传?相应的 arXiv 数据库中并经 ?审核确定其是否是学科?域的主?并且具有学术价值。作为一个收?物理学、数学、?算机科 学、生物学与数理经济学的?文?印本的?站,截止 2020 年 1 月,arXiv 已收录? 1,640,000 篇?印本文献。其活?度已经?如今大多数研究人员尤其是人工智?域从业?将其作为主? 的?文更新信息源之一。 有别于传统的科学、物理、生物学等?域,在人工智?域,Open Access 已经
23、成为一种常 态。 与 arXiv 类似的, ?然?处理及?算机?两大人工智?主?技术?域最权威的?会组织 ACL、EMNLP、CoNLL、CVPR/ICCV 也?一直会将其相关会?和所属期刊上发?的?文上传?各? 3 4 的文献仓库 ACL Anthology 和 CVF(The Computer Vision Foundation)Open Access。一个不 可忽?的原因在于, 在人工智?年来?发展的形势下, 开放?取有利于不断更新的知? 的?传?给?的人员,无?是学术研究?是产业应用?,?可以相对快?地做出反应,?免 ?复?子,同时?可以及时给出有用的建?乃?献。?也是开源?件经常更新
24、的原因之一。 另一方?,开放?取给了?拒?文一个?明?己的机会。一个开源开放氛围浓厚的社区,?文作 ?们不用?等待下次发?的机会,?可将?文发布? arXiv 或 Open Review 一类的?站接受 大众的审?,特别符合快?发展的 AI ?域特点。 (四)(四)开源开放助力开源开放助力 AIAI 核心技术共享,核心技术共享,打破打破技术垄断技术垄断 在 AI 基础研究和关?共性技术的突破上,开源开放有助于实现全球水平同步,?免出现一 家独大的垄断局?。在开源历史上,Linux 和 Windows 的操作系统之争最具有代?性。 Linux, 作为一款?生之日?就与微? windows 互有竞
25、争的开源类 Unix 操作系统, 其内核由 Linus Torvalds 于 1991 年开源,其中包含了很多早期开源?目 GNU 操作下?生的基础工具(如 awk,sed 等),最初是作为支持?特尔 x86 架构的个人电?的?由操作系统。与之相对立,微? 旗下的 Windows 因为?源收?的?故,经常?低和斥? Linux 的开源?为,其在 2001 年?曾公 开声称“Linux 是一种癌症,它在知?产权意义上将其?与所接?的一切?系在一?”(意指 开源的 Linux 是知?产权的破坏?)。 早期的开源社区不发?, 开源主?出于个人兴?和一时的热情, 因?开源?件常有使用?槛 ?却容易烂尾
26、的情况。?着开源社区的不断发展,早年的开源码发展实?室(OSDL)与?由标 准组织(FSG)于 2007 年合并,形成了现在的 Linux 基?会,?助 Linux 的?护工作,并?导 Linux 和包括思科,惠普,IBM,?特尔,微?等众多知名科技公司以及全世界?多开发商的开 源合作。 2007 年,微?时任 CEO ?尔?称,Azure 上有? 40%的?拟机?的是 Linux 系统。不久 之后伴?着 GitHub 的成立,微?对开源开放文化的态度也在?年?变:2009 年,微?向 Linux ?献 2 万?备?动代码;2011 年,微?一度? Linux 3.0 五大公司?献?之一;20
27、14 年, ?塑微?的 CEO 纳德拉喊出?名的微?爱 Linux; 2016 年, 微?推出了兼容 Linux 的 SQL 服 务器数据库?件;2017 年,微?成为 GitHub 上?献代码最多的公司,?今。2018 年 6 月, 微?斥? 75 亿?元收? GitHub,?动全球。 微?对开源态度的?变侧?体现了开源开放对技术发展民主化的推动不可?挡, 如今 Linux 内核已经成为服务器上最流?的标?, 且?移植到各种各样的?算机硬件平台包括移动终端 (手 机、平板电?)、?由器、电?、游戏机、智?物?备、汽?、乃?级?算机等,其市场 占有率已?其他任何?源操作系统。得益于开源开放,L
28、inux 不仅?技术和生态发展欣 欣向?, 人们使用?技术的?槛也在不断下?, 同时?不用付出商业?件对等的巨?可?用, ?免了技术垄断。 2018 年,Linux 基?会发?了一个新的开源基?会?目 - 深度学习基?会(LF Deep Learning Foundation),旨在?一步推动人工智?和机器学习的发展。人工智?开源平台框架 “Acumos AI”是其第一个宣布孵化的?目,?多世界知名企业如 AT&T,Amdocs,?基亚,以及 中国的百度、华为、?等公司?第一时?加入,成为基?会的创始成员,共同参与打?中立开 源社区,改善目前广泛存在的专利?可?昂、专业人才有?等?。 5 (五
29、)(五)开源开放开源开放实现实现 AIAI 人才、应用、创业、基?等创新人才、应用、创业、基?等创新?素?素? 开源开放对创新?素的?,?先体现在?尖AI人才上。开源社区吸引全球数百万AI研究 人员和工程技术人员参与,对于构建国?化人工智?人才库和培养AI研发人才大有?益。开放 创新?够为世界各地的?水平的AI专家学?搭建交流合作的平台。 截?2019年底,GitHub上有?4000万开发人员,其中包括2019年的1000万新用户。在全 球?围内活?的?2万个学校、?76万名学生在GitHub上学习。?70的全球?富 50 强公司 为开源做出了?献 4。 其次,开源开放?帮助各?业打开拥抱新一
30、代AI技术的大?,培?完整创新策源?力。? ?开源开放对人工智?,?护开源开放氛围?为初创企业提供?全球先?技术提供人才 和动力。AI初创企业大多?有使用开源开放的?求,并愿意把?目放到开源平台?更新? 代。?也使得以众创空?、孵化器为代?的创新创业的生态环境?够?建立。 再次,各大科技巨头也看到了开源开放的?价值,全球?富50强中有35家公司为开源做 出了?献,其中29家正在GitHub Enterprise上构建其业务?后的?件,?果、亚?、?歌等 ?多大型科技公司?是 GitHub 的客户。微?公司也于2018年宣布收?GitHub,并于2019年? 入中国市场。华为也宣布将与政府以及其
31、他国内科技巨头?手,建立基?会来刺激国内开源? 件的开发。 可?,开源开放会对AI创新?素产生?来?大的?作用。 4 6 二、二、AIAI开源开放体系的典型发展模式开源开放体系的典型发展模式 开源开放对人工智?技术发展的推动体现为多种形式,包括:对AI技术研发标准的制定、 对?低AI技术发展成本或使用?槛的工具的开发、AI技术所?源平台的搭建、对AI开源开放 生态的?和?护等。 在介绍?些发展模式之前,为了?对AI开源开放有直?地?知,本报告先介绍其中的 经典案例。?些案例在其?的发展?程中,展示了?种发展模式的优?性。 图 1. 人工智?开源开放体系全景图(仅取?分典型示例,完整版参照?录?
32、格) (一)(一)开源开放体系推动开源开放体系推动 AIAI 发展的发展的经典案例经典案例 本章我们?取“机器学习/深度学习”、“?算机?”、“?然?处理”以及“?学 习”四个技术?域,具体分析开源开放体系对各? AI 技术发展的推动作用。 7 1 1)机器学习机器学习和和深度学习深度学习 图 2. 机器学习开源开放体系全景图 深度学习 Deep Learning(DL)一?最初在 1986 ?引入机器学习 Machine Learning(ML) ?域,后在 2000 年?用于人工神经?络 Artificial Neural Network(ANN)。2000 年代,深 度学习两大神经?络架
33、构卷积神经?络 Convolutional Neural Network(CNN)和?归神经?络 Recursive Neural Network (RNN)相继?生。?着 2012 年 ImageNet 图像?别竞?第一名的 ?生, 一直?碍深度学习发展的瓶?开始得到?决: 大型开放数据?可以为深度学习提供源 源不断的丰富养料, ? GPU ?动的并?算则大大加快了人工神经?络的?练?度。 从?算机? ?到?然?处理再到?动?等?多相关?域的大型数据?渐成为?域内的?估标准 (benchmark),使得深度学习研究不再各?为政,?是有着几乎统一的标准,因此更加可? 和?估。 与此同时,Kag
34、gle 数据共享平台、arXiv ?文共享平台以及 GitHub 代码共享平台?渐形成 了一条天然的研究?:从业?和研究人员可从 arXiv 学习了?最新的深度学习模型,在 Kaggle 上找到可以一?手的数据?,然后将?己的实?代码发布? GitHub,?同业协作完善。 有了统一权威的?估标准和方便好用的?源共享平台后,简化深度学习模型的开发?程成 为加? AI 技术发展的瓶?之一。发源于?校的?牌深度学习框架 Theano 主?对算法研究? 开发,并未?多?工业生产的?和效率?。? 2015 年底开源的深度学习开发框架 TensorFlow 一经?世便广受?,不仅?升? GitHub ?献
35、?排?榜 top 5,?且?在工业界 流?来,其相关产业与开源社区也?发展?来。此后,各大公司纷纷效仿,开始研发?己的 深度学习框架,如 Amazon 主推的 MXNet、微?开源的 CNTK(Cognitive Toolkit)、UC Berkeley 开发的 Caffe 等,其中尤以 Facebook 基于 Torch ?写的 PyTorch 发展最为?猛,大有?前? TensorFlow 之势。中国百度?主研发的?桨(PaddlePaddle)也稳步发展,以更?中国国情 的优势在产业化?求中为?己?得一席之地。得益于模型交换标准 ONNX 格式的?生,即便是使 用不同开发框架的模型也可以
36、借助中?层 ONNX 互相交换学习,?免了大公司和研究?复 ?子。 伴?着深度学习的?勃发展,各类 AI 相关的开源工具如?后春笋?涌现,然?数?增多之 后?便不可?免地参差不?,?多?牌开源基?会组织发现了?一痛点,并从中看到了机会。 Apache Software Foundation(ASF)开始发力深度学习?目,从 Mahout 到 SystemML 再到去年 刚刚升级为?级?目的 SINGA,期?更是接下了主流深度学习框架之一的 MXNet。?另一个广为 开源社区所熟知的 Linux 基?会, 则是于 2018 年发?了一个全新的开源基?会?目深度学 习基?会(LF Deep Lea
37、rning Foundation),旨在?一步推动人工智?和机器学习的发展(? 基?会已于 2019 年更名升级为 LF AI Foundation)。?多知名企业均在第一时?成为?两大基 8 ?会的会员,共同打?深度学习开源?件,推动?域的不断发展。 2 2)?算机?算机? 图 3. ?算机?开源开放体系全景图 ?算机? Computer Vision(CV)的概念最早可?溯? 1960 年代,?从?算机?概念 的提出到 1990 年代,由于?少实?数据的支撑,相关的学术研究大多基于几何学和三?建。 直到?入 20 世纪互?时代,伴?着?算机性?的提升和电子照片的普及,基于学习的?算机 ?开
38、始得到发展(最早的 CNN 基础模型之一 LeNet 于 1998 年正式发?)。在 2006 年? 2012 年?,Everingham 等人搭建了一个大型图片数据库供机器?别和?练使用,?数据库包含了 20 种类别的图片, 每种类别的图片数?在一千?一万张不等, ?就是 ImageNet 的前?PASCAL Visual Object Challenge。?然?于?数据库的数?与当时的?算机算力,机器学习算法在? 算机?任务方?仍未受到?, 但其潜力却开始?看?, 并吸引了?来?多的研究?投?其中。 ?后李?团?出于“?机器学会?别世界上所有图像和物体”的想法,开始构建后来包含? ? 15
39、00 万张标注图像的开源数据? ImageNet,并组织了相应的挑战? Large Scale Visual Recognition Challenge (LSVRC)。2012 年,?届挑战?冠军 AlexNet 便是凭借基于深度学习的 算法将图像?别?率从此前的业界最佳(SOTA)25% 左右一举?低? 15% 左右。 ?着相关?文的开放, 业界不仅看到了开放数据?对模型的滋养作用, 同时也发现了 GPU 在 模型?练效率上的优势。2014 年的 VGGNet 和 GoogLeNet、2015 年的 ResNet、2019 年的 EfficientNet 等无一不?生于 ImageNet
40、挑战?之上,它们不断刷新着各类 CV 任务的 SOTA ? 录,对后来不同 CV 模型的开发产生了深?影响,成为?算机?技术?域发展的中坚力?。? 一开源开放事件不仅推动基于学习的算法在 CV ?域?占据主导地位,?带动了深度学习 在其他?域中的应用。 无?是大型数据? benchmark ImageNet,?是后来成为 CV ?域中坚力?的各种算法模型, 它们大多发布于当年的?尖?算机?会? CVPR 或 ICCV/ECCV 上,?算机?基?会(The Computer Vision Foundation, CVF)是其?后的主?助商。研究?和从业人员之所以?第一 时?看到 CV ?域的各类
41、优秀算法模型?文,便是由于?基?会将其旗下所有?尖学术会?每年 正式接受发?的?文和 workshop ?文发布? CVF Open Access 开放?取平台,供所有人免? ?。得益于此,CVPR 也在?几年?续多年? Google Scholar CS 大类会?排名前 10 的位? (目前排名第二),会? h5 指数? 240(AI ?域?几年热度?的 NeurIPS 的 h5 指数仅有 169)。 如果?大型 Benchmark 数据?竞?平台 ImageNet 为 CV 的发展提供了土壤和养料,?么? 9 特尔 2000 年初发布并开源的?算机?库 OpenCV 就是推动 CV ?域发
42、展的?光和催化剂。类似 于 TensorFlow 之于深度学习, OpenCV 对于?算机?的从业人员来?基本是一个绕不开的开发 工具,是?算机?入?的必备技?之一。开源开放的环境使得 OpenCV 不仅得以紧?潮流,提 供多种?算机?任务、算法以及硬件的支持,?够兼容 Python、Ruby、MATLAB 等多种? 接口,提供?尽的免?学习?源和?答社区。 3 3)?然?处理)?然?处理 图 4. ?然?处理开源开放体系全景图 ?然?处理 Natural Language Processing(NLP)是人工智?的一个?常?的分支, 时常?称作“?算?学”(Computational Lin
43、guistics),其核心目标是将人类的?(即 ?然?)?换成?算机可以执?的命令。 人的?是?常庞大?繁杂的,很多时候并不?则的定义和知?的堆砌来抽?出? 律。以机器?为例,从用机器来做?的想法?提出开始(Warren Weaver, 1949),相关研 究和实?在很?的一段时?均围绕源?和目标?的?学信息?开展,基于?典和?法 生成?结果,?称作基于?则的机器?(RBMT)。从方法上可以看出,基于?则的机器? ?常依?典和?法?则,开源?典的导入和?法?则的共享使得其在一段时?内取得了一 定成效, 然?两?数据的?取在?到一定的?值之后, 很?继续以固定成本持续?得更大程度 的提升。 ?着
44、统?学的发展,基于对双?文本?料的分析生成?结果的统?机器?(SMT)开始 ?渐成为主流。?方法严?依?多?种?料库,且更局?于特定?域。?域最知名的机器? 数据竞?平台 World Machine Translation(WMT)便在此时应?生。2006 年?今,?比?已 成功举办?14届。 每次竞?workshop均依托于当年的?然?处理?会 (NAACL、 ACL和EMNLP) , 提供不同?对、 不同?域的机器?任务数据以及?测标准, 吸引了来?世界各地的研究?伍 参与、学习和?,并由此?生出?多不同的统?机器?模型,更推动了知名开源统?机器? ?工具 Moses 的?生, 后来 Mo
45、ses ?渐成为统?机器?时代的标?。 依托于优?的开源开放生 态 (WMT) 与工具 (Moses),统?机器?发展?好。然?,受?于基于统?的方法,加之构建 模型的平?料有?,SMT ?常对于新出现的概念和文字组合?乏?测?力,因此对于?域外甚 ?料外的?任务几乎不可用。与此同时,SMT 本?产出的?文字不可?免地带有明显的机 器痕?, 与人类?的?然流畅度相比始终存在?大差?, 其?结果几乎全?人工校对和 润?加工,真实可用性大打折扣。 在 Neural Language Model 提出(Youshua Bengio, 2003)约 10 年后,端到端?码器-?码 器架构的机器?模型开始出现,?着 Sutskever et al.和 Cho et al 开发出序列到序列 10 (seq2seq)方法,神经机器?(Neural Machine Translation, NMT)开始?入大众?。? 此, 机器?正式?上了快?。 得益于开源开放的?文共享平台 arXiv 和一年一度的数据?竞 ?平台与基