小数据人工智能的巨大潜力（2022）（22页）.pdf

编号：71355

PDF 22页 1.73MB 下载积分：VIP专享

下载报告请您先登录！

小数据人工智能的巨大潜力（2022）（22页）.pdf

1、- 1 -2022 年年 5 月月 5 日第日第14期总第期总第 533 期期小数据人工智能的巨大潜力小数据人工智能的巨大潜力【译者按】【译者按】2021 年 9 月，美国安全与新兴技术研究中心（CSET）发布小数据人工智能的巨大潜力报告。报告认为，人工智能不完全依赖大数据， “小数据”方法可以针对标记数据不足的情况提供替代性解决方案，拥有巨大人工智能潜力。报告介绍了迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习五类小数据方法，分析了各类方法在人工智能应用方面的优势，并通过对论文研究集群的统计分析探究了小数据方法研究进展、领先国家相关领域竞争力分析及研究资金投入情况。赛迪智库信息化与

2、软件产业研究所对报告进行了编译，期望对我国有关部门有所帮助。【关键词】人工智能小数据【关键词】人工智能小数据- 2 -传统观点认为，尖端人工智能依赖于大量数据，一个国家（或企业）能够获取的数据量是其人工智能进展的关键指标。当前很多人工智能系统确实使用了大量数据，然而，并非所有人工智能系统都需要海量数据作为支撑，小数据也拥有巨大人工智能潜力。为此，本文介绍并概述了“小数据”人工智能方法，该方法有助于解决标记数据不足的问题，进而挖掘数据潜能，并鼓励政府部门、行业企业突破大数据基础设施局限，实现人工智能创新。一、“小数据”方法的分类一、“小数据”方法的分类本研究将“小数据”方法分为了五大类

3、：迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习。在没有大型预标记数据集的情况下，可以利用这些方法训练人工智能系统。迁移学习（迁移学习（Transfer learning）是一种机器学习方法，可以在数据丰富的环境中学习执行任务，而后将所学知识“迁移”到可用数据少的任务中。这一方法对于解决关联问题标记数据丰富但所研究问题数据不足的情况有很大价值。例如，某人在开发用于识别稀有鸟类品种的应用程序时，可能只有少量鸟类照片。利用迁移学习，可以首先使用更大、更通用的图像数据库训练基本图像分类器，一旦该分类器能够区分狗与猫、花与水果、麻雀与燕子，研究人员就可以为该分类器提供- 3 -更小的稀有鸟类

4、数据集。然后，该模型可以“迁移”其已知的图像分类知识，利用这些知识从更少的数据中学习识别稀有鸟类。数据标记（数据标记（Data labeling）方法，即从有限的标记数据和大量无标记数据开始，使用一系列方法来理解可用的未标记数据。例如自动生成标记（自动标记）或识别标记重要数据点（主动学习）。例如，主动学习可被用于皮肤癌诊断的相关研究。研究人员基于已进行皮肤癌或健康皮肤标记的 100 张照片，进行图像分类模型的最初训练。然后，为模型提供更大的潜在训练图像集，从中选择另外 100 张照片进行标记并添加到训练数据中。同时，为了尽可能多地从可用数据中学习，该模型可以基于照片信息含量进行附加照片选择，

5、自行选择信息更丰富的照片进行标记。人工数据生成（人工数据生成（Artificial data generation）方法，旨在通过创建新数据点或其他相关技术，最大限度地从少量数据中提取更多信息。该方法可以通过对现有数据的小幅更改（如图像分类数据集中裁剪或旋转图像）或其他更复杂的方法，推断可用数据的基础结构并从中进行推测。例如，计算机视觉研究人员利用计算机辅助设计（CAD）软件生成常见物体的逼真 3D 图像，并使用这些图像扩充现有的图像数据集。这种方法在处理有关重点数据的单独信息源时，相比- 4 -其他方法更为切实可行。同时，这种生成更多数据的能力不仅仅可用于处理小数据集。如果单个数据的细节为敏

6、感信息（例如，个人的健康记录），但研究人员对数据的整体分布很感兴趣，则可以使用合成数据对数据进行随机更改，以掩盖私人信息。贝叶斯方法（贝叶斯方法（Bayesian methods）是机器学习和统计学的一种大类方法，有两个共同特点。首先，该方法明确地将问题先验信息纳入其解决问题的方法中，而其他方法则更倾向于对研究问题做出最少的假设。贝叶斯方法会在数据进一步改进之前合并这些“先验”信息，因此更适合某些数据较为缺乏，但可以采取实用数学形式写出问题相关信息的环境。其次，贝叶斯方法侧重于对其预测的不确定性进行良好校准后的估计。该方法可以更容易地识别数据点，从而极大减少不确定性，在可用数据有限的情况下能

7、发挥很大作用。例如，贝叶斯方法已被用于监测全球地震活动，这对于检测地震和验证核条约十分重要。通过开发一个模型，结合有关地震学的先验知识，研究人员可以充分利用可用数据改进模型。此外，贝叶斯方法还包括处理大型数据集的其他方法。强化学习（强化学习（Reinforcement learning）是一个关于机器学习方法的广义术语，在强化学习中，计算机系统通过反复试验来学习如何与环境进行交互。强化学习通常用于训练游戏系统、机器人- 5 -和自动驾驶汽车。例如，强化学习已被用于训练学习玩视频游戏的人工智能系统，从简单的街机游戏（如 Pong）到战略游戏（如星际争霸）。在各种情况下，系统开始时都对如何

8、玩游戏知之甚少或一无所知，但能逐步尝试，观察能产生积极奖励信号的操作，从而逐渐学习游戏规则。强化学习系统通常最终是从大量数据中学习，需要大量的计算资源，但其使用的数据通常是在系统训练时生成，即数据产生于模拟环境，不需要提前收集和标记。在强化学习问题中，计算机系统与环境交互的能力至关重要。值得注意的是，人工智能和机器学习研究融合了多种不同的方法、途径和范例，用于解决多个不同类型的问题，在实践中，很难完全分开以上五种方法类别。图 1 展示了这些方法间的相互连接关系。每个点代表一类研究集群1，集群之间连线的粗细程度代表了集群之间的引用强度。可以看出，虽然各集群与同一类别其他集群的联系的确最多，但不同

9、类别的集群之间也存在大量联系。 “强化学习”类别下的集群更为连贯一致，而“人工数据生成”集群则更加分散。1研究集群是由引用链接连接在一起的科学研究文章集合。- 6 -图 1：小数据研究集群网络图二、“小数据”方法的意义二、“小数据”方法的意义与数据密集型方法相比，不依赖预先收集和标记的大型数据集的人工智能方法具有很多优势。（一）减少大小实体之间的能力差异（一）减少大小实体之间的能力差异很多人工智能应用的大型数据集价值不断增长，同时不同机构收集、存储和处理所需数据的能力存在差异，这有可能在人工智能“拥有者” （如大型科技企业）与人工智能“匮乏者” （如小型机构）之间形成差距。对此，迁移学习、自动

10、标记、贝叶斯方法等小数据方法能够以较少的数据应用人工智能，将有助于减少小型机构进入数据领域的壁垒，缩小大小实体之间的能力差异。- 7 -（二）减少收集大量个人数据的动机（二）减少收集大量个人数据的动机多项调查表明，人们认为大型科技企业会持续收集越来越多与个人身份相关的消费者数据，用于训练其人工智能算法，并由此引发人们对人工智能威胁个人隐私的担忧。对此，某些小数据方法通过人工生成新数据（如合成数据生成），或对算法进行模拟训练，将有效去除敏感的个人可识别属性，从而减少为训练机器学习模型而收集真实世界数据的需要，减轻人们对大规模收集、使用或泄露消费者数据的担忧。（三）推动在可获得数据点较少的领域取

11、得进展（三）推动在可获得数据点较少的领域取得进展小数据方法可以为人们提供一种处理数据匮乏或缺失情况的可靠途径，解决面对重要问题时，输入人工智能系统的数据很少或不存在的情况。例如，为一组没有电子健康记录的人构建一个疾病风险预测算法，或者预测有很长喷发周期的火山再次喷发的可能性。小数据方法可以利用标记和无标记数据从相关问题中迁移知识，利用人们手头的少量数据点创建更多数据点，利用与研究领域相关的先验知识，或通过构建模拟场景或编码结构化假设来进入一个全新领域。（四）规避脏数据问题（四）规避脏数据问题在数据利用过程中，要获得干净、结构整齐、方便研究的数据常常需要付出大量努力。对此，迁移学习、贝叶斯方法或

12、人工- 8 -数据生成方法可以通过分别依赖相关数据集、结构化模型和合成数据，减少需要清理的数据量，从而显著降低脏数据问题的规模。例如，美国国防部由于数据基础设施和遗留系统分散孤立的原因拥有大量“脏数据” ，需要耗费大量人力和时间对数据进行清理、标记和组织，而数据标记类别中的方法可以自动生成标记，从而更轻松地处理大量无标记数据。三、研究发现三、研究发现本节介绍了从相关论文研究集群中的发现，涉及“小数据”方法研究进展、领先国家状况及支持研究的主要资金来源。共为5 个类别确定了 150 个研究集群，包含约 80324 篇论文，这些论文来自安全与新兴技术中心的学术文献合并语料库（截至 2021年

13、2 月 12 日），包含全球 90%以上的学术成果。下表为所用研究集群的基本信息。表 1：各个“小数据”类别中研究集群的基本信息类别确定的研究集群数量确定的研究集群中的论文数量（2010-2020 年）确定的研究集群中的人工智能论文百分比（平均值）（最小值、最大值）迁移学习9810278%（52%、89%）数据标记161140574%（31%、88%）人工数据生成4143345%（6%、85%）贝叶斯方法783224741%（10%、85%）强化学习432713763%（7%、94%）- 9 -总计15080324（一）各类别“小数据”方法研究进展（一）各类别“小数据”方法研究进展在研究数

14、量方面，五类“小数据”方法在过去十年中存在发展程度不同步的问题。如图 2 所示，强化学习和贝叶斯方法相关研究论文最多，其中，贝叶斯集群中的论文数在过去十年内持续稳步增长，但强化学习集群从 2015 年才开始增长，在 2017-2019年间增长尤为迅速。这可能与深度强化学习在近年来取得的革命性进展有关，在 2015 年之前，该领域一直遭受技术挑战。相比之下，人工数据生成和数据标记研究集群中的每年论文发表数量在十年间一直保持在相当低的水平。迁移学习在 2010 年规模很小，到 2020 年已有大幅度增长。图 2：20102020 年小数据出版物趋势- 10 -在论文质量方面，本研究利用两个指标评估

15、各类集群中论文的质量： H 指数和年龄校正引用。 H 指数是一种常用的度量标准，能够获取一组论文的出版活动和总引用影响。年龄校正引用则可以调整H指数中新发表论文积累引用次数偏低的局限。由图可得，就 H 指数而言，强化学习领域和贝叶斯方法领域旗鼓相当；但考虑论文的年龄后，强化学习便跃居首位。这意味着本研究中贝叶斯方法的累积影响更高，强化学习领域由于近期论文发表和引用影响激增而脱颖而出。图 3：20102020 年各类别小数据方法 H 指数和年龄校正引用此外，由图 4 可得，强化学习并非是过去十年内增长最快的领域。在 20112020 年间，除了其中两年外，迁移学习呈最快的稳定增长趋势。该图表还

16、显示了过去 5 年内人工数据生成领域的增长情况，但由于此类别的论文总数较少，且 2012-2015 增长数出现最大降幅，因此很难得出这一类别增长轨迹的具体结论。- 11 -图 4：20112020 年各类别小数据方法同比增长图 5 根据安全与新兴技术中心开发的预测模型，以“人工智能整体”论文类别为基准，比较了各类别小数据方法的三年增长情况。根据预测，迁移学习是唯一一个增长速度超过人工智能整体研究的类别，遥遥领先于所有其他类别，并保持着前几年的持续增长趋势。- 12 -注：未来增长指数是根据安全与新兴技术中心对研究集群增长的预测计算得出的。图 5：2023 年各类别小数据方法增长预测（二） “小

17、数据”方法领域各国竞争力分析（二） “小数据”方法领域各国竞争力分析本节查看了全球前十的国家在每种方法中取得的研究进展，并据此探究各国在小数据方法领域的竞争力。本研究使用简单的衡量标准，如发表的论文数量和调整年龄后的引用数量，以初步获得各国在各个类别中的相对地位情况。表 2 显示了小数据出版物数量排名前十的国家各类别论文总量。与人工智能整体研究的结果一致，中国和美国是本研究集群中所含论文的前两大发表国，英国紧随其后。中国在数据标记和迁移学习方法领域的学术出版物总量最多，而美国在贝叶斯方法、强化学习和人工数据生成方面领先。表 2：全球前十国家各类别小数据方法出版物数量强化学习强化学习贝叶斯方法贝

18、叶斯方法迁移学习迁移学习数据标记数据标记人工数据人工数据1.美国6705美国7804中国2546中国3250美国4282.中国4952中国3963美国1935美国1899中国1833.英国1540英国3423英国472印度815英国1124.德国1389德国1585澳大利亚362英国344德国865.日本1162法国1486印度285日本313台湾796.法国918澳大利亚1017法国234法国295澳大利亚727.加拿大902意大利1010日本227澳大利亚295加拿大378.印度630加拿大972德国222德国286西班牙32- 13 -9.西班牙545荷兰770加拿大218加拿大217韩

19、国3210.澳大利亚520日本719新加坡203巴西215日本28基于论文引用数来衡量研究质量和影响力，研究结果表明，中国的大量研究是大多数小数据类别中的高质量研究。如表 2 所示，根据年龄校正引用（可以粗略解释为每年的引用次数），中国在迁移学习和数据标记方法领域持续处于领先地位，唯一表现不足的是贝叶斯方法领域，中国在该领域的研究影响排名第三，低于英国。这意味着与其他方法相比，该类别相关研究的质量和影响力不太理想。在美国方面，其研究质量表现情况与其年龄校正引用的排名一致。表 3：全球前十国家各类别小数据方法年龄校正引用数量强化学习强化学习贝叶斯方法贝叶斯方法迁移学习迁移学习数据标记数据标记人

20、工数据人工数据1.美国2724美国2376中国1091中国776美国1482.中国1690英国1143美国808美国494中国853.英国562中国914英国216印度192英国374.德国418德国535澳大利亚178英国104澳大利亚285.加拿大350法国400印度103澳大利亚 93德国266.日本278澳大利亚352新加坡96法国82台湾217.法国252加拿大299加拿大93日本72加拿大158.印度184意大利276德国88德国69瑞士159.以色列181荷兰251法国78加拿大62韩国1310.澳大利亚 179瑞士225韩国78伊朗58法国11图 6 显示了各国三年增长预测。值

21、得注意的是，相对于美国- 14 -和世界其他地区，预计中国将会在迁移学习方法领域有大幅增长。如果预测准确，这一预测将意味着中国可能在迁移学习方面取得进一步发展，至少从论文发表数量来看是这样。图 6：美国、中国和世界其他地区 2023 年各类别小数据方法增长预测（三） “小数据”方法研究的资金投入情况（三） “小数据”方法研究的资金投入情况本研究分析了可用于小数据方法的投资数据，以获得为本研究集群中所含论文提供投资的实体类型的估计。需要注意的是，本研究只有大约 2030%涉及论文的投资信息，但有无投资数据支撑的论文应该不存在系统性差异。下表列出了按实体类型划分的 5 种小数据类别和人工智能整体研

22、究领域的受投资论文百分比。- 15 -表 4 按实体类型划分的受投资论文百分比在所有学科中的政府机构、企业、学术机构和非营利机构中，政府主体往往是最大的研究投资者，而作者大多隶属于学术机构。基于这一点，本研究将小数据研究结果与人工智能整体研究结果进行了比较，以了解二者的差异程度。有趣的是，在全球范围内，相比于人工智能整体研究，政府资金在本研究集群中的份额占比更大，如图 7 所示。本研究发现，相比于对人工智能其他领域的投资，非营利机构对小数据研究领域的投资占比较小。贝叶斯方法的投资模式与人工智能整体的投资模式最为相似。- 16 -图 7：相比于人工智能整体研究投资的小数据方法领域资金来源图

23、8 进一步按国家划分了与政府实体相关的投资信息。研究结果表明，尽管就总体趋势而言，政府对小数据领域的投资占比很高，但美国政府对小数据研究的投资份额低于其对人工智能研究领域的投资份额。- 17 -图 8：中国、美国和世界其他地区相比于人工智能整体研究领域的小数据方法领域政府投资图 9 显示了私营部门实体对小数据研究的投资份额数据。相比于人工智能整体研究，美国的私营行业企业倾向于对小数据研究领域提供更多资金。- 18 -图 9：中国、美国和世界其他地区相比于人工智能整体研究领域的小数据方法领域企业投资图 10 显示了各国研究信托和基金会等非营利机构对小数据领域的投资趋势。相比于人工智能整体研究领域

24、，美国和世界其他地区的非营利机构对小数据研究的投资往往不足。相比之下，除了在人工数据生成领域中国非营利机构的投资份额较低外，中国的非营利机构更倾向于对小数据类别进行投资。- 19 -图 10：中国、美国和世界其他地区相比于人工智能整体研究领域的小数据方法领域非盈利机构投资最后，图 11 显示了学术机构对小数据研究类别的投资模式。需要注意的是，与上述其他两种实体类型相比，学术机构对小数据研究的投资份额，与其对所有人工智能研究的投资份额差异很小，不到 1%。因此可以得出结论，各国学术界对小数据研究的投资模式反映了其对所有人工智能研究方法的投资模式。- 20 -图 11：中国、美国和世界其他地区相比

25、于人工智能整体研究领域的小数据方法领域学术机构投资四、研究结论四、研究结论本文介绍并概述了一系列用于人工智能的“小数据”方法，本研究基于发现，提出了以下要点：1、人工智能不等同于大数据、人工智能不等同于大数据，尤其是不等同于预先标记的大型数据集。虽然在过去十年中，大数据在人工智能热潮中发挥了不可磨灭的作用，但将大规模数据收集和标记作为人工智能发展的先决条件是错误的。小数据替代方法多种多样，可在不同的环境中以不同方式使用，例如，如果手头问题的数据稀缺，但相关问题的数据丰富，那么迁移学习可能会发挥作用；如果问题可通过进入模拟或真实环境加以解决，计算机系统可以通过试错而- 21 -不是预先收集的数据

26、进行学习，则可能需要强化学习方法。2、迁移学习相关研究的增长尤其迅速、迁移学习相关研究的增长尤其迅速，甚至比范围更广、更为人熟知的强化学习领域增长更快。也就是说，这种方法在未来可能比现在更有成效，并得到更广泛的应用。因此，如果政策制定者缺乏与重点问题相关的数据，那么通过寻求相关数据集，实施迁移学习方法，或许能够解决这一困难。3、美国和中国正在小数据方法领域竞争激烈、美国和中国正在小数据方法领域竞争激烈，美国在强化学习和贝叶斯方法这两个最大类别中居于领先地位，中国则在增长最快的迁移学习类别中保持微小但不断增长的领先优势。4、美国政府可能会在迁移学习领域进行更多投资、美国政府可能会在迁移学习领域进行更多投资。相对于在整个人工智能领域的投资模式，美国政府在小数据方法领域的投资份额较小。这可能是因为美国政府没有优先考虑这些领域的研究，或因为美国的私营部门倾向于在这些方法的研究领域投入更高比例的资金。无论哪种原因，鉴于迁移学习是一个快速发展的新兴领域，美国政府可能会增加对该领域的资金投入。- 22 -译自：Small Datas Big AI Potential September 2021 by the Center forSecurity and Emerging Technology译文作者：工业和信息化部赛迪研究院刘丽超刘雪宁联系方式：电子邮件：

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（小数据人工智能的巨大潜力（2022）（22页）.pdf）为本站（小时候）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。