《人工智能行业应对AI数据困境-恰当的数据集成方法、治理和工具(11页).pdf》由会员分享,可在线阅读,更多相关《人工智能行业应对AI数据困境-恰当的数据集成方法、治理和工具(11页).pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、The Weather Company (TWC) 的看家本事是让海量数据发挥作用。更具体地说,就是应用 AI 和各种模型,生成预测和洞察。 该公司已经在 AI 领域摸爬滚打二十年,在大规模应用 AI 方面处于全球领先地位。在此过程中,他们汲取了大量关于满足 AI 特殊数据需求的经验教训。首先是不要低估手头的任务。整合天气与销售数据看似很简单,但绝非如此。在提取数据、了解如何执行必要的数据联接以及了解结果所带来的影响时,需要从经验中获得洞察。例如,模型是需要在云端集中运行,还是在最终用户的设备中以“边缘计算”模式运行?模式是接受在线训练并持续更新,还是接受离线训练并定期更新?答案会影响数据处理
2、方式。事实上,TWC 获得的一个重要经验是,企业需要为数据准备与整合制定切合实际的计划,准确预测所需成本、资源和时间。经验表明,团队可能将 80% 的时间用于数据整理,而用于实际运行模型、调整模型和研究结果的时间则少得可怜。自动化有助于解决这个问题。想想 TWC 的一个工作领域:预测季节性流感和过敏影响。在整合所有必要数据方面存在独特的挑战,这意味着必须构建自定义数据管道和服务甚至创建用于建模的特殊数据湖。这需要深厚的数据技能,也就是需要回答看似简单的如下问题: 我们可以按照自己想要或需要的任何方式进行数据切片吗?幸运的是,在第一次面对这种情况时,TWC 已经拥有能够胜任这项任务的工程师和数据
3、科学家。其他同样重要的因素呢?该团队得到了高管的大力支持,高管理解、认可该项目,并支持投入大量时间和资源以实现目标和预期结果。也就是说,许多普遍关注的数据领域并非新生事物;有些甚至已经出现了数十年,但在 AI 时代获得新的紧迫性、重要性和改进机会:1. 整合。建立可以从整个组织以及外部为 AI 挖掘数据的能力。2. 治理。在管理 AI 数据时应用最新的治理方法,以建立对洞察的信任。3. 工具。为需要的团队提供必要工具。凭借适当的业务敏锐度和务实精神,企业可在持续建立制度化的数据能力方面取得进展,以满足 AI 的一些独特特征。整合势在必行新冠病毒疫情生动地展示了“过去的表现不能代表未来的结果”这
4、一标准“免责声明”如何应用于数据以及从中得出的洞察。依赖前几年数据和历史模型进行分析的企业发现,自己的预测毫无用处。9 为了生存,他们必须开始采集短期数据,例如,最近的销售和天气数据,甚至油价,并更新 AI 模型以执行相关性更强的预测。事实上,AI 之所以较快地流行起来,主要是因为它能够采集多变的短期数据以扩充现有数据,快速调整并产生相关预测。这些可快速更新的短期数据大部分来自企业外部,因此用于整合第三方甚至公共数据的强大方法日益成为 AI 不可或缺的能力。如果有效利用具有适当颗粒度的数据源,那么从中得到的洞察就可以实现高度本地化,真正发挥作用。追踪正在发生的重大事件(如疫情)及其后续影响(如
5、失业、可支配收入减少以及随之而来的对购物模式的影响)的能力,可提供管理洞察。证明这种本地化方法的一个例子是 IBM COVID-19 Lockdown Index。该指数根据最新数据每日更新,帮助人们了解疫情对美国各县经济活动的当前影响。企业可将该指数与自己的数据相结合,创建有用、切实可行的预测,然后相应地进行规划和调整(请参阅“观点:整合不同数据源,形成本地疫情洞察。”)使用外部或第三方数据进一步表明,组织需要非常了解自己的数据。谁是所有者?谁可以批准使用以及确定时间长度?基于第三方数据的 AI 资产的商业化可能会引发更复杂的问题。如果 AI 资产是用企业不再有权访问或批准使用的数据训练的,
6、那该怎么办?虽然这些问题显然适用于外部数据,但内部数据也可能面临类似的问题。超过半数的组织在数据整合方面苦苦挣扎,而三分之一的组织对自己连接多个数据源的能力缺乏信心。11接下来是受监管数据的问题。国家边界可能会影响数据可用性及其使用方式。数据质量也可能因国家/地区而异,这意味着整个地理区域中的数据可能不一致,或无法以相同的方式使用。例如,在一些国家/地区,由于部署了先进的微芯片和读卡器,可以捕获非常详细的信用卡交易数据;而在其他缺乏这种硬件的国家/地区,信用卡机器收集到的交易信息就比较少。适当的数据治理方法有助于解决这些问题,包括了解并追踪数据来源。简单而言,数据治理是指管理不同类型数据所采用的规范、原则和规则。数据治理不仅适用于局部层面,比如组织内部,以帮助妥善处理数据,在数据生命周期的各个阶段保持其完整性和有效性;它还适用于组织之间、生态系统之间甚至国家/地区之间的合作,确定如何共享数据。为了使数据更易于访问和管理,也许适当的规则和文化比适当的技术更为重要。熟悉标准条款和条件以及组织处理数据的方式的数据文化,更有可能帮助组织有效共享数据并充分利用数据。