《应对 AI 数据困境-恰当的数据集成方法、治理和工具(11页).pdf》由会员分享,可在线阅读,更多相关《应对 AI 数据困境-恰当的数据集成方法、治理和工具(11页).pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、一般来说,如果知道一场巨大的风暴即将袭击某个国家/地区的东半部,人们可能会予以关注;但如果知道它会袭击自己所在的州、县或城镇,或者从你身边经过,那么会引起更大的关注。本地化的洞察可能作用很大。IBM COVID-19 Lockdown Index 数量化了每个地区当前的中断程度。它将纵向信息与每日实时更新的疾病蔓延、病床和感染统计数据、当地社区限制以及美国整体市场波动措施结合在一起。然后预测各县何时到达疫情曲线的高峰,以及每个地区独特的曲线下降趋势,之后分配风险评分并确定当地解除封锁的速度。该指数使用公开可用的数据,包括:州医院的流行病学措施要求;各县疫情病例数;病床使用情况;重症监护病房床位
2、使用情况;使用中的呼吸机数量。该系统还抓取当地新闻报道,以获取有关学校开放/关闭日期和其他潜在的社区限制方面的更新信息。另一个类似的计划是 The Emergent Alliance,这是 IBM、劳斯莱斯、微软和数十家全球企业组成的非营利合作联盟。该联盟致力于提供关于新冠病毒病例的准确和最新的地区状况,以帮助地方当局更有效地应对疫情爆发。本地化的风险指数结合感染率、社交媒体、新闻、Airbnb 数据等多种数据。分析内容包括疾病对健康的影响、政府的响应及公众行为的变化及其整体经济影响。但该项目的优点不仅限于应对疫情。关于新闻主题的情绪数据可以帮助预测新的行为模式。例如,关于户外运动的新闻或山区
3、的 Airbnb 预订增加,可能会引起关于徒步旅行或其他相关商品和服务的活动。自动化水平当然越高越好,有助于节省时间和资源,同时鼓励更广泛地采用 AI 方法 因为获取数据不再是一项艰巨的任务。它可以帮助团队避免花费数周甚至数月去获得使用数据的许可。在组织文化中,没有什么比信任更重要。虽然组织内部的信任不可或缺,但当组织共享或接受外部数据时,信任更为重要(见图 3)。AI 团队在收集数据和构建展示价值的解决方案方面的能力并不是很重要。如果所产生洞察的接收者不信任数据,比如不信任其来源、使用方法、被检测到并减缓的偏见或者其透明度与合规性,那么结果就不会太理想。事实上,在这种情况下,即便是最强大、最
4、成熟的 AI 算法也不大可能对业务产生太大影响。从区块链最新的概念和技术进步中汲取的经验教训,可能有助于建立信任。区块链最重要的原则之一,便是从一开始就将相应的参与方整合在一起,也就是那些可以关乎网络成败并能够回答“哪些数据可以共享?以及与谁共享?”等问题的关键少数。这个具备最低可行性的生态系统也可以包括监管机构,他们共同决定网络的激励机制、旨在实现经济效益的框架以及治理规则。保留汇总的知识和洞察,但不保留可能具有监管影响的敏感数据,是一个重要的数据治理概念。区块链原则在这里也适用于:基于许可的方法和网络验证有助于保持透明度、数据完整性、数据沿袭以及数据来源清晰度。这可解决 66% 的 IT
5、专业人员最关心的问题,即如何解决 AI 训练数据来源不明确问题。12当然,有效的治理并不止步于追踪用于训练 AI 模型的数据。它还会检查人类根据该数据做出的决策,这对于可解释性至关重要,尤其是在这些决策可能存在争议时。许多 AI 应用将原始数据转化为信号,并在时间序列和其他大型数据集中寻找模式和洞察。为了揭示这些信号,通常必须对数据集进行数百次处理。想象一下,拥有超过 6 亿库存单位的大型零售商该如何应对。想象一下,处理数据所花的时间以及每天处理数百次所需的能力。这当然不是微不足道的问题,而是需要高级数据技能,但实现这种计算能力也会带来财务成本(包括环境成本)。除了原始数据挑战外,元数据挑战可能更为严峻。思考一下智能车辆的一次图像捕获及其生成的所有背景数据,包括日期、时间、位置、图像中的对象和相对速度以及图像外的世界(环境背景),等等。标准数据方法和工具无法不经修改地应用于 AI。组织需要部署适当的工具,为 AI 准备、优化、清理、组合与复用数据(请参阅“观点:IBM 首席数据办公室 用于实现数据治理自动化的工具”)。