上海品茶

和鲸科技:数据竞赛白皮书(62页).pdf

编号:14062 PDF 62页 7.36MB 下载积分:VIP专享
下载报告请您先登录!

和鲸科技:数据竞赛白皮书(62页).pdf

1、of 数据科学协同平台 序 第一章 数据竞赛,数字化创新的新模式 一、竞赛规模与资源投入趋势 1. 奖金投入意愿攀升,参与规模稳增 2. 数据红利可期,数据投入姿态积极 二、赛题应用场景与技术类型分布 1. 应用场景不断扩散,标杆行业优势初显 2. 覆盖主流 AI 技术,计算机视觉热度延续 三、全球数据竞赛发展历程 1. 以工业应用为目标,数据竞赛模式诞生 2. 引领全球化前沿探索,国际顶会先锋探路 3. 平台化模式全面开启,Kaggle 加速资源汇聚 四、数据竞赛外生环境趋势 1. 商业数字化趋势渐强,有赖技术创新落地 2. AI 上升为国家战略,推动数据赋能实体经济 3. 云计算技术日益成

2、熟,提供基础设施保障 4. 青睐背后充满审慎,资本看重 AI 落地价值 5. 媒体普及大众化认知,竞赛收获正面舆评 6. 教育投入与日俱增,数据人才能力跃升 第二章 数据竞赛,数据智能落地的练兵场 一、竞赛驱动的数据科学创新 1. 数字化转型成本提升,暗藏众多风险 2. 竞赛低耗高效可持续,创新探索敏捷化 二、对竞赛的理性评价与思考 三、选手眼中的竞赛价值 四、竞赛对四大办赛主体的赋能实效 1. 引领企业进行技术落地场景的创新探索 2. 促进高校加强学科建设与人才培养 3. 推动科研机构加速产研融合与技术发展 4. 助力政府实践产业落地和建设数据创新生态 附录 CONTENTS 03 04 0

3、8 08 09 10 10 15 17 17 18 19 23 23 24 25 26 28 29 32 33 34 35 38 39 42 45 47 49 51 53 数据竞赛白皮书聚焦三大核心看点,力图全景式呈现数据竞赛驱动下的数字化创新生态。 在白皮书上篇,将着眼于数据竞赛的发展历程与现状,对其核心价值展开深刻剖析;在白皮书 下篇,数据竞赛的科学管理方法论和最佳实践将得到深度分享。 高亮看点 关注数据竞赛白皮书下篇办好一场竞赛的实操手册,看点三深度内容尽在掌握。 看点一: 1000+ 场数据竞赛,催生数据智能时代全球性政、企、学、研、 资各界联动新常态 2014 年至今,全球范围内的各

4、类数据竞赛总量已突破 1000 余场。其中,仅中国市场就已发 布共计逾 400 场数据竞赛,年均增长率高达 108.8%。236 家企业、政务部门、高校和科研 机构作为赛事主办方参与其中;吸引约36万支团队、 120万人次参赛;奖金规模合计高达2.8 亿元人民币,赛题覆盖 33 个行业应用场景; 1997 年,享誉全球的国际顶级学术会议 KDD 推出 KDD Cup,开启了数据竞赛的新模式, 20 余年以来的赛题设计始终带有鲜明的工业应用色彩。ICCV、NeurlPS、ISBI、Euro CSS、 ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(A

5、ctivityNet)、IWCS、 ECCV 等国际顶尖学术会议在全球化浪潮下也纷纷开始牵头组织数据竞赛。 看点二: 15 个案例特写,看懂数据竞赛为何成为数字化创新的有效手段 以赛题承载应用场景,在紧凑的竞赛周期内高效整合数据、算法、算力、人才等要素,可敏 捷验证各类 AI 在真实商业场景中的落地方向和实效; 85% 的数据人才高度认同竞赛对技术实践能力的培养作用,竞赛成为打破高校学科建设与人 才培养瓶颈的有效手段; 竞赛推进前沿科研探索落地,通过跨学科协作促进 AI 在不同领域价值释放; 竞赛成为数字化创新要素和汇集产、学、研、政各界资源的枢纽 ,助力数据创新生态建设和 产业落地。 看点三

6、: 100+ 场专业赛事服务经验,一流竞赛平台开源数据竞赛管理 方法论与业界最佳实践 面向千余名参赛选手的调研结果显示,奖金并非竞赛核心诉求,从专业性赛题、科学性评审, 到协作式工具、精细化运营,组织一场优质的数据竞赛颇有挑战; 竞赛全生命周期都面临着来自参赛选手和主办方的双重审视,既要能够通过打造良好的参赛 体验高度激发数据科学人才的能动性和生产力,又要通过专业的数据科学服务能力和精细的 运营流程充分满足赛事主办方贯穿赛事全程的多元诉求; 保障赛事功能,开创数据科学研发全新协作模式数据科学协作工具成为数据时代最重要 的基础设施之一。 02 数据竞赛,数字化创新的新模式 数据竞赛白皮书下篇 办

7、好一场竞赛的实操手册 数据竞赛白皮书上篇 1000 场竞赛的深度分析 数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的 来临充满了期待。然而,从现阶段的发展来看,我们距离真正的大数据时代仍有距离,各 行各业的数字化转型进程未能如期落地。数据的力量究竟该如何激发?带着这样的疑惑, 我们把视角对准了数据竞赛这一载体,以期为行业提供启发。通过全面的调研、分析,我 们得到了寻找创新路径和探索最佳实践的总结,形成这份数据竞赛白皮书分享给大家。 全球数据竞赛市场已经历了 20 余年的探索,其发展起点可追溯至 1997 年由国际顶级学术 会议 KDD(Conference on

8、 Knowledge Discovery and Data Mining,知识发现和数据挖 掘会议)推出的 KDD Cup。此后,一系列国际顶尖学术会议也陆续牵头组织数据竞赛。 国际顶会数据竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当 下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创 立于 2010 年的 Kaggle 作为目前全球最大的数据科学技术分享社区,更是为数据竞赛的平 台化发展奠定了模式化基础,其合作伙伴除了 Google、Facebook、Airbnb、Yelp 等互联 网时代诞生的独角兽, 亦不乏Walmart、 Airbus、

9、 Genentech等声名日久的传统行业领头羊。 放眼中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权 威的科研机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机 构也在“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场 大型数据竞赛。 数据竞赛绝不仅仅只是 “主办方发布赛题、 传播品牌美誉, 参赛者参与开发、 收获丰厚奖金” 的公关活动。对双方而言,数据竞赛已经成为了数字化转型的“云端实验室”。赛事主办 方紧跟数据智能的发展趋势,通过挖掘数据价值的场景和树立“数据 + 算力 + 人才 + 算法” 的价值闭环,积累数据科

10、学研发的核心能力;参赛选手能够积累如何在真实业务场景中应 用先进技术的实际经验,在与众多高手的交流切磋中不断成长。 基于这一趋势,在大数据系统软件国家工程实验室的指导下,和鲸科技“Heywhale. com”携旗下中国领先的第三方数据竞赛平台“和鲸社区(即 K)”,联合 AWS,共同发布数据竞赛白皮书,分析全球市场数据竞赛发展趋势,提出对数据竞赛 推动前沿技术落地的创新价值思考,并在业界开源优质数据竞赛运营方法论与最佳实践。 序 第一章 数据竞赛,数字化创新的新模式 一、竞赛规模与资源投入趋势 二、赛题应用场景与技术类型分布 三、全球数据竞赛发展历程 四、数据竞赛外生环境趋势 图 1-1 数据

11、竞赛生态版图 数据竞赛,数字化创新的新模式 05 数据竞赛是指在以真实业务问题为导向,聚合广泛的、跨学科的 数据人才的参与,利用数据研发算法模型、探索解决方案的新型 研发模式。 2014 年至今,全球范围内由各行业企业、顶级学术会议和第三 方数据科学平台发起的各类数据竞赛总量已突破 1000 余场。其 中,仅中国市场就已通过 12 个数据竞赛平台发布共计逾 400 场 数据竞赛,占比近半,且年均增长率高达 108.8%。236 家企业、 政务部门、高校和科研机构作为赛事主办方参与其中 ;吸引约 36 万支团队、120 万人次参赛;奖金规模合计高达 2.8 亿元人民 币,赛题覆盖金融、交通出行、

12、安防、航空天文和生物科技等 33 个应用场景。 利用数据竞赛探索数字化创新与前沿技术的落地应用方向正在成 为数据科学生态必不可缺的一环。通过对这 400 场数据竞赛的深 入分析,我们试图从更全面、更深入的角度理解中国市场的数据 竞赛生态。 数据来源:和鲸科技()制作。引用请注明出处。 图 1-2 数据竞赛赛题数量与参赛团队变化趋势 在过去数年间,数据竞赛赛题数量增势日渐强劲,表明利用数据 进行产业赋能的创新探索需求不断增加,越来越多的组织机构以 拥抱人工智能的开放心态积极探索数字化转型的更多可能。 在被称为大数据元年的 2015 年,先进技术带来的经济效应规模 化显现,在技术赋能产业的进程中,

13、“由社会成果广泛参与、公 开透明、自下而上、分权决策”的社会创新作为全新组织范式日 渐走进人们的视野,数据竞赛作为其重要表现形式之一,开始作 为探索潜在应用场景、甚至解决实际问题的有效手段被接受。 与此同时,政府及事业单位需要依赖技术进行数据化驱动的社会 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 0 1,000 10,000 0 1,000 10,000 100,000 0 100,000 1,000,000 10,000,000 0 30 治理与城市优化。进入 2017、2018 年,在越来越多企业投入数 据竞赛的同时,由高校、科研机构与政府单位主导的数据竞赛数 最也保持着较强

14、的涨幅、从科研探索,到商业场景应用,再到社 会治理,数据竞赛赛题内容可谓百花齐放。 而参赛人数的指数级增长也释放出两方面的信号: 其一,不仅限 于计算机和数学背景,越来越多的不同背景的人才开始接触数据 科学;其二,伴随着技术的革新,产业对于数据科学应用价值的 认知和兴趣不断强化。 06 数据竞赛,数字化创新的新模式 通过这项赛事的成功举办,南京市人民政府向外界清晰地传达:南京市人民政府对于数据科学及人工智能产业的支持力度 是空前的,通过提供坚实有力的扶持政策和对接优质资本,南京有能力、有魄力、有信心把握人工智能时代的发展趋势, 以更懂科技企业的方式聚集数据科学人才、提供配套设施服务、助推数据科

15、学全面发展。 案例特写:2018 全球(南京)人工智能应用大赛社会各界全面联动的大型赛事 赛事主办方:南京市人民政府 作为国内顶级规模的数据科学赛事,2018 全球(南京)人工智能应用大赛推动了产、政、学、研各界的全面联合,因 其社会价值之高、调动资源之多、影响范围之广引发了各界的高度关注。南京市人民政府联合 2 家科研机构、3 所高校、 15 个企业共同发布了覆盖“智能制造”、“智能驾驶”、“智能生活”、“智能医疗”、“智能城市”五大产业应用 领域的 20 道赛题,设立 600 万元奖金池及 20 亿元人工智能产业风险投资基金,吸引了近 3000 名数据科学人才的参与。 扫描上方二维码 了解

16、更多赛事详情 2018 年 5-9 月,和鲸承办由南京市政府主导的 2018 全球(南京)人工智能应用大赛,联合产、政、学、研、资各界机构 组织针对五大产业应用领域方向共计发布 20 道并行赛题,所有赛题从解决产业实际困难出发,充分体现 AI 技术在各行各 业的深度应用赋能价值,一批提高生产效率甚至改变商业模式的解决方案,从本次大赛中涌现。 五大领域 20 道赛题,覆盖社会生产重要领域 数据竞赛,数字化创新的新模式 07 1M 2M 3M 4M 5M 1K02K3K4K5K6K7K8K9K10K 物流 气象 高校服务 通信 能源 航空天文 旅游 农业 地质水利 游戏 农林养殖业 客服生物科技

17、食品安全 军工业 法律 海洋 工具 教育 体育 交通出行 金融 商业开放应用 文娱传媒 人工智能 电子商务 工业制造业 新零售 医疗健康 人文服务及社会治理 物流 气象 高校服务 网络安全 通信 能源 航空天文 旅游 农业 地质水利 游戏 农林养殖业 客服 生物科技 食品安全 法律 军工业 安防 海洋 体育 教育 工具 5M 10M 15M 20M 25M 30M 35M 40M 45M 50M 55M 60M 5K010K15K20K25K30K35K40K45K50K 交通出行 电子商务 工业制造业 医疗健康 安防 人文服务及社会治理 网络安全 新零售 金融 商业开放应用 文娱传媒 人工智

18、能 图 1-3 各行业赛题的奖金投入与参与规模 一、竞赛规模与资源投入趋势 数据竞赛的奖金水平和参赛规模从侧面反应了各行各业的数据科 学投入力度和各类技术领域内的人才结构。自 2014 年以来,无 论是参赛人数还是总奖金池规模都呈现出较为显著着上涨趋势, 而人均奖金也呈同步上升态势。由此可见各行各业在数据竞赛中 的投入热情和力度不断高涨。 具体来说,除了具有跨行业应用价值的赛题外,赛题场景的行业 分布与奖金、参赛规模主要呈现如下趋势: 交通出行、工业制造、医疗健康是目前数据竞赛中奖金最丰厚、 规模最宏大的三个领域,可见其对于数字化创新价值的重视和 期待。 1. 奖金投入意愿攀升,参与规模稳增

19、奖金支付能力最高、数据科学人才热度最高的行业 交通出行; 奖金支付能力较高、数据科学人才热度一般的行业 工业制造、医疗健康; 奖金支付能力较低、数据科学人才热度较高的行业 金融、文娱传媒、电子商务; 奖金支付能力较低、数据科学人才热度较低的行业 气象、能源、高校服务。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 电子商务、社会公共服务、文娱传媒等赛题场景因与大众个人 生活息息相关,故而也往往具有较大的参赛规模。 安防、能源、气象等赛题场景因具有一定的知识门槛,因此存 在奖金丰厚但参赛者寥寥的现象。 同时,不同技术类型赛题的难易程度和发展速度也与奖金水平正 向相关:越高的奖金意味着技

20、术难度越大,丰厚的激励有望推动 尖端人才投身前沿问题的解决。其中,计算机视觉类赛题的奖金 水平一枝独秀,预计未来仍会有大量相关赛题涌现。而结构化数 据挖掘类赛题则具有最广泛的受众面和最低的参与门槛,参赛规 模庞大。 08 数据竞赛,数字化创新的新模式 2. 数据红利可期,数据投入姿态积极 数据竞赛的创新价值均以数据为基础,除了以丰厚的奖金投入来 吸引优质人才的加入,越来越多的主办方也在数据安全与法规限 定的范畴内不断加大竞赛数据的投入力度,为创新提供更充足的 养料。 百度作为积极投身数据竞赛的先锋,已基于百度知道的真实问答 文档建设了迄今为止规模最大的中文公开领域阅读理解数据集 DuReade

21、r,并完成了对总量类型、问答实体和观点等信息维度 的标注,弥补了现有主流问答语料库对于观点类问题覆盖不足的 缺陷,首批发布的阅读理解数据集包含 20 万个问题、100 万份文 档及 42 万个人工撰写的优质答案,并提供开源基线系统,从而 为各行各业在自然语言处理领域的创新探索奠定了坚实基础。 由中科院打造的 CASIA-WebFace 数据集包含了 10575 名个人的 494414 张图像,是训练人脸识别模型的重要素材。 此外,在由百度主导的“智能问答”和“综艺节目精彩片段预 测”两场数据竞赛中,百度联合汽车大师和爱奇艺分别提供了汽 车大师平台上的 11 万条真实问答数据、以及总长约 120

22、0 小时的 1470 条爱奇艺电视综艺视频。这些数据对最终优质成果的诞生发 挥了至关重要的作用。 携程将数据竞赛作为推动内外协同创新、解决实际业务问题的重 要手段,其发布的赛题几乎覆盖了自身业务的核心内容,包括酒 店销量概率预测、客户转化概率预测、航班延误预测、渠道销售 能力预测等诸多方面。为了收获具备工业应用潜力的竞赛成果, 在经过严格脱敏处理和采取充分的数据安全保障措施后,携程为 竞赛导入了海量真实业务数据,其信息涵盖酒店基础数据、历史 订单数据、价格波动数据、竞品排名数据、历史航班动态起降数 据及航班延误影响因素相关数据等。 科研机构在日常研究工作中积累了大量数据,通过数据竞赛的开 放式

23、创新环境闭合的数据库在一定条件下进行开源,也无疑能够 进一步促进这些数据的价值释放。率先将医疗大数据 Datathon 模式引进国内的解放军总医院,在 2018 年的 Datathon 中就曾发 布并应用了 2015-2017 年间在解放军总医院急诊科就诊数据库, 以其作为 Datathon 竞赛的基础资源,通过跨学科、跨领域的交 叉合作,真正推动了医疗大数据应用从理念到落地的探索。 政务数据广泛覆盖自然信息、城市建设、城市管理监察、服务与 民生消费等丰富的维度,是极其重要的大数据资产,开拓政务数 据的创新应用场景也成为了近年来各级政务部门的重要任务。越 来越多的政务部门通过数据竞赛开源数据红

24、利,探索创新机遇。 举例来说,在由广西壮族自治区人民政府发起的全球数据智能大 赛 (2019) 中, 2015-2018年间广西 81 县十余个维度的气象和早、 晚稻产量数据,及降雨、温度、光照、温差等气象数据被用以构 建智能气象预测系统和精准预测水稻产量。 数据竞赛,数字化创新的新模式 09 图 1-4 数据竞赛赛题所涉行业分布 二、赛题应用场景与技术类型分布 1. 应用场景不断扩散,标杆行业优势初显 数据竞赛自诞生以来,始终以数据科学落地场景的探索为主要优 势特色,并对数据科学在不同场景下的应用能力和价值通过赛题 进行验证和迭代。从 2014 年至今中国市场 400 场数据竞赛的赛 数据来

25、源:和鲸科技()经调研统计得出。引用请注明出处。 题可以看出,除了如推理问答、人脸识别等具有跨行业场景应用 能力的赛题外,交通出行、金融、文娱传媒和工业制造是赛题场 景涉及最多的四大行业。 不同的应用场景之间存在一定的价值互通,而数据智能又具有普 适性与迁移性,因此来自不同领域的数据竞赛主办方在赛题场景 的选择上表现出了丰富的多样性,不仅仅局限于自己的业务领域, 也会高度关注数据在其它场景下的应用价值。这不仅仅能以更广 阔的视野探索创新机会,还可以帮助赛事主办方在数据安全、自 有业务数字化准备不足等问题的限制下依然能够通过数据竞赛感 受算力、算法和数据的协同带来的价值。 10 数据竞赛,数字化

26、创新的新模式 图 1-5 赛事主办方行业类别与赛题场景行业类别的配对关系 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 数据竞赛,数字化创新的新模式 11 300,0004,868 1,850,000565 840,0001,507 210,000485 表 1-1 金融场景的数据竞赛典型赛题 金融行业是数字化创新的主力 自 2016 年 Fintech(金融科技)的概念面世以来,金融行业在技 术创新方面的投入不断增强,以数据竞赛为主要手段的开放式创 新更成为了金融行业的重要战略选择。金融行业在 2017、2018 两年连续成为赛事密度最高的领域,赛题数量占比达 66.7%,是 技术

27、创新的主力。量化投资和风险评估是最为常见的赛题场景, 如根据海量股票交易数据生成量化投产策略,并在模拟盘上进行 三个月的策略验证;同时,通过声纹、人脸等生物特征和个人信 息的验证来加强金融风控力度也是较为常见的赛题应用场景。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 交通出行领域是应用场景不断成熟的典型代表 2015 年,交通出行场景首次出现在数据竞赛的赛题中“游族 杯”上海开放数据创新应用大赛以城市交通为主题,运用交通管 理部门和相关企业提供的开放数据,以产品(原型)为比赛对象, 结合线上线下活动,面向全国征集改善城市交通和市民出行的数 据可视化应用和解决方案。 此后,该领域在

28、数据竞赛中的投入不断加强,赛题数目从 2015、 2016 年的每年各 3 道上升至 2017 年的 7 道,至 2018 年更是达 到了 23 道之多。而赛题内容也在不断具象从最初征集开放 性产品方案,到后来进行路段拥堵情况预测、自动驾驶障碍物检 测等,数据的应用方向越来越清晰、越来越聚焦。至 2017 年,7 道涉及不同具体场景的算法类赛题均诞生了优质的模型成果,完 成了数据及算法应用成果的验证。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 UAI UAI UAI UAI UAI UAI UAI UAI UAI UAI 图 1-6 交通出行领域数据竞赛赛题关键词 12 数据竞赛

29、,数字化创新的新模式 表 1-3 文娱传媒场景的数据竞赛典型赛题 电信数据是跨界应用的典范 绝大多数赛事主办方的赛题均集中在其所在行业领域的产业链上, 以电信行业为代表的赛事主办方设立了丰富的跨界赛题,如利用 电信用户地理位置信息预测其前往某地旅游的概率,或利用电信 用户通信侧消费信息和手机使用行为信息预测其更换手机的概率。 这与其电信业务存量市场已渐趋饱和的行业特点相关,也传递出 了趋势性的信号:通过数据竞赛探索既有数据在跨界领域的应用, 不仅能够建立起“算力 + 数据 + 算法 + 场景”的标杆案例,而且 能够探索多产业间数据协同的增量价值。 数据来源:和鲸科技()经调研统计得出。引用请注

30、明出处。 文娱传媒类场景是面向个人用户应用 AI 技术的直接端口 自 2015 年以来,文娱传媒领域的数据竞赛赛题呈现逐年递增的 态势,行为预测、营销内容创作、舆情分析成为了该领域最为常 见的赛题场景。因赛题内容与个人消费者具有较强的相关度,该 领域的竞赛往往能够引起广泛关注和积极参与,成为了面向个人 用户应用数据智能的直接端口。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 工业制造业在政策与需求的驱动下积极组织竞赛 工业制造领域的数据竞赛从 2017 年开始进入爆发期,以中国 制造 2025为代表的人工智能国家发展战略是引导工业制造领域 赛题数量剧增的重要原因之一。在宏观政策的指

31、引下,政务部门 率先成为了该领域数据竞赛的主要主办方。广东省人民政府牵头 的工业智造创新大赛便是典型代表,要求参赛选手开发计算机视 觉算法自动识别布匹疵点,以及对布料剪裁进行最优规划。 表 1-2 电信行业的数据竞赛典型赛题 2,200,0002,038 1,000,0002,546 100,000768 40,000378 1,000,0001,071 1,000,0008,848 380,0005,475 230,0001,485 数据竞赛,数字化创新的新模式 13 表 1-5 新零售场景的数据竞赛典型赛题 表 1-4 工业制造场景的数据竞赛典型赛题 数据来源:和鲸科技()经调研统计得出。

32、引用请注明出处。 技术发展与消费升级推进新零售领域数据竞赛的爆发 新零售行业的本质在于技术发展与消费升级带来的供需多元化、 智能化以及精准化,商品识别、精准营销、供应链管理是该领域 主要的赛题场景。新零售领域的竞赛主办方行业辐射范围较广, 交通出行、金融、通信行业的机构组织均参与过新零售场景赛题 的出具。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 探索底层创新技术的赛题具有可复制价值 此外,不同产业的某些场景之间存在一定的价值互通与共生性, 以具有跨行业泛化应用能力的底层创新技术作为赛题方向,能够 加速关联领域的数字化创新探索。例如对于图像的目标识别、对 于文本情感的分类都具有跨

33、行业领域的泛化应用价值。 1,000,0001,809 222,0254,504 550,0002,529 1,000,000906 1,340,0002,950 300,0002,100 170,000411 14 数据竞赛,数字化创新的新模式 2. 覆盖主流 AI 技术,计算机视觉热度延续 数据竞赛赛题的技术类型主要包括结构化数据挖掘、计算机视觉、 自然语言处理、语音技术四大类别。不同产业在不同发展阶段对 不同类别的技术有所侧重, 但就现阶段来看, 文娱传媒、 医疗健康、 智慧校园等行业因其对技术的开放程度较高,技术变现方向相对 清晰,从而对各种技术类型的赛题均有所涉及。 结构化数据挖掘方

34、面的赛题分布最为广泛。对于赛事主办方而言, 在场景应用尚未开发成熟之前,通过结构化数据挖掘类赛题加强 对如何进行数据治理、如何打破数据价值应用壁垒、如何唤醒沉 睡数据的理解是其重要意义所在。 计算机视觉在未来较长一段时间内都将持续成为热门的应用焦点。 从学术科研的角度来看,2013-2016 年间,计算机视觉相关论文 发表数量每年保持着 24% 的高速增长,并在 2016 年人工智能领 域的全量发表论文中占比高达 49%。而从数据竞赛角度来看,凭 借着强大的跨行业应用能力,全国 400 场竞赛赛题中,计算机视 觉方面的赛题数量占比高达 30%。 数据来源:和鲸科技()经调研统计得出。引用请注明

35、出处。 图 1-7 数据竞赛赛题所涉技术类型分布 数据竞赛,数字化创新的新模式 15 24 24 2 17 11 2 13 13 8 11 6 5 4 7 4 7 8 6 3 3 3 2 1 1 1 13 2 20 10 10 2 1 6 6 5 5 2 2 5 3 2 1 1 2 1 7 13 5 1 1 18 1 1 3 1 1 1 1 1 1 2 1 1 2 5 9 10 1 2 1 2 1 2 1 5 2 1 1 3 1 1 1 1 1 2 数据来源:WIPO(世界知识产权组织)-2019 人工智能技术趋势展望 图 1-8 计算机视觉、语音处理、自然语言处理等技术领域的专利发布趋势 表

36、 1-6 涉及不同技术类型的赛题示例 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 16 数据竞赛,数字化创新的新模式 0120112016 0 2,000 4,000 6,000 Note: A patent may refer to more than one sub-category 0120112016 0 1,000 2,000 3,000 Note: A patent may refer to more than one sub-category 11996200

37、16 0 1,000 2,000 Note: A patent may refer to more than one sub-category 三、全球数据竞赛发展历程 1. 以工业应用为目标,数据竞赛模式诞生 全球数据竞赛市场已经历了 20 余年的探索,其发展起点可追 溯至 1997 年首次问世的 KDD Cup,这也是数据科学领域迄 今为止最重要的国际赛事之 一。 推出 KDD Cup 的 KDD (Conference on Knowledge Discovery and Data Mining, 知识发现和数据挖掘会议)隶 属于 ACM(Association f

38、or Computing Machinery,国际 计算机学会),是响誉全球的 顶级学术会议。 1997 年 的 首 届 KDD Cup 要 求参赛者通过数据分析,判断 出哪些人有可能成为美国瘫痪 退伍军人协会的捐赠者,从而 帮助协会更精准地发送求助邮 件。此后,KDD Cup 保持了一 年一度的举办惯例。1999 年 KDD Cup 的赛题更为经典,选 用了来自美国国防部高级规划 署在 MIT 林肯实验室操作进行 的入侵检测评估项目数据,希 望参赛者能够分辨那些操作是 外部入侵,获胜者是广为人知 的统计分析软件公司 SAS。作 为数据挖掘领域影响力最广、 水平最高的国际顶级赛事, KDD C

39、up 每年都会吸引大量优 秀的企业、高校或科研机构协 办赛事,或直接参给与竞赛角 逐。 通过 KDD Cup 的历年赛题不 难看出,虽然面临的问题日益 复杂,但始终带有强烈的工业 应用色彩,高度契合各类组织 机构的实际需求,也不断涌现 出全新的应用场景。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 图 1-9 KDD Cup 历年赛题 数据竞赛,数字化创新的新模式 17 2. 引领全球化前沿探索,国际顶会先锋探路 继 KDD Cup 之 后,ICCV、NeurlPS、ISBI、Euro CSS、ECML- PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、C

40、VPR (ActivityNet)、IWCS、ECCV 等国际顶尖学术会议也陆续牵头 举办数据竞赛。国际顶会数据竞赛往往会积极兼顾市场应用的需 求,通过与企业、政府机构合作,聚集当下技术与数据应用中的 难点寻求解决思路,不断缩短科研成果与落地应用之间的距离, 赛题内容广泛覆盖医疗、军事、互联网、交通出行、快消零售、 生态及文化保护等众多场景。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 国际顶会除了在世界不同地域举行年度性盛会外,也开始联手全 球各地的企业、科研机构共同筹办数据竞赛,以竞争形式帮助前 沿数据科学技术的进一步发展。这类享有顶会权威背书和国际影 响力的重大赛事在全球范围

41、内得到了积极响应,参赛对象不仅限 于技术水平突出的个人,还囊括了科研实验室、高校和企业等一 系列组织。中国企业、高校及科研机构和个人参赛者在国际顶会 数据竞赛的获奖次数呈现逐年上升的趋势,亦反应了中国在数据 科学领域的实力和影响力不断加强。 表 1-7 国际顶会数据竞赛赛题示例 18 数据竞赛,数字化创新的新模式 案例特写:KDD Cup 2019以工业应用为导向的全球性顶级竞赛 赛事主办方:KDD 2019 年,KDD Cup 首次同步开设常规机器学习、自动机器学习、强化学习三条赛道: 常规机器学习赛道(百度承办):在赛题拟定上着眼于“智慧出行”,要求参考者基于城市复杂的出行情境推荐包括 公

42、共交通、出租车、自驾、骑行、步行等多种方式在内的合理的多模态出行方案。 自动机器学习赛道(第四范式、ChaLearn、微软和亚马逊联合承办):要求参赛者设计时序关系数据二元分类的解 决方案。 强化学习赛道(IBM 承办):参赛者需要运用机器学习工具设计疟疾干预措施在模拟人群中的分配方案,以此为撒哈 拉以南非洲地区的疟疾政策提供决策支撑。 连续举办 20 余年的 KDD Cup 以“创新”为核心驱动力,加之积极拥抱全球化的态度,对工业界产生了强大的吸引力。 正是越来越多来自世界各地的企业以其真实业务问题与相关数据为基础提出赛题建议,从而促使 KDD Cup 通过设立更 丰富的赛道来探索前沿技术在

43、真实场景中的应用价值,并创立了总额突破 10 万美元的丰厚奖金,吸引了逾 1600 支国际 参赛队伍的加盟,影响力创历年之最。 3. 平台化模式开启,Kaggle 加速资源汇聚 数据竞赛发展的里程碑绕不开 Kaggle,除了国际性的市场影响力 和知名度外,Kaggle 更是为数据竞赛的平台化发展奠定了模式的 基础。 创立于 2010 年的 Kaggle 是目前全球最大的数据科学技术分享社 区和第三方数据竞赛平台,面向全球用户累计举办竞赛近 400 场 (含练习赛和自营赛),社区活跃用户逾百万。各类赛事主办方 基于不同的目标通过 Kaggle 发布与数据相关的难题,悬赏吸引 全球的数据科学人才参

44、与竞赛。 迄今为止的各项赛事中,近半数主办方是希望通过竞赛进行与真 实业务问题密切相关的创新探索(47.09%),其次是通过竞赛的 广泛影响力与参与度来促进学术研究(23.26%),同时也有不少 主办方将数据竞赛当作重要的品牌公关活动形式(20.93%)和招 聘渠道(8.72%)。 而从技术类型来说,Kaggle 的赛题主要涉及结构化数据挖掘 (58.14%)、计算机视觉(26.49%)、自然语言处理(11.63%) 和语音技术(1.74%)四大类。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 Kaggle 数据竞赛的赛题场景呈现出丰富的多样性,其中科技领域 的赛题数量占比达36.

45、05%, 具有绝对优势。 紧随其后的金融、 医疗、 学术科研等场景组成了第二梯队, 第三梯队则包含了社服务、 电商、 体育、零售和广告媒体等应用场景。 图 1-10 Kaggle 数据竞赛主办方办赛目标分布和赛题技术类型分布 扫描上方二维码 了解更多赛事详情 28.49% 58.14% 11.36% 1.74% 23.26% 20.93% 47.09% 8.72% 数据竞赛,数字化创新的新模式 19 应用在房地产领域的赛题数量只有 2 个,分别是房地产估价平台 Zillow 发起的房产价值估算模型算法竞赛,以及德勤发起的西澳 大利亚房屋租金预测模型算法竞赛,其中 Zillow 凭借 120 万

46、美元 的高额奖金激励将房地产行业赛题的平均奖金拉升至 65 万美元, 遥遥领先于其它行业。 紧随其后的社会服务和医疗行业也在奖金数额上有不小投入。举 例来说,美国交通运输安全管理局隶属于国土安全局,主要负责 机场安检工作,该机构直接将面用公众的数据竞赛作为支撑其安 检设备采购决策的重要依据,要求参赛选手开发出能够精准识别 行李内危险物品的算法,并计划将优秀的成果集成进安检仪器以 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 提高安检准备性和效率。这场竞赛中,主办方投入了高达 150 万 美元的奖金,成为 Kaggle 竞赛奖金之最。 此外,由博思艾伦咨询公司发起的 Data Scie

47、nce Bowl 品牌赛事 主要聚焦于医疗领域,每届赛事都会吸引全球范围内各类机构组 织在奖金、数据等不同方面的协力赞助,如亚马逊、英伟达等知 名企业,以及美国放射学会、国家癌症研究所等科研组织。凭借 丰厚的奖金和盛大的规模,Data Science Bowl 已成为 Kaggle 平 台上最具影响力的年度性盛事,并在全社会的积极参与下诞生了 大量创新成果。 图 1-11 Kaggle 数据竞赛赛题场景分布 20 数据竞赛,数字化创新的新模式 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 在发展初期,Kaggle 聚集了一大批数据科学人才,形成了讨论氛 围浓厚的数据集、代码与技术分享

48、社区,并在此基础上开始逐渐 发展数据竞赛服务。围绕着数据科学,Kaggle 做出了诸多努力和 尝试,平台功能也日益完善,目前包含竞赛、数据集、开发工具 表 1-8 Kaggle 平台上奖金投入前 10 位的竞赛 三个子平台,配套论坛和招聘服务两大模块,逐渐发展成为连接 数据科学人才和数据科学应用场景双方共同致力于数据科学创新 探索的工具性平台。 数据竞赛,数字化创新的新模式 21 Kaggle Days 在 Kaggle 的影响下,国外市场开始出现一批深耕不同细分领域 的竞赛平台,如重点关注生命科学领域的 InnoCentive 和主攻公 共服务领域的 DrivenData,此外,还有诸如 C

49、odaLab 等平台支 持数据科学家自主发起赛事。 尽管中国市场起步较晚,但越来越多的企业、高校、科研机构和 政务部门开始意识到数据竞赛是进行品牌宣传、人才选拔、算法 创新的一种高效形式,因此投身数据竞赛的姿态愈发积极。 在此背景下,中国市场也顺势崛起了一批数据竞赛平台,凭借在 资源整合、场景挖掘、工具开发、成果封装等方面的专业服务能 力和经验推动着中国数据竞赛的专业化发展,并开始探索区别于 Kaggle 的差异化发展道路。 数据来源:和鲸科技()经调研统计得出。引用请注明出处。 此外,以百度、京东、华为、腾讯和爱奇艺为代表的一批企业从 2017 年开始逐渐意识到数据科学对于其运营发展的重要性,依托 其雄厚的技术先发优势走上了自营数据竞赛的探索道路,意图借 此加强对数据的有效利用,从而优化企业运营流程、探索商业创 新方向、实现人才的可持续发展,“业务驱动 + 数据创新”是企 业自营数据竞赛的核心驱动力,企业自营赛题往往紧密贴合其自 身行业特色和实际业务需求。 表 1-9 中国市场主流的第三方数据竞赛平台概览 22 数据竞赛,数字化创新的新模式 1

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(和鲸科技:数据竞赛白皮书(62页).pdf)为本站 (彩旗) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

wei**n_...   升级为标准VIP qiu**ng...  升级为至尊VIP

 wei**n_...  升级为至尊VIP 范**  升级为高级VIP 

 shm**yj... 升级为标准VIP  wei**n_... 升级为至尊VIP

微**... 升级为标准VIP  Fel** L... 升级为至尊VIP

wei**n_... 升级为高级VIP   186**58... 升级为至尊VIP  

138**10...  升级为至尊VIP 微**... 升级为标准VIP 

wei**n_... 升级为至尊VIP  wei**n_... 升级为标准VIP 

 wei**n_... 升级为标准VIP 一**...  升级为标准VIP 

 wei**n_... 升级为高级VIP  wei**n_... 升级为至尊VIP

 wei**n_... 升级为标准VIP  156**21... 升级为高级VIP

158**76... 升级为标准VIP   180**88...  升级为至尊VIP 

wei**n_...  升级为高级VIP  wei**n_... 升级为高级VIP

 135**84... 升级为至尊VIP 德**... 升级为至尊VIP  

 24**月... 升级为标准VIP 137**77... 升级为高级VIP 

 wei**n_... 升级为高级VIP  wei**n_... 升级为至尊VIP

189**26... 升级为至尊VIP 155**88...   升级为至尊VIP

 178**16...  升级为高级VIP   wei**n_... 升级为标准VIP

186**59...  升级为至尊VIP wei**n_...  升级为高级VIP

 152**55... 升级为标准VIP 185**82... 升级为高级VIP 

 186**86...  升级为至尊VIP  186**86... 升级为高级VIP

183**82...   升级为高级VIP  钚**...  升级为至尊VIP

 wei**n_... 升级为至尊VIP 137**98... 升级为标准VIP

 ym8**80... 升级为高级VIP  159**48... 升级为高级VIP 

wei**n_...  升级为至尊VIP 135**47... 升级为高级VIP 

谷珺  升级为至尊VIP wei**n_...  升级为至尊VIP

156**36...  升级为至尊VIP  wei**n_...  升级为至尊VIP

wei**n_...  升级为高级VIP  wei**n_...  升级为至尊VIP

  微**... 升级为标准VIP  共**... 升级为至尊VIP

138**35...  升级为至尊VIP 学**...  升级为标准VIP

 wei**n_... 升级为标准VIP wei**n_...   升级为标准VIP

186**78... 升级为至尊VIP  159**03...  升级为标准VIP

 wei**n_... 升级为标准VIP  138**38... 升级为高级VIP

 wei**n_...  升级为标准VIP 185**52...   升级为至尊VIP

138**43...  升级为标准VIP wei**n_... 升级为至尊VIP 

wei**n_...  升级为高级VIP wei**n_...  升级为至尊VIP

 wei**n_...  升级为高级VIP 禾**...   升级为至尊VIP

 微**... 升级为至尊VIP  191**94... 升级为至尊VIP

施** 升级为高级VIP   wei**n_...  升级为至尊VIP

 189**48... 升级为高级VIP 微**... 升级为至尊VIP 

wei**n_... 升级为高级VIP  wei**n_... 升级为至尊VIP 

 wei**n_...  升级为高级VIP   wei**n_... 升级为至尊VIP

微**...  升级为标准VIP  wei**n_... 升级为至尊VIP

135**02... 升级为高级VIP  wei**n_... 升级为至尊VIP

 魏康**e... 升级为至尊VIP  魏康**e... 升级为高级VIP 

 wei**n_... 升级为至尊VIP  182**45... 升级为标准VIP 

  wei**n_... 升级为至尊VIP zho**ia... 升级为高级VIP 

137**69...   升级为高级VIP   137**75... 升级为高级VIP

微**...  升级为标准VIP  wei**n_... 升级为高级VIP

135**90...  升级为高级VIP  134**66... 升级为标准VIP

wei**n_... 升级为至尊VIP  136**56... 升级为至尊VIP