上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

大数据系统软件国家实验室:2019数据竞赛白皮书·上篇·1000场竞赛的深度分析报告(60页).pdf

编号:80949 PDF   DOCX  60页 7.23MB 下载积分:VIP专享
下载报告请您先登录!

大数据系统软件国家实验室:2019数据竞赛白皮书·上篇·1000场竞赛的深度分析报告(60页).pdf

1、of数据科学协同平台序第一章 数据竞赛,数字化创新的新模式一、竞赛规模与资源投入趋势1. 奖金投入意愿攀升,参与规模稳增2. 数据红利可期,数据投入姿态积极二、赛题应用场景与技术类型分布1. 应用场景不断扩散,标杆行业优势初显2. 覆盖主流 AI 技术,计算机视觉热度延续三、全球数据竞赛发展历程1. 以工业应用为目标,数据竞赛模式诞生2. 引领全球化前沿探索,国际顶会先锋探路3. 平台化模式全面开启,Kaggle 加速资源汇聚四、数据竞赛外生环境趋势1. 商业数字化趋势渐强,有赖技术创新落地2. AI 上升为国家战略,推动数据赋能实体经济3. 云计算技术日益成熟,提供基础设施保障4. 青睐背后

2、充满审慎,资本看重 AI 落地价值5. 媒体普及大众化认知,竞赛收获正面舆评6. 教育投入与日俱增,数据人才能力跃升第二章 数据竞赛,数据智能落地的练兵场一、竞赛驱动的数据科学创新1. 数字化转型成本提升,暗藏众多风险2. 竞赛低耗高效可持续,创新探索敏捷化二、对竞赛的理性评价与思考三、选手眼中的竞赛价值四、竞赛对四大办赛主体的赋能实效1. 引领企业进行技术落地场景的创新探索2. 促进高校加强学科建设与人才培养3. 推动科研机构加速产研融合与技术发展4. 助力政府实践产业落地和建设数据创新生态附录CONTENTS0304080809862829323

3、334353839424547495153数据竞赛白皮书聚焦三大核心看点,力图全景式呈现数据竞赛驱动下的数字化创新生态。在白皮书上篇,将着眼于数据竞赛的发展历程与现状,对其核心价值展开深刻剖析;在白皮书下篇,数据竞赛的科学管理方法论和最佳实践将得到深度分享。高亮看点关注数据竞赛白皮书下篇办好一场竞赛的实操手册,看点三深度内容尽在掌握。看点一:1000+ 场数据竞赛,催生数据智能时代全球性政、企、学、研、资各界联动新常态 2014 年至今,全球范围内的各类数据竞赛总量已突破 1000 余场。其中,仅中国市场就已发布共计逾 400 场数据竞赛,年均增长率高达 108.8%。236 家企业、政务部门

4、、高校和科研机构作为赛事主办方参与其中;吸引约36万支团队、 120万人次参赛;奖金规模合计高达2.8亿元人民币,赛题覆盖 33 个行业应用场景; 1997 年,享誉全球的国际顶级学术会议 KDD 推出 KDD Cup,开启了数据竞赛的新模式,20 余年以来的赛题设计始终带有鲜明的工业应用色彩。ICCV、NeurlPS、ISBI、Euro CSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等国际顶尖学术会议在全球化浪潮下也纷纷开始牵头组织数据竞赛。看点二:15 个案例特写,看懂数据竞赛为何成为数字

5、化创新的有效手段 以赛题承载应用场景,在紧凑的竞赛周期内高效整合数据、算法、算力、人才等要素,可敏捷验证各类 AI 在真实商业场景中的落地方向和实效; 85% 的数据人才高度认同竞赛对技术实践能力的培养作用,竞赛成为打破高校学科建设与人才培养瓶颈的有效手段; 竞赛推进前沿科研探索落地,通过跨学科协作促进 AI 在不同领域价值释放; 竞赛成为数字化创新要素和汇集产、学、研、政各界资源的枢纽 ,助力数据创新生态建设和产业落地。看点三:100+ 场专业赛事服务经验,一流竞赛平台开源数据竞赛管理方法论与业界最佳实践 面向千余名参赛选手的调研结果显示,奖金并非竞赛核心诉求,从专业性赛题、科学性评审,到协

6、作式工具、精细化运营,组织一场优质的数据竞赛颇有挑战; 竞赛全生命周期都面临着来自参赛选手和主办方的双重审视,既要能够通过打造良好的参赛体验高度激发数据科学人才的能动性和生产力,又要通过专业的数据科学服务能力和精细的运营流程充分满足赛事主办方贯穿赛事全程的多元诉求; 保障赛事功能,开创数据科学研发全新协作模式数据科学协作工具成为数据时代最重要的基础设施之一。02 数据竞赛,数字化创新的新模式数据竞赛白皮书下篇办好一场竞赛的实操手册数据竞赛白皮书上篇1000 场竞赛的深度分析数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期待。然而,从现阶段的发展来看,我

7、们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未能如期落地。数据的力量究竟该如何激发?带着这样的疑惑,我们把视角对准了数据竞赛这一载体,以期为行业提供启发。通过全面的调研、分析,我们得到了寻找创新路径和探索最佳实践的总结,形成这份数据竞赛白皮书分享给大家。全球数据竞赛市场已经历了 20 余年的探索,其发展起点可追溯至 1997 年由国际顶级学术会议 KDD(Conference on Knowledge Discovery and Data Mining,知识发现和数据挖掘会议)推出的 KDD Cup。此后,一系列国际顶尖学术会议也陆续牵头组织数据竞赛。国际顶会数据竞赛往往会积极兼顾

8、市场应用的需求,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创立于 2010 年的 Kaggle 作为目前全球最大的数据科学技术分享社区,更是为数据竞赛的平台化发展奠定了模式化基础,其合作伙伴除了 Google、Facebook、Airbnb、Yelp 等互联网时代诞生的独角兽, 亦不乏Walmart、 Airbus、 Genentech等声名日久的传统行业领头羊。放眼中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在

9、“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型数据竞赛。数据竞赛绝不仅仅只是 “主办方发布赛题、 传播品牌美誉, 参赛者参与开发、 收获丰厚奖金”的公关活动。对双方而言,数据竞赛已经成为了数字化转型的“云端实验室”。赛事主办方紧跟数据智能的发展趋势,通过挖掘数据价值的场景和树立“数据 + 算力 + 人才 + 算法”的价值闭环,积累数据科学研发的核心能力;参赛选手能够积累如何在真实业务场景中应用先进技术的实际经验,在与众多高手的交流切磋中不断成长。基于这一趋势,在大数据系统软件国家工程实验室的指导下,和鲸科技“H”携旗下中国领先的第三方数据竞赛平台“和鲸社区(即 K

10、)”,联合AWS,共同发布数据竞赛白皮书,分析全球市场数据竞赛发展趋势,提出对数据竞赛推动前沿技术落地的创新价值思考,并在业界开源优质数据竞赛运营方法论与最佳实践。序第一章数据竞赛,数字化创新的新模式一、竞赛规模与资源投入趋势二、赛题应用场景与技术类型分布三、全球数据竞赛发展历程四、数据竞赛外生环境趋势图 1-1 数据竞赛生态版图数据竞赛,数字化创新的新模式 05数据竞赛是指在以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,利用数据研发算法模型、探索解决方案的新型研发模式。2014 年至今,全球范围内由各行业企业、顶级学术会议和第三方数据科学平台发起的各类数据竞赛总量已突破 1000

11、 余场。其中,仅中国市场就已通过 12 个数据竞赛平台发布共计逾 400 场数据竞赛,占比近半,且年均增长率高达 108.8%。236 家企业、政务部门、高校和科研机构作为赛事主办方参与其中 ;吸引约36 万支团队、120 万人次参赛;奖金规模合计高达 2.8 亿元人民币,赛题覆盖金融、交通出行、安防、航空天文和生物科技等 33个应用场景。利用数据竞赛探索数字化创新与前沿技术的落地应用方向正在成为数据科学生态必不可缺的一环。通过对这 400 场数据竞赛的深入分析,我们试图从更全面、更深入的角度理解中国市场的数据竞赛生态。数据来源:和鲸科技()制作。引用请注明出处。图 1-2 数据竞赛赛题数量与

12、参赛团队变化趋势在过去数年间,数据竞赛赛题数量增势日渐强劲,表明利用数据进行产业赋能的创新探索需求不断增加,越来越多的组织机构以拥抱人工智能的开放心态积极探索数字化转型的更多可能。在被称为大数据元年的 2015 年,先进技术带来的经济效应规模化显现,在技术赋能产业的进程中,“由社会成果广泛参与、公开透明、自下而上、分权决策”的社会创新作为全新组织范式日渐走进人们的视野,数据竞赛作为其重要表现形式之一,开始作为探索潜在应用场景、甚至解决实际问题的有效手段被接受。与此同时,政府及事业单位需要依赖技术进行数据化驱动的社会数据来源:和鲸科技()经调研统计得出。引用请注明出处。01,00010,0000

13、1,00010,000100,0000100,0001,000,00010,000,000030治理与城市优化。进入 2017、2018 年,在越来越多企业投入数据竞赛的同时,由高校、科研机构与政府单位主导的数据竞赛数最也保持着较强的涨幅、从科研探索,到商业场景应用,再到社会治理,数据竞赛赛题内容可谓百花齐放。而参赛人数的指数级增长也释放出两方面的信号: 其一,不仅限于计算机和数学背景,越来越多的不同背景的人才开始接触数据科学;其二,伴随着技术的革新,产业对于数据科学应用价值的认知和兴趣不断强化。06 数据竞赛,数字化创新的新模式通过这项赛事的成功举办,南京市人民政府向外界清晰地传达:南京市人

14、民政府对于数据科学及人工智能产业的支持力度是空前的,通过提供坚实有力的扶持政策和对接优质资本,南京有能力、有魄力、有信心把握人工智能时代的发展趋势,以更懂科技企业的方式聚集数据科学人才、提供配套设施服务、助推数据科学全面发展。案例特写:2018 全球(南京)人工智能应用大赛社会各界全面联动的大型赛事赛事主办方:南京市人民政府 作为国内顶级规模的数据科学赛事,2018 全球(南京)人工智能应用大赛推动了产、政、学、研各界的全面联合,因其社会价值之高、调动资源之多、影响范围之广引发了各界的高度关注。南京市人民政府联合 2 家科研机构、3 所高校、15 个企业共同发布了覆盖“智能制造”、“智能驾驶”

15、、“智能生活”、“智能医疗”、“智能城市”五大产业应用领域的 20 道赛题,设立 600 万元奖金池及 20 亿元人工智能产业风险投资基金,吸引了近 3000 名数据科学人才的参与。扫描上方二维码了解更多赛事详情2018 年 5-9 月,和鲸承办由南京市政府主导的 2018 全球(南京)人工智能应用大赛,联合产、政、学、研、资各界机构组织针对五大产业应用领域方向共计发布 20 道并行赛题,所有赛题从解决产业实际困难出发,充分体现 AI 技术在各行各业的深度应用赋能价值,一批提高生产效率甚至改变商业模式的解决方案,从本次大赛中涌现。五大领域 20 道赛题,覆盖社会生产重要领域数据竞赛,数字化创新

16、的新模式 071M2M3M4M5M1K02K3K4K5K6K7K8K9K10K物流气象高校服务通信能源航空天文旅游农业地质水利游戏农林养殖业客服生物科技食品安全军工业法律海洋工具教育体育交通出行金融商业开放应用文娱传媒人工智能电子商务工业制造业新零售医疗健康人文服务及社会治理物流气象高校服务网络安全通信能源航空天文旅游农业地质水利游戏农林养殖业客服生物科技食品安全法律军工业安防海洋体育教育工具5M10M15M20M25M30M35M40M45M50M55M60M5K010K15K20K25K30K35K40K45K50K交通出行电子商务工业制造业医疗健康安防人文服务及社会治理网络安全新零售金融

17、商业开放应用文娱传媒人工智能图 1-3 各行业赛题的奖金投入与参与规模一、竞赛规模与资源投入趋势数据竞赛的奖金水平和参赛规模从侧面反应了各行各业的数据科学投入力度和各类技术领域内的人才结构。自 2014 年以来,无论是参赛人数还是总奖金池规模都呈现出较为显著着上涨趋势,而人均奖金也呈同步上升态势。由此可见各行各业在数据竞赛中的投入热情和力度不断高涨。具体来说,除了具有跨行业应用价值的赛题外,赛题场景的行业分布与奖金、参赛规模主要呈现如下趋势: 交通出行、工业制造、医疗健康是目前数据竞赛中奖金最丰厚、规模最宏大的三个领域,可见其对于数字化创新价值的重视和期待。1. 奖金投入意愿攀升,参与规模稳增

18、 奖金支付能力最高、数据科学人才热度最高的行业交通出行; 奖金支付能力较高、数据科学人才热度一般的行业工业制造、医疗健康; 奖金支付能力较低、数据科学人才热度较高的行业金融、文娱传媒、电子商务; 奖金支付能力较低、数据科学人才热度较低的行业气象、能源、高校服务。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 电子商务、社会公共服务、文娱传媒等赛题场景因与大众个人生活息息相关,故而也往往具有较大的参赛规模。 安防、能源、气象等赛题场景因具有一定的知识门槛,因此存在奖金丰厚但参赛者寥寥的现象。同时,不同技术类型赛题的难易程度和发展速度也与奖金水平正向相关:越高的奖金意味着技术难度越大,丰厚

19、的激励有望推动尖端人才投身前沿问题的解决。其中,计算机视觉类赛题的奖金水平一枝独秀,预计未来仍会有大量相关赛题涌现。而结构化数据挖掘类赛题则具有最广泛的受众面和最低的参与门槛,参赛规模庞大。08 数据竞赛,数字化创新的新模式2. 数据红利可期,数据投入姿态积极数据竞赛的创新价值均以数据为基础,除了以丰厚的奖金投入来吸引优质人才的加入,越来越多的主办方也在数据安全与法规限定的范畴内不断加大竞赛数据的投入力度,为创新提供更充足的养料。百度作为积极投身数据竞赛的先锋,已基于百度知道的真实问答文档建设了迄今为止规模最大的中文公开领域阅读理解数据集DuReader,并完成了对总量类型、问答实体和观点等信

20、息维度的标注,弥补了现有主流问答语料库对于观点类问题覆盖不足的缺陷,首批发布的阅读理解数据集包含 20 万个问题、100 万份文档及 42 万个人工撰写的优质答案,并提供开源基线系统,从而为各行各业在自然语言处理领域的创新探索奠定了坚实基础。由中科院打造的 CASIA-WebFace 数据集包含了 10575 名个人的494414 张图像,是训练人脸识别模型的重要素材。此外,在由百度主导的“智能问答”和“综艺节目精彩片段预测”两场数据竞赛中,百度联合汽车大师和爱奇艺分别提供了汽车大师平台上的 11 万条真实问答数据、以及总长约 1200 小时的1470 条爱奇艺电视综艺视频。这些数据对最终优质

21、成果的诞生发挥了至关重要的作用。携程将数据竞赛作为推动内外协同创新、解决实际业务问题的重要手段,其发布的赛题几乎覆盖了自身业务的核心内容,包括酒店销量概率预测、客户转化概率预测、航班延误预测、渠道销售能力预测等诸多方面。为了收获具备工业应用潜力的竞赛成果,在经过严格脱敏处理和采取充分的数据安全保障措施后,携程为竞赛导入了海量真实业务数据,其信息涵盖酒店基础数据、历史订单数据、价格波动数据、竞品排名数据、历史航班动态起降数据及航班延误影响因素相关数据等。科研机构在日常研究工作中积累了大量数据,通过数据竞赛的开放式创新环境闭合的数据库在一定条件下进行开源,也无疑能够进一步促进这些数据的价值释放。率

22、先将医疗大数据 Datathon模式引进国内的解放军总医院,在 2018 年的 Datathon 中就曾发布并应用了 2015-2017 年间在解放军总医院急诊科就诊数据库,以其作为 Datathon 竞赛的基础资源,通过跨学科、跨领域的交叉合作,真正推动了医疗大数据应用从理念到落地的探索。政务数据广泛覆盖自然信息、城市建设、城市管理监察、服务与民生消费等丰富的维度,是极其重要的大数据资产,开拓政务数据的创新应用场景也成为了近年来各级政务部门的重要任务。越来越多的政务部门通过数据竞赛开源数据红利,探索创新机遇。举例来说,在由广西壮族自治区人民政府发起的全球数据智能大赛 (2019) 中, 20

23、15-2018年间广西 81 县十余个维度的气象和早、晚稻产量数据,及降雨、温度、光照、温差等气象数据被用以构建智能气象预测系统和精准预测水稻产量。数据竞赛,数字化创新的新模式 09图 1-4 数据竞赛赛题所涉行业分布二、赛题应用场景与技术类型分布1. 应用场景不断扩散,标杆行业优势初显数据竞赛自诞生以来,始终以数据科学落地场景的探索为主要优势特色,并对数据科学在不同场景下的应用能力和价值通过赛题进行验证和迭代。从 2014 年至今中国市场 400 场数据竞赛的赛数据来源:和鲸科技()经调研统计得出。引用请注明出处。题可以看出,除了如推理问答、人脸识别等具有跨行业场景应用能力的赛题外,交通出行

24、、金融、文娱传媒和工业制造是赛题场景涉及最多的四大行业。不同的应用场景之间存在一定的价值互通,而数据智能又具有普适性与迁移性,因此来自不同领域的数据竞赛主办方在赛题场景的选择上表现出了丰富的多样性,不仅仅局限于自己的业务领域,也会高度关注数据在其它场景下的应用价值。这不仅仅能以更广阔的视野探索创新机会,还可以帮助赛事主办方在数据安全、自有业务数字化准备不足等问题的限制下依然能够通过数据竞赛感受算力、算法和数据的协同带来的价值。10 数据竞赛,数字化创新的新模式图 1-5 赛事主办方行业类别与赛题场景行业类别的配对关系数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据竞赛,数字化创新的新

25、模式 11300,0004,8681,850,000565840,0001,507210,000485表 1-1 金融场景的数据竞赛典型赛题 金融行业是数字化创新的主力自 2016 年 Fintech(金融科技)的概念面世以来,金融行业在技术创新方面的投入不断增强,以数据竞赛为主要手段的开放式创新更成为了金融行业的重要战略选择。金融行业在 2017、2018两年连续成为赛事密度最高的领域,赛题数量占比达 66.7%,是技术创新的主力。量化投资和风险评估是最为常见的赛题场景,如根据海量股票交易数据生成量化投产策略,并在模拟盘上进行三个月的策略验证;同时,通过声纹、人脸等生物特征和个人信息的验证来

26、加强金融风控力度也是较为常见的赛题应用场景。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 交通出行领域是应用场景不断成熟的典型代表2015 年,交通出行场景首次出现在数据竞赛的赛题中“游族杯”上海开放数据创新应用大赛以城市交通为主题,运用交通管理部门和相关企业提供的开放数据,以产品(原型)为比赛对象,结合线上线下活动,面向全国征集改善城市交通和市民出行的数据可视化应用和解决方案。此后,该领域在数据竞赛中的投入不断加强,赛题数目从 2015、2016 年的每年各 3 道上升至 2017 年的 7 道,至 2018 年更是达到了 23 道之多。而赛题内容也在不断具象从最初征集开放性产品方

27、案,到后来进行路段拥堵情况预测、自动驾驶障碍物检测等,数据的应用方向越来越清晰、越来越聚焦。至 2017 年,7道涉及不同具体场景的算法类赛题均诞生了优质的模型成果,完成了数据及算法应用成果的验证。数据来源:和鲸科技()经调研统计得出。引用请注明出处。UAIUAIUAIUAIUAIUAIUAIUAIUAIUAI图 1-6 交通出行领域数据竞赛赛题关键词12 数据竞赛,数字化创新的新模式表 1-3 文娱传媒场景的数据竞赛典型赛题 电信数据是跨界应用的典范绝大多数赛事主办方的赛题均集中在其所在行业领域的产业链上,以电信行业为代表的赛事主办方设立了丰富的跨界赛题,如利用电信用户地理位置信息预测其前往

28、某地旅游的概率,或利用电信用户通信侧消费信息和手机使用行为信息预测其更换手机的概率。这与其电信业务存量市场已渐趋饱和的行业特点相关,也传递出了趋势性的信号:通过数据竞赛探索既有数据在跨界领域的应用,不仅能够建立起“算力 + 数据 + 算法 + 场景”的标杆案例,而且能够探索多产业间数据协同的增量价值。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 文娱传媒类场景是面向个人用户应用 AI 技术的直接端口自 2015 年以来,文娱传媒领域的数据竞赛赛题呈现逐年递增的态势,行为预测、营销内容创作、舆情分析成为了该领域最为常见的赛题场景。因赛题内容与个人消费者具有较强的相关度,该领域的竞赛往往

29、能够引起广泛关注和积极参与,成为了面向个人用户应用数据智能的直接端口。数据来源:和鲸科技()经调研统计得出。引用请注明出处。 工业制造业在政策与需求的驱动下积极组织竞赛工业制造领域的数据竞赛从 2017 年开始进入爆发期,以中国制造 2025为代表的人工智能国家发展战略是引导工业制造领域赛题数量剧增的重要原因之一。在宏观政策的指引下,政务部门率先成为了该领域数据竞赛的主要主办方。广东省人民政府牵头的工业智造创新大赛便是典型代表,要求参赛选手开发计算机视觉算法自动识别布匹疵点,以及对布料剪裁进行最优规划。表 1-2 电信行业的数据竞赛典型赛题2,200,0002,0381,000,0002,54

30、6100,00076840,0003781,000,0001,0711,000,0008,848380,0005,475230,0001,485数据竞赛,数字化创新的新模式 13表 1-5 新零售场景的数据竞赛典型赛题表 1-4 工业制造场景的数据竞赛典型赛题数据来源:和鲸科技()经调研统计得出。引用请注明出处。 技术发展与消费升级推进新零售领域数据竞赛的爆发新零售行业的本质在于技术发展与消费升级带来的供需多元化、智能化以及精准化,商品识别、精准营销、供应链管理是该领域主要的赛题场景。新零售领域的竞赛主办方行业辐射范围较广,交通出行、金融、通信行业的机构组织均参与过新零售场景赛题的出具。数据来

31、源:和鲸科技()经调研统计得出。引用请注明出处。 探索底层创新技术的赛题具有可复制价值此外,不同产业的某些场景之间存在一定的价值互通与共生性,以具有跨行业泛化应用能力的底层创新技术作为赛题方向,能够加速关联领域的数字化创新探索。例如对于图像的目标识别、对于文本情感的分类都具有跨行业领域的泛化应用价值。1,000,0001,809222,0254,504550,0002,5291,000,0009061,340,0002,950300,0002,100170,00041114 数据竞赛,数字化创新的新模式2. 覆盖主流 AI 技术,计算机视觉热度延续数据竞赛赛题的技术类型主要包括结构化数据挖掘、

32、计算机视觉、自然语言处理、语音技术四大类别。不同产业在不同发展阶段对不同类别的技术有所侧重, 但就现阶段来看, 文娱传媒、 医疗健康、智慧校园等行业因其对技术的开放程度较高,技术变现方向相对清晰,从而对各种技术类型的赛题均有所涉及。结构化数据挖掘方面的赛题分布最为广泛。对于赛事主办方而言,在场景应用尚未开发成熟之前,通过结构化数据挖掘类赛题加强对如何进行数据治理、如何打破数据价值应用壁垒、如何唤醒沉睡数据的理解是其重要意义所在。计算机视觉在未来较长一段时间内都将持续成为热门的应用焦点。从学术科研的角度来看,2013-2016 年间,计算机视觉相关论文发表数量每年保持着 24% 的高速增长,并在

33、 2016 年人工智能领域的全量发表论文中占比高达 49%。而从数据竞赛角度来看,凭借着强大的跨行业应用能力,全国 400 场竞赛赛题中,计算机视觉方面的赛题数量占比高达 30%。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 1-7 数据竞赛赛题所涉技术类型分布数据竞赛,数字化创新的新模式 247863332 0222数据来源:WIPO(世界知识产权组织)-2019 人工智能技术趋势展望图 1-8 计算机视觉

34、、语音处理、自然语言处理等技术领域的专利发布趋势表 1-6 涉及不同技术类型的赛题示例数据来源:和鲸科技()经调研统计得出。引用请注明出处。16 数据竞赛,数字化创新的新模式0,0004,0006,000Note: A patent may refer to more than one sub-category0,0002,0003,000Note: A patent may refer to more than one sub-category198119861

35、990,0002,000Note: A patent may refer to more than one sub-category 三、全球数据竞赛发展历程1. 以工业应用为目标,数据竞赛模式诞生全球数据竞赛市场已经历了 20余年的探索,其发展起点可追溯至 1997 年首次问世的 KDD Cup,这也是数据科学领域迄今为止最重要的国际赛事之一。推出 KDD Cup 的 KDD(Conference on Knowledge Discovery and Data Mining,知识发现和数据挖掘会议)隶属于 ACM(Association for C

36、omputing Machinery,国际计算机学会),是响誉全球的顶级学术会议。1997 年 的 首 届 KDD Cup 要求参赛者通过数据分析,判断出哪些人有可能成为美国瘫痪退伍军人协会的捐赠者,从而帮助协会更精准地发送求助邮件。此后,KDD Cup 保持了一年一度的举办惯例。1999 年KDD Cup 的赛题更为经典,选用了来自美国国防部高级规划署在 MIT 林肯实验室操作进行的入侵检测评估项目数据,希望参赛者能够分辨那些操作是外部入侵,获胜者是广为人知的统计分析软件公司 SAS。作为数据挖掘领域影响力最广、水平最高的国际顶级赛事,KDD Cup 每年都会吸引大量优秀的企业、高校或科研机

37、构协办赛事,或直接参给与竞赛角逐。通过 KDD Cup 的历年赛题不难看出,虽然面临的问题日益复杂,但始终带有强烈的工业应用色彩,高度契合各类组织机构的实际需求,也不断涌现出全新的应用场景。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 1-9 KDD Cup 历年赛题数据竞赛,数字化创新的新模式 172. 引领全球化前沿探索,国际顶会先锋探路继 KDD Cup 之 后,ICCV、NeurlPS、ISBI、Euro CSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等国际顶尖学术会议也陆

38、续牵头举办数据竞赛。国际顶会数据竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离,赛题内容广泛覆盖医疗、军事、互联网、交通出行、快消零售、生态及文化保护等众多场景。数据来源:和鲸科技()经调研统计得出。引用请注明出处。国际顶会除了在世界不同地域举行年度性盛会外,也开始联手全球各地的企业、科研机构共同筹办数据竞赛,以竞争形式帮助前沿数据科学技术的进一步发展。这类享有顶会权威背书和国际影响力的重大赛事在全球范围内得到了积极响应,参赛对象不仅限于技术水平突出的个人,还囊括了科研实验室、高校和企业等一系列组织。

39、中国企业、高校及科研机构和个人参赛者在国际顶会数据竞赛的获奖次数呈现逐年上升的趋势,亦反应了中国在数据科学领域的实力和影响力不断加强。表 1-7 国际顶会数据竞赛赛题示例18 数据竞赛,数字化创新的新模式案例特写:KDD Cup 2019以工业应用为导向的全球性顶级竞赛赛事主办方:KDD 2019 年,KDD Cup 首次同步开设常规机器学习、自动机器学习、强化学习三条赛道: 常规机器学习赛道(百度承办):在赛题拟定上着眼于“智慧出行”,要求参考者基于城市复杂的出行情境推荐包括公共交通、出租车、自驾、骑行、步行等多种方式在内的合理的多模态出行方案。 自动机器学习赛道(第四范式、ChaLearn

40、、微软和亚马逊联合承办):要求参赛者设计时序关系数据二元分类的解决方案。 强化学习赛道(IBM 承办):参赛者需要运用机器学习工具设计疟疾干预措施在模拟人群中的分配方案,以此为撒哈拉以南非洲地区的疟疾政策提供决策支撑。连续举办 20 余年的 KDD Cup 以“创新”为核心驱动力,加之积极拥抱全球化的态度,对工业界产生了强大的吸引力。正是越来越多来自世界各地的企业以其真实业务问题与相关数据为基础提出赛题建议,从而促使 KDD Cup 通过设立更丰富的赛道来探索前沿技术在真实场景中的应用价值,并创立了总额突破 10 万美元的丰厚奖金,吸引了逾 1600 支国际参赛队伍的加盟,影响力创历年之最。3

41、. 平台化模式开启,Kaggle 加速资源汇聚数据竞赛发展的里程碑绕不开 Kaggle,除了国际性的市场影响力和知名度外,Kaggle 更是为数据竞赛的平台化发展奠定了模式的基础。创立于 2010 年的 Kaggle 是目前全球最大的数据科学技术分享社区和第三方数据竞赛平台,面向全球用户累计举办竞赛近 400 场(含练习赛和自营赛),社区活跃用户逾百万。各类赛事主办方基于不同的目标通过 Kaggle 发布与数据相关的难题,悬赏吸引全球的数据科学人才参与竞赛。迄今为止的各项赛事中,近半数主办方是希望通过竞赛进行与真实业务问题密切相关的创新探索(47.09%),其次是通过竞赛的广泛影响力与参与度来

42、促进学术研究(23.26%),同时也有不少主办方将数据竞赛当作重要的品牌公关活动形式(20.93%)和招聘渠道(8.72%)。而从技术类型来说,Kaggle 的赛题主要涉及结构化数据挖掘(58.14%)、计算机视觉(26.49%)、自然语言处理(11.63%)和语音技术(1.74%)四大类。数据来源:和鲸科技()经调研统计得出。引用请注明出处。Kaggle 数据竞赛的赛题场景呈现出丰富的多样性,其中科技领域的赛题数量占比达36.05%, 具有绝对优势。 紧随其后的金融、 医疗、学术科研等场景组成了第二梯队, 第三梯队则包含了社服务、 电商、体育、零售和广告媒体等应用场景。图 1-10 Kagg

43、le 数据竞赛主办方办赛目标分布和赛题技术类型分布扫描上方二维码了解更多赛事详情28.49%58.14%11.36%1.74%23.26%20.93%47.09%8.72%数据竞赛,数字化创新的新模式 19应用在房地产领域的赛题数量只有 2 个,分别是房地产估价平台Zillow 发起的房产价值估算模型算法竞赛,以及德勤发起的西澳大利亚房屋租金预测模型算法竞赛,其中 Zillow 凭借 120 万美元的高额奖金激励将房地产行业赛题的平均奖金拉升至 65 万美元,遥遥领先于其它行业。紧随其后的社会服务和医疗行业也在奖金数额上有不小投入。举例来说,美国交通运输安全管理局隶属于国土安全局,主要负责机场

44、安检工作,该机构直接将面用公众的数据竞赛作为支撑其安检设备采购决策的重要依据,要求参赛选手开发出能够精准识别行李内危险物品的算法,并计划将优秀的成果集成进安检仪器以数据来源:和鲸科技()经调研统计得出。引用请注明出处。提高安检准备性和效率。这场竞赛中,主办方投入了高达 150 万美元的奖金,成为 Kaggle 竞赛奖金之最。此外,由博思艾伦咨询公司发起的 Data Science Bowl 品牌赛事主要聚焦于医疗领域,每届赛事都会吸引全球范围内各类机构组织在奖金、数据等不同方面的协力赞助,如亚马逊、英伟达等知名企业,以及美国放射学会、国家癌症研究所等科研组织。凭借丰厚的奖金和盛大的规模,Dat

45、a Science Bowl 已成为 Kaggle 平台上最具影响力的年度性盛事,并在全社会的积极参与下诞生了大量创新成果。图 1-11 Kaggle 数据竞赛赛题场景分布20 数据竞赛,数字化创新的新模式数据来源:和鲸科技()经调研统计得出。引用请注明出处。在发展初期,Kaggle 聚集了一大批数据科学人才,形成了讨论氛围浓厚的数据集、代码与技术分享社区,并在此基础上开始逐渐发展数据竞赛服务。围绕着数据科学,Kaggle 做出了诸多努力和尝试,平台功能也日益完善,目前包含竞赛、数据集、开发工具表 1-8 Kaggle 平台上奖金投入前 10 位的竞赛三个子平台,配套论坛和招聘服务两大模块,逐

46、渐发展成为连接数据科学人才和数据科学应用场景双方共同致力于数据科学创新探索的工具性平台。数据竞赛,数字化创新的新模式 21Kaggle Days在 Kaggle 的影响下,国外市场开始出现一批深耕不同细分领域的竞赛平台,如重点关注生命科学领域的 InnoCentive 和主攻公共服务领域的 DrivenData,此外,还有诸如 CodaLab 等平台支持数据科学家自主发起赛事。尽管中国市场起步较晚,但越来越多的企业、高校、科研机构和政务部门开始意识到数据竞赛是进行品牌宣传、人才选拔、算法创新的一种高效形式,因此投身数据竞赛的姿态愈发积极。在此背景下,中国市场也顺势崛起了一批数据竞赛平台,凭借在

47、资源整合、场景挖掘、工具开发、成果封装等方面的专业服务能力和经验推动着中国数据竞赛的专业化发展,并开始探索区别于Kaggle 的差异化发展道路。数据来源:和鲸科技()经调研统计得出。引用请注明出处。此外,以百度、京东、华为、腾讯和爱奇艺为代表的一批企业从2017 年开始逐渐意识到数据科学对于其运营发展的重要性,依托其雄厚的技术先发优势走上了自营数据竞赛的探索道路,意图借此加强对数据的有效利用,从而优化企业运营流程、探索商业创新方向、实现人才的可持续发展,“业务驱动 + 数据创新”是企业自营数据竞赛的核心驱动力,企业自营赛题往往紧密贴合其自身行业特色和实际业务需求。表 1-9 中国市场主流的第三

48、方数据竞赛平台概览22 数据竞赛,数字化创新的新模式12345四、数据竞赛外生环境趋势1. 商业数字化趋势渐强,有赖技术创新落地根据麦肯锡全球研究院发布的 MGI 行业数字化指数报告,在产业数字化动态发展的过程中,完备的数字资产积累、充分的资本投入与研发、可持续的人才连接与协同推进了产业数字化程度的不断加深,进而带来了较高的平均利润增长率以及劳动增长率。而数据竞赛在中国市场的崛起并非是对国外先进模式的亦步亦趋,而是在技术落地应用需求增长、云计算基础不断成熟、宏观政策支持、投资机构助推、媒体宣传引导、专业人才涌现等因素共力作用的必然结果。较为主动采用数字化战略的企业也能在后续发展中与竞争对手拉开

49、差距。建立基于数据价值流动的生态系统,充分利用生态内不断升级的人才资源和技术资源赋能商业发展,已成为越来越多商业领袖的共识。数据来源:麦肯锡全球研究院图 1-12 中国 MGI 行业数字化指数数据竞赛,数字化创新的新模式 232.AI 上升为国家战略,推动数据赋能实体经济2015 年,中国积极响应“工业互联网”和“工业 4.0”的概念,提出了 “中国制造2025的口号, 旨在加快人工智能核心技术突破,促进人工智能在多领域的推广应用,抓住技术变革带来的全新经济范式为传统产业赋能的重大机遇,获得新的经济增长点。同年,国务院发布促进大数据发展行动纲要,明确要求推动大数据的发展和应用,开启大众创业、万

50、众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。2017 年 7 月,国务院印发新一代人工智能发展规划的通知,人工智能正式上升至国家战略层面,此后各类关于加快推进数据应用的政策相继出台。可以看到,在国家宏观政策的大力推进和坚实支持下,大数据、云计算以及人工智技术的不断迭代和成熟正在催生日渐规模化、网络化和生态化的内生驱动的生态经济体,其基础都在于借助算法和算力实现对数据价值的洞察。三个发展阶段的部分宏观政策24 数据竞赛,数字化创新的新模式234-2034523452014 年提出的“大众创业,万众创新”

51、在 2018 年 9 月迎来了升级政策对于科技创新的全面支持。国务院关于推动创新创业高质量发展打造“双创”升级版的意见倡导产学研用更加协同,科技创新与传统产业的转型升级结合更加紧密,形成多层次科技创新和产业发展主体,支撑战略性新兴产业加快发展。同时,呼吁继续扎实开展各类创新创业赛事活动,对各类赛事活动中涌现的优秀成果加强后续跟踪支持。通过数据竞赛进行创新探索,促进科技成果的落地和价值转化提供了政策背书。3. 云计算技术日益成熟,提供基础设施保障伴随着数据量的不断扩大和商用场景需求的持续膨胀,具有虚拟化、分布式、高可靠的延拓性、按需服务的经济性、以及网络安全性等五大特征的云计算已成为当下技术经济

52、范式发展的重要基础设施。正如下图所示,在经历了长期的发展和积淀后,云计算已步入了技术相对成熟的阶段, 其作为IT基础架构的投入规模将继续扩大。根据中国信通院发布的数据,2017 年我国云计算规模为 691.6 亿元,同比增速达到了 34.32%,预计未来三年将保持平均 28% 的增速。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 1-13 云计算发展成熟度 数据竞赛,数字化创新的新模式 25鼓励在数据竞赛这一创新模式中率先应用前沿云计算技术是大势所趋,以 AWS、微软、阿里云为代表的云计算基础设施不断成熟,为数据竞赛的跨地域规模性举办提供了坚实基础。此外,和鲸针对未提供统一算力的竞

53、赛进行的调研成果显示,74% 的已报名参赛选手表示,如果主办方能够提供足够、适量的计算资源,将能充分保证竞赛的公平性,同时显著提升参赛体验和创新效率。在这样的背景下,云计算基础设施与数据竞赛的结合更加紧密,云端竞赛环境的必要性和价值也将在之后的章节进一步加以详细阐述。“中国高校计算机大赛大数据挑战赛”作为学界规模最为盛大的数据竞赛之一,2018、2019 年的参赛规模分别达到了近3000 人、5000 人的级别。正是在 AWS 和腾讯云充裕的算力储备与强大调度能力的支持下,这场大规模的数据赛事得以承载数千参赛选手并发的计算任务。4. 青睐背后充满审慎,资本看重 AI 落地价值中国资本市场的重大

54、投融资事件自 1994 年以来呈现指数级增长的态势,以数据、算法和算力为基础的人工智能作为全新技术范式无疑是近年来最受资本市场青睐的宠儿。00500600700数据来源:和鲸科技()经调研统计得出。引用请注明出处。但青睐背后并非狂热,通过更加深入的分析发现,2014-2019 年中国资本市场与人工智能相关的的投融资事件相较其它领域领先优势突出,以数据治理、场景赋能、技术创新为三大核心标签。并且,自 2016 年以来,资本市场对人工智能的发展信心中更多了一份审慎,投资增势渐缓。由此可见,资本始终将先进技术的实际落地应用价值和对业务的赋能效果作为核心关注点,任何人工智能细分赛

55、道,最终布局都必将落实到在各行各业场景中的实际应用,挖掘出能够验证技术赋能价值的落地场景才能在资本市场获得持续的信任。图 1-14 1994-2019 年与 AI 相关的投资事件趋势图26 数据竞赛,数字化创新的新模式数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 1-15 1994-2019 年 与 AI 相关的初创期企业投资事件分布图图 1-16 1994-2019 年 与 AI 相关的成熟期企业投资事件分布图0200400600800002200240026002800300032

56、0058267564898522606878757962624060800026028030032034030322645403852数据竞赛,数字化创新的新模式 27头部投资机构在人工智能相关领域的投资动作也印证了上述观点 :2014 年,市场对 AI 技术的落地应用模式尚在摸索中,头部投资机构与 AI 相关投资场景较为宽泛。而到

57、2019 年,初创企业探索AI 技术商业化应用场景日趋清晰,成熟企业内的传统场景也因应用 AI 技术实现了运营效率的大幅提升甚至商业模式的颠覆性变革,头部投资机构对 AI 的关注呈现出细分化趋势明显,而这背后即是技术落地应用价值的日益明朗化。投资布局的背后是价值发展的内生逻辑,从资本动作不难看出,AI 技术是热潮,但其实际应用才是产业转型升级的推动力,落地场景已成为大势所趋。数据竞赛是敏捷的、经济的创新探索实验,在发现场景的同时,亦通过竞争机制对技术在各场景下的应用实效进行了快速验证。同时,作为技术落地应用的上游环节,数据治理的重要性也在数据竞赛中得到了充分体现。通过竞赛向赛事主办方传达数据治

58、理的科学方式,也为数据为基础资产的技术创新应用奠定了更良好的基础。5. 媒体普及大众化认知,竞赛收获正面舆评网络媒体是信息化时代人们获取信息的重要来源。21 世纪以来,伴随着移动互联网的不断发展,大量深耕垂直细分领域的创新媒体横空出世,其中自然不乏以科技为第一源动力的科技类媒体。从最初面向个人消费群体到面向产业的内容升级,科技类媒体始终致力于将艰涩的科技问题以通俗大众的方式进行传播,担负着重要的市场教育之责。正是在媒体孜孜不倦的传播中,社会大众对于人工智能和数据科学的关注度、接受度、讨论度不断上升。作为科技类媒体代表的虎嗅网、36 氪、亿欧网、钛媒体和极客公园均对数据竞赛有过深度的报道和探讨,

59、启发业界对其价值有了更广泛和更深入的思考。网络媒体也是舆情产生和传播的主要场所。通过对某关键词的网络舆情进行情感分类分析能够在一定程度上反映大众对于数据科学的认知程度和评价态度。通过分析 2014-2019 年有关数据竞赛的网络舆情数据发现:数据竞赛相关舆情主要集中在“数据与算法”、“企业应用领域”、“行业深度解决能力”、“专业平台”等几个关键词,主要流通渠道为移动端(占比达 54.57%)和网页端(占比达 39.60%),大众对数据竞赛整体呈现较为正面的情感倾向,正面情感内容占比高达 99.04%,由此亦可见大众对于数据竞赛价值的期许。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图

60、 1-17 “数据竞赛”舆情数据分析:情感倾向、相关主题词、传播渠道数据工程产业科学机器学习全球问题平台算法企业行业能力深度科技专业技术领域中国人工智能智能正面中性负面网页微博微信客户端论坛报刊28 数据竞赛,数字化创新的新模式数据工程产业科学机器学习全球问题平台算法企业行业能力深度科技专业技术领域中国人工智能智能27.07%26.89%0.61%39.60%0.52%5.31%0.09%0.87%99.04%19896. 教育投入与日俱增,数据人才能力跃升高校是学科研究和人才培育重要机构,自 2015 年以来,全国各省市地方高校积极开设数据科学与大数据技术专业。截至 2

61、019年 3 月 25 日,全国 34 个省级行政区中有 29 个省级行政区的481 所(截至 2019 年 6 月 15 日,全国普通高等本科学校总数为1265 所)院校成功新增备案数据科学与大数据技术专业,其中有个别院校开设了两个不同学位的数据科学与大数据技术专业。黑龙江辽宁吉林内蒙古宁夏甘肃陕西山西河南河北北京天津山东江苏上海浙江安徽四川重庆贵州广西云南广东海南福建江西湖南湖北新疆河南省山东省广东省湖北省安徽省江苏省北京市福建省河北省陕西省浙江省江西省吉林省重庆市云南省贵州省山西省广西壮族自治区四川省上海市内蒙古自治区黑龙江省辽宁省湖南省甘肃省天津市海南省新疆维吾尔自治区宁夏回族自治区0

62、554033578483242425252636四批次总数2018年第四批2017年第三批2016年第二批2015年第一批数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 1-18 历年行政区数据科学与大数据技术专业新增学校备案个数数据竞赛,数字化创新的新模式 29与此同时,考虑到前沿技术与商业场景之间存在的认知偏差阻碍了数据科学价值的释放,教育部近年来积极推动交叉学科的建设和复合型人才的培养,要求“创新学科组织模式,打破传统学科之间的壁垒, 加强学科协同交叉融合, 构建协同共生的学科体系” 。而在

63、数字化趋势下,日益完善的社会教育体系和不断催生的复合工作能力要求,继高等教育之后也催化了大批数据科学人才的诞生。数据竞赛日渐成为人才成长过程中进行理论实践和能力锻炼的重要选择。另外一方面,根据剑桥大学发布的 2019 年 AI 全景报告,中国和美国的人工智能生态已经相对较为成熟,国家数据科学人才的流失率处于相对较低的水平且人才的增长率处于相对较为稳定的水平。来源:剑桥大学发布的 2019 年 AI 全景报告更加喜人的是,中国在人工智能研究领域已悄然开始对美国的反超,自 2014 年以来,中国在深度学习领域发表的论文数量开始领跑全球,这一趋势一直维持至今。同时,根据 LinkedIn 发布的全球

64、 AI 领域人才报告,较之美国,中国 AI 人才拥有高学历及海外留学背景的人数占比更高,从侧面反应出数据竞赛的目标参赛人群整体供给质量较高,从供给层面为数据竞赛的价值保障奠定了良好基础。来源:麻省理工科技评论图 1-19 主要国家 AI 人才的发展流动情况图 1-20 2012-2016 年各主要国家在深度学习领域发表的论文数量00500600200132012ChinaU.S.EnglandAustraliaCanadaJapanGermany30 数据竞赛,数字化创新的新模式-2-1.5-1-0.500.511.52ItalyJapanUnite

65、d StatesSouth KoreaTaiwanChinaIndiaGermanyFranceSpainAustraliaSwedenSwitzerlandUnited KingdomSingaporeNetherlandsCanadaIsraelTalent staysTalent leavesInvites less talentInvites more talentInvites less talentInvites more talent,China来源:LinkedIn 全球人才大数据数据科学人才是数据驱动下技术创新和落地的抓手,数据竞赛因其面向不同人群的开放性和赛题内容及技术类型

66、的丰富性,成为了人才成长过程中重要的实践锻炼场景,提升了培养效率,而人才的不断涌现又为数据竞赛的规模化开展奠定了参与基础。通过和鲸调研发现,53.6% 的数据竞赛参与者具备硕士及以上学历。数据竞赛和专业人才之间互相促进、彼此成就,为数据驱动的技术创新落地和产业转型升级提供了充沛的生产力。图 1-21 中美 AI 领域专业人才最高学历分布 MBA37.9%43.3%35.7%6.2%11.2%12.6%9.6%43.5%数据竞赛,数字化创新的新模式 31第二章数据竞赛,数据智能落地的练兵场一、竞赛驱动的数据科学创新二、对竞赛的理性评价与思考三、选手眼中的竞赛价值四、竞赛对四大办赛主体的赋能实效图

67、 2-1 不同发展周期的前沿技术在各行业场景中的应用分布数据来源:和鲸科技()制作。引用请注明出处。一、竞赛驱动的数据科学创新数据竞赛,数据智能落地的练兵场 33GPU伴随着技术水平的日趋成熟,越来越多的行业开始尝试融入信息技术,技术落地也成为数字化创新的首要目标。组织机构希望加入数字化转型的趋势性浪潮,然而,数字化却面临着诸如抗拒改变的文化氛围、 有限的分享和协作、 业务尚未准备就绪、 人才短缺、现有实践不适宜进行数字化、以及成本投入巨大等多方面的挑战。对绝大多数组织机构而言, 推进数据科学项目耗时漫长、 所费不赀。从集思广益提出创意,到通过审慎评估形成切实可行的方案,继而投入大量尖端人力进

68、行算法开发,成果新鲜出炉后投入现实场景加以应用验证,再到确定其效果与回报后推行全面部署每一个环节都会牵涉到大量资源的协调投放与各方利益诉求的平衡,更少不了富有预瞻性的战略判断、科学专业的运营管理、以及发现误差后能够进行敏捷的优化调整。在这个具有强烈不确定性的过程中,至少需要配置项目负责人、业务负责人、技术负责人、研发人员四种角色,且最终的产出成果依赖于四种角色的高度专业、丰富经验和相互配合,但凡有一环出现迟滞或脱节,都有可能导致重大损失,或在瞬息万变的数字化时代丧失创新发展的先机。1. 数字化转型成本提升,暗藏众多风险数字化创新需要不同的技能、工作实践、组织模式甚至是文化。要让一个为结构化的、

69、有序的、面向流程而设计的组织,变成为生态系统、适应、学习和实验设计的组织,是非常困难的。 Gartner 研究副总裁 Marcus Blosch34 数据竞赛,数据智能落地的练兵场2. 竞赛低耗高效可持续,创新探索敏捷化各类组织机构不懈探索更简单、更便捷的数字化战略,根据Gartner 在 2017 年发布的数字化战略调研报告,在众多数字化创新手段中,数据竞赛依然具有相对较高的成功率。因为在确保有 性价比:数据竞赛创造了化繁为简的环境条件,在更加紧凑的周期内,能够直接感受推动数据科学创新和技术落地的步骤与方法。无论是自行成立数字化研发中心,还是与产业同行进行战略合作,往往首先需要在 IT 基础

70、设施上有巨大投入,而在竞赛环境里,赛事主办方往往只需要承担一个业务负责人的角色,与竞赛运营平台沟通其创新诉求,配合轻量级的付出即能够获得赛事运营团队和数据科学研发人员的专业服务与支持。 敏捷性:传统的数据科学项目受限于团队人数和团队精力,信息反馈也往往需要较长的周期。而数据竞赛由于其特殊的赛马机制,模型迭代的速度和对于数据的利用效率往往远高于常规的数据科学项目。作为缺乏前车之鉴的创新之举,推进数据科学项目总少不了反复的试验和排错,传统方式下的每一次试验往往因投入巨大可能导致决策者投鼠忌器。但籍由数据竞赛以更经济的投入换取更快速的反馈,便为多轮连续验证创造了空间,实现了敏捷的创新。100% 的信

71、心推动数据科学项目成功着陆之前,数据竞赛在性价比、敏捷性和持续性等方面表现突出,不仅有利于低成本的发展策略试验和排错,亦能充分积累数据科学实战经验。数字化创新方法投入对比数据竞赛,数据智能落地的练兵场 35图 2-2 不同数字化创新方式的成本、耗时和成功率对比 持续性:以数据竞赛为契机,加强企业、高校和科研机构、政务部门之间广泛深入的合作,促进多方资源的整合与联通,既是促进产教融合的数据科学人才培养模式变革的创新之举,也为产研协同打通了渠道、树立了标杆,为可持续的技术创新应用探索提供了基础设施平台,市场价值必将迎来指数型增长。数据来源:和鲸科技()制作。引用请注明出处。36 数据竞赛,数据智能

72、落地的练兵场数据竞赛连接起的每一项要素都在数字化创新中扮演着不可或缺的重要角色:云计算资源和数据科学协同开发工具是基础设施,人才和 AI 技术是生产力,数据是基础生产资料,环环相扣的创新效果通过以赛题承载的应用场景得以直观呈现。以数据竞赛为中轴,汇聚起更多的人才、组织起更频繁的跨学科领域交流、涉足更广泛的技术面,积累更全面更优质的数据,从而带来更加敏捷高效的创新探索和性能突出的创新成果。与收益不断高企相伴的是成本的逐步下跌: 由竞赛催动的规模经济促使基础设施的研发成本不断摊薄; 通过竞赛培养和积累的核心能力也让获取数据科学研发经验和制定竞赛制度与标准的边际成本不断减少; 规模日益巨大的数据科学

73、人才在向竞赛输入其专业能力和创造力的同时,也在获取持续的实践训练和成长,人才聚集和培养成本得以压缩; 社区为交流互动提供了发声地,工具为团队合作提供了功能保障,协作不再成为难点。 创新的巨轮一旦转起,就会越来越快,最终开拓出更多有效果有价值的应用场景,实现令数字化价值指数级增长的飞轮效应。兼具性价比、敏捷性、持续性的数据竞赛带来数字化价值指数级增长的飞轮效应数据竞赛,数据智能落地的练兵场 37从数据竞赛诞生伊始,就伴随着不绝于耳的负面声音,争议在于数据竞赛的优胜方案落地应用能力有限数据竞赛的关注重点在于算法的掌握,而实际工作则更重视业务场景和业务目标的解读,二者之间存在着断层。具体表现主要包括

74、: 数据竞赛环境中的数据往往经过了精细处理,甚至特征简化,相较于真实环境中种类更多样、结构更复杂、甚至充满缺失和不 足的数据,挖掘和分析的难度会下降不少,因此最终比赛成果的排名表现也并不能真正反映选手运用数据的实际能力。 在实际应用环境中,除了算法模型的精度,还要综合考虑资源消耗、延迟、可重复性等方面的因素,在数据竞赛中为了追求分数表现,消耗大量资源的复杂模型,在实际应用时往往无法满足综合性要求。 大多数实际环境中,数据是不断更新变化的,数据竞赛往往是静态数据集,竞赛中评分优越的模型应用在真实场景中,可能无法产生良好的效果。 真实场景中,需要先利用业务经验与背景知识来定义问题,进而寻求解决问题

75、的办法,而数据竞赛是将问题进行预先的定义和边界的明确。 数据竞赛的排名机制也为作弊制造了可乘之机。这一系列质疑绝非空穴来风,但更有意义的是深刻剖视其背后的原因: 过度期待数据竞赛的成果价值数据竞赛史上产生了不少达到工业应用级别或处于学术研究前沿的优质成果,这使得一些企业开始寄希望于,通过赛事找到能够直接落地应用的算法或产品方案。数据竞赛与实际应用场景存在着巨大的差异,通过竞赛收获可直接投入工业级应用的算法模型、产品方案是可遇不可求的。企业需要调整预期,通过竞赛对数字化创新的落地效果进行探索试错。 过于局限数据竞赛的价值与过度期待数据竞赛的价值相反,部分企业与机构对于数据竞赛价值的认知仅局限于品

76、牌宣传、人才触达等方面,而忽视了在竞赛环境中能够对数据科学研发进行低成本、多轮次的实验和演练的作用,致使数据竞赛的核心价值被掩埋。 在充分理解了致使数据竞赛遭受质疑的原因后我们需要意识到:数字化创新之路道阻且长,任何方法都是探索基础上的经验积累、步步为营,难以一蹴而就。各方参与者应正视各类数字化创新手段在其价值周期下的作用,合理利用内外部资源,以更加审慎、坚定的态度持续稳定地推进数字化进程。 二、对竞赛的理性评价与思考38 数据竞赛,数据智能落地的练兵场三、选手眼中的竞赛价值图 2-3 调研对象对于各项数据竞赛收获诉求的重要性评价数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据竞赛的

77、重要意义和丰富价值得到了参赛选手们的印证,激励着越来越多的专业人才投身数据竞赛贡献价值。在通过面向逾千名数据科学人才的调研中发现,参赛选手们的动机并不仅仅局限在奖金,而有更多结合实际场景来进行学习锻炼的期望; 实战经验:“加强相关技术在具体行业场景下的应用经验”基本成为了共识的获益点,89.5% 的调研对象对此评价极其重要或比较重要; 交流学习:大家也普遍认可借由具体的赛题和充满交流氛围的竞争环境,技术能力能够得到极大程度的锻炼; 能力证明:在数据竞赛中取得的成绩也日益成为证明个人能力的权威背书,对促进就业、拓展人脉颇有裨益。数据竞赛,数据智能落地的练兵场 3905000

78、2500根据在数据竞赛中的排名表现,调研对象被划分了黄金玩家、白银玩家和青铜玩家三大类。大家对数据竞赛的诉求在呈现出一定程度上的一致性之外,也在某些具体内容上有细微的差异: 黄金玩家依然把赛事奖金列为最大诉求,也远比其他人更加倚重通过竞赛拓展人脉和加强交流学习; 相对入门的青铜玩家则更加看重能通过竞赛接触数据和获取工作机会。图 2-4 不同水平调研对象对于各项数据竞赛收获诉求的重要性评价数据来源:和鲸科技()经调研统计得出。引用请注明出处。40 数据竞赛,数据智能落地的练兵场数据竞赛帮助银联在高校内树立起了重视数据人才的雇主品牌形象,让高校学生能够看到,在融合技术向云端迁移的趋势下,传统的金融

79、行业也有大量技术发展的需求和大有可为的成长空间。同时,通过出具符合企业真实情况的赛题,银联也看到了高校先进的技术思路会怎样应用在实际业务的解决中。 中国银联 杨丽雯案例特写:中国银联高校极客挑战赛赛题要求充分锻炼选手的实战能力赛事主办方:中国银联 伴随着前沿技术的不断成熟和云端迁移的趋势,处于银行卡业务核心枢纽地位的中国银联希望通过打造常规性的、延续性的、品牌性的数据竞赛促进内外协同创新,持续引领金融领域的技术前沿,树立数据驱动的创新标杆。因此,在企业内部连续三年举办数据竞赛的丰富经验的基础上,中国银联于 2019 年 6-9 月面向公众举办了首届高校极客挑战赛。在大数据的支撑下,往往更容易训

80、练出表现优良的算法模型。但在真实的商业环境中,新生业务在发展初期,小数据量的挖掘应用更能够体现数据科学人才的综合素质。中国银联高校极客挑战赛数据建模赛道,模拟了新业务在数据量积累不足的条件下,考察选手在业务冷启动时,对于小数据量的适应和调整能力。要求参赛选手基于脱敏和采样后的约40,000 条用户消费行为数据,预测在未来的一段时间内用户购买和收藏某产品的概率。在参赛选手看来,广泛存在于各行业场景的小样本数据具有很强的现实意义,能够锻炼真实环境的数据处理和分析能力。在这种情况下,需要结合对业务的深刻洞察来详细分析数据,同时,越小的数据越要用实用性更强的简单模型来处理,一味采用复杂模型堆叠性能可能

81、适得其反。这也就赋予了数据竞赛帮助参赛选手累积行业应用经验的重要价值。数据竞赛,数据智能落地的练兵场 41即使是数据积累与治理程度较为超前的电信运营商,实际情况也是大量数据仍处于沉睡状态。上海电信 互联网部产品技术研发中心副经理 葛正荣四、竞赛对四大办赛主体的赋能实效通过分析数据科学参赛者对于自己所在行业的评价反馈发现,除了部分以云计算为生存必要条件的人工智能、大数据、互联网、通信、电子商务、IT 等行业外,绝大部分行业并没有积极地运用云资源。而就数据应用情况来看,即使是技术发展水平处于前沿的人工智能、大数据行业,其对数据价值的挖掘程度也较为一般,互联网、通 信、电子商务、IT 等行业的数据应

82、用甚至处于较低的水平,而在传统领域,仅金融、医疗行业的数据应用相对靠前。可以说,绝大多数产业数据仍处于沉睡状态。图 2-5 调研对象对于其所在行业上云情况的评价图 2-6 调研对象对于其所在行业数据应用情况的评价数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据来源:和鲸科技()经调研统计得出。引用请注明出处。42 数据竞赛,数据智能落地的练兵场应对这些消极的现象也正是数据竞赛的首要价值所在。伴随着云计算技术的日趋成熟,越来越多的数据竞赛开始向云端迁移。以云计算为基础设施的数据竞赛,为数字化创新探明了更经济、更敏捷的路径:以人才为抓手, 验证 “算力+数据+算法+应用场景”的价值闭环,

83、加强对数据治理的优化和对数据创新的探索,从而宣传技术驱动的品牌形象,营造数字化文化氛围,引导建立全新的协作模式,积累数据科学研发的基本方法与经验。除了以上普遍性价值外,数据竞赛也可满足不同类型主体的差异化诉求: 企业技术落地场景的方向探索与可行性验证 高校以赛促学,拉近与产业应用的距离,加强学科建设和人才培养 科研机构产研融合,推动前沿技术的持续发展及与产业接轨 政务机构汇聚资源,建设“双创”支持下的技术驱动型创新生态图 2-7 数据竞赛主办方类型分布与历年变化趋势数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据竞赛,数据智能落地的练兵场 43各类赛事主办方的数字化创新需求与难点通过

84、数据竞赛得到了满足44 数据竞赛,数据智能落地的练兵场1. 引领企业进行技术落地场景的创新探索企业举办数据竞赛的核心诉求,是挖掘潜在的创新方向和应用场景。 通过数据竞赛的举办, 企业打造出了充分融合数据、 算法、 人才、算力等各项创新要素的标杆案例,以赛题要求切入,让创新探索过程更加具象、创新探索结果更加明确,为企业的数字化投入建立信心。同时,数据竞赛作为数据研发的缩影,也成为了企业积累数据科学能力的实验室。在贴近真实业务场景的竞赛环境下,为可复用的数据科学方法论指导赛事设计与运营,厘清数字化转型的目标与路径, 把握数据科学项目的生命周期, 更加有的放矢地制定策略。分析 2014 年至今国内的

85、 400 场数据竞赛发现,企业在所有数据竞赛主办方中占比高达 67%,金融、通信、文娱传媒、交通运输和电子商务是发起数据竞赛数量最多的五大行业领域,合计占比高达 75%。企业最为偏好结构化数据挖掘类赛题(47.4%),其次是计算机视觉(21.6%)。具体来看,金融行业赛事主办方的赛题场景相对发散,除金融关联领域外,亦涉及电子商务、交通出行、农林养殖业、新零售等“金融 +”场景。通信行业在 5G 技术的商用趋势与产业互联的影响下,还会关注安防、交通、旅游、人文、社会治理、及文娱传媒等“万物互联”和“智慧城市”等相关领域。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 2-8 企业类赛事

86、主办方的赛题场景分布和技术类型分布数据竞赛,数据智能落地的练兵场 45案例特写:利用新闻信息预测股票动态创新性挖掘常见数据的应用实效赛事主办方:Two Sigma 美国旧金山联邦储备银行选取美国主流媒体的财经新闻,通过文本分析搭建了情绪指数模型,在预测联邦基金利率、消费、就业、发展和工业产值等指数变化时,准确率高于目前被投资者广泛参考的密歇根大学消费者信心指数和大型企业联合会消费信心指数。越来越多的基金公司在意识到数字推测模型的局限性后,也开始考虑引入新闻、政策、社交网络中的丰富文本并运用自然语言处理技术分析,从非结构化的数据中探寻影响市场变动的线索。在此背景下,量化基金 Two Sigma

87、设立了 100,000 美元奖金池,举办数据竞赛探索新闻信息分析在证券投资领域的应用场景,要求参赛选手根据历史新闻数据来预测股票在未来 10 天内的涨跌趋势。最终近 3000 支团队参与竞赛,其中,冠军得主的算法模型测评分数达 1.00397。这场竞赛的测评方式类似于夏普指数,以指导参赛选手对其模型进行针对性优化。大于 1 的得分意味着在该模型指导下的投资收益回报增幅会超过同期风险增幅。这场数据竞赛通过开放式的创新环境集思广益的,收获了一批性能优良的算法成果,更在 AI 领域和金融界引起了热烈讨论,围绕着优质模型展开的学习交流源源不断。以敏捷高效的方式探索并验证了通过挖掘新闻内在价值洞察股市走

88、向趋势的创新方法。扫描上方二维码了解更多赛事详情案例特写:搜索广告转化预测赛题充分贴近多变的商业实景赛事主办方:阿里妈妈 阿里巴巴是中国最大的电子商务平台,为数亿用户提供了便捷优质的交易服务,也积累了海量的交易数据。作为一个复杂的生态系统,电商平台中的用户行为偏好、商品长尾分布、热点事件营销等因素给转化率预估带来了巨大挑战。比如,在双十一期间,商家和平台的促销活动会导致流量分布变化剧烈,在正常流量上训练的模型无法很好地匹配这些特殊流量。如何更好地利用海量的交易数据来高效准确地预测用户的购买意向,是人工智能和大数据在电子商务场景中需要继续解决的技术难题。因此,阿里集团旗下大数据平台天池举办了阿里

89、妈妈搜索广告转化预测竞赛,以阿里电商广告为研究对象,提供淘宝平台的海量真实交易数据,要求参赛选手结合淘宝平台的业务场景和不同的流量特点,通过 AI 技术构建预测模型预估用户在日常和特殊日期的购买意向。该赛题高度还原了真实的业务场景,利用“众智”模式输出大数据解决方案,进一步丰富了企业进行数字化营销的应用场景,面对日趋个性化和碎片化的用户行为,帮助广告主更好地解决了流量控制问题。同时,依靠阿里云计算资源,天池也帮助竞赛主办企业通过竞赛实现了“数据 + 云计算”的生态闭环建设,为改善云资源运用能力提供了经济便捷的锻炼机会。扫描上方二维码了解更多赛事详情表 2-1 数据竞赛对企业的价值总结数据竞赛的

90、亮点价值技术落地应用场景探索,挖掘潜力项目检验 AI 投入与建设效果,优化创新战略压缩试错成本,敏捷迭代创新思路和方向积累推动数据科学自研的核心能力建立跨学科背景人才的交流学习机制多元思维碰撞,保持与最新技术趋势的同步性将数字化建设成果与社会进行及时的分享树立起科技驱动、AI 持续投入的前沿形象打造 AI 技术和云计算资源的应用标杆案例加强数据资产的积累、治理与应用提升技术投入信心创新探索数据科学能力产研交流企业形象技术应用标杆46 数据竞赛,数据智能落地的练兵场数据来源:和鲸科技()经调研统计得出。引用请注明出处。2. 促进高校加强学科建设与人才培养在国家相关政策的鼓励和推动下,越来越多的高

91、校开始进行数据科学的学科建设和人才培养。高校学科建设需要持续的资金投入和资源配套,数据相关专业仍缺乏成熟的学科建设经验,学生则需要充足的优质数据、功能完备的工具平台和贴近实战的场景来进行实践这一系列问题都是困扰着高校的现实困难。数据竞赛作为高校推进大数据相关学科建设的重要手段,将教学、科研、实训深度结合,以赛题的形式发布,广泛吸引校内外的人才参与竞争和交流学习,探索将理论知识转化为实践应用,帮助人才在竞赛场景中以赛促学,帮助人才认识理论学习、基础知识的意义与重要性。在此背景下,高校围绕技术热点、学科建设以及创新应用三个方向进行赛题的策划,广泛涉及社会服务、工业制造、旅游、生物科技、网络安全和医

92、疗健康等多个行业,以加强学生的理论和技能在多元场景下的应用能力。图 2-9 高校类赛事主办方的赛题场景分布和技术类型分布数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据竞赛,数据智能落地的练兵场 47案例特写:中国高校计算机大赛大数据挑战赛产学融合的学科建设典范赛事主办方:全国高等学校计算机教育研究会 “中国高校计算机大赛”(China Collegiate Computing Contest,简称 C4)是由教育部高等学校计算机类专业教学指导委员会、教育部高等学校软件工程专业教学指导委员会、教育部高等学校大学计算机课程教学指导委员会和全国高等学校计算机教育研究会联合发起的,面向高校

93、学生的高水平计算机类系列竞赛。其中“大数据挑战赛”是以产学合作为主导,由清华大学联合企业承办,以企业真实场景和实际数据为基础,面向全球开放的高端算法竞赛。中国高校计算机大赛大数据挑战赛开启了校企合作和产研协同的一种成功模式,AWS、阿里、腾讯、快手、字节跳动先后作为赛事合作企业加盟。大赛鼓励学生探索大数据的核心科学与技术问题,尝试创新大数据技术,企业和学界优秀技术力量联合推进“数据赋能商业发展”的创新探索。扫描上方二维码了解更多赛事详情表 2-2 数据竞赛对高校的价值总结数据竞赛的亮点价值理论学习与演练实践相结合加强学生锻炼实效,检验人才培育效果优化教学和人才培养方式接触到更真实、更优质、更具

94、时效性的产业数据展示高校的学科资源和教学成果树立重视学科建设与人才培养的形象探索如何将理论知识转化为实践应用打造学科建设的标杆案例实践学习数据资源高校形象学科建设48 数据竞赛,数据智能落地的练兵场数据来源:和鲸科技()经调研统计得出。引用请注明出处。3. 推动科研机构加速产研融合与技术发展科研机构是技术研究与探索的引领者,也是数字化转型的推动者。基础研究、应用研究和开发研究是科研系统中三个紧密相连的重要环节,三者协调统一的发展才能够真正实现科研成果的价值转化。在人工智能领域,数据竞赛为这个过程的进化创造了条件,集中了数据、人才等必要的基础要素,提供了跨学科领域的交流环境。同时,前沿科研的实用

95、价值通过竞赛被释放、被感知,也就由此获得了持续的社会关注和资源支持。科研机构的赛题技术方向和应用场景富有前瞻性,集中于和自身行业背景属性相同的场景中,地质、水利、气象、传媒是较为常见的赛题场景。 基础研究:为技术发明创造理论前提的 应用研究:在理论基础上针对特定目标进行研究 开发研究:将基础研究和应用研究成果投入生产实践图 2-10 科研机构类赛事主办方的赛题场景分布和技术类型分布数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据竞赛,数据智能落地的练兵场 49案例特写:医疗大数据 Datathon产研协作树立医疗数据创新应用的标杆赛事主办方:中国医院协会医学工程专业委员会 /中国医疗

96、设备杂志社 2019 年第四届 PLAGH-MIT 医疗大数据 Datathon 于 11 月在北京召开。这一数据实践活动最初由麻省理工大学团队和哈佛医学院团队发起,由中国人民解放军总医院率先将该模式引入国内,旨在融合海量医疗数据物基础上,汇集医疗专家、数据科学家、统计分析师等不同知识背景和专攻技术领域的参与者,利用真实的医疗数据,通过组队协作以项目竞赛的形式解决临床医学面临的众多问题和未满足的医疗需求。通过跨学科合作竞赛的创新模式,Datathon 激活了海量医疗大数据的实用价值,成为数字化创新趋势下高效、敏捷、低耗的练兵场前期的训练营阶段集合了医疗、数据、计算机等不同学科背景的人士,组织进

97、行专业知识的互通交流和学习,快速打通专业壁垒;在正式竞赛阶段,不同背景的参与者通过优势互补的组队构成了数字化创新的基础组织单元,在竞赛环境中协作挖掘医疗数据的应用潜力、探索解答临床实践中遇到的问题,为如何开展医疗大数据研究提供了新思路。迄今为止,医疗大数据 Datathon 已在全球范围内持续组织了 40 余场,历年赛题方向广泛,涉及了影像报告的自动语意分析与信息提取、基于急诊大数据的急性高乳酸血症短期治疗效果预测评估模型构建的研究、以及消化道出血发病风险与气象条件之初步探究等丰富的内容,有效推动了医疗大数据的实践应用落地。扫描上方二维码了解更多赛事详情Datathon 为医疗研究提供了一个突

98、破时空、地域、文化和学科限制的创新协作平台,项目成果的开源共享和不同观点的激烈碰撞促进了数据和技术在临床医疗领域发了更广泛、更持续的创新价值。 科学转化医学期刊评论案例特写:“莱斯杯”全国第二届“军事智能机器阅读”挑战赛军事领域的前沿科研探索赛事主办方:中电莱斯信息系统有限公司 中电莱斯作为我国军事科研的重要力量通过数据竞赛积极探索 NLP(自然语言处理)的前沿发展,赛题内容将 NLP 技术应用于对真实中文文本段落的阅读理解,要求参赛选手训练的算法模型能够基于对多篇文章的内容定位和深度理解,为测试集中给定的问题找到最优答案。 数据竞赛将语料库数据、NLP 技术和人才加以串联,并提供了云计算资源

99、和协作开发工具等基础设施,以阅读理解与推理问答的竞赛成果为基础,创造性地探索了 AI 技术在军事场景的应用价值,将有望颠覆以往情报整编工作以人工分析提炼为主的模式,逐步实现由机器替代繁琐、重复性情报整编业务流程。作为中国在军事领域进行 AI 创新探索的标杆案例,该数据竞赛也将加强中电莱斯对于中文语料库建设的信心。扫描上方二维码了解更多赛事详情表 2-3 数据竞赛对科研机构的价值总结数据竞赛的亮点价值融合丰富的资源支持开辟创新的科研价值探索路径释放前沿科研的实用价值树立起前沿科研成果创新应用探索的标杆与工业界进行紧密合作促进了跨学科领域产研交流前沿科研进展科研标杆产研交流50 数据竞赛,数据智能

100、落地的练兵场数据来源:和鲸科技()经调研统计得出。引用请注明出处。4. 助力政府实践产业落地和建设数据创新生态在“大众创业、万众创新”的号召下,在政府资金、政策和转型决心的支持下,政务部门在大力倡导政务管理数据化、智能化的同时,也成为了有序开放优质公共数据资源、释放公共数据红利的引领者,为建设数据创新生态建设提供着政策支撑和资源支持。如何借助数据科学建设智慧城市,是政务机构面对的重要问题。政务部门的数据积累具有数量更大、来源更多、质量更好、纬度更广等特征,其应用领域遍布城市管理的方方面面。为了探索数据科学在城市管理中的应用可能性,政务机构较为偏好开放性的产品方案赛题。 具有明显的行业标签, 如

101、教育局、 交通局、 气象局等,赛题应用场景多与其自身行业标签一致;而没有明显行业标签的政务机构,如人民政府,其赛题场景则非常广泛。图 2-11 政务部门类赛事主办方的赛题场景分布和技术类型分布数据来源:和鲸科技()经调研统计得出。引用请注明出处。数据竞赛,数据智能落地的练兵场 51案例特写:首届“全国人工智能大赛”科创之城汇集创新资源赛事主办方:深圳市人民政府 首届“全国人工智能大赛”,由深圳市人民政府主办,深圳市科创委、鹏城实验室及科技部指导成立的新一代人工智能产业技术创新战略联盟(AITISA)共同承办,腾讯科技、创维集团、云天励飞、平安科技等协办。以“AI 赋能视界”为主题,包含“AI+

102、4K HDR”和“行人重识别”两道赛题,合计奖金总额达到了 536 万,是 2019 年度中国规格最高、奖金最高的数据竞赛。在人工智能技术革命与中国产业升级的宏观趋势下,深圳力图建设成为具有全球影响力的科创中心。汇集顶尖科研人才的鹏城实验室, 通过这场2019年最高规格的数据竞赛从理念、 模式、 效果全方位探索了AI产业化落地的新思路与新可能。扫描上方二维码了解更多赛事详情数据竞赛通过快速检验数据智能技术的落地应用效果,为数字化创新的运营模式带来了新的想象空间。然而,通过数据竞赛来实现数据能力的锻炼和积累,需要精细化、专业化的流程管理和赛事策划,使得竞赛切实扮演好数据科学研发练兵场的角色,在吸

103、引到大量优质人才的踊跃参与的同时,产出让人才与主办方双方满意的成果。数据竞赛需要具备哪些亮点来加强对人才的吸引?举办和管理一场数据竞赛时会遭遇哪些复杂难点?应该采取怎样的措施、流程和系统,来保障竞赛的质量和选手的体验?在 数据竞赛白皮书下篇 中, 和鲸将基于百余场竞赛的举办经验,在业内首度开源科学方法论和最佳实践,以期为数据竞赛驱动的数字化创新贡献力量。表 2-4 数据竞赛对政务部门的价值总结数据竞赛的亮点价值汇集创新资源,打造开放创新生态城市管理应用前沿技术,惠及民生发展分享数据红利提供政策支持赋能产业创新创新生态建设民生发展赋能产业52 数据竞赛,数据智能落地的练兵场数据来源:和鲸科技()

104、经调研统计得出。引用请注明出处。数据竞赛白皮书下篇办好一场竞赛的实操手册更多精彩内容请关注扫码关注“和鲸”公众号回复“数据竞赛白皮书”获取附录1 LinkedIn,全球 AI 领域人才报告,2017 年 7 月2 麦肯锡全球研究院,数字时代的中国:打造具有全球竞争力的新经济,2017 年 12 月3 阿里研究院,人工智能在电子商务行业的应用和对就业影响,2018 年 8 月4 清华大学,云计算和人工智能产业应用白皮书,2018 年 9 月5 麻省理工学院,麻省理工科技评论,2019 年 2 月6 普华永道,数字化工厂 2020:塑造制造业的新未来,2018 年 2 月7 WIPO,2019 人

105、工智能技术趋势展望,2019 年 3 月8 Gartner,Top 10 Strategic Technology Trends for 2019: AI-Driven Development,2019 年 3 月9 IEC,Artificial Intelligence across industries,2019 年 3 月10 亿欧智库,2019 年中国云计算行业发展研究报告,2019 年 3 月11 德勤,2019 技术趋势报告:超越数字化,2019 年 3 月12 腾讯云,产业互联网:构建智能 + 时代数字生态新图景,2019 年 3 月13 Gartner,China Summar

106、y Translation: Predicts 2019: Artificial Intelligence Core Technologies,2019 年 5 月14 剑桥大学,2019 年度 AI 全景报告,2019 年 6 月15 云计算开源产业联盟,2019 年云计算与边缘计算协同九大应用场景,2019 年 6 月16 阿里云,人工智能应用实践与趋势,2019 年 8 月17 腾讯研究院,汽车行业云战略及商业模式研究报告,2019 年 9 月18 埃森哲,2019 年埃森哲中国企业数字转型指数研究,2019 年 9 月19 德勤,中国创新生态发展报告 2019,2019 年 9 月20

107、 信通院,2019 全球数字经济新图景,2019 年 10 月参考文献附录 53大数据系统软件国家工程实验室简介大数据系统软件国家工程实验室以创新驱动发展和自主安全可控为使命,以国家“十三五”规划为指导,面向重点领域和重大工程需求,建设大数据系统软件技术创新研发、技术转化和应用示范平台,支撑大规模多源异构数据一体化管理、交互式异构数据分析框架、数据可视化与智能数据工程、领域大数据应用开发运行环境、大数据混源软件可信验证等技术的研发和工程化。实验室将打造产学研用一体化的体系,研发一系列国际先进、国内领先的大数据系统软件核心技术与产品,突破创新驱动产业转型升级以及关键领域自主可控中的技术瓶颈,探索

108、大数据系统软件应用实施的工程方法,建设国际一流、开放协同的产学研用大数据系统软件技术创新团队。与公安部一所、沈阳消防研究所、国家气象中心、环保部信息中心、北京工业大数据创新中心、中国农科院等重点应用单位建立合作关系,支撑政府治理、公共服务、工业和新兴产业、现代农业等国家重大战略方向的大数据应用,增强对国家重点工程的大数据应用的保障能力。工程实验室拟由清华大学为承担单位,北京理工大学为参与单位,联合国防科技大学、中山大学、北京百度网讯科技有限公司、腾讯云计算(北京)有限责任公司、北京大学、中国人民大学、阿里巴巴集团云计算有限公司等单位共同建设。清华大学是教育部直属重点综合性大学,建有清华信息科学

109、与技术国家实验室(筹)、企业信息化支撑软件国家工程技术研究中心等国家级创新平台, 在该领域拥有中国科学院与工程院院士8人, “千人计划”、“长江学者”、国家杰青等共 6 人。近 5 年,承担国家重点研发计划、国家核高基重大专项等科研项目 30 余项,曾获国家技术发明二等奖 1 项、国家科学技术进步二等奖 1 项,获得国家发明专利授权 25 项,编制标准 7 项。北京理工大学是工业和信息化部直属重点综合性大学,建有复杂系统智能控制与决策国家重点实验室,在该领域拥有中国科学院院士 1 人,国家杰青 1 人。鉴此,清华大学联合北京理工大学等基本具备了承担大数据系统软件国家工程实验室建设的能力。大数据

110、系统软件国家工程实验室上海品茶54 附录和鲸科技简介和鲸科技(运营主体为“上海和今信息科技有限公司”)2015 年创始于上海,是中国领先的“数据科学协同平台”供应商,以“connect people with data ”为使命,专注于挖掘商业数据和数据人才的价值。旗下拥有连接 30 万数据人才的第三方数据科学社区和鲸社区(即 K,原“科赛网”),具备国际领先水平的数据科学协同平台KesciLab(简称“K-Lab”)。 和鲸科技是爱分析评选的 2019“中国数据智能创新企业 50 强”,AWS 高级技术合作伙伴,同盾科技、Talkingdata、Udacity 战略合作伙伴,并获得了国内一线 A

111、I、数据领域投资机构 10fund 和线性资本的 PreA轮投资,晨兴资本的 A 轮投资。创始人范向伟入选由美国福布斯杂志发布的第三届“30 under 30” 科技榜单。 数据科学协同平台 K-LabK-Lab 是和鲸科技自研发的一款云原生“数据科学协同平台”产品,可满足数据科学家、人工智能工程师、商业分析师等数据工作者在线完成分类、建模、分析、可视化、结果输出等任务,其优秀的用户体验和产品口碑,赢得了包括了清华大学、南开大学、同济大学、中国医学科学院、中国电信、中国银联、中国电科等在内的国内顶尖机构的认可。和鲸 K-Lab 不仅实现了组织内部技术人员和业务人员的实时协同工作,更支撑了跨地域

112、、跨组织的协同场景,允许企业以更低的成本、更大的弹性、更强的安全性,调用组织外部的工程师、分析师和科学家。 数据科学社区 K和鲸社区,数据科学家的专业社区,在用户数、用户质量、活跃度方面均有出色表现。与中国联通、中国平安、招商银行、腾讯、百度、字节跳动、携程、IBM、华为、默克中国、南京市人民政府、深圳市人民政府、鹏城实验室等头部企业与机构合作,通过开放竞赛的机制和数据科学的手段,解决各个行业的业务难题。在 K-Lab的赋能下,和鲸社区成为了企业可按需调用的生产力和创新力。数据科学协同平台和鲸社区竞赛页面K-Lab 介绍页附录 55AWS 简介自 2006 年初起,亚马逊开始在云中为各种规模的

113、公司提供技术服务平台。利用 AWS 服务,软件开发人员可以轻松购买计算、存储、数据库和其他基于 Internet 的服务来支持其应用程序。开发人员能够灵活选择任何开发平台或编程环境,以便于其尝试解决问题。由于开发人员只需按使用量付费,无需前期资本支出,AWS 服务是向最终用户交付计算资源、保存的数据和其他应用程序的一种最经济划算的方式。56 附录本数据集是对白皮书中所采用相关数据的抽取,包含了 2014 年至今,中国竞赛市场的 400 道赛题与 Kaggle平台中的 172 道赛题。数据集来自于各大数据竞赛平台网站及数据竞赛官方页面,包含平台类型、比赛内容、应用行业、奖金池、客户行业等 11

114、个维度的字段,共覆盖 33 类应用场景、34 类主办方背景及六大类技术类型。本数据集随白皮书对外开放,我们鼓励对数据竞赛模式的进一步分析与分享。和鲸调研参与者画像附录 57扫描右侧二维码,获取本白皮书所采用的“数据竞赛数据集”独家云计算合作伙伴:AWS学术指导单位:大数据系统软件国家工程实验室独家数据科学媒体:deardata南京市人民政府深圳市人民政府深圳市科技创新委员会新一代人工智能产业技术创新战略联盟(AITISA)鹏城实验室中国人民解放军总医院(医疗大数据应用技术国家工程实验室、医学工程保障中心)中电莱斯信息系统有限公司中国银联合作伙伴与特别鸣谢58 附录重要声明本报告数据来源于和鲸科

115、技(运营主体为“上海和今信息科技有限公司”)的调研与搜集,所载观点、意见、推测仅反映发布报告当日的判断。报告中的内容和意见仅供参考,和鲸科技不对因使用本报告内容而引致的损失承担任何责任。本报告版权归和鲸科技所有,并对报告内容保留一切权利,未经书面许可,任何机构和个人不得以任何形式翻版、复制、发表或引用本报告的任何部分。如征得和鲸科技同意进行引用、发表的,需在允许的范围之内,并注明出处为“和鲸科技数据竞赛白皮书”,不得对本报告进行任何有悖原意的引用、删节和修改,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。 * 排名不分先后编委:编撰团队(* 排名不分先后,以拼音首字母排序)设计团队(* 排名不分先后,以拼音首字母排序)路士瑶曹帅刘宇杰雷林许彤朱羿霖行业领导团队范向伟邮箱:单清远邮箱:王建强邮箱:特别顾问刘强清华大学软件学院特别支持(* 排名不分先后,以拼音首字母排序)刘昊天刘雨亭邱月青附录 59

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(大数据系统软件国家实验室:2019数据竞赛白皮书·上篇·1000场竞赛的深度分析报告(60页).pdf)为本站 (奶茶不加糖) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部