上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

大数据系统软件国家实验室:2020数据竞赛白皮书·下篇·办好一场竞赛的实操手册(49页).pdf

编号:80928  PDF  DOCX 49页 3.45MB 下载积分:VIP专享
下载报告请您先登录!

大数据系统软件国家实验室:2020数据竞赛白皮书·下篇·办好一场竞赛的实操手册(49页).pdf

1、of数据科学协同平台序第三章 数据竞赛组织不易,需要克服专业壁垒一、对竞赛复杂性的调研结果1. 主办方对于专业性和项目效益的要求2. 参赛者对于严谨性和公平性的要求二、数据竞赛的运营复杂度详解1. 数据竞赛需要综合性的专业能力支撑2. 保障赛事相关方体验需要面面俱到第四章 组织好一场数据竞赛,重在能力建设一、优质数据竞赛的定义二、数据竞赛的最佳实践1. 数据科学项目管理,支撑赛事成果有效性2. 数据竞赛运营管理,保障双边赛事体验第五章 数据科学驱动的创新生态展望附录CONTENTS0304050506090973841数据竞赛白皮书聚焦三大核心看点,力图全景式呈现数据竞赛

2、驱动下的数字化创新生态。在白皮书上篇,将着眼于数据竞赛的发展历程与现状,对其核心价值展开深刻剖析;在白皮书下篇,数据竞赛的科学管理方法论和最佳实践将得到深度分享。高亮看点02数据竞赛,数字化创新的新模式关注数据竞赛白皮书上篇,看点一、二深度内容尽在掌握。数据竞赛白皮书上篇1000 场竞赛的深度分析看点一:1000+ 场数据竞赛,催生数据智能时代全球性政、企、学、研、资各界联动新常态 2014 年至今,全球范围内的各类数据竞赛总量已突破 1000 余场。其中,仅中国市场就已发布共计逾 400 场数据竞赛,年均增长率高达 108.8%。236 家企业、政务部门、高校和科研机构作为赛事主办方参与其中

3、;吸引约36万支团队、 120万人次参赛;奖金规模合计高达2.8亿元人民币,赛题覆盖 33 个行业应用场景; 1997 年,享誉全球的国际顶级学术会议 KDD 推出 KDDCup,开启了数据竞赛的新模式,20 余年以来的赛题设计始终带有鲜明的工业应用色彩。ICCV、NeurlPS、ISBI、EuroCSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等国际顶尖学术会议在全球化浪潮下也纷纷开始牵头组织数据竞赛。看点二:15 个案例特写,看懂数据竞赛为何成为数字化创新的有效手段 以赛题承载应用场景,在紧

4、凑的竞赛周期内高效整合数据、算法、算力、人才等要素,可敏捷验证各类 AI 在真实商业场景中的落地方向和实效; 85% 的数据人才高度认同竞赛对技术实践能力的培养作用,竞赛成为打破高校学科建设与人才培养瓶颈的有效手段; 竞赛推进前沿科研探索落地,通过跨学科协作促进 AI 在不同领域价值释放; 竞赛成为数字化创新要素和汇集产、学、研、政各界资源的枢纽,助力数据创新生态建设和产业落地。数据竞赛白皮书下篇办好一场竞赛的实操手册看点三:100+ 场专业赛事服务经验,一流竞赛平台开源数据竞赛管理方法论与业界最佳实践 面向千余名参赛选手的调研结果显示,奖金并非竞赛核心诉求,从专业性赛题、科学性评审,到协作工

5、具、精细运营,组织一场优质的数据竞赛颇有挑战; 竞赛的生命周期面临着来自参赛选手和主办方的双重考验,需要能够通过打造良好的参赛体验,激发数据科学人才的能动性和生产力,并通过专业的数据科学服务能力和运营流程充分满足数据竞赛的多元诉求; 保障赛事效率和质量,开创数据科学研发的新模式数据科学协作工具,成为开放式数据竞赛的重要的基础设施。数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期待。然而,从现阶段的发展来看,我们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未能如期落地。数据的力量究竟该如何激发?带着这样的疑惑,我们把视角对准了数据竞赛这一载体,

6、以期为行业提供启发。通过全面的调研、分析,我们得到了寻找创新路径和探索最佳实践的总结,形成这份数据竞赛白皮书分享给大家。全球数据竞赛市场已经历了 20 余年的探索,其发展起点可追溯至 1997 年由国际顶级学术会议KDD (ConferenceonKnowledgeDiscoveryandDataMining, 知识发现和数据挖掘会议)推出的 KDDCup。此后,一系列国际顶尖学术会议也陆续牵头组织数据竞赛。国际顶会数据竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创立于2010 年的 Kaggle

7、 作为目前全球最大的数据科学技术分享社区,更是为数据竞赛的平台化发展奠定了模式化基础,其合作伙伴除了 Google、Facebook、Airbnb、Yelp 等互联网时代诞生的独角兽,亦不乏 Walmart、Airbus、Genentech 等声名日久的传统行业领头羊。放眼中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研机构与高校, 亦有来自各行各业的领军企业。 身担城市管理与民生重任的政务机构也在 “大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型数据竞赛。数据竞赛绝不仅仅只是“主办方发布赛题、传播品牌美誉,参赛者参与开发、收

8、获丰厚奖金”的公关活动。对双方而言,数据竞赛已经成为了数字化转型的”云端实验室“。赛事主办方紧跟数据智能的发展趋势,通过挖掘数据价值的场景和树立“数据 + 算力 + 人才 + 算法”的价值闭环,积累数据科学研发的核心能力;参赛选手能够积累如何在真实业务场景中应用先进技术的实际经验,在与众多高手的交流切磋中不断成长。基于这一趋势,在大数据系统软件国家工程实验室的指导下,和鲸科技“H”携旗下中国领先的第三方数据竞赛平台 “和鲸社区(即K)” , 联合AWS, 共同发布 数据竞赛白皮书,分析全球市场数据竞赛发展趋势,提出对数据竞赛推动前沿技术落地的创新价值思考,并在业界开源优质数据竞赛运营方法论与最

9、佳实践。序第三章数据竞赛组织不易需要克服专业壁垒一、对竞赛复杂性的调研结果二、数据竞赛的运营复杂度详解一、对竞赛复杂性的调研结果调研发现,在多数的参赛选手心目中,数据竞赛的质量取决于三个要素:主办方的品牌知名度、赛事激励的丰厚程度、竞赛是否提供真实的数据。这些要素,也能够吸引优质参赛选手,促进产出更高水平的成果。但是,这三点仍不足以保障优质竞赛的完成。数据竞赛牵涉到1. 主办方对竞赛有高预期应用场景、数据、算力、算法和人才等方方面面的复杂要素,包含了数据科学研发过程中的主要环节,从赛前筹备到赛中运营,再到赛后跟进,从应用场景挖掘到配套数据处理,从计算环境搭建到算法应用,从参赛选手管理到成果测评

10、,每个环节都需要专业能力和精细运营的支撑。2018 Kinetics 视频行为分类比赛数据失误导致重大竞赛事故 2018 年,Kinetics 视频行为分类比赛遭遇了赛事组织的多次事故。起因在于赛事运营方发布的训练集数据中错误地混入了测试集数据。一周后,赛事运营方重新发布的数据集再度出现重大疏忽所有数据标签被泄漏,意味着能够验证模型效果的答案遭到提前揭示,选手无须花费精力训练可靠的模型。参赛选手向赛事运营方发送邮件反应数据集的问题,也未得到及时的回应和解决。赛事的公平性和参赛团队的积极性遭到了破坏,同时引起了舆论争议,赛事被迫延期。扫描上方二维码了解更多赛事详情不同的赛事主办方举办数据竞赛的初

11、衷各有侧重,其共同的诉求是赛事进程平稳顺畅、舆论评价正面积极、参赛选手能够准确理解赛题、参赛选手技术能力出色、赛事成果具有优越表现。这需要不同环节的专业服务能力紧密配合,促成赛事实现最好的效果。正是意识到赛事筹办和组织的复杂性,主办方存在多方面的顾虑,担心对于数据竞赛的投入无法获取预期回报,甚至损伤品牌形象。数据竞赛还是需要依赖专业的办赛平台,因为数据竞赛筹办区别于普通的活动组织,企业缺乏专业的的赛事运营人员和赛题设计人员。上海电信互联网部产品技术研发中心副经理葛正荣术业有专攻,优秀的企业更懂得互补 + 合作 = 共赢的价值。同盾除了不断锻造自身技术实力外,也积极推行在产学研领域的企业价值,创

12、办专业的赛事、选拔潜在的专业科技人才,这需要专业的赛事平台参与其中,从学术性与商业性相融合的赛题设计、到赛制中的数据质量与敏感把控,以及兼顾数据安全与赛题可解性,都需要更加专业的、垂直的竞赛平台来合作共建。同时,专业的竞赛平台拥有过硬的技术实力,可以勘验参赛选手的成果。在整个赛事的宣传节奏把控上,也能够创造出丰富的内容及足够触达到目标群体的有效渠道。同盾大学运营人员娜娜场景的挖掘、算法的应用与迭代、产学研的紧密融合,共同孵化出数字化创新的新模式数据竞赛。数据竞赛白皮书上篇集中展现了不同的组织机构,如何以数据竞赛为支点,探索数字化创新之路。运用科学的管理流程办好一场有价值的数据竞赛,是赛事主办方

13、和参与选手的共同诉求,正如第一届世界黑客大会的发起者KevinKelly 所说:“在过去 200 年里,我们最伟大的发明恰恰是科学流程自身”。过去五年间,全球 1000 余场数据竞赛经历着模式的迭代与流程的优化,有全新应用场景的不断开拓,又有前沿算法的持续升级。作为数据科学研发的演兵场,如何合理地制定赛题、管控赛事流程与机制、实现算法成果的应用是发挥数据竞赛价值的关键点。基于上篇内容,数据竞赛白皮书下篇致力于阐释数据竞赛价值落地的复杂要素,分享办好数据竞赛的方法。数据竞赛组织不易,需要克服专业壁垒05从参赛频率的维度来看: 竞赛新手:关心自己是否值得将精力投入到竞赛中,获得经验与成长,认为优质

14、的数据竞赛首先应该具备科学合理的赛题、数据和测评办法,竞赛页面的文字描述需要清晰、专业、合理。 竞赛常客:在赛题与数据相匹配的基准要求被满足后,则更关心完善的赛制、自动测评等功能点能够保障良好的参赛体验。 竞赛老手:奖金或工作机会等实质性激励是他们首要考虑因素,且激励也需要以合理、可解的赛题为基础;此外,他们也会倾向于投入精力加入前沿性难题的探索。图 3-1 不同参赛频率的调研对象判断数据竞赛是否优质的考虑因素排序数据来源:和鲸科技()经调研统计得出。引用请注明出处。16.015.014.013.012.011.010.09.08.07.06.05.04.03.02.01.016.013.01

15、2.015.010.09.014.08.04.05.02.011.03.01.07.06.011.014.01.013.07.05.015.012.03.07.010.08.09.06.02.04.02. 参赛者对竞赛有严要求选手的技术潜力的释放程度和技术能力的发挥水平,高度依赖于赛事全生命周期的技术支撑和运营管理。数据竞赛参赛者调研的结果显示:组织“优质的数据竞赛”需要兼备专业的技术储备和丰富的项目管理经验。06数据竞赛组织不易,需要克服专业壁垒数据竞赛组织不易,需要克服专业壁垒07图 3-2 不同参赛频率的调研对象认为影响数据竞赛质量最重要的因素数据来源:和鲸科技()经调研统计得出。引用请

16、注明出处。从参赛成绩的维度来看: 青铜玩家:除了要求题意表达通畅清晰外,希望公平的赛制和完善的测评功能能够保障竞赛的锻炼价值。 白银玩家:最关心赛题与数据匹配程度;进而关心有科学的测评算法合理评估选手的表现;而为了更有效率地展现实力,白银玩家也要求优质的数据竞赛配套功能全面、性能优越的算法开发工具和计算资源。 黄金玩家:对自己的能力充满自信,因此对于优质数据竞赛的定义简单直接:不浪费时间、不枉费付出,即赛题、数据、评审办法科学合理,且有敏捷完善的产品功能予以支撑,从而保证其精力最大程度投入解题本身;同时要有与自己的开发成果相般配的丰厚回报;水平一流的黄金玩家比起其他人也更愿意投身前沿课题的研发

17、。图 3-3 不同参赛成绩水平的调研对象判断数据竞赛是否优质的考虑因素排序数据来源:和鲸科技()经调研统计得出。引用请注明出处。16.015.014.013.012.011.010.09.08.07.06.05.04.03.02.01.016.014.012.011.06.03.013.015.08.01.04.02.010.07.09.05.012.014.02.07.06.013.016.015.011.05.09.010.01.08.04.03.0图 3-4 不同参赛成绩水平的调研对象认为影响数据竞赛质量最重要的因素数据来源:和鲸科技()经调研统计得出。引用请注明出处。可以看出,调研对象

18、虽然拥有不同程度的参赛经验和成绩表现,但对于数据竞赛从赛题、评审到工具、运营均拥有复杂而严苛的要求竞赛内容富有实际意义、竞赛服务专业周到。选手需求的复杂性和多元性,对于赛事的主办方和赛事平台,也提出了严格而专业的要求。08数据竞赛组织不易,需要克服专业壁垒优质的数据竞赛需要把控住赛事的全流程,每一环节的成果产出都将直接影响其它环节的工作,影响整场赛事的质量。这对赛事二、数据竞赛的运营复杂度详解1. 数据科学项目管理,支撑赛事成果有效性名热情上只稍逊于算法题,但最终成果的提交数量却远低于算法题。算法赛题需要对应用场景进行高度收敛,开放性方案题则不设边界,能让选手充分发挥创意,往往可收获意想不到的

19、、但实则可行的数据与技术在场景中的应用方案,从而可为技术进一步落地指明方向。也是由于边界发散,导致考核标准难以界定,成果表现从而也往往不够稳定。数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 3-5 开放性方案题与算法题的参与规模与提交数量对比00000004566821407组织运营者的业务解读能力、技术能力和沟通能力提出了持续的考验。a. 需求分析和赛题设计需求分析和赛题设计的首要任务是能够充分理解、拆解、定义竞赛主办方的真实诉求,使其可被数据竞赛承载和实现。赛事组织方需要对业务场景进行赛题边

20、界的确定,使得赛题方向与主办方的行业特征、业务特点、数据储备相匹配。面向大众广泛收集开放性方案的竞赛形式也很常见,因为许多行业的数字化转型正处于起步阶段,需要创新方向的借鉴与启发。通过对国内数百场数据竞赛的分析,我们发现开放性方案题在报通过需求分析和赛题设计,赋予数据竞赛创新意义和业务价值,进而借由数据和计算资源管理保障该创新价值落地,有着综合性的挑战。数据竞赛组织不易,需要克服专业壁垒09b. 数据管理赛题设计需要兼顾是否可解、是否具备业务应用价值或前沿技术探索价值等多方面的因素,而这皆以“数据”为基础。数据层面有三个重点:数据质量、数据集切分、数据安全,任何一点的疏漏都会导致潜力巨大的赛题

21、难以兑现价值。(1)数据质量数据质量问题可能发生在数据收集、 治理、 加工和采样的各个阶段,数据质量低下表现在字段缺失、信息过时或信息不准确等方面。在数据竞赛的时间要求下,数据质量低下容易导致选手分散过多精力进行数据的二次处理,限制了算法所能达到效果的天花板。质量低下的数据难以反映实际生产生活中的真实情况,最终影响模型成果在业务场景的表现。另外一种常见的数据质量问题是信息交互泄漏(DataLeakage),如数据的某些属性、特征、字段已潜在暴露了需要通过算法模型进行预测的信息结果。一个易懂的例子是,一道赛题要求参赛者识别图片中的动物是否为鸟类,而在进行数据采样时,所有鸟类的图片 ID 均以 1

22、 开头,而所有非鸟类的图片 ID 均以 2 开头,参赛选手通过图片 ID 字段即能判断结果,通过取巧的模型也有不俗的分数表现,但没有业务价值。利用信息交互泄漏漏洞而取得虚高分数的行为,也会破算法模型类赛题相比开放性方案赛,有更加稳定的表现,其设计过程也存在着诸多考验:在需求分析结果和赛事数据条件的基础上, 在成本限制、 计算资源、 数据安全的约束条件下,最终的赛题需要平衡可解性、前沿性和创新性等多方面的要求。算法赛题需要以清晰明确的表达方式,帮助参赛选手充分理解其考察重点和开发目标,同时配套科学的测评方法对赛事效果进行合理评价。图 3-6 数据管理需要兼顾三个层面的重点数据来源:和鲸科技()经

23、调研统计得出。引用请注明出处。坏竞赛的专业性、公平性,激发负面的评价。(2)数据集切分数据集切分是模型构建的重要前置工作。在数据竞赛中,数据需要被切分为训练集和测试集两部分。其中训练集供参赛者用以搭建、训练模型,测试集则用以检验其模型的性能水平。举例来说,在数据量总体有限的情况下,若测试集的数据量过少,则无法客观反应数据全貌。如果在切分数据集时未能控制好数据分布,也会影响模型实际表现的上限,容易出现模型在某个数据集上过拟合的情况,进而影响其泛化性能。(3)数据安全出于对数据所涉敏感信息或商业机密的保护需要,数据安全是赛事主办方重点关心的问题,数据脱敏是这一问题的常见手段。优质的脱敏算法要充分保

24、障数据的隐秘性,确保参赛选手无法通过技术手段逆向解码,获取脱敏前的信息。如果数据的脱敏处理欠缺科学性,一方面可能会反而脱敏失效,另一方面也会导致参赛者在特征工程阶段被误导。10数据竞赛组织不易,需要克服专业壁垒数据竞赛组织不易,需要克服专业壁垒11c. 成果管理成果管理是影响数据科学项目项目效果的“最后一公里”,成果版本管理混乱、成果不可复现都是常见的赛事项目管理问题。混乱的成果版本管理会导致团队协作效率低下、数据科学项目进度缓慢,并且最终在验证算法效果时难以做到对应版本的跟进和回溯。成果的不可复现,会导致算法成果在实现应用时达不到预期效果,投入产出比模糊。d. 计算资源管理充沛的算力可以满足

25、 AI 模型的优化需求,也容易导致对于算法创新的忽视,算力供给也会带来较大的经济负荷。因此,搭建统一的云端竞赛环境便成为必然趋势,不仅能够使竞赛突破物理空间的限制,也能够鼓励选手在一定的算力限制条件下侧重算法层面的设计与创新。对此相对的情况是,计算资源供应不足,则会出现模型运行时间过长、内存溢出、资源互相占用等现象,导致参赛者难以在既定时间内完成对模型的迭代优化。因此,对竞赛全程的计算资源消耗量做精确的预估,充分平衡成本限制、 赛题难度和赛事规模等多方因素, 是赛事筹备的重要任务。图 3-7 赛程运营管理具有相当的复杂性数据来源:和鲸科技()经调研统计得出。引用请注明出处。2. 保障赛事相关方

26、体验需要面面俱到a. 赛制公平公正的数据竞赛环境和合理的赛制设计,是保障赛事主办方和参赛选手体验的基础,其中牵涉了科学的成果测评、反作弊机制等方面。在自动测评方面,测评代码要严格契合赛题数据的要求,确保竞赛开发成果的性能表现和参赛选手的能力水平能够得到合理的评估,即具备可解释性和结果的可复现性。同时,测评代码还需要保证多人并行大量提交下的稳定性,确保参赛体验流畅。在常见的作弊手法中,包括利用排行榜和测评代码的漏洞,通过有规律的提交去猜测正确答案的排行榜探查(LeaderboardProbing)行为,通过高频提交粗暴堆分或人工标注答案的暴力刷分(BoostingAttack)行为,为了追求分数

27、表现刻意构建过拟合模型的行为。b. 赛程运营管理环节一场数据竞赛牵涉赛事主办方、赛事运营者、参赛选手、媒体等方方面面的利益相关集体,彼此之间背景、分工、诉求不尽相同,兼顾各方体验的协作具有较大难度。而赛程运营管理则以串联者的角色整合了贯穿数据竞赛前期筹备、赛事运营、赛后结项等全生命周期的各类赛事相关要素,工作范围涉及资源统筹调配、赛事流程推进、选手社区运维、阶段进展汇报、风险防范控制、成果管理移交等方方面面。缺乏成熟专业的赛程运营管理,轻则可能延滞数据竞赛进度的顺利推进,重则可能导致前期投入无法产出效益。12数据竞赛组织不易,需要克服专业壁垒c. 工具支撑数据竞赛的组织具有较高的技术难度,从最

28、初要求顺畅地跑通竞赛全流程,到能够进行云端协同开发,再到保障日益敏感的数据安全,越来越多的问题有赖于产品工具的功能保障。(1)竞赛工具 1.0 时代数据竞赛系统数据竞赛系统是数据竞赛最基础的工具系统,为了实现对数据竞赛全生命周期的管理。作为连接参赛选手、赛事运营管理者和赛事主办方的线上桥梁,其功能覆盖竞赛页面信息配置、竞赛任务图 3-8 竞赛工具 1.0 的功能要求数据来源:和鲸科技()经调研统计得出。引用请注明出处。发布、评审系统设置和参赛成果统计等方面,目标是提高赛事运营管理者工作效率,便于赛事主办方了解赛事进程。数据竞赛的公平性在很大程度上有赖于评审环节是否妥当,而评审又涉及复杂的算法和

29、规则:既要保障不同复杂程度的客观评审规则的自动化执行,又要对主观评审的分工权重与规则做出合理呈现,也能对多次提交和赛程各阶段的结果实现高效处理和统计,及时反馈报错信息或得分情况,可以说评审系统是整个竞赛系统开发的难点和重点。数据竞赛组织不易,需要克服专业壁垒13图 3-9 竞赛工具 2.0 的功能要求数据来源:和鲸科技()经调研统计得出。引用请注明出处。(2)竞赛工具 2.0 时代数据竞赛系统 + 数据科学协同平台 +云计算在企业上云和协同开发的趋势下,竞赛工具 2.0 时代迎来了数据科学协同平台的整合。通过实现在云端协作进行数据分析和算法建模等工作,让数据竞赛真正贴近业界实际的数据科学研发场

30、景。目 前 全 球 范 围 内 接 受 度 较 高 的 工 具 包 括 国 外 的 JupyterNotebook、 KaggleKernels、 GoogleColab, 以及国内的K-Lab。在数据竞赛环境中需要至少满足三个方面的要求:提升效率,令参赛选手更加专注于开发本身;加强协同,为参赛团队打造交互式体验;弹性调度云计算资源,降低算力应用门槛与成本的同时,也让比赛更公平更有效。14数据竞赛组织不易,需要克服专业壁垒数据竞赛各环节的工作内容,展示了数据科学研发的项目项目所需具备的基础能力。通过数据、云计算、人工智能技术、数据科学人才的连接,数据竞赛在帮助赛事主办方探索创新方向、树立技术驱

31、动的品牌形象同时,也在为其在内部积累数据、治理数据、应用数据提供了全流程的借鉴。在这个过程中,赛事主办方可以充分利用外部优质资源加速实现技术落地的创新探索,同时积累扎实的数据科学核心能力。图 3-10 竞赛工具 3.0 的功能要求数据来源:和鲸科技()经调研统计得出。引用请注明出处。(3)竞赛工具 3.0 时代数据竞赛系统 + 数据科学协同平台 +云计算 + 数据安全在大数据产生巨大社会价值的同时,一次次的数据安全事故也引发了全社会的担忧。数据竞赛作为数据公开应用的大规模尝试,数据安全的保障更是重中之重。除了采用数据脱敏等传统手段外,通过竞赛工具的技术功能来保障数据安全也日益受到重视。数据竞赛

32、组织不易,需要克服专业壁垒15第四章组织好一场数据竞赛重在能力建设一、优质数据竞赛的定义二、数据竞赛的最佳实践一、优质数据竞赛的定义作为整合 AI 技术和应用场景的枢纽,连接数据人才和业务问题的桥梁,优质的数据竞赛既要能够激发数据人才的能动性和生产力,又要满足赛事主办方的主要诉求。前者需要打造良好的参赛体验,后者又须培养扎实的数据科学运营能力,即优质的数据竞赛应同时满足竞赛体验的顺畅性和竞赛成果的有效性。 竞赛体验的顺畅性以系统化、专业化的运营手段严格把控赛事质量,以易用的工具、合理的计算资源支撑赛事功能,保障各个环节的平稳推进和过渡,激励参赛选手在公平、公正的竞赛环境下充分发挥能动性和专业实

33、力,高效创造出性能优越的竞赛成果。 竞赛成果的有效性在充分理解赛事主办方业务特征与办赛诉求的基础上,通过赛题最大化呈现技术在具体应用场景下的价值,将数据竞赛打造成为高度整合“数据 + 算力 + 算法 + 应用场景 + 人才”的标杆,为数字化创新提供借鉴与思路。组织好一场数据竞赛,重在能力建设17图 4-1 优质数据科学竞赛的关键要素数据来源:和鲸科技()经调研统计得出。引用请注明出处。18组织好一场数据竞赛,重在能力建设组织好一场数据竞赛,重在能力建设19二、数据竞赛的最佳实践为了满足竞赛体验的顺畅性和竞赛成果的有效性,第三方数据竞赛平台需要沉淀专业的数据科学项目管理方法、培养周到的竞赛管理能

34、力,并以积极的态度与赛事主办进行分享,真正做到为其创新探索动作进行全方位赋能。1. 数据科学项目管理,支撑赛事成果有效性a. 贴合实际场景的需求分析和赛题设计为了快捷、高效、准确地寻求数据创新的切入点和赛题方向,竞赛运营平台在日常工作中需要注重对各行业、各领域的洞察积累和研究分析,挖掘各行业的业务特征、发展趋势和价值生态。在面对具体的数据竞赛项目时,结合赛事主办方的实际业务价值和实现风险,快速敏捷地构建数据创新解决建议。图 4-2 和鲸数据创新解决建议,以快消行业的线上营销网红渠道场景为例数据来源:和鲸科技()经调研统计得出。引用请注明出处。在初步厘清具有较高实现把握的赛题应用场景方向之后,则

35、进入了具体的赛题设计阶段。赛题设计需要考虑如下原则: 赛题的未来应用价值在紧凑的竞赛周期内能够基于现行技术实现; 赛题与现有数据条件充分契合; 赛题具有充分的可解性,又能够保有一定的难度和挑战; 赛题以清晰、明确的表述方式向参赛选手予以呈现; 赛题配套的测评方法需要综合考量学术指标、生产指标与竞赛效果 引入行业专家共同参与赛题的打磨并对赛题质量提出意见。案例特写:中国银联高校极客挑战赛赛题拟定充分贴合实际业务价值赛事主办方:中国银联 中国银联于 2019 年 6-9 月举办了高校极客挑战赛,希望为 2020 年的校园招聘提前网罗优秀的数据科学人才,同时与高校进行技术碰撞。因此,赛题的拟定需要与

36、银联的业务特征高度契合。最终,竞赛运营平台设计的赛题要求参赛选手基于脱敏和采样后的约 40,000 条用户消费行为数据,预测在未来的一段时间内,用户对于某产品是否会有购买和收藏的行为。相较于大量结构化数据支撑的赛题,这场竞赛着重考察了选手在业务冷启动时对于小数据量的适应和调整能力,而这也符合银联大量新生业务在数据量积累不足的条件下仍赖于通过数据建模提供决策支撑的真实情况。20组织好一场数据竞赛,重在能力建设组织好一场数据竞赛,重在能力建设21b. 审慎的数据筹备与质量管控(1)数据甄选和评估数据甄选不仅要做到能够从数据源头上支撑赛题的可解性,配合赛事主办方积累数据采集和管理方面的能力。竞赛运营

37、平台需要积累国内外的开放数据资源,形成丰富的数据案例库,以此为基准帮助赛事主办方进行数据采集和管理。在实际竞赛中,要第一时间面向赛事主办方收集数据样例,深入了解数据采样过程、方法和数据的业务特色,结合赛题的应用场景和技术类型,从字段的完整性、关联性等多个方面系统性地检查数据集质量。案例特写:同盾科技声纹识别建模大赛数据处理充分考量竞赛成果未来应用条件赛事主办方:同盾科技 同盾科技希望籍由数据竞赛引领语音智能识别领域的工业级算法创新,要求参赛选手开发算法模型来判断任意两段语音出自同一说话人的概率,从而加速声纹识别在金融风控方向的技术落地。考虑到声纹识别模型未来在目标场景中的应用存在各类约束条件,

38、如模型要能在各性别、口音中都能发挥平衡效果,模型对长句和短句均具有较快的识别效果等,因此在为赛题筹备数据时就应予以提前考虑,并对数据做出相应的加工处理。声纹识别模型未来应用时的约束条件场景噪音说话人的方言、性别影响模型在说话人长短不一、内容不一的语音对上都能有较好表现通常深度学习模型在越大规模的数据集上的效果会明显优于经典模型,因此需通过更大规模的数据来再训练,以增强模型在部分音频上人工叠加背景场景噪声在测试集中等分了方言、性别的语音数据对1.做文本无关(text-independent)的说话人比对2.将有限的音频在兼顾等分的条件下进行合理的人工拼剪,形成数千对长短不一的数据,并与短句音频进

39、行比对额外补充公开数据来扩充数据量级在优质数据的充分支撑下,260 支参赛团队最终呈交出了出人意料的优质成果。其中,冠军团队实现了一种端到端的声纹特征学习模型,EER 得分高达 0.0011111 分(越接近零分意味着模型精确度越高),已经达到甚至超越了声纹识别的工业级水平,引发了广泛的行业关注。扫描上方二维码了解更多赛事详情过小的数据量可能不足以支撑赛题的解答,最终开发出的算法模型性能有限,而过大的数据量需要占用巨大的储存空间、消耗海量的计算资源,同时也会使得参赛选手的分析开发工作耗时日久,从而违背了数据竞赛经济、高效、敏捷的初衷。竞赛成果投入真实场景的应用,会面临种种现实约束条件,需要结合

40、数据实际情况预判可能出现的质量风险,并采取合理的手段甄选质量优良、数量合理的数据,提出改善数据质量、或对数据进行加工的方法建议。图 4-3 数据集切分示意数据来源:和鲸科技()经调研统计得出。引用请注明出处。(2)数据集切分赛事的竞赛数据集由四个部分组成:作为模型开发输入的训练集数据、作为模型开发输出的训练集标签、作为模型测试输入的测试集数据(无标签样本)、作为评估模型的真实测试集标签。目前普遍的数据集切分方法是按一定比例进行随机切分,这样的切分方式表面看似公允,但没有考虑数据分布特征具有的不确定性。举例来说,如果训练集和测试集过于相似,模型在训练集上的过拟合表现则无法在测试集上被验证发现,最

41、终得分虚高;而如果训练集和测试集的相似度低,则基于训练集数据特征训练出的模型在测试集上则可能有不同的表现。为了避免随机切分带来的潜在问题,对抗验证(AdversarialValidation)不失为行之有效的办法: 首先,采用一系列分析手段来量化判断在不同的切分方式下,训练集和测试集之间的相似度变化; 在此基础上,结合实际赛题的业务价值、难度定位、效果预估等多方面因素找到最合适的相似度指标; 最后,依据该相似度指标切分数据集,邀请专业人士进行测试,确保切分结果能够保证比赛质量的同时考察模型的泛化性能。22组织好一场数据竞赛,重在能力建设组织好一场数据竞赛,重在能力建设23评审反馈是指参赛选手提

42、交成果,接受评审后所能获得的反馈信息。比如在客观测评后能够看到评审算法所反馈的分数,或若提交失败,收到报错原因的具体反馈等。其中,报错反馈的设计尤为需要周全与具体,其设计要能尽可能同时给到选手全部的提交报错原因,能提供建设性提示。(2)客观评审客观评审是指通过设置考察指标,对参赛选手开发的算法模型的推理效果进行评估。由于客观评审指标不存在主观干预,因此可直接通过编写测评算法脚本,自动完成对参赛成果的评审过程,并输出评审结果。合理的测评算法需要从有效性、稳定性和安全性三个维度出发予以保障。首先保证测评指标的有效性,在此基础上尽可能提高其稳定性和安全性,优先观察安全性指标,一旦低于某个阈值,则停用

43、该指标。有效性需要考虑测评指标能够充分反应算法模型投入实际应用时的业务侧重点,并能够如实考察选手的模型在该侧重点上的表现效果。c. 科学有效的竞赛成果评价机制设计科学的评价机制,能够有效评估参赛选手的真实水平和竞赛成果的价值,帮助赛事主办方对于数据竞赛的意义有更加直观的感受,也能为数据科学研发的迭代指明方向。从参赛选手的视角出发,在其付出和能力得到客观评价的同时,更重要的是能够在清晰合理的评价反馈引导下更加高效地优化模型性能。(1)评审机制评审机制包括评审类型、评审次数和评审反馈。其中,评审类型包括客观测评和主观评审两大类: 客观测评是通过测评脚本进行的自动化评审,评价的是竞赛成果模型在一些既

44、定维度上的客观表现效果; 主观评审则会兼顾考查竞赛成果模型的实现成本、在时间和空间上的运行复杂程度、算法思路的创新性等,甚至包括参赛选手最终在决赛路演中是否清晰地传达了自己的解题思路等。为了保障评审机制的平衡性,需要对评审次数和评审反馈内容进行精细化设计。具体来说,过多的评审次数可能引发刷分现象,过少的评审次数据又限制了参赛选手通过获得反馈来进行成果优化的机会,因此在两相之间需要有所平衡。示例:通过摄像头实时画面识别工人进入施工现场是否佩戴安全帽的算法更着重考察的应是查全率(Recall),即确保尽可能所有未佩戴安全帽的目标都能够被检测到并发出告警,宁肯因为错误识别佩戴了安全帽的目标而发出冗余

45、告警,也要杜绝因为遗漏而导致的安全隐患。无人超市的顾客在前往自助柜台结账时,机器会打开摄像头检测顾客是否为数据库内记录的有过逃单行为的顾客,如发现疑似历史逃单客户则会给工作人员发起提示。在这个过程中,算法需更加着重考察查准率(Precision),即尽量不错怪顾客,否则会给顾客带来不必要的麻烦甚至伤及其名誉。有效性又分为排名有效性和数值有效性。前者衡量的是该指标能否正确地对选手表现进行排名,后者衡量的是选手的排名差距是否合理地反映了选手模型的性能差距。一般而言,测评指标的排名有效性与其数值有效性之间不存在绝对的关系,因此在指定该测评算法的时候需要在满足排名有效性的前提下尽可能地满足数值的有效性

46、。指标的稳定性是指,当被机器学习中的随机因素干扰时,排行榜体现的分值与排名也不会发生剧烈波动,依然能够准确地反映选手的能力和模型的效果。通常容易被所忽略的是测评指标的安全性,是指该指标能够尽最大可能确保数据信息不会被泄露,即避免参赛选手在提交次数限制范围内不断提交,从而通过和测评分数比对来推断测试数据的信息,进而实施作弊来提升分数。(3)主观评审主观评审需要与客观测评算法有一定的区分度,从而能对参赛选手的表现做出更综合的评价,主要是从竞赛成果的有效性、创新性和性能三个维度进行考虑。有效性是指选手提交的成果模型是完整的,且代码能够完成复现。创新性则考虑了成果模型是否采用了与现有方法不同的创新思路

47、,也是判断其是否具有更多潜在价值的重要依据。性能是在客观测评算法之外进一步考查其在运行过程中消耗的计算资源、时间,以及技术的普适性和复用性。举例来说,不少选手在竞赛中为了追求客观测评算法的分数表现,会采用大模型的堆叠,从而计算速度有所折扣。比如一道要求开发模型能实时识别并定位视频画面中人脸五官的赛题,如果仅追求识别的精准度而堆叠复杂的模型,实际运行时的识别和定位过程则需要耗费十余秒而非实时完成,那么其未来的商用价值必将大幅缩水,也难以取得好的成绩。考虑到竞赛成果需要兼具实际应用性和技术先进性,需要在业务背景和技术背景上跨学科领域的专家共同完成主观评审。科学的方法论需要综合考虑不同背景的专家应从

48、哪些指标出发进行评审、以及不同指标的计分规则和权重如何设计。24组织好一场数据竞赛,重在能力建设组织好一场数据竞赛,重在能力建设25b. 平衡成本和效率的计算资源管理与配给云端竞赛环境下需要为参赛选手配给相应的计算资源,在充分平衡成本投入和建模效率的原则基础上,计算资源的预估需要注重从过往办赛经验中总结计算资源使用规律。同时,竞赛运营平台在日常工作中要对各类具体算法问题的最新技术进展、人才发展水平和计算资源要求的变化保持高度关注,力图构建起业界领先的计算资源用量预测模型。在面临具体赛事时,结合赛事主办方对参赛规模、赛事周期的要求,以及赛题的技术类型和难度,对计算资源用量进行合理预估。考虑到复杂

49、的竞赛环境和赛题内容要求,在实际赛程中,计算资源也需要实现对 AWS、阿里云、腾讯云等国内外各大主流云厂商进行灵活的跨云调度,以防止单一云厂商的算力资源用量无法满足同时段内多场竞赛的算力资源使用需求。在竞赛运行时,会对相应的计算资源进行弹性调度,当用户使用结束后及时自动释放运算资源,从而降低计算资源的浪费率。图 4-4 根据赛事规模、周期评估云资源用量并进行灵活的跨云调度数据来源:和鲸科技()经调研统计得出。引用请注明出处。图 4-5 在赛程中实时监控计算资源用量数据来源:和鲸科技()经调研统计得出。引用请注明出处。2019-10-06005006002019-10-08

50、2019-10-102019-10-122019-10-142019-10-162019-10-182019-10-20 AWS AWS.paddle pro-aws-m4.2xlarge jd-p.n1v100.2xlarge AWS-LONG AWS-p2.xlarge R-3.6.0AWS.paddle:17.5pro-aws-m4.2xlarge:0jd-p.n1v100.2xlarge:0AWS-LONG:0AWS-p2.xlarge:0R-3.6.0:02019-10-06在科学的方法论指导下完成以上赛事筹备工作后,建议对全流程进行严格的完整测试,除了内部测试外,联系数据科学领域经

51、验丰富的头部选手和产业专家进行外部测试也不失为理性选择。通过模拟参赛选手视角,在测试环节发现可能出现的问题并予以提前解决,为赛事的顺利进行和成果价值实现打上更牢靠的保险。此外,赛事主办方和竞赛运营平台在数据竞赛的举办过程中,都能够对算力用量按个人、分时段进行实时监控,对异常使用行为进行及时干预,而历史用量统计数据也能够进一步服务于计算资源用量预测模型的优化。26组织好一场数据竞赛,重在能力建设2. 数据竞赛运营管理,保障双边赛事体验a. 提供云端竞赛环境突破本地配置限制针对机器学习问题,提供充足的数据和算力能带来比较可观的模型效果提升。但这并非长久之计,在大多数业务情况下,其数据积累和治理程度

52、不足,无法形成海量可用数据,大规模的算力也是高昂的成本。因此,在一定算力消耗的条件下鼓励敏捷的算法创新,能够带来更大的经济效益,更具可行性和持续性。拥有大规模算力条件的参赛选手,可能更容易取得优异的排名成绩,但这与“创新”和“公平”的初衷相违背。最终的比拼变成了谁掌握了更多的计算资源,而不是谁在算法层面诞生了更多突破性想法,而且,这样得到的算法模型通常在实际生产环境中可用性也较低。因此,在云端的竞赛环境、研发环境成为了重要的支撑。云端统一竞赛环境的另外一层作用在于便捷的成果管理。特别是在进行团队协作时,如本地开发环境或工具版本不统一,团队成员间进行成果分享时则需要重新安装和运维计算环境,费时费

53、力。在数据竞赛中提供统一的计算环境使得开发代码的分享、协作更加便捷,开发成果的复现效果也能够得到平等地呈现,促进赛事成果的高效产出与有效落地。b. 严防作弊的公平公正竞赛环境(1)采用多元机制打击作弊行为投机的作弊行为和不合理的赛制规划也会损伤赛事的公平性和选手的积极性,进而破坏竞赛成果的有效性和真实价值,优质的数据竞赛需要在反作弊机制方面进行有效的设计。通过限制参赛选手的提交次数,同时追踪选手的提交行为可以有效解决刷分的问题。具体来说,可在竞赛之初为每支参赛团队的图 4-6 双榜反作弊机制数据来源:和鲸科技()经调研统计得出。引用请注明出处。答案提交动作配置专属 token(计算机身份认证令

54、牌),从而方便追溯提交文件的来源。如某份答案文件的提交选手 ID 与其所属团队的提交 token 不一致,则有理由怀疑出现了窃取答案的情况,需要进行深入调查。双榜机制在 Kaggle 等多个平台和国际性赛事中得到了不断应用和验证,除了能应对刷分现象外,还对排行榜探查、过拟合等行为具有显著的打击效果。组织好一场数据竞赛,重在能力建设27数据竞赛,数字化创新的新模式23 A/B 榜 - 规避利用过拟合模型上分目前,A/B 榜是业内公认较为有效的防作弊手段之一,其借鉴了数据科学当中对模型进行交叉验证的思路,为了防止模型在某个数据集上过拟合而失去必要的泛化性能。运用在比赛中,就是将数据集分别切分为对应

55、 A 榜和 B 榜的两份,在不同阶段陆续提供给参赛选手,以 B 榜的结果作为验证和衡量模型实际表现的标尺。如果选手在先期的 A 榜阶段过分追求分数表现而采用了与 A 榜数据集过拟合的模型,甚至人为手标答案,则会有在 B 榜阶段遭遇成绩下滑。 Public/Private 榜 - 升级机制,模型效果更有保障Public/Private 榜机制源来已久,经过多年的迭代和比赛的验证成为了海内外赛事圈选手共同认可的评审机制参赛选手在比赛伊始便被授权使用全量数据集进行模型训练,但实际上全量测试集已经被竞赛运营平台私下分割为了 Public 和Private 两部分,但分割方式对外保密。后续在比赛进程中,

56、选手能够看到的公开成绩仅仅是基于 Public 部分测试集测评得出的结果,而属于 Private 部分测试集的得分则会被记录在后台,并作为最终排名的依据。Public/Private 榜机制对 A/B 榜存在的一些问题进行了修正,在此机制下,全量数据集在比赛伊始就被公布,选手有充裕的时间研究和分析数据集的规律和数据特征的性质,从而构建出性能更加优越的算法模型。此外,由于选手并不知道 Public/Private 榜各自对应的测试集是如何分割的,为了追求分数表现而过拟合的情况也得以遏制,有更强大的动机来增强自己模型的泛化性能,使其更加贴近真实应用场景。A/B 榜存在的问题:B 榜测试数据在比赛靠

57、后阶段才提供选手难以了解数据全貌,易在 A 榜上过拟合最终排名以 B 榜为准,为避免针对性调优、手标答案,B 榜阶段窗口期只有 24-48 小时选手的参赛体验遭到破坏4-7 双榜反作弊机制数据来源:和鲸科技()经调研统计得出。引用请注明出处。28组织好一场数据竞赛,重在能力建设(2)以严谨的成果审核作为双重保险高度相似的成果文件背后可能是参赛选手间共享答案的不端行为,而这一作弊现象在提交答案文件 MD5(每份成果文件独有的 128位散列值,用于确保信息传输的完整一致)相似度分析下则会被溯源。c. 参赛选手享有流畅的体验闭环在数据竞赛中, 参赛选手需要先后或多次经历报名组队、 数据获取、赛题解决

58、、成果提交与评分几个重要环节。优质的数据竞赛在制定比赛规则时应综合考虑初赛、复赛、决赛等每个阶段的里程碑目标、持续时长和晋级要求应如何设定。竞赛运营平台自身亦需要充分发挥数据的价值,结合过往办赛经验,针对不同的赛题类型与配套技术的发展程度、参赛规模、成本限制等多方面因素,从而对比赛规则设计思路进行持续的迭代,以此满足在多元竞赛需求下的赛事公平性。在此基础上,通过设计流畅的选手体验闭环使得选手的生产力得到更高效、更专注的释放。(1)报名组队 竞赛信息获取:竞赛页面对赛事背景、赛程规划、赛题要求、图 4-8 全流程保障赛事环境的公平性数据来源:和鲸科技()经调研统计得出。引用请注明出处。在答案文件

59、之外的另外一重保障是要求参赛选手提交模型代码。一方面便于从包含数据特征处理、特征构造、训练策略在内的多个方面进行代码相似度对比,考察选手是否不正当地使用了他人的代码,另一方面也可人工审核代码并复现。竞赛数据、测评机制、奖励安排、参赛须知、参赛者权益说明等竞赛基本信息具有清晰的结构呈现、准确的语言表述; 报名组队:具有明确、快捷的报名组队操作功能,同时能够快速索引潜在的组队成员,并与之直接在竞赛平台上进行即时交流或发送组队邀约。(2)数据获取 竞赛数据与赛题内容高度契合,能够支撑赛题的可解性; 竞赛数据处理完备、字段完整、信息准确; 训练集和测试集的切分科学合理; 竞赛页面对数据情况有准确到位的

60、描述,并提供数据及字段样例供选手参考;组织好一场数据竞赛,重在能力建设29图 4-9 参赛选手的重要体验环节数据来源:和鲸科技()经调研统计得出。引用请注明出处。 具有专属的竞赛数据分发方式,便于选手高效获取。一般数据规模较大的竞赛都会直接将数据挂载在统一的云端竞赛环境中,选手无需费时下载,可通过在线且体验良好的数据科学协同平台直接读取并使用。(3)赛题解决 赛题解决有赖于团队成员间的密切配合和高效协作,配置能够突破本地环境限制的数据科学协同平台和合理的计算资源将可以大幅提升参赛选手的解题效率,从而为优质成果的诞生奠定基础; 以在数据竞赛环境中的 KaggleKernels 为例,这个可在浏览

61、器中直接运行的交互式编程笔记本,能够快速线上调用 Kaggle平台上数千个数据集,通过适配谷歌云服务和预装必要的工具包,保证所有参赛选手无需受限于本地配置环境即可在统一的环境中进行成果开发; 优质的数据竞赛对于在线数据科学协同平台与计算资源的具体要求将在下一小节中展开详述。(4)成果提交与评分 提交页面配备了清晰的提交指引、详细的评审算法与评审机制说明; 成果文件能够快速上传至竞赛系统,且能够即时得到清晰明确的报错信息反馈,如在竞赛系统中内置格式检查工具,对选手提交的成果文件进行自动化的格式检查并给出反馈; 竞赛涉及多种类型的技术问题,因此也需要支持多种格式和大小的成果文件,如对于较大的文件,

62、最好可提供特定的提交工具支持断点续传,从而不会发生网络环境不稳定导致的多次提交不成功的挫败感; 得分反馈:竞赛系统配备科学合理的自动测评算法,能够尽快运行、即时出分,同时提供清晰合理的反馈说明。30组织好一场数据竞赛,重在能力建设d. 即时高效的赛程运营管理与服务响应作为整合资源的角色,赛程运营管理连接起了数据竞赛主办方、赛事运营平台内部团队、参赛选手、计算资源供应商、外部媒体等一系列利益相关方,来推动赛事按预期计划平稳前进。赛程运营管理人员需要具备复杂任务的多线程处理能力和沟通协调能力,以专业的规范标准为赛事主办方和参赛选手双边提供即时、稳定、优质的服务,促进双边的共赢协作,协调内部资源高效

63、解决赛程中存在的各项问题,并对可能存在的各项风险进行充分的预判和提出解决方案。面向赛事主办方,赛程运营管理人员主要负责收集确认其需求,拆解、转译成分子需求,并分配给竞赛项目小组的相关成员执行具体的实施工作,并在此过程中与主办方保持紧密的沟通汇报,保证产出与其需求的一致性。内容包括但不限于: 在赛前协调品牌营销人员负责赛事形象的整体设计和赛事的宣传推广; 统筹需求分析、数据科学服务、竞赛产品各职能相关负责人员和计算资源供应商按约按时、保质保量提供服务; 在赛中对阶段性的进展与成果向赛事主办方定期进行同步汇报; 在赛后及时整理和移交竞赛成果,促进顺利结项; 贯穿竞赛全生命周期的成本管理、质量监控的

64、风险防范。面向参赛选手,赛程运营管理人员需要主动将赛程各阶段的信息进行及时的同步传达,帮助赛事主办方在选手群体中树立并传播良好的品牌形象,同时通过积极的沟通加强选手对赛题的理解和研发的积极性。另外,赛程运营管理人员也要对选手在参赛过程中遇到的疑惑和问题保持高度关注,提供及时的解答和处理,对可能发生甚至已经出现的舆论争议进行及时疏导,并适时组织有助于提升赛事质量和体验的调研活动。图 4-10 赛事运营平台需要在赛事主办方和参赛选手间进行高效的信息和价值传递数据来源:和鲸科技()经调研统计得出。引用请注明出处。组织好一场数据竞赛,重在能力建设31案例特写:中国高校计算机大赛大数据挑战赛预选赛聚焦优

65、质选手、分流办赛压力赛事主办方:教育部 2018 年中国高校计算机大赛大数据挑战赛参赛人数突破 3000 人,2019 年的规模将更为盛大,运营压力和成本压力陡增。广大选手虽技术水平不可同一而论,但也都希望借由这次宝贵的机会得到锻炼。为了平衡各方诉求,2019 年的赛制在2018年的基础上进行了优化, 在正式赛程上线前举办预选赛, 利用公开数据集出具与正式赛题相关但难度更小的 “文本情感分类”赛题。如此一来,新手们能够得到充分的练习和交流,预选赛设置的评分规则也能选拔出能力更突出的选手进入正式赛程环节,实现聚焦和限流的作用。扫描上方二维码了解更多赛事详情案例特写:同盾科技声纹识别建模大赛训练营

66、克服专业壁垒,提升赛绩表现赛事主办方:同盾科技 受制于真实应用场景下的复杂情形和算力限制等因素,语音识别目前仍面临着许多技术瓶颈。在筹办同盾科技声纹识别建模大赛时,考虑到该赛题技术难度偏大、细分领域人才偏少,可能出现竞赛参与度低、竞赛成果不达预期等潜在风险。因此,赛事运营平台设置了训练营作为赛前先锋,在有充裕时间酝酿赛事影响力,吸引更多关注参与的同时,采取公开报名和免费参加的形式为意向参赛选手提供语音深度学习相关的知识培训,由专业的科研学者提供指导,以实践任务的方式指导和启发学员解锁部分声纹识别的技术难点。训练营上线后迅速吸引了大量数据人才的关注,并为后续赛事运营的顺利推进奠定了良好的基础。最

67、终产出了工业级水平的竞赛成果。扫描上方二维码了解更多赛事详情e. 通过丰富的赛制设计优化竞赛体验在实际的数据竞赛中,时常会出现一些意料之外的情况,需要具有灵活的应变能力。比如赛题内容所牵涉的行业场景过于细分或前沿,行业知识的缺失会导致技术能力难以施展。以 PLAGH-MIT 医疗大数据 Datathon 为例,活动正式开始前,组委会通过提供线上讲座、视频课程、跨学科交流来帮助潜在参赛选手学习如何更好地理解和分析医疗数据,加强医务工作者和数据科学家之间的沟通协作。同时,在正式开赛前预置训练营则也能够通过邀请赛题领域内的资深人才提供竞赛基准模型(Baseline),为潜在选手提供指导借鉴和思路启发

68、。32组织好一场数据竞赛,重在能力建设组织好一场数据竞赛,重在能力建设33f. 以产品化功能赋能赛事体验(1)提升效率的在线数据科学协同平台数据竞赛作为数据科学研发的敏捷型项目,在该环境下配置数据科学协同平台和云计算资源 , 不仅能够保障赛事体验的各项功能需求,也是对实际数据科学研发与协作的一次真实演练。通过高效打通数据团队管理者、 算法模型研发工程师、 数据分析师、业务应用人员,搭载了云计算资源的数据科学协同平台,深度参与了从任务管理、模型开发、成果管理到业务应用的数据项目全生命周期管理,可满足数据科学家、人工智能工程师、商业分析师等数据科学工作者在线完成算法建模、数据分析与可视化、结果输出

69、等任务,并支持私有化部署和云端协同,帮助企业、高校、科研机构开展工业级数据科学应用与 AI 研发。优质的数据竞赛正需要具备如下各项功能的数据科学协同平台来确保数据科学项目的健康推进,最终的开发成果可被复现。 集成体验良好、统一的云端开发环境,提供开箱即用的计算环境,无需繁琐的硬件部署和运维; 配置丰富的编程语言工具包和 (如Pandas、 Numpy、 Scipy等) 、机器学习框架(如 Scikit-Learn、Tensorflow、PyTorch 等)、图 4-11 数据科学开发工具数据来源:和鲸科技()经调研统计得出。引用请注明出处。以及常用的分析代码片段和自定义代码库,方便随时调用和日

70、后复用; 用户可以在计算环境中自行安装额外所需的工具,并可持续复用,成为自定义的镜像环境; 竞赛运营人员可直接按照工具内提前规划的操作要求和指引,在赛前完成数据及资源的挂载、部署,同时便捷地进行版本管理,亦可方便参赛选手无须耗时将数据下载至本地。 参赛队友之间能够实现代码文件的一键分享、评论和协作编辑,降低协作门槛; 能够对不同版本的开发策略和代码进行敏捷的效果试验,更高效地管理工作成果; 为选手提供统一充分的算力,资源全面支持 AWS、阿里云、腾讯云等国内外各大主流云厂商,根据竞赛需求进行灵活弹性的跨云或混合调度; 成果的提交工具与竞赛系统无缝衔接,在提交处查看历史提交成绩与对应文件,把握每

71、次提交的试验效果,为优化开发提供指导性反馈。(2)提升效率的在线数据科学协同平台数据竞赛具有较强的技术专业性,需要专业的数据科学方法为主办方提供有保障、可预期的支撑服务,竞赛运营方也需要最大化主办方的参与度,打造透明的竞赛环境。这关系到赛事主办方对于数据竞赛价值的信任,也能帮助赛事主办方通过数据竞赛感受数据科学研发过程、积累数据科学研发的管理经验和能力。为了实现多元化的运营目标与管理目标,打造一款具有完善功能的竞赛系统则成为了优质数据竞赛的标配: 竞赛流程管理提供一站式的竞赛信息管理功能,赛事管理员可根据赛制规划配置比赛基本信息描述、时间阶段划分、成果测评代码等。同时也可对比赛过程中产生的所有

72、数据、报名信息和提交记录等随时进行调取查看;赛事管理员可根据赛制要求差异化定制多轮提交、多文件提交等多项延展性功能。 客观评审在竞赛系统内预置 A/B 榜、Private/Public 榜等仿作弊机制,赛事管理者可在管理后台直接调用;图 4-12 数据科学开发工具与竞赛系统的配合效果除支持竞赛管理员使用自定义配置评审脚本和答案文件外,竞赛系统内能够预置常见的评审指标,并配有完整的使用说明;竞赛管理员可直接在竞赛系统后台上传待测试的提交文件,来直接对当前的评审配置进行内部测试操作;支持多种格式和大小的成果文件,包括表格数据、图像甚至视频文件的自动测评,因此需要具有较强的负载能力;竞赛系统亦可根据

73、评审负载弹性伸缩资源池,根据评审脚本运行时间、同时参与评审人数和提交文件的大小等维度自动计算评审复杂度并匹配相应的计算资源数。 主观评审评委和竞赛管理员可直接查看选手提交的完整代码及对应的客观评审得分,并一键复现选手成果;竞赛管理员可自行决定参赛成果的评委分配,并自主设计评分维度和规则。如可支持随机分组、集体评审的方式进行合理评审,或根据评委背景分成不同的评审组,并设置不同评审纬度和指标,最终对不同组评审成绩进行汇总。数据来源:和鲸科技()经调研统计得出。引用请注明出处。Notebook34组织好一场数据竞赛,重在能力建设组织好一场数据竞赛,重在能力建设35g. 解决赛事主办方后顾之忧的数据安

74、全保障(1)数据脱敏在通过数据脱敏来解决数据安全的问题时,需要严格评估在赛题要求下敏感数据是否具备使用价值,对于无建模价值的敏感数据会直接在数据采集阶段予以剔除。之后的脱敏处理要遵循两个原则:一是脱敏前后数据格式类型不变,二是脱敏不能改变数据的分布。这样才能够保证脱敏后的数据在实际比赛当中仍能保留足够的建模价值、在实际场景也能发挥应用潜能。而在此基础上还要考虑,能在尽可能少的随机性前提下完全隐藏相关的信息,规避参赛选手逆向还原脱敏数据的现象。(2)数据泄露部署了数据科学协同平台和计算资源的云端竞赛环境将数据挂载在工具内, 竞赛一旦结束, 数据自动下线, 具有数据安全的保障性。为了进一步严控数据

75、被下载至本地、避免数据泄露,数据科学协同平台可以考虑两种不同级别的方案来克服多数机构和企业既想投身于数据竞赛的创新探索、却又担心数据泄漏的顾虑。 监测限制下载流量在限制开发工具的下载流量并对其进行实时监测的条件下,要将开发工具中挂载的数据集下载至本地需要耗费参赛选手大量时间,在数月的竞赛全周期内最多只能完成不足 5% 的竞赛数据下载,对于选手而言成本高昂。与此同时,竞赛选手依然能够顺畅、自由地向开发工具中安装所需工具包,正常的竞赛体验和开发工作不会受到影响。 断网安全屋断网安全屋的方案对于数据安全的保护更为严格通过网络控制功能限制所有对外对内的访问流量,如此一来,选手便完全丧失了下载数据的可能

76、性。而为了保障正常的参赛体验,该方案又可以在断网条件下提供特殊访问通道的白名单功能,配置域名或IP地址,通过固定出入口的放行使得参赛选手能够安装必备工具。图 4-13 数据安全屋原理示意数据来源:和鲸科技()经调研统计得出。引用请注明出处。案例特写:快手 - 用户兴趣建模大赛数据脱敏保障数据安全的同时缓解数据存储压力赛事主办方:快手 内容生产和分发是短视频发展的两大关键要素。在快手,每天都有数以亿计的视频被播放、被上传、被转发,服务器需要在转瞬间处理海量信息与内容,过多的违规内容会挤压内容生产者的流量,而匹配不精准的内容推荐也是对资源的巨大浪费。在有限的时间内,仅仅依靠人力显然无法高效完成对视

77、频内容的识别、理解,以及对海量用户的精准推荐。可以说,人工智能算法的应用对于快手保持互联网领先身位具有非常重要的作用,因此,快手努力推动着人工智能的创新探索与数据科学的商业应用。快手在 2018 年举办的用户兴趣建模大赛中,要求参赛选手开发基于视频内容理解的推荐算法,预测用户点击某视频内容的概率。然而,规模巨大的视频数据在竞赛环境中带来了较大的数据存储和算力压力。而利用常用的预训练视觉模型,将中间层的参数输出作为原图像的脱敏数据,则能够有效解决这一问题。举例来说,下图中的(a)为视频某一帧图像的原始状态,能够清晰地看到是一个行走中的人。而(b)是提取了图像中行人的身形轮廓特征,(d)(e)则提

78、取了图像中行人的诸如眼睛、鼻子、下巴等局部特征。通过提取预训练模型的前几层输出,实现了对原始视频的规模降级和脱敏处理,但依然能够判断出图像的主体是一个人。而在更高的数据安全要求下,还可再进一步作数据脱敏。可将预训练模型的倒数第二层输出作为原图像的脱敏数据,则数据文件大小在进一步降低的同时,也完全无法复原,从而使参赛选手无法知道图像的直观内容,以此实现对图像内容的尽可能保密,既缓解了数据压力,提升了参赛选手的开发效率,还在一定程度上保护了原始视频的私密性。扫描上方二维码了解更多赛事详情36组织好一场数据竞赛,重在能力建设h. 促进人才沉淀的社区运营数据竞赛具有天然的社区效应,越来越多数据科学人才

79、选择参赛以实践理论技能,并在过程中进行持续的协作、交流和讨论,形成了具有专业属性的社区雏形。以全球最大的数据竞赛平台 Kaggle 为例,作为全球最大的数据科学人才社区,在与不同机构组织合作举办数据竞赛之外,Kaggle 还以数据集、开源代码项目分享等丰富的内容吸引人才汇集,在其数据科学的成长发展之路上不断进行助力和赋能,从而使得海量处于不同成长阶段的专业人才均对其产生了强大的粘性。数据科学社区集聚的人才来自不同行业不同职能,能够及时响应复杂多元的竞赛需求,充分输出“数据 +”的洞察,为数据竞赛的成功举办提供了复合能力的全方位支持。活跃的互动交流也在社区上不断沉淀着技术先进、应用成熟的真实案例

80、,突破固有认知的创新源源不断地发生,进而为数据竞赛基础上的数字化创新提供了底层支持。Kaggle图 4-14 赛事运营平台需要在赛事主办方和参赛选手间进行高效的信息和价值传递数据来源:和鲸科技()经调研统计得出。引用请注明出处。组织好一场数据竞赛,重在能力建设37第五章数据科学驱动的创新生态展望数据来源:和鲸科技()制作。引用请注明出处。打通企、 研、 学、 政各主体之间沟通协作的渠道, 建立开放共享、 合作共赢、 技术驱动的数据科学创新生态体系培养数据科学研发和项目管理核心能力实现资源在各利益群体之间的流通探索数据创新方向, 尝试数据和技术的落地应用方案数据竞赛图 5-1 以数据竞赛为起点促

81、进创新的螺旋上升数据科学驱动的创新生态展望39在数据科学生态中,“数据 + 算力 + 人才 + 场景 + 算法”各环节之间需要具有紧密的连接和互动,但这个过程充满了不确定性。可以看到,数据竞赛可模拟、可考核,且过程及成果可见,同时风险与成本高度可控,能够串联起数据科学生态链上的各类参与者,为各方提供协作的标准界面与有效激励。数据应用到达成熟期还有很长的一段路要走,数据竞赛作为数据科学研发的敏捷版和演兵场,在积累数据科学项目管理能力、和检验算法落地效果的同时,也为数字化创新的探索带来了更大的想象空间。伴随着高校数据科学教学体系的建设,数据竞赛开始融入教学、实践等衍生功能,数据科学协同平台也需要随

82、之发展出更丰富的“教学研练用”一体化功能集成丰富的课程课件、数据集或者外部笔记等内容,并实现不同用户间的共享和交互;将评审功能嵌入对于学生作业的管理中,预设常用测评指标对作业的模型效果提供全自动计分排名,解放老师的生产力;同时,对接贴近企业实际场景的项目课题与数据集, 方便学生直接进行实践演练,真正实现产学结合。伴随着通信技术的发展核心基础设施,“5G+ 混合云”的组合方式既能有效提升数据计算能力和传输效率,集中更大规模的数据资源,为“数据驱动”奠定基础。经由数据竞赛打磨出的数据科学协同平台也将紧跟这一发展趋势,在发展“数据驱动”、“数字化创新”的背景下,为未来的数据科学研发与协作提供底层工具

83、支持。数据竞赛引发了“产学研政资”对于数字化创新的共同关注,集合学术、人才、奖金和政策等全方位的资源支持,创造更加适宜的发展环境。同时,也能够通过各界的开放式协作、开放式创新,发现制约数字化创新效率的因素,落地改进方案。数据竞赛的创新价值正在得到更加广泛的认可,加速推动前沿数据技术的发展与产业应用的结合,在数据化、云端化、智能化的趋势下,赋能新一代的数据人才实现更大的产业价值,汇聚成产业数字化升级的强大动力。作为数据科学项目的缩影,数据竞赛正在帮助多个行业实现人工智能、数据驱动的落地与创新探索。据不完全统计,2014 年开始,全球赛事超 1000 场,仅中国的竞赛场次年均增长达 108.8%,

84、累计超 120 万人次参加,奖金累计达到 2.8 亿人民币。“数据竞赛”已经呈现出了独特的技术价值、 业务价值和创新价值, 等待着产业、学界、政府机构去进一步发现和运用。为什么这么多企业与机构在办数据竞赛?数据竞赛覆盖到了国内外各行各业中的哪些场景?为什么“数据竞赛”被视为数字化转型与创新的敏捷形态?在数据竞赛白皮书上篇中,和鲸科技通过 1000 余份问卷调研、几十位行业专家及企业办赛负责人的访谈、超过 1200 小时的分析研究,为你全面展示,在全球范围内数据竞赛的发展现状,以及数据竞赛在四大赛事主体数字化创新中的价值。数据竞赛白皮书上篇1000 场竞赛的深度分析更多精彩内容请关注扫码关注“和

85、鲸”公众号回复“数据竞赛白皮书”获取数据科学驱动的创新生态展望4040数据科学驱动的创新生态展望附录1LinkedIn,全球 AI 领域人才报告,2017 年 7 月2麦肯锡全球研究院,数字时代的中国:打造具有全球竞争力的新经济,2017 年 12 月3阿里研究院,人工智能在电子商务行业的应用和对就业影响,2018 年 8 月4清华大学,云计算和人工智能产业应用白皮书,2018 年 9 月5麻省理工学院,麻省理工科技评论,2019 年 2 月6普华永道,数字化工厂 2020:塑造制造业的新未来,2018 年 2 月7WIPO,2019 人工智能技术趋势展望,2019 年 3 月8Gartner

86、,Top10StrategicTechnologyTrendsfor2019:AI-DrivenDevelopment,2019 年 3 月9IEC,ArtificialIntelligenceacrossindustries,2019 年 3 月10亿欧智库,2019 年中国云计算行业发展研究报告,2019 年 3 月11德勤,2019 技术趋势报告:超越数字化,2019 年 3 月12腾讯云,产业互联网:构建智能 + 时代数字生态新图景,2019 年 3 月13Gartner,ChinaSummaryTranslation:Predicts2019:ArtificialIntelligen

87、ceCoreTechnologies,2019 年 5 月14剑桥大学,2019 年度 AI 全景报告,2019 年 6 月15云计算开源产业联盟,2019 年云计算与边缘计算协同九大应用场景,2019 年 6 月16阿里云,人工智能应用实践与趋势,2019 年 8 月17腾讯研究院,汽车行业云战略及商业模式研究报告,2019 年 9 月18埃森哲,2019 年埃森哲中国企业数字转型指数研究,2019 年 9 月19德勤,中国创新生态发展报告 2019,2019 年 9 月20信通院,2019 全球数字经济新图景,2019 年 10 月参考文献附录41大数据系统软件国家工程实验室简介大数据系统

88、软件国家工程实验室以创新驱动发展和自主安全可控为使命,以国家“十三五”规划为指导,面向重点领域和重大工程需求,建设大数据系统软件技术创新研发、技术转化和应用示范平台,支撑大规模多源异构数据一体化管理、交互式异构数据分析框架、数据可视化与智能数据工程、领域大数据应用开发运行环境、大数据混源软件可信验证等技术的研发和工程化。实验室将打造产学研用一体化的体系,研发一系列国际先进、国内领先的大数据系统软件核心技术与产品,突破创新驱动产业转型升级以及关键领域自主可控中的技术瓶颈,探索大数据系统软件应用实施的工程方法,建设国际一流、开放协同的产学研用大数据系统软件技术创新团队。与公安部一所、沈阳消防研究所

89、、国家气象中心、环保部信息中心、北京工业大数据创新中心、中国农科院等重点应用单位建立合作关系,支撑政府治理、公共服务、工业和新兴产业、现代农业等国家重大战略方向的大数据应用,增强对国家重点工程的大数据应用的保障能力。工程实验室拟由清华大学为承担单位,北京理工大学为参与单位,联合国防科技大学、中山大学、北京百度网讯科技有限公司、腾讯云计算(北京)有限责任公司、北京大学、中国人民大学、阿里巴巴集团云计算有限公司等单位共同建设。清华大学是教育部直属重点综合性大学,建有清华信息科学与技术国家实验室(筹)、企业信息化支撑软件国家工程技术研究中心等国家级创新平台, 在该领域拥有中国科学院与工程院院士8人,

90、 “千人计划”、“长江学者”、国家杰青等共 6 人。近 5 年,承担国家重点研发计划、国家核高基重大专项等科研项目 30 余项,曾获国家技术发明二等奖 1 项、国家科学技术进步二等奖 1 项,获得国家发明专利授权 25 项,编制标准 7 项。北京理工大学是工业和信息化部直属重点综合性大学,建有复杂系统智能控制与决策国家重点实验室,在该领域拥有中国科学院院士 1 人,国家杰青 1 人。鉴此,清华大学联合北京理工大学等基本具备了承担大数据系统软件国家工程实验室建设的能力。大数据系统软件国家工程实验室上海品茶42附录附录43和鲸科技简介和鲸科技(运营主体为“上海和今信息科技有限公司”)2015 年创始于

91、上海,是中国领先的“数据科学协同平台”供应商,以“connectpeoplewithdata”为使命,专注于挖掘商业数据和数据人才的价值。旗下拥有连接 30 万数据人才的第三方数据科学社区和鲸社区(即 K,原“科赛网”),具备国际领先水平的数据科学协同平台KesciLab(简称“K-Lab”)。和鲸科技是爱分析评选的 2019“中国数据智能创新企业 50 强”,AWS 高级技术合作伙伴,同盾科技、Talkingdata、Udacity 战略合作伙伴,并获得了国内一线 AI、数据领域投资机构 10fund 和线性资本的 PreA轮投资,晨兴资本的 A 轮投资。创始人范向伟入选由美国福布斯杂志发布

92、的第三届“30under30”科技榜单。 数据科学协同平台 K-LabK-Lab 是和鲸科技自研发的一款云原生“数据科学协同平台”产品,可满足数据科学家、人工智能工程师、商业分析师等数据工作者在线完成分类、建模、分析、可视化、结果输出等任务,其优秀的用户体验和产品口碑,赢得了包括了清华大学、南开大学、同济大学、中国医学科学院、中国电信、中国银联、中国电科等在内的国内顶尖机构的认可。和鲸 K-Lab 不仅实现了组织内部技术人员和业务人员的实时协同工作,更支撑了跨地域、跨组织的协同场景,允许企业以更低的成本、更大的弹性、更强的安全性,调用组织外部的工程师、分析师和科学家。 数据科学社区 K和鲸社区

93、,数据科学家的专业社区,在用户数、用户质量、活跃度方面均有出色表现。与中国联通、中国平安、招商银行、腾讯、百度、字节跳动、携程、IBM、华为、默克中国、南京市人民政府、深圳市人民政府、鹏城实验室等头部企业与机构合作,通过开放竞赛的机制和数据科学的手段,解决各个行业的业务难题。在 K-Lab的赋能下,和鲸社区成为了企业可按需调用的生产力和创新力。数据科学协同平台和鲸社区竞赛页面K-Lab 介绍页AWS 简介自2006年初起,亚马逊开始在云中为各种规模的公司提供技术服务平台。利用AWS服务,软件开发人员可以轻松购买计算、存储、数据库和其他基于Internet的服务来支持其应用程序。开发人员能够灵活

94、选择任何开发平台或编程环境,以便于其尝试解决问题。由于开发人员只需按使用量付费,无需前期资本支出,AWS服务是向最终用户交付计算资源、保存的数据和其他应用程序的一种最经济划算的方式。44附录附录45本数据集是对白皮书中所采用相关数据的抽取,包含了 2014 年至今,中国竞赛市场的 400 道赛题与 Kaggle平台中的 172 道赛题。数据集来自于各大数据竞赛平台网站及数据竞赛官方页面,包含平台类型、比赛内容、应用行业、奖金池、客户行业等 11 个维度的字段,共覆盖 33 类应用场景、34 类主办方背景及六大类技术类型。本数据集随白皮书对外开放,我们鼓励对数据竞赛模式的进一步分析与分享。和鲸调

95、研参与者画像扫描右侧二维码,获取本白皮书所采用的“数据竞赛数据集”独家云计算合作伙伴:AWS学术指导单位:大数据系统软件国家工程实验室独家数据科学媒体:deardata南京市人民政府深圳市人民政府深圳市科技创新委员会新一代人工智能产业技术创新战略联盟(AITISA)鹏城实验室中国人民解放军总医院(医疗大数据应用技术国家工程实验室、医学工程保障中心)中电莱斯信息系统有限公司中国银联合作伙伴与特别鸣谢重要声明本报告数据来源于和鲸科技(运营主体为“上海和今信息科技有限公司”)的调研与搜集,所载观点、意见、推测仅反映发布报告当日的判断。报告中的内容和意见仅供参考,和鲸科技不对因使用本报告内容而引致的损

96、失承担任何责任。本报告版权归和鲸科技所有,并对报告内容保留一切权利,未经书面许可,任何机构和个人不得以任何形式翻版、复制、发表或引用本报告的任何部分。如征得和鲸科技同意进行引用、发表的,需在允许的范围之内,并注明出处为“和鲸科技数据竞赛白皮书”,不得对本报告进行任何有悖原意的引用、删节和修改,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。* 排名不分先后46附录附录47编委:编撰团队(*排名不分先后,以拼音首字母排序)设计团队(*排名不分先后,以拼音首字母排序)路士瑶曹帅刘宇杰雷林许彤朱羿霖行业领导团队范向伟邮箱:单清远邮箱:王建强邮箱:特别顾问刘强清华大学软件学院特别支持(*排名不分先后,以拼音首字母排序)刘昊天刘雨亭邱月青

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(大数据系统软件国家实验室:2020数据竞赛白皮书·下篇·办好一场竞赛的实操手册(49页).pdf)为本站 (奶茶不加糖) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部