上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

金柚网:人工智能基础数据服务行业观察(19页).pdf

编号:27016 PDF 19页 1.95MB 下载积分:VIP专享
下载报告请您先登录!

金柚网:人工智能基础数据服务行业观察(19页).pdf

1、1 人工智能基础数据服务行业观察人工智能基础数据服务行业观察 2020 新基建系列专题 金柚网研究院 新基建政策下,人工智能被列入国家重点建设领域。 伴随着人工智能产业的发展,国内逐渐形成了以数据采 集及标注为核心的基础数据服务行业。 我国基础数据服务行业发展尚处在初期阶段,中小 型数据服务商正享受着短期的“劳动力密集型需求红 利”,占据着基础数据服务市场的主要份额。人工智能 技术向落地应用阶段发展,将给基础数据服务行业格局 带来重大变革,品牌数据服务公司或将通过AI技术及垂 直化服务能力重新打造行业竞争壁垒。 本文对基础数据服务行业的概念、行业发展现状、 市场格局等多维度展开分析,深入探讨基

2、础数据服务行 业发展未来及市场机遇。 核心摘要核心摘要 人工智能基础数据服务行业观察 3 人工智能基础数据服务行业观察 目录目录 ContentsContents 一、人工智能基础数据服务的概念及应用场景分析一、人工智能基础数据服务的概念及应用场景分析 1.人工智能基础数据服务概念4 2.人工智能基础数据服务具体应用场景分析5 3.非结构化数据应用价值挖掘派生数据采标需求7 二、人工智能基础数据服务行业发展现状二、人工智能基础数据服务行业发展现状 1.人工智能基础数据服务行业发展阶段9 2.人工智能基础数据服务行业规模及细分市场结构10 3.人工智能基础数据服务行业产业链概况11 4.以中小型

3、数据供应商为主的行业供给格局现状12 5.各地开展基础数据服务项目寻求人工智能行业发展突破口13 三、人工智能基础数据服务行业未来趋势及机遇分析三、人工智能基础数据服务行业未来趋势及机遇分析 1.基础数据服务需求将向垂直化方向过渡15 2.对标美国成熟市场,我国市场需求或逐步向自然语言类需求渗透16 3.品牌数据服务商或将主导行业格局17 4.人机协作或为行业发展趋势18 4 人工智能基础数据服务行业观察 人工智能是新基建的主要建设领域之一,其产业链包括基础层、技术层、应 用层。人工智能基础数据服务属于AI产业链的基础层,以数据采集和标注服务为 主,还包括数据清洗、抽取等服务。数据是人工智能算

4、法的“燃料”,亦是人工 智能实现其技术应用落地的必要条件。 一、人工智能基础数据服务的概念及应用场景分析 1.1.人工智能基础数据服务概念人工智能基础数据服务概念 基础层 技术层 应用层 算力 GPU+CPU TPU/FPGA AI 计 算 架 构 AI芯片 数据 数据采集 数据标注 数 据 处 理 数据存储/数据挖掘 算法 监督式学习 深度学习 机 器 学 习 算 法 早期算法 计算机视觉 图像识别 人脸识别 视 觉 识 别 视频识别 语音识别 声音识别 声纹识别 语 音 合 成 语音交互 自然语义处理 信息理解 文字校对 机 器 翻 译 自然语言生成 AI+汽车AI+金融AI+安防 5 人

5、工智能基础数据服务行业观察 一、人工智能基础数据服务的概念及应用场景分析 2.2.人工智能基础数据服务具体应用场景分析人工智能基础数据服务具体应用场景分析 人工智能基础数据服务主要为数据采集和数据标注两大类服务。在具体应 用场景下,数据采集及数据标注服务均可根据计算机视觉、语音识别、自然语 言处理三大类进行划分。 在数据采集数据采集层面,计算机视觉类别包含图像抓取、图像采集、人像采集、 视频采集、自动驾驶道路采集等。语言识别包含唤醒词采集、ASR语音采集、 TTS语音采集等。自然语言处理主要包含网页抓取、常用对话信息采集等。 在数据标注数据标注层面,计算机视觉类别包含了图像语义切割、图片分类、

6、图片 框选、人脸骨骼打点、3D点云、2D3D融合标注、连续帧标注、视频分类、视 频内容提取等。语音识别类别包含了语音清洗、语音转写、语音切分、因素标 注等。自然语言处理类别包含了文本清洗、文本分类、文本富集、OCR转写、 情感标注、NLP标注等。 人工智能基础数据服务 数据标注数据采集 图像抓取 图像采集 人像采集 图像语义 分割 人脸骨骼 打点 图片分类 计算机 视觉 唤醒词 采集 ASR语音 采集 TTS语音 采集 语音清洗 语音转写 语音切分 语音 识别 网页抓取 常用对话 信息采集 文本清洗 文本分类 NLP标注 自然语 言处理 6 人工智能基础数据服务行业观察 图像标注案例 图像语义

7、分割案例 图像分割前图像分割后 脸部标注效果车辆行人标注效果 7 人工智能基础数据服务行业观察 一、人工智能基础数据服务的概念及应用场景分析 3.3.非结构化数据应用价值挖掘派生数据采标需求非结构化数据应用价值挖掘派生数据采标需求 信息化时代,数据作为一种新的生产要素发挥着越来越重要的作用。PC、 移动互联网的发展,带动了数据量呈指数式增长。根据IDC统计,全球每年生产 的数据量从2016年的16.1ZB猛增至2025年的163ZB,其中80%至90%是非结构 化数据。所谓非结构化数据是指不能通过二维表结构进行逻辑表达呈现的数据 类型,如图片、语音、影像等这类数据。而非结构化数据不能通过计算机

8、进行 分析处理,要挖掘这部分数据的应用价值需要借助人工智能的方式,最原始的 非结构化数据只有经过标注转化成AI能够识别的规则,进而才能够通过人工智 能深化具体的产业应用,最大化数据的应用价值。 非结构化数据 数据采标处理 模型训练 提升算法精度 场景应用 人 脸 识 别 自 动 驾 驶 语 音 交 互 机 器 翻 译 其 他 应 用 数据来源:IDC,金柚网研究院 8 “如果说人工智能是数字化发 展的引擎,那么基础数据采标服务 便是驱动引擎的燃料。” 9 人工智能基础数据服务行业观察 二、人工智能基础数据服务行业发展现状 1.1.人工智能基础数据服务行业发展阶段人工智能基础数据服务行业发展阶段

9、 基础数据服务行业可结合人工智能的发展,划分为三个阶段。 在早期阶段在早期阶段,基础数据服务行业伴随着国内人工智能热潮逐渐萌芽。2016 年,由谷歌研发的阿尔法围棋(AlphaGo)以4比1总分战胜围棋职业九段棋手 李世石,人工智能一度成为热点,不断受到资本的亲睐。拿到融资的AI公司为 了提高算法的精度需采标大量数据对AI进行训练,数据采标的需求空前爆发, 催生了基础数据服务行业早期萌芽。 在中期阶段,在中期阶段,基础数据服务行业伴随着人工智能技术逐渐落地应用,行业 格局逐渐清晰。根据甲子光年统计,当前我国AI企业主要集中在A轮融资阶段, 占比达76%,部分发展较成熟的细分领域已经出现上市企业

10、。人工智能行业正 在逐渐过渡至中期发展阶段,而我国人工智能基础数据服务行业亦随之逐渐向 中期阶段过渡。在汽车领域,百度已发布“阿波罗自动驾驶技术”,与此同时 百度亦创立了旗下基础数据服务商“百度数据众包”。 在后期阶段在后期阶段,传统的手工标注效率将无法满足AI技术发展需求,大量的AI 预标注技术将投入应用,人工智能替代手工标注的现象将越来越明显,基础数 据服务商将通过预标注技术及垂直化服务能力构建行业竞争壁垒。 数据来源:艾瑞咨询,甲子光年,金柚网研究院 早期阶段中期阶段后期阶段 行业鱼龙混杂行业格局逐渐清晰预标注技术替代手工 人工智能概念爆发, 催生基础数据服务行基础数据服务行 业萌芽业萌

11、芽 大量AI公司从研发逐渐过渡 到应用落地阶段,A对数据 采标的精度及维度要求越来精度及维度要求越来 越高,小型服务商被淘汰越高,小型服务商被淘汰 人工标注数据效率不能 完全满足AI技术发展需 求,AIAI预标注替代人工预标注替代人工 的现象越来越明显的现象越来越明显 10 人工智能基础数据服务行业观察 二、基础数据服务行业发展现状 2.2.人工智能基础数据服务行业规模及细分市场结构人工智能基础数据服务行业规模及细分市场结构 基础数据服务行业可拆分成三大细分市场:数据资源定制服务、数据集产 品、其他数据资源应用服务。根据艾瑞咨询数据统计,2019年中国基础数据服 务行业市场规模约为30.9亿元

12、,其中数据定制服务占比为86.2%,数据集产品 占比为12.9%,其他数据资源应用服务占比为0.9%。而数据资源定制服务中, 图像类数据需求占比最高,达49.70%。 数据来源:艾瑞咨询,金柚网研究院 25.9 30.9 36.3 42.8 50.7 61.4 76.7 101.1 0% 5% 10% 15% 20% 25% 30% 35% 0 20 40 60 80 100 120 201820192020E2021E2022E2023E2024E2025E 20182018年年-2025-2025年人工智能基础数据服务行业市场规模年人工智能基础数据服务行业市场规模 AI基础数据服务市场规模

13、(亿元)行业增速 20192019年中国年中国AIAI基础数据服务行业细分市场结构基础数据服务行业细分市场结构 11 人工智能基础数据服务行业观察 二、基础数据服务行业发展现状 3.3.人工智能基础数据服务行业产业链概况人工智能基础数据服务行业产业链概况 人工智能基础数据服务的需求发起者主要为科技公司、行业企业、AI公 司、科研单位。此四类需求公司处在产业链下游,而基础数据服务商处在产 业链中游。上游则主要是数据生产者及产能资源,其中产能资源主要为劳动 力资源(标注员及审核员等),由个人及人力资源外包商提供。 上游:数据生产者及产能资源 数据生产者 个人用户 企事业单位 政府机构 产能资源提供

14、给者 人力资源外包商 个人 中游:数据产品开发工具与服务管理 AI中台 百度云 阿里云 AI基础数据服务商 百度数据众包 京东众智 腾讯云 星尘数据 Speech Ocean 下游:AI算法研发 科技公司 百度 阿里 行业企业 海康威视 上汽集团 AI公司 商汤科技 科大讯飞 科研单位 清华大学 北京大学 12 人工智能基础数据服务行业观察 二、基础数据服务行业发展现状 4.4.以中小型数据供应商为主的行业供给格局现状以中小型数据供应商为主的行业供给格局现状 基础数据服务行业的供给方主要有三类:中小型供应商、品牌数据服务公 司、需求方的自建团队。2019年中小型供应商占供给份额的47%,品牌数

15、据服 务公司占供给份额的30.4%,需求方自建团队占供给份额的22.6%,中小型数中小型数 据供应商是当前基础数据服务行业的主要供给商据供应商是当前基础数据服务行业的主要供给商。根据艾瑞咨询报告,2019年 中国AI基础数据服务行业营收前五家企业集中度为26%,其中百度智能云数据 众包占比9%,其他四大头部企业占比17%,而其他企业占比74%。行业仍处于行业仍处于 市场集中度较低的竞争阶段,中小型企业占比较大。市场集中度较低的竞争阶段,中小型企业占比较大。 9% 17% 74% 20192019年人工智能基础数据服务市场年人工智能基础数据服务市场CR5CR5占比占比26%26% 百度智能云数据

16、众包其他四大头部企业其他企业 47.00% 30.40% 22.60% 20192019年中国年中国AIAI基础数据服务行业供给格局基础数据服务行业供给格局 中小型数据供应商份额品牌数据服务公司份额需求方自建团队 数据来源:艾瑞咨询,金柚网研究院 13 人工智能基础数据服务行业观察 二、基础数据服务行业发展现状 5.5.各地开展基础数据服务项目寻求人工智能行业发展突破口各地开展基础数据服务项目寻求人工智能行业发展突破口 人工智能是国家重点发展的战略行业之一,多次出现在政府工作报告中。 2020年,在新基建政策鼓励下,人工智能行业得到空前重视。作为人工智能行作为人工智能行 业发展必不可少的一环,

17、基础数据服务成为各地方政府推动业发展必不可少的一环,基础数据服务成为各地方政府推动AIAI产业发展的突破产业发展的突破 口,贵州、山西、苏州等地区纷纷开展人工智能基础数据服务产业项目。口,贵州、山西、苏州等地区纷纷开展人工智能基础数据服务产业项目。例如 贵州建设的惠水白鸟河数字小镇,园区自营超过1500+席位的数据工场,提供 了数以万次的数据采标服务。又如百度(山西)人工智能数据产业项目,百度 在园区内雇用了2500名专业标注员和审计员(预计2025年扩张至5万名),基 地业务覆盖了无人车、语言、人脸、图像、NLP等数据类型的数据采标及处理 加工服务。 国家政策对人工智能行业的重视,引导各地区

18、政府主动开展基础数据服务 项目的规划建设,一方面给当地人工智能行业发展带来了新的机遇,另一方面 给当地带来了新型就业岗位需求,缓解了部分就业压力。 项目案例2:贵州惠水白鸟河数字小镇 u园区自营超过1500+席位的数据工场 u提供数以万计的数据采标服务 项目案例3:百度(山西)人工智能园区 u2500名(预计2025年扩展至5万名)数 据标注员及审计员 u近1万平方米的办公场地 项目案例1:苏州人工智能产业园区 u苏州市政府推出“千人计划”吸引 专业人才 u已形成产值约350亿规模,估值超 千亿规模 14 “国家政策支持、行业集中 度低、中小型数据服务商占据主 导是当前基础数据服务行业的现 状

19、。” 15 人工智能基础数据服务行业观察 三、未来趋势及机遇分析 1.1.基础数据服务需求将向垂直化方向过渡基础数据服务需求将向垂直化方向过渡 人工智能技术是基础数据服务行业的需求主体,而AI自身发展需要经历三 个阶段:研发、训练及应用,不同阶段下对应了不同的基础数据服务需求。 研发阶段研发阶段主要是在AI技术开发过程早期阶段产生的数据需求,该阶段对于 数据采集需求较大,对于数据质量要求相对较低。训练阶段训练阶段主要是将已标数 据应用于AI算法的训练,以提升算法准确率为目的,对于数据标注需求较大, 同时随着训练强调和要求不断提升,对于数据采标的精准度要求也在不断提 高。应用阶段应用阶段主要是在

20、AI技术的成熟阶段下,其涉及的采标数据需要更贴近具 体业务场景,而基础数据服务商往往需要结合企业具体业务来提供垂直化数 据服务。 从人工智能技术角度看,落地应用是发展主要方向,而基础数据服务需 求亦将随之过渡到垂直化的数据服务。 研发阶段 以数据采集数据采集需求 为主 主要应用于AI的 早期开发测试早期开发测试 对于数据质量要质量要 求相对较低求相对较低 训练阶段 以数据标注数据标注需求 为主 主要应用于AI的 中期训练中期训练 对于数据质量要质量要 求相对较高求相对较高 应用阶段 以垂直化的垂直化的需求 为主 主要应用于AI的 业务应用落地业务应用落地 对于数据的专业专业 性要求较高性要求较

21、高 基础数据服务需求随着AI技术发展逐渐向垂直化方向过渡 16 人工智能基础数据服务行业观察 22.50% 美国美国 49.70% 中国中国 三、未来趋势及机遇分析 2.2.对标美国成熟市场,我国市场需求或逐步向自然语言类需求渗透对标美国成熟市场,我国市场需求或逐步向自然语言类需求渗透 我国2019年AI基础数据服务行业市场规模的细分市场需求占比中,图像类 数据需求占比49.7%,语音类数据需求占比39.1%,自然语言类(NLP)数据需 求占比11.2%,图像类数据需求占细分市场主导。而AI技术发展相对较成熟的 美国市场则以自然语言处理需求为主,图像类数据需求仅占22.5%,两国AI在 不同发

22、展阶段下形成了明显的基础数据服务需求差异。 中美两国中美两国AIAI基础数据服务行业各类型数据占比基础数据服务行业各类型数据占比 图像类数据需求 语音类数据需求 自然语言类数据需求 机器学习类数据需求 2019年美国人工智能市场规模约770亿元,而同期中国人工智能市场规模 仅570亿元,美国市场领先于中国。根据美国Fortune Business Insights研究报 告显示,由于自然语言应用范围更广,涉及如机器翻译、文本解析、语义歧义 消除、语言处理和信息检索等多个领域,美国AI基础数据服务行业已转向以自 然语言类需求为主。而图像类服务采标技术相对成熟,且人工智能行业已转向 更成熟的业务场

23、景应用需求,如自动驾驶等,图像类服务需求在向精细化方向 发展。结合美国基础数据服务市场以及人工智能发展趋势看,国内AI基础数据 服务需求或也将逐渐向自然语言类采标需求渗透。 数据来源:Fortune Business Insights,金柚网研究院 17 人工智能基础数据服务行业观察 三、未来趋势及机遇分析 3.3.品牌数据服务商或将主导行业格局品牌数据服务商或将主导行业格局 我国当前AI基础数据服务行业的供给方主要包括品牌数据服务公司、需求 方自建团队、中小型数据供应商。 品牌数据服务商在品牌效应、团队建设、资质、专业服务能力等方面更具 优势。以当前基础数据服务行业龙头“百度数据众包”为例:

24、客户需求层面, 百度拥有自主研发的“阿波罗”自动驾驶项目,既扮演了基础数据服务的提供 者角色,又充当了基础数据服务的需求者。自身团队建设层面,百度数据众包 在山西组建了“人工智能数据产业基地”,标注团队规模已达2500名。品牌效 应层面,百度作为国内四大互联公司之一,拥有更强的品牌竞争力。因此,当当 AIAI公司需求产生变化时,品牌数据服务商更具主动性,抢占更多市场份额。公司需求产生变化时,品牌数据服务商更具主动性,抢占更多市场份额。 需求方自建团队主要存在于大型科技公司。在行业发展初期,基础数据服 务产业链体系尚未完备。而科技公司对于AI技术发展要求较高,不得不通过自 建团队方式来满足AI技

25、术发展需求。随着行业人工智能行业分工及格局逐渐清 晰,需求方自建团队或逐渐发展成“基础数据服务商”,或最终退出市场。 中小型数据服务商是当前我国基础数据服务行业的主要供给者,主要由于 行业目前对于劳动力存在密集型需求,而中小型服务商通常以人力输送和项目 转包等服务形式会持续存在,因而短期内中小型数据供应商仍会占有一定的市 场份额。但由于中小型数据服务商缺乏核心竞争力,大部分玩家无法触及行业 的“利润中心”,因此当行业的“劳动力密集型需求红利”逐渐消逝时,中小 型数据服务商可能会被品牌数据服务商淘汰。 采标难度较低 行业“鱼龙混杂” 中小型数据服务商占 主导 市场早期阶段市场早期阶段市场成熟阶段

26、市场成熟阶段 采标难度大幅提升 行业格局清晰分工明确 品牌数据服务商占 主导 18 人工智能基础数据服务行业观察 4.4.人机协作或为行业发展趋势人机协作或为行业发展趋势 当前阶段下,我国基础数据服务行业主要以人工方式完成大部分服务流程, 但AI技术正在不断反哺行业,AI协助人工采标将成为行业发展趋势。 数据采标服务流程主要包括方案验证、正式采标、数据质检、数据交付四个 步骤。在方案验证及数据交付环节,由于客户需求差异明显,仍以人工为主要方 式。而在正式采标及数据质检环节可应用正式采标及数据质检环节可应用AIAI预标质检技术,进行人机协作,可实预标质检技术,进行人机协作,可实 现大幅降低人工采

27、标难度,提升服务效率的目的。现大幅降低人工采标难度,提升服务效率的目的。 在正式的采标环节,采标员需要对图像数据中每一个目标元素进行拉框或标 点,目标边界需勾描得十分精准。在进行语音标注时,采标员需要聆听每一个词 语的发音,判断并转写其语义,对于采标员在长时间多任务下的专注力有着极高 要求。在此环节应用人工智能可以对图像数据进行场景分割、人脸和物体识别,在此环节应用人工智能可以对图像数据进行场景分割、人脸和物体识别, 对语音数据进行语音识别、文字转写和自然语言理解预处理操作。对语音数据进行语音识别、文字转写和自然语言理解预处理操作。AIAI自动完成标自动完成标 注后,再由人工进行二次校对,不仅

28、降低了标注难度还增加了生产力。注后,再由人工进行二次校对,不仅降低了标注难度还增加了生产力。在数据质 检环节,无论是图像或是语音数据等都会出现一定量的重复样本和不合格样本, 人工抽检是当前阶段普遍的校检方式,但由于人工在准确率、成本把控和时效性 方面都有较大不足,而通过使用计算机视觉和语音识别技术对采集到的样本进行而通过使用计算机视觉和语音识别技术对采集到的样本进行 初步识别,可以在短时间内达到初步识别,可以在短时间内达到90%90%以上的校验正确率,实现比人工更高的工作以上的校验正确率,实现比人工更高的工作 效率。效率。 三、未来趋势及机遇分析 采标及质检环节应用采标及质检环节应用AIAI技术可大幅提升服务效率技术可大幅提升服务效率 方案验证方案验证正式采标正式采标数据质检数据质检数据交付数据交付 专业人士进 行需求分解 方案设计 AI预采标 协助人工 操作 AI识别技 术协助人 工质检 客户自主 选择交付 方式 19 “应用场景垂直化、采标需求 复杂化、市场格局集中化、服务流 程智能化将是未来人工智能基础数 据服务行业的发展方向。”

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(金柚网:人工智能基础数据服务行业观察(19页).pdf)为本站 (风亭) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部