《9-1 浅谈以数据为中心的人工智能.pdf》由会员分享,可在线阅读,更多相关《9-1 浅谈以数据为中心的人工智能.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、浅谈以数据为中心的人工智能全球领先的AI数据解决方案提供商Global Artificial Intelligence Data Solutions Provider张晴晴Magic Data 创始人兼CEO Data-Centric MLOps 引领者张晴晴曾任中国科学院声学研究所副研究员,从事大词汇连续语音识别的声学建模以及语言建模,巴黎法国国家实验室LIMSI-CNRS 语音交互处理博士后,从事大词汇连续语音识别的声学建模。2021年入选财富2021年中国最具影响力的商界女性未来榜,创业邦最值得关注的女性创业者。是CCF语音对话与听觉专委会、智能汽车分会、女计算机工作者委员会、标准工作委
2、员会的委员。曾获2014年度中科院杰出科技成就奖、科学技术厅科学技术进步奖一等奖和微软亚洲研究院“微软学者”奖学金。2分享嘉宾2以数据为中心的 AI1公司介绍3Data-Centric MLOps 介绍4汽车行业应用实践3算法:智能数据:战略资源计算力:基础设施4AI 技术的三驾马车公司成立5年以来,供应商300+家,已服务全球200+个客户覆盖智能汽车、金融、社交、家居和终端等5大行业20182018成 长 期成 长 期20192019飞 速 发 展飞 速 发 展20202020飞 速 发 展飞 速 发 展20212021飞速发展飞速发展20162016起 步 阶 段起 步 阶 段20172
3、017成 长 期成 长 期公司成立公司成立并参与并参与国国标委“中文标委“中文语音识别系语音识别系统评测规范”统评测规范”优秀供应商5公司介绍人工智能模型及数据相关领域深耕十余年北京科技大学-应用数学 硕士财务与法务合规负责人前毕马威合伙人中科院声学所博士,曾任副研究员法国国家实验室CNRS博士后财富2021年中国最具影响力商界女性(未来榜)创业邦2021年最值得关注的女性创业者中国科学院杰出科技成就奖科学技术厅科学技术进步奖一等奖CCF语音对话与听觉专委会委员/CCF智能汽车分会执行委员CCF女计算机工作者委员会委员/CCF标准工作委员会委员张晴晴创始人 兼 CEO前华为资深总监-销售、生态
4、、公共关系哈佛商学院企业高管培训南安普敦大学无线通信硕士张涛合伙人、销售VPKenneth PangCFO 兼 法务罗磊数据科学家6公司高管团队智能社交智能终端智能家居智慧出行智慧金融五大行业三大产品智能化标注平台智能化标注平台个人个人/团队团队/企业版企业版对话式对话式AIAI训练数据集训练数据集数据采集标注服务数据采集标注服务7Magic Data 三大产品覆盖五大行业互联网互联网智慧出行智慧出行智能家居智能家居智能终端智能终端海外海外智能社交智能社交智慧金融智慧金融MDMD数据集数据集AnnotatorAnnotator智能化标注平台智能化标注平台数据服务数据服务三大产品为近200家互联
5、网及行业客户提供AI数据解决方案入选IDC报告:人工智能基础服务报告入选艾瑞咨询6大报告:2021年人工智能基础层行业发展研究报告2021年中国对话机器人chatbot行业发展研究报告2021年中国面向人工智能的数据治理研究报告2021年中国人工智能产业报告2021年中国企业服务研究报告 基础侧:云数智物赋能-AI基础技术厂商中国面向人工智能的数据治理行业研究报告2021人工智能最具价值创业公司TOP202021中国产业数字化服务商TOP40、2021中国AI企业商业落地规模潜力TOP100甲子202021最具商业潜力的20家数据智能Cool Vendor2021数字化服务创新潜力企业AI中国
6、2021年度AI趋势重塑先锋奖Annotator 智能化标注平台 获2021最佳AI基础设施平台、2021企业数字化转型最佳产品奖9Magic Data及其产品获得市场认可荣获众多奖项,是您可以信赖的伙伴北京市“专精特新”小巨人企业国家高新技术企业中关村高新技术企业中国计算机学会会员单位中国人工智能学会会员单位人工智能产业发展联盟AIIA会员单位ISO/IEC 27701/27001 标准认证CMMI-3 认证拥有20项专利申请48个软件著作权授权北京市“专精特新”小巨人企业国家高新技术企业中关村高新技术企业ISO/IEC 27701:2019标准认证CMMI-3 认证ISO/IEC 2700
7、1:2013标准认证102以数据为中心的 AI1公司介绍3Data-Centric MLOps 介绍4汽车行业应用实践11以数据为中心的AI:关心如何系统性的迭代数据输入和数据标签来提高效能VS以模型为中心的AI:关心如何迭代模型代码来提高效能新趋势经典路线以数据为中心的 AI AI新趋势Source:A Chat with Andrew on MLOps:From Model-centric to Data-centric AI,Link:https:/ 系统=代码+数据(模型/算法)数据是AI的“原油”80%20%准备工作行动寻找数据源&高质量地准备数据模型训练数据是关键Source:A
8、Chat with Andrew on MLOps:From Model-centric to Data-centric AI,Link:https:/ etc.)工具(标注平台)通用性 适用于多种AI模型种类数据需求从量到质的转变关键点优质的数据AI需要优质的数据MLOps 是实现“以数据为中心的AI”高效系统的方法论Source:A Chat with Andrew on MLOps:From Model-centric to Data-centric AI,Link:https:/ AI3Data-Centric MLOps 介绍4汽车行业应用实践15MachineLearningDev
9、OpsMD共建生态 多方共赢行业Know-How数据 Know-HowAI Know-How行业伙伴AI 算法伙伴MD卓越中心MD 成品数据集MD 智能标注平台MD 数据采标咨询服务Data-Centric MLOpsMLOps是实现“以数据为中心的AI”高效系统的方法论DataOps16达到生产标准?算法存在?场景定义场景内容、元素定义场景边界定义数据标注标注标准制定标注工具数据标注实施训练模型搭建AI模型架构算法选择否数据采集采集标准制定数据采集实施17Data-centric MLOps Workflow(with partners)达到生产标准?算法存在?数据标注数据采集MLOps 循
10、环(CI/CD)(价值创造传递)否优化模型参数优化数据优化是达到生产标准?是模型投产模型嵌入产品部署1公司简介2以数据为中心的 AI4汽车行业应用实践3Data-Centric MLOps 介绍18客户需求客户概况提高人机对话自然对话语音识别率;提高噪音环境下的人机对话识别率。客户痛点人机交互无法理解;噪音环境下无法听清。客户公司是专门从事语音识别软件、图像处理软件及输入法软件研发、销售的行业巨头;客户生态中包含微软等公司,诣在共同建立解决方案平台,指定行业标准;声音识别技术是客户核心技术之一,需要长期不断迭代优化。智能汽车行业案例:智能座舱(人机交互ASR)19达到生产标准?算法存在?场景定
11、义场景内容、元素定义场景边界定义数据标注标注标准制定标注工具数据标注实施训练模型搭建AI模型架构算法选择否数据采集采集标准制定数据采集实施MLOps 循环(CI/CD)(价值创造传递)否优化模型参数优化数据优化是是阶段性模型投产模型嵌入产品部署Data-Centric MLOps Life Cycle20数据采集采集命令控制数据在实车舱内环境下21数据采集22达到生产标准?算法存在?场景定义场景内容、元素定义场景边界定义数据标注标注标准制定标注工具数据标注实施训练模型搭建AI模型架构算法选择否数据采集采集标准制定数据采集实施MLOps 循环(CI/CD)(价值创造传递)否优化模型参数优化数据优
12、化是是阶段性模型投产模型嵌入产品部署Data-Centric MLOps Life Cycle23数据标注:语音标注-ASR24数据标注:语音标注-ASR数据标注:文本标注-意图槽位26数据标注:文本标注-意图槽位数据标注:图像标注-OMS28数据标注:图像标注-OMS达到生产标准?算法存在?场景定义场景内容、元素定义场景边界定义数据标注标注标准制定标注工具数据标注实施训练模型搭建AI模型架构算法选择否数据采集采集标准制定数据采集实施MLOps 循环(CI/CD)(价值创造传递)否优化模型参数优化数据优化是是阶段性模型投产模型嵌入产品部署Data-Centric MLOps Life Cycl
13、e30Annotator 智能标注平台提供API可对接外部预识别模型预识别模型拟合实验场景实现降本增效MD可以自主训练预识别模型,并且逐步迭代优化预识别模型Annotator 智能标注平台音频视频图像文本多模态MD生态伙伴提供模型MD自研模型其他第三方提供模型训练模型对接的三种模式Kaldi/PyTorch/TensorFlow/PaddlePaddleAPI31训练模型对接32测试识别正确率Magic DataMagic Data3000小时30000小时对话训练数据对话训练数据场景客服对话79%83%直播社交82%89%车载导航64%71%Magic Data R&D Center33数据
14、是关键 对比实验达到生产标准?算法存在?场景定义场景内容、元素定义场景边界定义数据标注标注标准制定标注工具数据标注实施训练模型搭建AI模型架构算法选择否数据采集采集标准制定数据采集实施MLOps 循环(CI/CD)(价值创造传递)否优化模型参数优化数据优化是是阶段性模型投产模型嵌入产品部署Data-Centric MLOps Life Cycle预识别34模型可用于预识别,使数据处理更高效模型可用于预识别,使数据处理更高效价值传递解决方案提供1万小时Magic Data的自然对话成品数据集;交付数据集经过Magic Data Annotator数据标注平台优化。对于自然风格的语音识别错误率下降30%;对于噪音环境下的人机交互识别错误率下降10%。智能汽车行业案例:智能座舱(人机交互ASR)37总结Data-Centric AI 相比于对模型的调优,强调对数据的管理1234AI 模型只有 在业务闭环中更新迭代,才可以获取持续性优化数据是解决 AI 的 难点和重点,目前算法工程师有 80%在解决数据问题Data-Centric MLOps 可以 降低机器学习技术门槛,帮助业务快速实现智能化38数据集(开源,第三方,自有)标注平台AI竞赛开发者交流社区Magichub 数据开源社区 汇聚全球 AI 开发者39