2019年从视觉感知智能到视觉认知智能.pdf

编号：97553

PDF 41页 5.42MB 下载积分：VIP专享

下载报告请您先登录！

2019年从视觉感知智能到视觉认知智能.pdf

1、从视觉感知智能到视觉认知智能2019.10.31 成都2019年第七届输电技术年会提纲 OUTLINES1、人工智能产业生态2、视觉感知智能成为通用赋能工具与研究范式3、数据驱动的视觉感知智能面临的主要挑战4、探索结合数据与知识驱动的视觉认知智能提纲 OUTLINES1、人工智能产业生态2、视觉感知智能成为通用赋能工具与研究范式3、数据驱动的视觉感知智能面临的主要挑战4、探索结合数据与知识驱动的视觉认知智能涉及四个维度：大数据，大计算，算法和应用场景1、人工智能产业生态上游/基础层：大数据，AI芯片，AI基础算法，开源代码框架，AI基础设施（云-边-端，5G等）中游/技术层：视觉引擎，语音引擎

2、，知识引擎下游/应用层：AI+行业或行业+AI人工智能产业链划分：公开评测数据集：视觉物体检测、识别与分割-ImageNet，MS COCO，PASCAL VOC-2007/VOC-2012，Caltech-101，Caltech-256，CIFAR-10，CIFAR-100，MNIST，US-PS，SVHN等；人脸识别人脸识别-LFW，PubFig，MTFL，Caltech人脸数据库，FDDB，CelebA，CK+，FER-2013，JAFFE等；交通标识识别交通标识识别-GTSRB，TRoM等-开放的大数据资源：公开评测数据集是完备大数据，算法性能仅反映了深度神经网络本身达到甚至超过人类水

3、平的感知能力1、人工智能产业生态产业上游：开放的大数据资源大数据：真实条件下有标签的巨量数据其重要性如同原油一样，巨头企业视之为AI时代的战略资源！-落地应用中，开放环境下不存在完备大数据。对大多数长尾应用场景，需要使用尽可能多的高质量大数据（数据“暴力”）。1、人工智能产业生态产业上游：专有的大数据资源-离线训练；-基于云平台的在线推断应用；-基于边缘平台的在线推断应用；-终端在线推断应用产业上游：AI加速芯片1、人工智能产业生态-计算能力的大幅度提升，有力地推动新一轮人工智能的发展。大数据深度学习直接得益于计算“暴力”。算法：深度监督学习（如深度卷积神经网络，LSTM)产业上游：AI基础算

4、法1、人工智能产业生态算法：深度强化学习算法：对抗性神经网络算法：图卷积神经网络，无监督学习深度学习的开源代码框架：-谷歌的TensorFlow；-Chollet的Keras；-Facebook的Pytorch；-微软的CNTK；-Amazon的MXNet；-加州伯克利的Caffe；-Bengio的Theano；-百度的PaddlePaddle；-华为的MindSpore产业上游：开源代码框架1、人工智能产业生态产业中游：视觉、语音、知识引擎/OS+1、人工智能产业生态平台核心技术渗透更多垂直应用领域：智能制造，智能安防，智能交通，智能物流，智能金融，智能医疗，智能教育，智能写作，无人零

5、售，智能家居，智能司法，智能农业，智慧城市，智能政务，智能流程自动化/RPA,5G，产业物联网，产业互联网，自动驾驶，智能机器人，无人自主系统，生命科学，AI产业生态：应用场景产业下游：AI+1、人工智能产业生态提纲 OUTLINES1、人工智能产业生态2、视觉感知智能成为通用赋能工具与研究范式3、数据驱动的视觉感知智能面临的主要挑战4、探索结合数据与知识驱动的视觉认知智能Deep Learning=Learning Hierachical Feature Representation自2013以来，大数据和大计算驱动的深度学习已成为计算机视觉、语音识别与合成、自然语言处理、大数据分析等的主流

6、方法以深度卷积神经网络为基础的新一代人工智能，确实带来了更加接近于人类的视听觉感知能力，带来了超越人类的棋类动态博弈能力传统方法深度学习方法2、视觉感知智能成为通用赋能工具与研究范式数据驱动方法已被视为继实验科学、理论模型、模拟仿真之后的第四科学研究范式！如同网络技术，已逐渐变革为一种通用赋能工具虽来源于计算机科学与技术，目前却已远远超越计算机科学与技虽来源于计算机科学与技术，目前却已远远超越计算机科学与技术的范畴术的范畴2、视觉感知智能成为通用赋能工具与研究范式数据智能成为一种有别于动物与人类感知智能的新物种！对特定细分问题，大计算、大数据驱动的数据智能，具有接近乃至超过动物与人类视听觉等感

7、知智能的能力人类以“举一反三”的小样本学习方式，获得视听觉等感知能力但数据智能只有直觉的感知能力，却没有任何的认知能力但数据智能只有直觉的感知能力，却没有任何的认知能力2、视觉感知智能成为通用赋能工具与研究范式深度卷积神经网络：大数据感知智能取得突破性进展获得更加接近于人类水平的视听觉感知能力和自然语言处理能力，赋能产品、流程与服务体验，引发技术与产业变革超人类水平的AlphaGo：引起社会的强烈关注深度强化学习+蒙特卡洛树搜索：开启了认知智能探索的曙光特别是AlphaZero，带来了无需大数据且可自主进行学习的棋类通用人工智能AlphaZero:科学封面论文362（6419），），07 De

8、c 2018超真实感的图像、语音与3D物体合成；应用于自然语言处理（对话系统、机器翻译等）对抗性神经网络：2018年全球十大突破性技术之一！-MIT技术评论对抗性神经网络的进展带来了超真实感的想象能力两个卷积神经网络通过相互对抗来生成超分辨率真实感的原创图像、声音、3D物体或自然时序数据，这给AI 带来一种类似于人类的想象力深度监督学习：目标检测、定位与像素级分割问题语义分割、实例分割和全景分割包络盒定位场景分割&目标检测与识别基于深度神经网络的表情、手势、动作识别与行为意图预测基于深度学习视觉的运动学参数估计与行为意图预测基于深度学习视觉的运动学参数估计与行为意图预测动作与行为意图的检测与

9、识别AI创新实践与落地应用：AI赋能刷脸支付；无人零售；智能摄像头；智能音箱；视频换脸/虚拟主持人；智能速记；实时翻译耳机；手持翻译机；语音助手；电话客服；医学影像诊断；智能物联网等使用了英特尔的使用了英特尔的MovidiusMovidiusMyriad 2 VPUMyriad 2 VPU谷歌已于2018年12月5日正式推出新的商业自动叫车运营品牌Waymo One，在凤凰城地区开启全球首个付费自动驾驶出租车小规模商业化服务预计凤凰城地区使用 Waymo APP 叫车服务的用户，很快就可以体验到完全无人的Waymo One付费RoboTaxi共享出行服务，从而迈出历史性的一步AI创新实践与落地

10、应用：AI赋能自动驾驶/环境感知与建模、自主导航、决策规划、控制与自然人机交互谷歌已于2018年12月5日正式推出新的商业自动叫车运营品牌Waymo One，在凤凰城地区开启全球首个付费自动驾驶出租车小规模商业化服务预计凤凰城地区使用 Waymo APP 叫车服务的用户，很快就可以体验到完全无人的Waymo One付费RoboTaxi共享出行服务，从而迈出历史性的一步AI创新实践与落地应用：AI赋能自动驾驶/环境感知与建模、自主导航、决策规划、控制与自然人机交互AI创新实践与落地应用：AI赋能智能机器人技术与产业模拟人的臂/手：机械臂/灵巧手模拟人的腿/足：双足或轮式机器人模拟人的大脑：人工智

11、能（感知、认知）(本体+驱动+控制+传感）+人工智能Boston Dynamics：移动机构的典范提纲 OUTLINES1、人工智能产业生态2、视觉感知智能成为通用赋能工具与研究范式3、数据驱动的视觉感知智能面临的主要挑战4、探索结合数据与知识驱动的视觉认知智能相对于传统的计算机视觉方法，在大计算能力的支撑下，基于数据驱动的深度学习方法带来场景、目标、行为与事件等的检测、定位、分割、跟踪与识别能力的大幅度跃升，对许多应用场景，已变得基本可用！传统方法深度学习方法给定像素级分类标签3、数据驱动的视觉感知智能面临的主要挑战大数据燃料：喂食越多，越能获得更好的感知直觉AI创新实践与落地应用面临的挑战

12、：落地应用中，对“数据暴力”或对高质量标签大数据的需求几乎是无止境。标签的高质量：多高水平的人工就有多高水平的人工智能标签的规模：多少人工就有多少人工智能长尾应用场景：利用AutoML长尾效应（“行百里者半九十”）AI创新实践与落地应用面临的挑战：落地应用中，对高性价比与高效能比计算“暴力”的需求也几乎是无止境的。人工智能的高速发展，也反过来推动了计算能力的飞跃。AI创新实践与落地应用面临的挑战：细分迭代，是“智能+”落地的关键与惟一途径。应用场景的细分：专注于细分场景的大数据实践，有定力和有耐性地积累海量的标签大数据实践过程的迭代：应用实践中不断进行数据、性能和体验的迭代学习给企业和社会创

13、造价值！视觉感知智能视频图像汽车、行人、交通灯、交通牌、天空、建筑物、树、广告牌但相对于人类的视觉能力，这种视觉感知智能方法缺乏对实例内涵与外延的抽象与延伸，缺乏对不同概念之间关系的理解，缺乏基于知识的推理及对常识、经验的利用等，已成为人工智能提升用户体验，真正实现应用落地的关键！缺乏视觉认知智能！3、数据驱动的视觉感知智能面临的主要挑战数据驱动的视觉感知智能：目标检测、定位与像素级分割算法像素级分类标签如何理解？只有分类类别，没有概念之内涵与外延的抽象与延伸镜头盖算盘毛毛虫母鸡老虎鹦鹉螺磁带录放机天文馆数据驱动的视觉感知智能：识别/分类算法分类标签如何理解？只有分类类别，没有概念之内涵与外延

14、的抽象与延伸利用区域-全卷积神经网络，基于图像样本中每一个像素的分类标签进行监督学习，完成像素级别的场景分类场景分割与解析像素级分类标签如何对不同概念之间关系进行理解？KITTI：基于DFFA(2017)的可行驶路面与车道线检测基于区域-卷积神经网络的实例分割目标检测、分割与识别像素级分类标签如何进行基于知识的推理？K.Eykholt,I.Evtimov,E.Fernandes,B.Li,A.Rahmati，C.Xiao,A.Prakash,T.Kohno,and D.Song.Robust Physical-World Attacks on Deep Learning Visual Cl

15、assification,CVPR-2018.目标检测、分割与识别增加对抗样本如何利用常识、经验、技巧？缺乏可信性、安全性、可靠性、可解释性与鲁棒性！例如，对对抗性干扰样本，识别性能甚至会下降90%，甚至完全识别错误错误分类1）缺乏认知水平的理解能力；2）缺乏知识推理能力；3）缺乏记忆、常识、经验、技巧与知识学习能力；4）缺乏举一反三的小样本学习能力；5）缺乏可解释性以及高层规划、决策与组织能力归结：急需发展下一代结合知识驱动的视觉认知智能方法！小结：怎么理解？怎么举一反三？利用常识、经验？3、数据驱动的视觉感知智能面临的主要挑战提纲 OUTLINES1、人工智能产业生态2、视觉感知智能成为通

16、用赋能工具与研究范式3、数据驱动的视觉感知智能面临的主要挑战4、探索结合数据与知识驱动的视觉认知智能从计算机视觉到视觉智能（CV VI）视觉智能（Visual AI）：视觉感知智能+视觉认知智能Visual Perception AI+Visual Cognition AI4、探索结合数据与知识驱动的视觉认知智能结语：人工智能的全球产业生态正在快速形成之中，涉及资源开放、数据开放、芯片研发等；大数据深度学习主导的新一代人工智能已成为技术与产业的通用赋能工具和科学研究的第四范式，正在变革技术，赋能产品，渗透产业，重塑社会，促进传统产业的升级换代，加速智能经济和智能社会的发展；较之传统的计算机视觉技术，在大数据与大计算能力的支撑下，由深度学习算法获得的视觉感知能力，从检测、分割与识别的角度来看，已更加接近于人类的水平;但上述视觉感知智能需要数据“暴力”和计算“暴力”，不仅缺乏认知水平的理解能力和知识推理能力，而且缺乏对记忆、常识、经验与技巧的有效利用以及对知识的学习能力，同时也缺乏举一反三的小样本学习能力，因而也就无法获得如同人类一样可信、安全和可靠的直觉与知觉能力；总之，亟需将数据驱动与知识驱动方法相结合，探索具有理解与知识推理等能力的新一代视觉认知智能理论与方法，从源头上推动人工智能产业的大发展。谢谢！谢谢！

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2019年从视觉感知智能到视觉认知智能.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。