报告预览

AI全行业赋能系列深度研究之五：领军路径分歧更大的模型还是更低的成本？-211213（67页）.pdf

编号：57114

PDF 67页 3.54MB 下载积分：VIP专享

下载报告请您先登录！

AI全行业赋能系列深度研究之五：领军路径分歧更大的模型还是更低的成本？-211213（67页）.pdf

1、领军路径分歧：更大的模型还是更低的成本？ AI全行业赋能系列深度研究之五证券分析师：刘洋A0230513050006、洪依真A0230519060003、施鑫展 A0230519080002、周海晨A0230511040036 2021.12.13 2 结论结论以商汤、旷视为代表的AI明星在平台上有什么特别的布局？自研了深度学习训练、推理平台，大量算法积累，AIDC算力支持；商汤科技：SenseCore大模型+小模型，降低AI应用落地成本；旷视科技：Brain+平台支撑了跨行业AIoT解决方案。深度学习开源训练框架格局如何？国内AI公司自研深度学习框架有何种意义？ TensorFl

2、ow、PyTorch、MXNet、CNTK已可以满足工业界、学界的绝大部分要求；技术遗留问题：静态图、动态图技术方案都还有缺陷，有同时解决的可能性；国产平台由于技术遗留问题、国产化等适配性等原因可能仍有空间。为何AI大模型成为趋势？复现大模型的难度在哪里？以GPT为代表的大模型能大幅降低对数据量的需求，预训练大模型+细分场景微调，更适合长尾落地。但对存储、算力要求极高，普通机构难以复现。商汤、旷视在复现大模型上有算力、训练推理平台优势。对于必然的碎片化AI落地，不同公司路径差异在哪里？哪种路径可能胜出？更大的模型路径：较高软件占比，硬件外采；大规模参数的通用模型，极高的首次开发成

3、本；模型长尾投入理想状态接近0；适合额外硬件建设较少，下游需求标准化程度强，产业链已有分工度高的行业；更低的成本路径：自有生产线压缩硬件成本；小模型、小算力，较低的首次开发成本；中台复用等方式控制成本。适合已有硬件基础差，需求标准化程度低，产业链已有分工度低的行业。 PYmWjW9UnVbWxUwV9P9RbRtRrRpNpOkPpOsQfQrQnR7NrRwPwMnQmQMYqRrQ 3 两种路径更适合的场景两种路径更适合的场景 3 算法和平台能力全栈解决方案硬件物联软件方案需要额外的硬件建设少下游标准化程度高下游标准化程度低下游客户付费能力强

4、下游客户付费能力弱产业链分工程度高产业链分工程度低智慧城市/安防手机需要额外的硬件建设多工业智能化物流汽车医疗更低的成本更大的模型目录目录 1. AI产业链：从算力到应用 2. AI平台层：何种训练模型可以脱颖而出？ 3. AI大模型：为何更大的模型成为行业新趋势 4. AI明星：商汤、旷视自研平台亮点 5. AI碎片化问题：软件公司应对的两种路径熟优？ 4 5 1.1 AI1.1 AI行业产业链行业产业链工作流程视角工作流程视角设计、实现、运行：算法设计环节：机器视觉、语音识别、自然语音处理、知识图谱；算法实现环节：深度学习框架，训练、

5、推理部署，对模型的调参优化；算法运行环节：AI芯片和AIDC超算中心，提供硬件基础。图：算法实现工作流程资料来源：英伟达、英特尔、寒武纪官网，申万宏源研究 6 1.2 AI1.2 AI行业产业链行业产业链代表厂商代表厂商资料来源：艾瑞咨询中国人工智能产业研究报告（）2020，申万宏源研究图：AI行业更领域代表性公司 7 1.2 AI1.2 AI芯片：突破芯片：突破NvNv壁垒的三种可能性壁垒的三种可能性 AI芯片的整体性能=AI芯片硬件性能（AI芯片厂商算子库和工具链+深度学习框架支持） AI芯片公司需要做的软件生态壁垒产生的根源在于软硬件的高度耦合最大的工作量是对海量算子

6、和特定芯片的支持突破AI生态壁垒的三种可能机会从苹果MacOS X案例可以推测，当任何一家 AI芯片公司能够从英伟达手中逐渐拿走10%份额的时候，深度学习框架厂商也大概率会去逐渐投入为该厂商的AI芯片去做特定优化。 AI编译器的成熟芯片性能和英伟达相比具备明显优势等待英伟达失误 1 2 3 AI芯片公司所采取不同突围路线 AI芯片公司遇到了不同的瓶颈 AMD 华为寒武纪谷歌兼容CUDA的路线，借力英伟达生态在走英伟达的路线深度学习框架+AI芯片” 自研路线难点在于其更新迭代速度永远跟不上CUDA并且很难做到完全兼容华为：没有深度学习框架厂商主动支持，其自研的

7、MindSpore框架尚未解决TF/PyTorch面临的共同痛点谷歌：TPU本身性能还有进一步提升空间以及过于专用的问题芯片本身性能以及算子库丰富程度还有追赶空间，没有深度学习框架厂商基于芯片做特定优化解决算子自动开发优化的问题，以及将训练好的模型部署到各种AI芯片上的问题，从而实现AI软硬件的解耦 AI芯片整体的性能是由基础软件和芯片硬件本身共同决定的，虽然软件生态存在短板，但是如果硬件本身性能非常突出是有可能获得整体上的优势的类比PC时代AMD在英特尔两次犯错时分别获得了明显市占率提升的机会资料来源：艾瑞咨询中国人工智能产业研究报告（）2020，申万宏源研究 8 1

8、.2 AI1.2 AI平台层：巨头必争之地平台层：巨头必争之地平台层平台层 AI平台层：支撑AI大规模训练生产、部署的技术体系；包括训练框架、模型生产平台、推理部署框架、数据平台。训练、推理部署框架是核心：机器学习框架或深度学习框架：AI开发依赖的环境安装、部署、测试以及不断迭代改进准确性和性能调优，框架目的是为了简化、加速和优化这个过程。避免重复发明轮子，而专注于技术研究和产品创新。巨头竞争的核心点，各大厂建设算法模型数据库，将其封装为软件框架，为应用开发提供集成软件工具包，为上层应用开发提供了算法调用接口。资料来源：艾瑞咨询中国人工智能产业研究报告（）2020，申

9、万宏源研究 9 1.2 AI1.2 AI应用层：百花齐放，工程和变现能力为核心应用层：百花齐放，工程和变现能力为核心资料来源：艾瑞咨询中国人工智能产业研究报告（）2020，申万宏源研究 AI+安防、AI+金融是标配：智慧城市和安防仍然是AI机器视觉最成熟的落地场景；安防+金融合计收入在四小龙中占比都在50%以上。云从科技：继续探索AI在社区、政务、金融更深层次全栈应用。 AI+手机仍然是最理想的收费场景：虹软、商汤、旷视该业务毛利率可能都在80%以上，纯SDK收费，理想的场景；但规模后续增长有限 AI+汽车、 AI+教育、AI+零售可能为新的增长空间：商汤科技：AI

10、+汽车，探索机器视觉在L2+自动驾驶应用。旷视科技：探索AIoT在物流、智造等多行业的广泛应用 10 1.3 AI1.3 AI行业产业链行业产业链整体图谱整体图谱应用软件及应用软件及解决方案层解决方案层算法层算法层行业应用（安防、交通、智能制造、金融、医疗等）行业应用（安防、交通、智能制造、金融、医疗等）应用软件应用软件解决方案解决方案计算机视觉应用平台计算机视觉应用平台自然语言应用平台自然语言应用平台其他其他AIAI平台平台通通用用技技术术算法模型算法模型计算机视觉计算机视觉自然语言处理自然语言处理知识图谱知识图谱其他其他（智能语音、（智能语音、自动驾驶等

11、）自动驾驶等）图像分类图像分类目标检测目标检测目标追踪目标追踪图像分割图像分割文本分类文本分类信息抽取信息抽取情感分析情感分析机器翻译机器翻译知识表示知识表示知识抽取知识抽取知识存储知识存储知识问答知识问答平台层平台层数据平台数据平台训练框架训练框架推理部署框架推理部署框架模型生产平台模型生产平台采集采集标注标注生产生产存储存储 Tensor Tensor FlowFlow CaffeeCaffee PyTorcPyTorc h h MXNetMXNet Tensor Flow LiteTensor Flow LiteSense PPLSense PPL PaddlePad

12、dle- -MobileMobileCore MLCore ML AutoMLAutoML 分布式分布式 INT8INT8加加速技术速技术算力层算力层 AIDCAIDC超算中心超算中心服务器服务器移动终端设备移动终端设备AIAI传感器传感器 CPUCPUGPUGPUASICASICFPGAFPGA类脑芯片类脑芯片 CNTKCNTK PadlePadle PadlePadle 资料来源：艾瑞咨询中国人工智能产业研究报告（）2020，申万宏源研究目录目录 1. AI产业链：从算力到应用 2. AI平台层：何种训练模型可以脱颖而出？ 3. AI大模型：为何更大的模型成为行业新趋势 4. A

13、I明星：商汤、旷视自研平台亮点 5. AI碎片化问题：软件公司应对的两种路径熟优？ 11 12 2 2 本节结论：开源框架规模效应，国产平台仍有空间本节结论：开源框架规模效应，国产平台仍有空间四大顶级深度学习框架阵营可以满足绝大部分开发者要求 TensorFlow、PyTorch、MXNet、CNTK已可以满足工业界、学界的绝大部分要求。开源框架规模效应：维护力量、贡献人员决定了算法库扩展及时性、API水平，软件框架规模效应较强。目前深度学习框架发展趋势和遗留的技术问题发展趋势：增加对Python的支持、动态图应用；支持分布式和移动端运行平台；前端的编程接口更加灵活，训练速度不断提

14、高：对网络优化，减少训练耗时，提升底层计算硬件单元的计算能力；技术遗留问题：静态图、动态图技术方案都还有缺陷，有同时解决的可能性；在网络结构、设备兼容、性能与功耗均衡和各种自动化设计等有提升空间动态图：其核心特点是计算图的构建和计算同时发生（Define by run）。优点是调试方便，缺点是难以对整个计算图进行优化。PT 静态图：将计算图的构建和实际计算分开（Define and run）。优点是对全局的信息掌握更丰富，可以做的优化更多，缺点是无法实时观察中间结果。TF 国产平台由于技术遗留问题、国产化等适配性等原因可能仍有空间特定场景框架可能更优；开源平台可能工业包不共享的问题

15、；国产芯片和适配，中文环境的API 国内百度、华为、商汤、旷视在自研框架初期就考虑到训练速度要求提高带来的各种问题，同时适应国产服务器芯片等环境 2.1 AI2.1 AI平台：少量企业参与的平台：少量企业参与的AIAI高地之争高地之争 13 平台层：训练软件框架：实现深度学习训练算法的模块化封装。模型生产平台：实现模型的工业级生产。推理部署框架：实现模型生产完成后的工业级高效、自动的部署。数据平台：包括数据采集、数据标注、数据生产、数据存储等功能数据接入数据导入源数据数据预处理预处理数据数据标注/ 特征工程待训练数据模型训练 AI能力模型模型优化优化后模型迭代

16、训练算法封装 AI能力引擎 AI业务能力部署 AI能力服务模型迭代升级，实现数据闭环数据准备模型训练模型管理推理服务资料来源：旷视科技官网，申万宏源研究图：AI模型训练部署全流程示意图 2.2 2.2 训练框架：调节参数，生成参数训练框架：调节参数，生成参数 14 训练框架是AI的重要基石，也是AI发展战略的制高点当算法变成改造甚至颠覆软件行业的力量时，最后核心就是看这些AI的公司有没有平台化的能力，即“能够批量、高效、比竞争对手更及时地供应优质算法” 训练框架的功能 1、基于图（Graph）的张量计算引擎（基础的概率统计、线性代数的计算模块） 2、大量的外围库（训

17、练样本库、应用数据库、模型参数库、模型代码库） 3、大量的领域模型（以文字处理、语音识别、图像处理、目标识别等为主）表：深度学子超参数对模型的影响超参数如何影响模型容量原因注意事项学习率调至最优，提升有效容量过高或者过低的学习率，都会由于优化失败而导致降低模型有效容限学习率最优点，在训练的不同时间点都可能变化，所以需要一套有效的学习率衰减策略损失函数调至最优，提升有效容量损失函数超参数大部分情况都会可能影响优化，不合适的超参数会使即便是对目标优化非常合适的损失函数同样难以优化模型，降低模型有效容限。对于部分损失函数超参数其变化会对结果十分敏感，而有些则并不会太影响。在

18、调整时，建议参考论文的推荐值，并在该推荐值数量级上进行最大最小值调试该参数对结果的影响。批样本数量过大过小，容易降低有效容量大部分情况下，选择适合自身硬件容量的批样本数量，并不会对模型容限造成。在一些特殊的目标函数的设计中，如何选择样本是很可能影响到模型的有效容限的，例如度量学习（metric learning）中的N- pair loss。这类损失因为需要样本的多样性，可能会依赖于批样本数量。丢弃法比率降低会提升模型容量较少的丢弃参数意味着模型参数量的提升，参数间适应性提升，模型容量提升，但不一定能提升模型有效容限权重衰减系数调至最优，提升有效容量权重衰减可以有

19、效的起到限制参数变化的幅度，起到一定的正则作用优化器动量调至最优，可能提升有效容量动量参数通常用来加快训练，同时更容易跳出极值点，避免陷入局部最优解。模型深度同条件下，深度增加，模型容量提升同条件，下增加深度意味着模型具有更多的参数，更强的拟合能力。同条件下，深度越深意味着参数越多，需要的时间和硬件资源也越高。资料来源：CSDN、申万宏源研究 15 2.2 2.2 主流训练框架对比主流训练框架对比软件框架是整个AI技术体系的核心，巨头以开源软件框架为核心打造生态：通过使用者和贡献者之间的良好互动和规模化效应，形成实质标准体系和生态; 除苹果等少数公司外，开源框架

20、是主流。主流训练软件框架： TensorFlow（谷歌）、pyTorch（脸书），Caffe/2（脸书，图像处理领域生态积累深厚）、 MXNet（亚马逊）、CNTK（微软） PaddlePaddle（百度）、计图（清华）、SenseParrots（商汤）、天元（旷视）表：主流开源训练框架编程语言和能力评价编程语言教程和培训材料CNN模型能力RNN模型能力架构：易用性和模块化前端速度多GPU支持Keras兼容性 TheanoPython,C+ Tensor-FlowPython+ TorchPython,Lua+ CaffeC+ MXNet R,python,Julia,Scal a

21、+ NeonPython+ CNTKC+ 资料来源：CSDN、申万宏源研究 16 2.2 2.2 海外巨头背书开源训练框架对比海外巨头背书开源训练框架对比现有格局，海外开源框架四巨头（1）TensorFlow 前端框架Keras，背后巨头Google；（2）PyTorch 前端框架FastAI，背后巨头Facebook；（3）MXNet 前端框架Gluon，背后巨头Amazon；（4）Cognitive Toolkit (CNTK) 前端框架 Keras 或 Gluon ，背后巨头 Microsoft。资料来源：德勤中国成长型AI企业研究报告，CSDN，申万宏源研究

22、图：GitHub各框架流行度指标比例雷达图图：深度学习框架发展时间表 17 2.3.1 2.3.1 从从TheanoTheano到到tensorflowtensorflow Theano：较早的Python深度学习框架，奠定计算图为框架核心、GPU加速理念始于2007，最老牌和最稳定的库之一，第一个有较大影响力的Python深度学习框架；优点：作为早期深度学习框架，结合了CAS和优化编译器，优势明显，用于定义、优化和求值数学表达式，效率高，非常适用于多维数组。会对用符号式语言定义的程序进行编译，来高效运行于 GPU 或 CPU上。缺点：工程设计薄弱。Theano不支持分布式计算，在工

23、程设计上有较大的缺陷，有难调试，构建图慢的缺点。2017年后不再维护。 Tensorflow：全工具支持的AI开源框架 2015年11月Google推出机器学习开源工具TensorFlow。 TensorFlow和Theano设计理念相近：有很大一批共同的开发者，都是基于计算图实现自动微分系统。 TensorFlow 使用数据流图进行数值计算。基于计算图实现自动微分系统，使用数据流图进行数值计算，图中的节点代表数学运算，图中的线条则代表在这些节点之间传递的张量（多维数组）。主流编程工具基本全支持：支持Python、C+、Java、Go、R等。库可在ARM架构上编译和优化，用户可以在各

24、种服务器和移动设备上部署自己的训练模型。背后Google巨大影响力：很多企业都在基于TensorFlow 开发自己的产品或将 TensorFlow整合到自己的产品中去，如Airbnb、Uber、Twitter、英特尔、高通、小米、京东等。 18 2.3.1 Tensorflow2.3.1 Tensorflow出现的问题出现的问题 Tensorflow：过于复杂和全面的设计导致实际使用生产力低下过于复杂的系统设计：TensorFlow在GitHub代码仓库的总代码量超过100万行，维护和学习难度极大；频繁变动的接口：TensorFlow的接口一直处于快速迭代之中，并且没有很好地考虑向后兼

25、容性；接口设计过于晦涩难懂：创造了图、会话、命名空间、PlaceHolder等诸多抽象概念；文档混乱脱节：TensorFlow作为一个复杂的系统，文档和教程众多，但缺乏明显的条理和层次 Keras：TensorFlow的默认高级API层在Tensorflow上层封装的高级API层：纯Python编写而成，以TensorFlow、Theano或CNTK为底层引擎。2017年成为第一个被Google添加到TensorFlow核心中的高级别框架，这让Keras变成 TensorFlow的默认API，使Keras + TensorFlow的组合成为Google官方认可并大力支持的平台。优点，

26、提升易用性：Keras的目标是只需几行代码就能构建一个神经网络，提升易用性。学习使用 Keras很容易。缺点：难以学到真正深度学习内容。开发者大多数时间都在学习如何调用接口，难以真正学习到深度学习的内容，Keras层层封装让用户在新增操作或获取底层的数据信息时过于困难，存在过度封装导致缺乏灵活性的问题，性能也存在瓶颈。 Keras有助于快速入门，但想了解深度学习需要进一步学习使用TensorFlow。 19 2.3.2 2.3.2 从从CaffeCaffe到到PyTorchPyTorch Caffe：早期有较高完备性和易用性的框架 Convolutional Architecture f

27、or Fast Feature Embedding，用于特征提取的卷积架构；最初发起于 2013年9月，核心语言C+。作者贾扬清，曾参与过TensorFlow开发。优点：在于较为完备和易用性。代码和框架都比较简单，代码易于扩展，运行速度快，也适合深入学习分析。在Caffe之前，深度学习领域缺少一个完全公开所有的代码、算法和各种细节的框架。缺点：Caffe不支持分布式，不够灵活。套用原有模型很方便，但个性化就要读源代码，常常需要用 C+和 CUDA编程，Caffe网络结构都是以配置文件形式定义，缺乏以计算图为代表的相对自由灵活、可视化的算法表达。随时间发展，对大型神经网络使用繁琐缺点显

28、现。截止 2015 年，以 152 层的 ResNet 为代表的一些大型神经网络已经出现，而恰恰针对这种对于大型神经网络，Caffe 使用起来会变得十分繁琐。 Caffe2：针对工业界的轻量化、模块化深度学习算法框架贾扬清在2016年2月加入Facebook，推出Caffe2go。2017年4月Facebook开源Caffe2。优点：定位于工业级、可跨平台部署，将AI生产工具标准化。Caffe2开发重点是性能和跨平台部署，更注重模块化，支持大规模的分布式计算，支持跨平台。 20 2.3.2 2.3.2 从从CaffeCaffe到到PyTorchPyTorch Torch：适用于卷积神经

29、网络的深度学习框架 2002年诞生于纽约大学Torch，后续加入了深度学习的内容，Torch7是Facebook和DeepMind一开始使用的深度学习工具。更高的灵活度，适用于卷积神经网络。Torch是命令式的，因此与TensorFlow和Theano相比，Torch的灵活度更高，而前两者是陈述式的（declarative），必须declare一个计算图。Torch非常适用于卷积神经网络，第三方的扩展工具包提供了丰富的递归神经网络RNN模型。缺点：基于Lua语言，但Python很明显已经抢先统治了机器学习领域 PyTorch 1.0：前端PyTorch+后端Caffe2 PyTorc

30、h重新设计了model和intermediate中间变量的关系，使用Python，相比lua提升debug功能。在Facebook的AI双平台定位中专注于快速原型设计和研究的灵活性。Caffe2的开发重点是性能和跨平台部署，PyTorch 则专注于快速原型设计和研究的灵活性。此前独立发展，但是组件已经被大量共享； PyTorch 1.0 = Caffe2 + PyTorch。合并后可以将 PyTorch 前端的灵活用户体验与 Caffe2 后端的扩展、部署和嵌入式功能相结合。 2018年12月Facebook 正式发布 PyTorch 1.0稳定版。 FastAI：提升PyTorch易用

31、性的高级API层目标是只需几行代码就能让你构建一个神经网络。实测中用5行代码就可以完成Keras用31行才能解决的事情。 21 2.3.2* 2.3.2* 为何为何PyTorchPyTorch可能反超可能反超TFTF？易用性和适配度的互相取舍截止 2020 年底PyTorch 项目的贡献者大约 1626 人、下游项目 45k + 个，论坛用户34k；学术界PyTorch超过TensorFlow已成定局： PyTorch以易用性、快速上手取胜，可以快速验证自己的 idea；工业界Tensorflow暂时无法替代：和推理部署框架有更好的兼容性，如Tensorflow和英伟达支持的

32、 TensorRT（章节2.5中详细描述）良好兼容，而工业界TensorRT对PyTorch兼容还需要时间；未来工业界谁占优尚无定论：1）推理部署框架可以在一段时间后得以更好的兼容支持PT，2）即使对于工业界，TF的上层API仍然过于复杂，tf. Keras，tf.layer，tf.contrib等API接口。图：2018-2020 年中国市场各框架市场认知与份额调研资料来源：德勤中国成长型AI企业研究报告，CSDN，申万宏源研究图：每年各AI顶级研究会议接收的PyTorch论文数和TensorFlow论文数比例 22 2.3.3 MXNet2.3.3 MXNet和和CNTK CN

33、TK MXNet：轻量级、可移植、灵活的分布式框架 Amazon官方主推，支持CNN、RNN和LTSM。诞生于2015年9月，作者是当时在卡耐基梅隆大学CMU 读博士的李沐， 2016年11月被亚马逊选为官方开源平台；优点：尝试结合命令式编程（PyTorch）和声明式编程（TensorFlow）。命令式编程上提供张量运算，声明式编程中支持符号表达式。同样模型MXN往往占用更小的内存和显存；多语言支持：Python、C+、R、Scala、Julia、Matlab 和 JavaScript。缺点：文档更新速度较慢，导致新用户难以上手。 Gluon：模仿了PyTorch的接口设计，成为主推

34、的MXNet使用的上层API。 CNTK*：数据包来自微软自己大规模生产 Computational Network Toolkit，2016年1月在GitHub上开源优点：微软自产数据包。最初面向语音识别，发展后处理图像、手写字体和语音识别都支持。微软的人工智能工具包跟其他工具包最大的不同在于数据，数据都来自于微软自己的大规模生产数据。包括 Cortana、Bing以及Cognitive Services中的Emotion API。基于C+架构，Python或C+编程接口，支持跨平台的CPU/GPU 部署。缺点：CNTK现在还不支持ARM 架构，使其在移动设备上的功能受到了限制。 2

35、3 2.4.1 2.4.1 国内开源架构：百度国内开源架构：百度PaddlePaddle、清华、清华JittorJittor PaddlePaddle：国内第一个开源神经网络框架 2016年8月，百度在Github上100%开源内部使用多年的深度学习平台PaddlePaddle；中文环境下较多的优势：1）能够应用于自然语言处理、图像识别、推荐引擎等多个领域，其优势在于开放的多个领先的预训练中文模型，适应中文环境。2）模型库丰富，来自百度各个业务部门贡献；3）较多企业级的包，可以直接在产业界落地使用；4）兼容大量国产AI芯片；整体来看反馈使用感受类似PT，我们对国产开源深度学习框架有极大

36、期待！劣势：使用习惯、社区人群数、普及度和海外框架相比有差距，部分模型实现过程有优化空间 Jittor计图：目的为兼顾易使用、可定制、高性能 2020年3月，清华大学计算机系图形实验室自研深度学习框架Jittor计图对外开源；通过元算子和统计计算图提升易用性：易用且可定制用户只需要数行代码，就可定义新的算子和模型，在易用的同时，不丧失任何可定制性。支持统一内存、异步接口。图：Jittor与PyTorch推理与训练速度对比图：Jittor和其它深度学习框架比较资料来源：量子位，申万宏源研究 24 2.4.2 2.4.2 国内开源架构：华为国内开源架构：华为MindsporeMindsp

37、ore，旷视天元，旷视天元 Mindspore：云边端同步适配 2018年10月10日，华为首次展示CANN算子库、MindSpore深度学习框架、AI开发平台ModelArts； 2020年3月华为在码云开源MindSpore，企业级AI应用开发者套件ModelArts Pro在华为云上线；设计思路：着重提升易用性并降低AI开发者的开发门槛，端、边缘和云都适应，并能够在按需协同的基础上，通过实现AI算法即代码。适配华为昇腾AI处理器，也支持GPU、CPU等其它；社区反馈问题：算子和PyTorch接近但不完全一致，对于静态图理解需要引导，无中文版文档，文档相比 tf和pt不够详细。深度

38、学习天元MegEngine：特色是训练推理一体，静态图动态图都有优化 2015年开始搭建，针对当年Caffe架构不足，旷视Brain+在一开始就确立了要以计算图的方式来进行框架搭建的思路，大思路正确；2020年3月开源MegEngine；2020年9月推出Brain+商业版。优势：1）训练推理一体化，训练结果可直接进行用于产品推理、封装。部署时自动删除冗余代码；2）静态图性能高、占用资源少且易于部署、动态图简单灵活、方便调试且易于上手；3）具备Pythonic的 API，支持PyTorch Module，直接导入方便；在特定领域如机器视觉模型ResNet 18、ResNet50、 Mob

39、ileNet v2和 ShuffleNet V2上优于其它主流框架。社区反馈问题：部分支持还不够完善，模型、数据集不够丰富 25 2.5 2.5 推理框架：与硬件和设备端紧密相关推理框架：与硬件和设备端紧密相关推理框架：主要部署在设备端和云端，因此与硬件厂商紧密相关设备端机器视觉VR移动设备语音交互设备机器人辅助驾驶云端训练 ASIC FPGA+云计算 GPU 表：海外主流推理框架特性比较模型推理部署框架应用平台支持深度学习模型 TensorFlowCaffeMxnetPytorch OpenVINO CPU,GPU嵌入式平台都可以使用，CPU上首选OpenVINO。 Dep

40、hAI嵌入式空间AI平台 TensorRT 只能用在NIVDIA的GPU上的推理框架。NIVDIA自家的Jeston平台 Mediapipe服务端，移动端，嵌入式平台。TPU 资料来源：CSDN、申万宏源研究资料来源：雷锋网，申万宏源研究图：推理框架在云端和设备端部署 26 2.6 2.6 开源框架的选择：规模效应与生态开源框架的选择：规模效应与生态四大顶级深度学习框架阵营可以满足绝大部分开发者要求社区规模效应：维护力量、贡献人员决定了算法库扩展及时性、API水平，软件框架规模效应较强。科研和工程落地，前者需要有足够的灵活度和易用性，而后者需要的是部署和性能，PT和TF分别对应两

41、种特性，可以满足绝大部分使用者要求。目前深度学习框架发展趋势 1、增加对Python的支持，动态图应用； 2、支持分布式和移动端运行平台； 3、前端的编程接口更加灵活，设计需要兼容简单高效的命令式和逻辑清晰的声明式； 4、训练速度不断提高：支持单机多卡/多机多卡等训练方式；对网络优化减枝以减小训练耗时的同时；提升底层计算硬件单元的计算能力表：主流开源训练AI框架核心指标对比是否支持分布式计算，是不是分布式框架？是否支持移动端部署？命令式编程(imperative programming)还是声明式语言(declarative programing)？基于动态计算图还是静

42、态计算图是否有强大的社区和生态支持社区评价 TensorFlow声明式静态计算图Google广泛适配，适合工业界 PyTorch命令式动态计算图Facebook轻量易上手，适合学术界 MXNet命令式动态计算图Amazon优化云端分布式部署 CNTK静态计算图Microsoft简单配置易上手 Theano声明式静态计算图 Caffe声明式静态计算图 Caffe2静态计算图资料来源：GitHub，CNDN，申万宏源研究 27 2.6 2.6 开源框架的选择：国产自研深度学习框架原因开源框架的选择：国产自研深度学习框架原因 1、技术遗留问题静态图、动态图技术方案都还有缺陷，有同时解决的

43、可能性动态图：其核心特点是计算图的构建和计算同时发生（Define by run）。优点是调试方便，缺点是难以对整个计算图进行优化。PT 静态图：将计算图的构建和实际计算分开（Define and run）。优点是对全局的信息掌握更丰富，可以做的优化更多，缺点是无法实时观察中间结果。TF 在网络结构、设备兼容、性能与功耗均衡和各种自动化设计等有提升空间 2、国内特色问题特定场景框架可能更优国产芯片和适配开源平台可能工业包不共享的问题中文环境的API 国内百度、华为、商汤、旷视在自研框架初期就考虑到训练速度要求提高带来的各种问题，同时适应国产服务器芯片等环境目录目录 1. AI

44、产业链：从算力到应用 2. AI平台层：何种训练模型可以脱颖而出？ 3. AI大模型：为何更大的模型成为行业新趋势 4. AI明星：商汤、旷视自研平台亮点 5. AI碎片化问题：软件公司应对的两种路径熟优？ 28 29 3 3 本节结论：深度学习热点“大模型”优缺点同时存在本节结论：深度学习热点“大模型”优缺点同时存在以GPT为代表的“大模型”是什么大规模预训练：GPT(Generative Pre-Training)是OpenAI在2018年提出的模型，基于Transformer模型。采用Pre-training + Fine-tuning训练模式，使大量无标记数据得以利用。优势

45、显著：大幅提升对数据要求，长尾场景落地新思路自监督学习功能，大幅降低对数据量的需求：GPT舍弃Fine-tuning ，先使用海量数据预训练大模型，得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练。大幅降低后续对数据量的需求。预训练大模型+细分场景微调，更适合长尾落地：大规模预训练可以有效地从大量标记和未标记的数据中捕获知识，通过将知识存储到大量的参数中并对特定任务进行微调，极大扩展模型的泛化能力。有望进一步突破现有模型结构的精度局限：可能继续突破精度上限。但对自然语言逻辑理解仍有缺陷 “尽管GPT-3观察到它读到的单词和短语之间的统计关系，但不理解其含义。” 对存储、

46、算力要求极高，普通机构难以复现据 NVIDIA 估算如果要训练 GPT-3 ，用 8 张 V100 的显卡，训练时长预计要 36 年；以微软与OpenAI 合作建造的Azure A工智能算力平台为例，该算力平台投资约10亿美元，使用该超算中心训练一次超大模型GPT-3大约花费1200万美元。解决分布式训练问题：上百台服务器之间的通信、拓扑、模型并行、流水并行等问题，模型训练是显存峰值问题。GPT-3发布一年后，只有 NVIDIA 、微软等大企业可以复现。 30 3.1 3.1 行业更新热点在“大模型”行业更新热点在“大模型” 此前AI算法基于深度学习创新，从业者使用DNN、CNN、

47、RNN等模型以及变种，加上attention、 GRU等机制，产生巨大的收益。但是近年很多算法与策略都已经使用过，前沿创新、业务演进减缓。最后一次底层算法创新被认为是2017年Google的Transformer（3.1*）。大规模预训练模型（大模型）成为AI算法领域的热点 Double Descent现象。传统机器学习里，模型过小则欠拟合，模型过大则过拟合。深度学习里 Double Descent现象在2018年揭示，随着模型参数变多，Test Error是先下降，再上升，然后第二次下降；原则上，在成本可接受的情况下，模型越大，准确率越好。大规模预训练：GPT(Generative

48、Pre-Training)，是OpenAI在2018年提出的模型，利用Transformer 模型来解决各种自然语言问题，例如分类、推理、问答、相似度等应用的模型。GPT采用了Pre- training + Fine-tuning的训练模式，使得大量无标记的数据得以利用，大大提高了这些问题的效果。资料来源：Deep Double Descent: Where Bigger Models and More Data Hurt，Github，申万宏源研究图：深度学习中的Double Descent现象图：对于不同问题进行不同的预训练 31 3.1* 3.1* TransfomerTransfo

49、mer对对RNNRNN的改进的改进 Transformer取代RNN RNN存在问题：1）效率问题：需要逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理，2）如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题 Transformer。Google Brain 2017的提出，针对RNN的弱点进行重新设计，解决了RNN效率问题和传递中的缺陷等，在很多问题上都超过了RNN的表现。 N进N出的结构，Transformer解决了效率问题和距离问题。 Self-Attention和Feed Forward Networks 在机器翻译任务上，Transformer表现超过了RNN和CNN，只需要编/解码器就能达到很好的效果。在CV领域也有应用。资料来源：Attention Is All You Need，申万宏源研究图：Transfromer的基本结构图：Transformer的详细结构 32 3.1 3.1 行业更新热点在“大模型”行业更新热点在“大模型” 大模型2018至今快速迭代 1）2018年，OpenAI基于Transformer提出了GPT； 2）2019年，Google推出了GPT的升级版BERT；3） 2019年，OpenAI推出了GPT的升级版GPT2.0；4） 2020年，GPT-3；5）2021，Switch Transf

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（AI全行业赋能系列深度研究之五：领军路径分歧更大的模型还是更低的成本？-211213（67页）.pdf）为本站（X-iao）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

AI全行业赋能系列深度研究之五：领军路径分歧更大的模型还是更低的成本？-211213（67页）.pdf

AI全行业赋能系列深度研究之五：领军路径分歧更大的模型还是更低的成本？-211213（67页）.pdf