《电子行业AI+系列专题报告:边缘AI大语言模型的终端部署推动新一轮终端需求-230531(25页).pdf》由会员分享,可在线阅读,更多相关《电子行业AI+系列专题报告:边缘AI大语言模型的终端部署推动新一轮终端需求-230531(25页).pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告|20232023年年0505月月3131日日超配超配电子电子 AI+AI+系列专题报告系列专题报告边缘边缘 AIAI:大语言模型的终端部署,推动新一轮终端需求:大语言模型的终端部署,推动新一轮终端需求核心观点核心观点行业研究行业研究行业专题行业专题电子电子超配超配维持评级维持评级证券分析师:胡剑证券分析师:胡剑证券分析师:胡慧证券分析师:胡慧1-S0980521080001S0980521080002证券分析师:周靖翔证券分析师:周靖翔证券分析师:李梓澎证券分析师:李梓澎
2、755-S0980522100001S0980522090001证券分析师:叶子证券分析师:叶子联系人:詹浏洋联系人:詹浏洋0-S0980522100003联系人:李书颖联系人:李书颖0755-市场走势资料来源:Wind、国信证券经济研究所整理相关研究报告电子行业周报-AI+开启半导体新周期 2023-05-29复盘英伟达的 AI 发展之路 2023-05-29电子行业周报-半导体周期拐点临近,国产化进程提速 2023-05-24电子行业周报-景气拐点将至,以时间换空间 2023-05-15电子行业周报-在行业周期筑底阶段无需过度悲观 2023-05-08大模型参
3、数量级飞涨,相应训练集需同比提升。大模型参数量级飞涨,相应训练集需同比提升。李开复定义AI 2.0 时代的特征是通过海量数据,无需标注自监督学习,训练一个基础大模型,并在各领域将其专业化。据相关论文,当模型的参数量大于某阈值,会展现出类似推理、无监督学习等未曾出现的能力,这种现象被称为“涌现”,因此目前大语言模型参数均在十亿量级以上。同时,Deepmind研究表明,模型参数的上涨需要配合等比例上升的优质数据集来达到最佳训练效果。因此,大模型参数在十亿级以上发展并受限于优质数据集的增速是AI 发展的必然趋势。大模型增长挑战芯片算力和内存大模型增长挑战芯片算力和内存,无法实现完整端侧部署无法实现完
4、整端侧部署。大模型训练和推理的三大瓶颈是算力、显存和通信,根据我们的测算,算力方面GPT-3 训练所需算力为121528 TFLOPS,若30天内完成,需要1558 颗A100。内存角度,GPT-3 训练至少需要3.2T内存,至少44张A100,推理任务则主要受显存限制,需要4 至8 张A100,因此完整的模型无法在终端上离线运行。优化后大模型可在旗舰机型芯片上运行,优化后大模型可在旗舰机型芯片上运行,AIAI 落地有望推动新一轮换机潮。落地有望推动新一轮换机潮。AI部署本地化具有必要性,优势包括更低的延迟、更小的带宽、提高数据安全、保护数据隐私、高可靠性等。完整的大模型仅参数权重就占满一张8
5、0G的GPU,但是通过量化、知识蒸馏、剪枝等优化,大模型可以在手机本地实现推理。高通团队使用骁龙8 Gen2 部署Stable Diffusion,实现本地运营15秒出图,证明了大模型本地化运行的可能,也体现出目前手机芯片的局限性。根据IDC数据,1Q23全球手机销量中主处理器频率超过2.8GHz的占比36%,价格在1000 美金以上的占比13%,即旗舰机型占比较低,随着AI大模型在边缘端落地,有望推动新一轮换机潮。以大语言模型为核心以大语言模型为核心,以语言为接口以语言为接口,控制多控制多AIAI模型系统模型系统,构建构建“贾维斯贾维斯”式智能管家式智能管家。我们认为大语言模型不仅可以实现对
6、话、创意,未来也有望作为众多复杂AI 模型的控制中心,同时也是接受用户指令的交互窗口,实现钢铁侠 电影中“贾维斯”式综合智能管家。23年5 月,Google 推出 PaLM2 轻量版Gecko,其可在最新的旗舰机型上离线运行。同月,OpenAI 首次推出ChatGPT 移动端应用,各家大厂正式进入AI模型移动端创新、竞争时期。智能音箱、全屋智能中控屏、手机、MR等均有望成为这一时代的交互入口。产业链相关公司产业链相关公司:半导体:晶晨股份、瑞芯微、全志科技、北京君正、兆易创新;消费电子:传音控股、歌尔股份、福立旺、闻泰科技、创维数字。风险提示:风险提示:AI技术发展不及预期;边缘端芯片发展不及
7、预期。重点公司盈利预测及投资评级重点公司盈利预测及投资评级公司公司公司公司投资投资昨收盘昨收盘总市值总市值EPSEPSPEPE代码代码名称名称评级评级(元)(元)(亿元亿元)20202323E E20202424E E20202323E E20202424E E688099.SH 晶晨股份买入86.36358.621.772.2348.7938.66300223.SZ 北京君正买入93.77451.571.641.8757.2250.23688036.SH 传音控股买入127.951,028.653.094.6141.4127.73002241.SZ 歌尔股份买入18.29625.590.52
8、0.7635.1724.22688678.SH 福立旺买入18.7032.420.941.3519.8913.89600745.SH 闻泰科技买入50.08622.400.941.3553.2837.20000810.SZ 创维数字买入15.74181.040.941.3516.7411.69资料来源:Wind、国信证券经济研究所预测请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告2内容目录内容目录百亿参数大模型具备涌现能力,训练数据需等比例提升百亿参数大模型具备涌现能力,训练数据需等比例提升.5 5大模型的参数下限:AI2.0 时代,基础大模型参数指数级增长.5大模型的参
9、数上限:参数的增加需要同等量级的训练集增加.6大模型训练对硬件的挑战:算力、内存和通信.8终端部署具有必要性,轻量化技术优化模型终端部署具有必要性,轻量化技术优化模型.1111超低时延的智慧场景,终端部署具有必要性.11缩减优化模型,部署终端设备.12“贾维斯贾维斯”式智能管家,引领全新换机需求式智能管家,引领全新换机需求.1616大语言模型有望成为复杂 AI 系统的控制中心和交互入口.16当前旗舰机款手机芯片仅可运行优化版十亿参数级大模型.19风险提示风险提示.2323VX9YqYlYmUnPnPqNbRcM7NsQpPpNsRkPqQtNkPnNmN8OmMxOxNtOmNxNmRqR请务
10、必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告3图表图表目录目录图1:AI2.0 时代的特征是通过超级海量数据无需标注训练一个大模型.5图2:过去五年 LLM 模型参数快速增长.6图3:参数量的指数提升线性提高模型性能.6图4:当模型的参数量大于一定程度时模型效果会突然提升.6图5:小模型的性能也随着规模扩大而逐步提高.6图6:2022 年最大的五个 transfomer 模型条件.7图7:各模型位于 LM 损失等高线图上的位置.7图8:LaMDA 模型训练数据来源.7图9:静态内存.8图10:动态内存.8图11:模型大小与设备内存的增长示意图.9图12:算力计算公式.10图
11、13:近年推出的大预言模型有效算力比率.10图14:边缘计算的应用场景.11图15:云计算与边缘计算的区别.11图16:云计算与边缘计算.11图17:边缘 AI 的数据传输.12图18:量化可以降低功耗和占用面积.13图19:NVIDIA Turing GPU 体系结构中各种数据类型相对的张量运算吞吐量和带宽减少倍数.13图20:优化 AI 完全在终端侧高效运行 Stable Diffusion.13图21:骁龙 8 Gen2 旗舰芯片组 15 秒出图.13图22:知识蒸馏基本框架.14图23:单独训练子模型反哺主模型.14图24:联邦学习的升级版 FedCG.14图25:两种经典剪枝方法.1
12、5图26:剪枝算法流程.15图27:钢铁侠和 Jarvis.16图28:微软亚洲研究院的 Jarvis 项目.16图29:Hugging Face AI 模型写作系统四个步骤.17图30:Plugin 插件界面.17图31:PaLM2 的从小到大的四种版本.18图32:PaLM2 在部分测试中体现出了优异性.18图33:ChatGPT App 欢迎界面.18图34:微软 bing chat 应用.18图35:2019 年美国语音助理市场份额.19图36:全球智能音箱市场下滑.19图37:语音交互过程示意图.19请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告4图38:Sir
13、i 信号流示意图.20图39:双通检测(AOP 唤醒主 CPU).20图40:苹果 A11 芯片开始搭载 NPU.20图41:全球手机分处理器频率销量占比.21图42:全球手机分价格段销量占比.21图43:AIGC 支撑 AI 多模交互.21图44:鸟鸟和类 ChatGPT 模型分身对话.21图45:全球 AR/VR 出货量预测.22图46:全球智能家居啊出货量预测.22表1:GPT 参数和训练集规模快速增长.8表2:大语言模型的计算.9表3:大预言模型算力测算.10请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告5百亿参数大模型具备涌现能力百亿参数大模型具备涌现能力,训练
14、数据需等训练数据需等比例提升比例提升大模型的参数下限:大模型的参数下限:AI2.0AI2.0 时代,基础大模型参数指数级增长时代,基础大模型参数指数级增长李开复提出本次李开复提出本次由由 GPT-4GPT-4、ChatGPChatGPT T 引发引发的的 A AI I 新机遇与之前有所不同新机遇与之前有所不同,属属于于 AIAI 2.2.0 0时代。时代。AI 1.0 时代具体指的是以 CNN(卷积神经网络)为核心,机器视觉和自然语言处理快速发展的时期,暴涨的数据量伴随搜集、清洗、标注整个过程的成本增加,且单一领域的数据集和模型形成孤岛,每个领域和应用的优化都是割裂的,难以形成“通用”。AIA
15、I 2.02.0 时代的特征是通过海量数据时代的特征是通过海量数据,无需标注自监督学习无需标注自监督学习,训练一个基础大模型训练一个基础大模型,并在各个应用领域将其专业化并在各个应用领域将其专业化。具体来说有三个特点:1)对于拥有的超级海量的数据,无需进行人工标注,即进行自监督学习;2)基础模型规模非常大,参数规模从十亿到千亿级别;3)训练出的基础模型具有跨领域知识,而后通过微调用降低成本的方法来训练,以适应不同领域的任务。AI 2.0 的巨大跃迁之处在于,它克服了前者单领域、多模型的限制。图1:AI2.0 时代的特征是通过超级海量数据无需标注训练一个大模型资料来源:创新工场,国信证券经济研究
16、所整理以大语言模型(Large Language Model,LLM)为例,语言模型已经存在了几十年,从最基本的 N-gram 模型(语言由简单的向量表示),到更复杂的 RNN 模型、LSTM神经网络,再到 2017 年 Google Brain 提出 Transformer。Transformer 不再基于对每个单词的单独理解进行处理,而是将句子和段落作为一个整体进行处理,使 LLM 能够从自然语言中深入理解人类的意图,并让一系列应用成为可能:从描述中生成艺术创作、将大量非结构化数据提炼成简洁的摘要、更准确的翻译、回答复杂的查询等。以模型中的参数数量衡量以模型中的参数数量衡量,大型语言模型的
17、参数在过去五年中以指数级增长大型语言模型的参数在过去五年中以指数级增长。模型的性能非常依赖于模型的规模,具体包括:参数数量、数据集大小和计算量,模型的效果会随着三者的指数增加而线性提高,这种现象被称为 Scaling Law(缩放能力)。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告6图2:过去五年 LLM 模型参数快速增长图3:参数量的指数提升线性提高模型性能资料来源:Sunyans Substack,国信证券经济研究所整理资料来源:Scaling laws for neural language models,国信证券经济研究所整理当模型的参数量大于一定程度的时候当模
18、型的参数量大于一定程度的时候,模型能力会突然提升模型能力会突然提升,并拥有一些未曾出并拥有一些未曾出现的能力现的能力,如推理能力如推理能力、无标注学习能力等无标注学习能力等,这种现象被称为涌现能力这种现象被称为涌现能力。在 JasonWei 的论文中,具体定义为“在小模型中没有表现出来,但是在大模型中变现出来的能力”。“涌现能力”只是对一种现象的描述,而并非模型的某种真正的性质,出现涌现能力的原因也尚待探索。其中一种观点认为,大模型的涌现能力来自于其不连续的评价指标。如果换成更为平滑的指标,相对较小的模型的效果也并非停滞不前,规模在阈值以下的模型,随着规模的提高,生成的内容也在逐渐靠近正确答案
19、。斯坦福的研究人员将 NLP中不连续的非线性评价指标转为连续的线性评价指标,结果模型的性能变得更加平滑、可预测。具体来看具体来看,10109 9以上模型能力提升加速以上模型能力提升加速,因此目前来看因此目前来看 10109 9几乎是几乎是大语言模型参数量的下限。大语言模型参数量的下限。图4:当模型的参数量大于一定程度时模型效果会突然提升图5:小模型的性能也随着规模扩大而逐步提高资料来源:Language models are few-shot learners,国信证券经济研究所整理资料来源:Are Emergent Abilities of Large Language Modelsa Mi
20、rage?,国信证券经济研究所整理大模型的参数上限:参数的增加需要同等量级的训练集增加大模型的参数上限:参数的增加需要同等量级的训练集增加参数数量的增速应与训练参数数量的增速应与训练 tokentoken 数量的增长速度大致相同,从而让模型损失数量的增长速度大致相同,从而让模型损失(L)(L)实现最小化实现最小化,性能最大化性能最大化。Deepmind 在 Traning Compute-Optimal Large LanguageModels中,通过在 5 到 5000 亿个 token 上训练 400 多个语言模型,参数个数范请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究
21、报告7围从 7000 万到 160 亿,发现模型大小和训练集数量应该相等地缩放,从而达到最佳效果。目前看来,单一语言模态的大模型,100B 量级的参数足以满足大多数知识检索和浅层推理的需求,但充分释放这些参数的全部潜力需要 1000B 量级的训练 token。作为验证,通过训练一个预测的计算最优模型 Chinchilla 来检验这个假设,该模型使用与 Gopher 使用相同的 FLOTs,但具有 70B 个参数和 4 倍多的数据,最终在大下游评估任务中,Chinchilla 表现显着优于 Gopher,且其缩小的模型尺寸大大降低了推理成本,并极大地促进了下游在较小硬件上的使用。图6:2022
22、年最大的五个 transfomer 模型条件图7:各模型位于 LM 损失等高线图上的位置资料来源:DeepMind,国信证券经济研究所整理资料来源:Sunyans Substack,国信证券经济研究所整理因此因此,优质大模型的训练优质大模型的训练,高质量的大数据集是必要条件高质量的大数据集是必要条件。目前主要的数据获取渠道是公开的论坛,例如谷歌的 LaMDA 模型,在论文中表示其预训练数据 50%对话数据来自公共论坛;12.5%C4 数据;12.5%的代码文档来自与编程相关的网站;12.5%维基百科;6.25%英文网页文档;6.25%的非英语网络文档,数据集中的单词总数为 1.56T,而 Op
23、enAI 使用了 45T 数据。未来如何获得高质量的训练集始终是各家大厂的首要竞争领域。图8:LaMDA 模型训练数据来源资料来源:谷歌,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告8表1:GPT 参数和训练集规模快速增长模型模型发布时间参数量数据规模TokensGPTGPT2017.61.17 亿5GB1.17 亿GPT2GPT22019.2小:1.24 亿中:3.55 亿大:7.74 亿超大:15 亿40GB15 亿T5T52019小:0.6 亿基础:2.2 亿大:7.7 亿TB-3B:30 亿T5-11B:110 亿50G340 亿GPT3G
24、PT32020.61750 亿45TB1750 亿ChatGPTChatGPT2020.61750 亿45TB7740 亿资料来源:ChatGPT,Google,国信证券经济研究所整理大模型训练对硬件的挑战:算力、内存和通信大模型训练对硬件的挑战:算力、内存和通信内存方面内存方面,大模型训练的内存可以大致理解为参数大模型训练的内存可以大致理解为参数、优化器状态优化器状态、激活激活、梯度四梯度四部分的和。部分的和。它们大致分为两类:静态内存和动态内存。参数、优化器状态较为固定,属于静态内存,激活和梯度等中间变量属于动态内存,是最主要的内存占用原因,动态内存通常是静态内存的数倍。图9:静态内存图1
25、0:动态内存资料来源:知乎,国信证券经济研究所整理资料来源:知乎,国信证券经济研究所整理我们可以粗略的计算训练我们可以粗略的计算训练 17501750 亿参数的亿参数的 GPT3GPT3 所需内存,大约需要所需内存,大约需要 3.2TB3.2TB 以上以上。静态内存方面,大多数 Transformer 都是以混合精度训练的,如 FP16+FP32,以减少训练模型内存,则一个参数占 2 个字节,参数和优化器状态合计占用内存1635G。而动态内存,根据不同的批量大小、并行技术等结果相差较大,通常是静态内存的数倍。更简洁的估算方法,可以假设典型的 LLM 训练中,优化器状态、梯度和参数所需的内存为
26、20N 字节,其中 N 是模型参数数量,则 1750 亿参数的GPT3 大概需要 3.2TB 内存。推理所需内存则较小,假设以 FP16 存储,175B 参数的 GPT3 推理大约需要内存327G,则对应 4 张 80G A100,如果以 FP32 运算,则需要 10 张。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告9表2:大语言模型的计算公式注释模型参数模型参数优化器内存优化器内存梯度梯度内存内存激活重计算激活重计算模型训练内存模型训练内存需求需求模型推理内存模型推理内存需求需求资料来源:Eleutherai,国信证券经济研究所整理图11:模型大小与设备内存的增长示意
27、图资料来源:NVIDIA,国信证券经济研究所整理算力方面,算力方面,根据OpenAI 在2020 年发表的论文,训练阶段算力需求是模型参数数量与训练数据集规模乘积的6 倍:训练阶段算力需求=6模型参数数量训练集规模;推理阶段算力需求是模型参数数量与训练数据集规模乘积的2 倍:推理阶段算力需求=2模型参数数量训练及规模。训练阶段:训练阶段:考虑采用精度为32 位的单精度浮点数数据进行训练和推理。以A100 PCle芯片为例(H100 PCle芯片同理),根据前述公式,GPT-3 训练所需运算次数为:样本请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告10token 数3000
28、 亿个*6*参数量1750亿个=315*1021FLOPs;考虑训练时间要求在30 天完成(训练时间为2592000 秒),则对应GPT-3 训练所需算力为121528TFLOPS;结合A100 有效算力78TFLOPS,得到所需GPU数量为1558 个,对应AI 服务器为195 台。推理阶段:推理阶段:按谷歌每日搜索量35 亿次进行估计,假设每次访问提问4 次,每次提问+回答需处理字数 425 字,平均每个字转换为 token 比例为4/3,则每日 GPT-3 需推理token 数为79330 亿个,则推理所需运算次数为4760*1021FLOPs;考虑推理时间以每日为单位(推理时间为 86
29、400 秒),则对应 GPT-3 推理所需算力为55*106TFLOPS;结合A100 有效算力78TFLOPS,得到所需GPU数量为706315 个,对应AI服务器为8.8万台。图12:算力计算公式图13:近年推出的大预言模型有效算力比率资料来源:NVIDIA,国信证券经济研究所整理资料来源:NVIDIA,国信证券经济研究所整理表3:大预言模型算力测算A100 PCleH100 PCle训练阶段算力需求测算Tensor Float 32(TF32)156TFLOPS756TFLOPS有效算力78TFLOPS378TFLOPSGPT-3 训练所需运算次数315*1021FLOPs315*102
30、1FLOPsGPT-3 训练所需算力121528TFLOPS121528TFLOPS所需 GPU 数量1558322GPU 单价1.5 万美元3.65 万美元对应 GPU 价值2337 万美元1175.3 万美元推理阶段算力需求测算Tensor Float 32(TF32)156TFLOPS756TFLOPS有效算力78TFLOPS378TFLOPSGPT-3 推理所需运算次数4760*1021FLOPs4760*1021FLOPsGPT-3 推理所需算力55*106TFLOPS55*106TFLOPS所需 GPU 数量706315145748GPU 单价1.5 万美元3.65 万美元对应 G
31、PU 价值105.95 亿美元53.2 亿美元资料来源:NVIDIA,国信证券经济研究所整理因此,训练大模型必然需要采用分布式方案。因此,训练大模型必然需要采用分布式方案。不仅要满足算力的需求,还要解决上千块 GPU的分布式训练问题,需要考虑到上百台服务器之间的通信、拓扑、模型并行、流水并行等,这也是复现GPT-3 的核心难点,模型发布后一年也只有NVIDIA、微软等大厂成功复现,目前开源的 GPT 模型库就主要是 NVIDIA 的 Megatron-LM 和微软的DeepSpeed。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告11终端部署具有必要性,轻量化技术优化模型
32、终端部署具有必要性,轻量化技术优化模型超低时延的智慧场景,终端部署具有必要性超低时延的智慧场景,终端部署具有必要性云计算和边缘计算的主要区别在于处理所在的位置。边缘计算,处理发生在网络边缘,更靠近数据源,而云计算,处理发生在数据中心。边缘计算是指在尽可能边缘计算是指在尽可能靠近数据源或终端的地方捕获和处理数据。靠近数据源或终端的地方捕获和处理数据。通过在数据源的物理位置附近放置服务器或其他硬件来处理数据,在本地完成处理而不是在云端或集中式数据中心,它能最大限度地减少延迟和数据传输成本,允许实时反馈和决策。图14:边缘计算的应用场景图15:云计算与边缘计算的区别资料来源:NVIDIA,国信证券经
33、济研究所整理资料来源:NVIDIA,国信证券经济研究所整理边缘计算的历史可以追溯到上世纪 90 年代,当时内容分发网络(CDN)充当分布式数据中心。但 CDN 仅限于缓存图像和视频,而不是海量数据工作负载;2000 年左右,智能设备的爆炸式增长给现有 IT 基础设施带来了压力,诸如点对点(P2P)网络的发明减轻了这种压力,在这种网络中,计算机无需通过单独的集中式服务器计算机即可连接并共享资源;10 年代,大公司开始通过公共云向终端用户出租计算和数据存储资源;2020 年后,边缘计算融合了 CDN 的低延迟能力、P2P 网络去中心化平台以及云的可扩展性和弹性,共同构建了一个更高效、更有弹性和更可
34、靠的计算框架。图16:云计算与边缘计算资料来源:NVIDIA,国信证券经济研究所整理目前,越来越多的场景将计算基础设施更靠近传入数据源,让 AI 模型在云端训练,并部署在终端设备上。例如计算机视觉等高度数据密集型、低时延要求类的任务,将 AI 模型部署在终端的优势包括:1 1)更低的延迟更低的延迟:因为传感器和物联网设备产生的数据不再需要发送到集中式云进请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告12行处理,可以实现更快的响应,获得结果的时间可能从几秒减少到几分之一秒。2 2)减少带宽减少带宽:当数据发送到云端时,它通过广域网传输,需要满足全球覆盖和高带宽,成本较高。而
35、边缘计算可以利用局域网处理数据,从而以更低的成本获得更高的带宽。3 3)数据数据安全安全:边缘计算允许组织将所有数据和计算保存在合适的位置,关键数据不需要跨系统传输,减少遭受网络安全攻击的风险。4 4)保护用户隐私:)保护用户隐私:人工智能可以分析现实世界的信息,而无需将其暴露给人类,大大增加了任何需要分析外貌、声音、医学图像或任何其他个人信息的隐私安全。即使部分数据是出于培训目的而上传,也可以将其匿名化以保护用户身份。5 5)高可靠性:)高可靠性:去中心化和离线功能使边缘 AI 更加稳定,不受网络访问限制,这是关键任务系统稳定运行的必要条件。当边缘 AI 应用程序遇到它无法准确处理的数据时,
36、它通常会将其上传到云端,以便 AI 算法可以重新训练并从中学习。因此,模型在边缘运行的时间越长,模型就会变得越准确,由于可以获得如此多的价值,企业正在迅速采用边缘计算。Gartner 预测,到 2023 年底,50%的大型企业将拥有记录在案的边缘计算战略,而 2021 年这一比例还不到 5%。图17:边缘 AI 的数据传输资料来源:NVIDIA,国信证券经济研究所整理缩减优化模型,部署终端设备缩减优化模型,部署终端设备通过优化,预估模型算力成本大约会降至原来的 1/4,为模型的边缘部署提供技术基础,目前常见的优化方法有三类:1)量化量化:量化是模型压缩的一种常用手段,核心思想是将模型参数从高精
37、度转换为低精度,将多 bit 高精度的数(FP32、FP16 等)量化为较少 bit 低精度的数值(INT8、INT4 等),即从浮点到定点数的转换。量化方法可分为训练时量化训练时量化(PTQ,post-training quantization),这种量化方式需要重新训练来缓解量化带来的精度损失;训练后量化训练后量化(QAT,quantization-aware training),在大模型场景上,更青睐于 QAT,因为能够更好的保证性能。量化的优势包括减少内存占用,节省存储空间,降低功耗和占用面积,提升计算速度。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告13图18
38、:量化可以降低功耗和占用面积图19:NVIDIA Turing GPU 体系结构中各种数据类型相对的张量运算吞吐量和带宽减少倍数资料来源:NVIDIA,国信证券经济研究所整理资料来源:NVIDIA,国信证券经济研究所整理高通团队采用量化技术等高通团队采用量化技术等,首次在安卓手机上部署首次在安卓手机上部署 StableStable DiffusionDiffusion,实现本地实现本地运营运营 1515 秒出图,证明了百亿参数级大模型优化后可在终端本地运行的可能。秒出图,证明了百亿参数级大模型优化后可在终端本地运行的可能。Stable Diffusion 是一个从文本到图像的生成式 AI 模型
39、,参数达到 11 亿,计算量是智能手机上运行的典型工作负载大小的 10 倍以上,主要限于在云端运行。高通技术团队使用高通 AI 软件栈(Qualcomm AI Stack)执行全栈 AI 优化,使用高通 AI 模型增效工具包(AIMET)对模型进行量化,Hugging Face 的 FP32version1-5开源模型开始,通过量化、编译和硬件加速进行优化,在搭载 Snapdragon 8 Gen2移动平台的手机上运行,15 秒内完成了推理,生成一张 512x512 像素的图像。推理部分是在 Hexagon 处理器上完成的,通过让模型在专用 AI 硬件上高效运行,可消耗更少的内存带宽来节省电量
40、。相比之下,在高通发布 Demo 视频之前,已经有开发者展示了在搭载高通骁龙 865 的 8G RAM 索尼 Xperia 5 II 上运行 StableDiffusion,生成一张分辨率 512x512 的图像需要 1 个小时。图20:优化 AI 完全在终端侧高效运行 Stable Diffusion图21:骁龙 8 Gen2 旗舰芯片组 15 秒出图资料来源:Apple,国信证券经济研究所整理资料来源:Apple,国信证券经济研究所整理2 2)知识蒸馏知识蒸馏(knowledge distillation):是模型压缩的一种常用的方法,不同于剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型
41、,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。最早是由 Hinton在 2015 年首次提出并应用在分类任务上面,这个大模型被称之为教师模型,小模型称之为学生模型。来自教师模型输出的监督信息称之为知识,而学生模型学习迁移来自教师模型的监督信息的过程称之为蒸馏。在子模型场景当中,子模型是完整模型的子集,每个子模型能够独立的训练,学请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告14习到某个特定的特征空间的知识。某个设备的数据仅仅占了完整数据集的一部分;映射到特征空间也仅仅是一个区域;使用这个设备的数据集进行训练仅仅更新了完整模型的一部分。因此可
42、以将模型的子集提取出来单独训练,最后整合实现高效的模型更新。图22:知识蒸馏基本框架图23:单独训练子模型反哺主模型资料来源:NVIDIA,国信证券经济研究所整理资料来源:NVIDIA,国信证券经济研究所整理基于知识蒸馏技术基于知识蒸馏技术,边缘设备除了简单的请求边缘设备除了简单的请求,也可以实现模型更新也可以实现模型更新,反哺集中反哺集中式数据中心的大模型式数据中心的大模型。联邦学习最早是谷歌在 2017 年 4 月提出的,可以让数据不离开设备的前提下进行机器学习,且适应性强,保护数据隐私,安全系数高。机器学习模型在现实中的性能表现取决于用来训练它的数据具有多高的相关度,最好的数据就是每天使
43、用的设备。联邦学习会通过服务器发送一部分模型到终端手机,通过几分钟就可以完成训练,然后把训练成果传回服务器。图24:联邦学习的升级版 FedCG资料来源:量子位,国信证券经济研究所整理3 3)剪枝算法剪枝算法:过参数化主要是指在训练阶段,在数学上需要进行大量的微分求解,去获取数据中的微小变化,一旦完成迭代式的训练之后,网络模型推理的时候就不需要这么多参数。而剪枝算法正是基于过参数化理论提出的,核心思想是减少网络模型中参数量和计算量,同时尽量保证模型的性能不受影响。主要是分为Drop Out 和 Drop Connect 两种经典的剪枝算法:Drop Out:随机的将一些神经元的输出置零,称之为
44、神经元剪枝;Drop Connect:随机将部分神经元间的连接Connect 置零,使得权重连接矩阵变得稀疏。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告15图25:两种经典剪枝方法图26:剪枝算法流程资料来源:CV 技术指南,国信证券经济研究所整理资料来源:CV 技术指南,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告16“贾维斯贾维斯”式智能管家,引领全新换机需求式智能管家,引领全新换机需求大语言模型有望成为复杂大语言模型有望成为复杂 AIAI 系统的控制中心和交互入口系统的控制中心和交互入口大模型协作让大模型协作让“贾维
45、斯贾维斯”式智能管家更进一步。式智能管家更进一步。Jarvis 全称 Just A Rather VeryIntelligent System,是漫威宇宙中钢铁侠的 AI 助手,不仅能完成智能家居管理,还能实时监控周围环境、与用户实时沟通、为用户计算最优策略等,这些强大的功能显然这不是一个单独的 AI 模型可以解决的。微软亚洲研究院曾在 Github 上开源过一个叫做 Jarvis 的项目,该系统由 LLM 作为控制器和许多来自HuggingFace Hub 的 AI 模型作为协作执行者组成,该系统让 LLM 充当控制器来管理现有的 AI 模型,使用语言作为通用接口来调用外部模型,解决实际任务
46、。图27:钢铁侠和 Jarvis图28:微软亚洲研究院的 Jarvis 项目资料来源:漫威,国信证券经济研究所整理资料来源:HuggingGPT:Solving AI Tasks with ChatGPT and itsFriends in HuggingFace,国信证券经济研究所整理该系统的具体工作流程包括四个步骤:1)任务规划,使用 ChatGPT 等大语言模型分析用户请求,了解用户意图,并将其拆解成可解决的任务;2)模型选择,为了解决计划的任务,ChatGPT 根据描述选择托管在 Hugging Face 上的 AI 模型;3)任务执行,调用并执行每个选定的模型,并将结果返回给 Cha
47、tGPT。4)生成响应,最后使用 ChatGPT 整合所有模型的预测,生成 Response。未来,智能音箱、家用中控屏、甚至于手机、MR 都有可能成为“贾维斯”式管家的交互入口,及时性、可靠性、隐私性或是算力角度,将作为模型协作控制中心的大语言模型部署到边缘设备上必要性越来越强。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告17图29:Hugging Face AI 模型写作系统四个步骤资料来源:HuggingGPT:Solving AI Tasks with ChatGPT and its Friends in HuggingFace,国信证券经济研究所整理20232
48、023 年年 5 5 月第三周,月第三周,OpenAIOpenAI 向所有向所有 ChatGPTChatGPT PlusPlus 用户推出用户推出 BetaBeta 版本,有望成版本,有望成为为“贾维斯贾维斯”核心控制中心核心控制中心,打造全新的流量入口和应用生态打造全新的流量入口和应用生态。Beta 版本 ChatGPT支持联网和 70 多种第三方插件,覆盖购物、餐饮、旅行、天气、运算、翻译、分析数据等多种功能。ChatGPT Plugin 的发布为智能助理的出现提供了条件,让语言成为各大模型交互的通用接口。尽管目前尚处于初期,效果不尽如人意,但通过人类语言指挥 ChatGPT 帮自己与各种
49、应用交互仍是令人兴奋的尝试。随之而出现的,则是用户和 App 提供方的担忧。App 公司普遍担忧 GPT4 太过聪明,接入的 App 不仅害怕数据失去独占优势,还担心 GPT4 通过推理洞悉尚未发现的业务。我们认为,出于数据资源所有权分配以及数据安全的担心将推动终端部署大模型的需求。图30:Plugin 插件界面资料来源:36 氪,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告18各家大厂对终端运行大模型的尝试频频,各家大厂对终端运行大模型的尝试频频,20232023 年年 5 5 月月 1111 日,日,GoogleGoogle 在其第在其第 1
50、15 5届届 I/OI/O 开发者大会上发布了开发者大会上发布了 PaLM2PaLM2,相比 PaLM 5400 亿参数,它的算法经过优化,使得体积更小,但整体性能更好,计算效率更高,支持 100 多种语言和 20 多种编程语言,支持多模态的 PaLM 2 还能看懂和生成音视频内容。与 ChatGPT 相比,PaLM2优势在于响应速度更快。谷歌表示,名为 Gemini 的下一代模型将是多模式的,具有突破性的功能,但它仍在接受培训,距离发布还有几个月的时间。另外,PaLM2 模型从小到大有 4 种版本:“壁虎”(Gecko)、“水獭”(Otter)、“野牛”(Bison)、“独角兽”(Unico
51、rn),实现在不同等级的设备上部署。例如在智能手机上就可以运行规模比较小的 Gecko 模型,让移动端也能拥有大语言模型。Gecko 模型可以在完全离线的情况下在智能手机上运行,它可以在旗舰手机上每秒处理 20 个 token,大约是每秒 16 个单词。谷歌没有明确说明使用了什么硬件来测试,但提到是在“最新的手机上”运行,这证明了与大模型具备类似能力的轻量化版本可以实现本地化部署。图31:PaLM2 的从小到大的四种版本图32:PaLM2 在部分测试中体现出了优异性资料来源:Google,国信证券经济研究所整理资料来源:Google,国信证券经济研究所整理20232023 年年 5 5 月月
52、1919 日,日,OpenAIOpenAI 在美国区在美国区 iOSiOS 商城发布商城发布 ChatGPTChatGPT AppApp,这是用户首次,这是用户首次可以在搜索引擎或浏览器之外的移动设备上访问可以在搜索引擎或浏览器之外的移动设备上访问 ChatGPTChatGPT。目前 App 可以免费使用,并可同步网页端历史信息。在其欢迎界面上,App 提醒用户 ChatGPT 是有可能提供不准确的信息,并且建议用户不要提供敏感信息,因为匿名信息也可能会被 OpenAI 的训练员用来改善系统。目前 ChatGPT App 仅支持 iPhone8 及更新的机型,支持 iOS 16.1 及更新的系
53、统,切仅支持文字交互模式,不支持多模态的图片或视频输出,也不能调用摄像头,不支持联网、插件功能。ChatGPT 移动端的推出也有望推动谷歌等其他大厂快速跟进,AI 模型全面进入移动端创新阶段。图33:ChatGPT App 欢迎界面图34:微软 Bing chat 应用资料来源:OpenAI,国信证券经济研究所整理资料来源:Bing,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告19当前旗舰机款手机芯片仅可运行优化版十亿参数级大模型当前旗舰机款手机芯片仅可运行优化版十亿参数级大模型上一代人工智能程度较低拉低交互体验上一代人工智能程度较低拉低交互体验,
54、阻阻碍碍AIoAIoT T发展发展。2011年Apple推出Siri,使语音助手成为当时人工智能竞赛热门赛道,引发 Google(Google Assistant)、Amazon(Alexa)、微软(Cortana)等科技巨头纷纷加码跟进,抢占 AIoT 控制流量入口。由于通过指挥控制系统进行工作,上一代语音助理仅可以理解有限的问题和请求列表(包含在数据库中的单词列表),如果用户要求虚拟助手做一些代码中没有的事情,机器人会简单地说它无法提供帮助。由于智能化较低,全球语音助理、智能音箱及其他语音交互 AIoT 行业发展经过初期高速成长期后陷入沉寂。图35:2019 年美国语音助理市场份额图36:
55、全球智能音箱市场下滑资料来源:IT 之家,微软研究,国信证券经济研究所整理资料来源:IDC,国信证券经济研究所整理以苹果手机的以苹果手机的 SiriSiri 为例,目前旗舰机型手机芯片能支持离线唤醒和语音识别。为例,目前旗舰机型手机芯片能支持离线唤醒和语音识别。成功唤醒电子设备是实现人机语音交互的基础。成功唤醒电子设备是实现人机语音交互的基础。当设备处于待机状态时,需要识别用户输入的语音唤醒信号,如果识别成功则切换到工作状态。目前常见的唤醒方法是通过预设的唤醒参数检测用户的语音输入,唤醒参数如唤醒门限、拾音方向、噪声抑制参数、放大增益等,参数的取值决定了电子设备唤醒率的高低。这通常由一个独立的
56、小芯片,在本地实现。图37:语音交互过程示意图资料来源:集微网,国信证券经济研究所整理检测关键词的探测器检测关键词的探测器(DetectorDetector)不仅要长时间待机且功耗要足够低到对电池寿不仅要长时间待机且功耗要足够低到对电池寿命无显著影响命无显著影响,并最小化内存占用和处理器需求并最小化内存占用和处理器需求。以 iPhone 的 Siri 为例,iPhone的 Always on Processor(AOP)是一个小的、低功耗的辅助处理器,即嵌入式运动协处理器。AOP 可以访问麦克风信号,并用自己有限的处理能力运行一个修剪版神经网络模型(DNN)。当分数超过阈值时,运动协处理器唤醒
57、主处理器,主处理器使用较大的 DNN 分析信号。第一个检测器使用 5 层 32 个节点的隐藏单元的DNN(AOP 运行),第二个检测器使用 5 层 192 个节点的隐藏单元 DNN(主 CPU)。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告20而在 Apple Watch 中,因为电池体积缩小、产品体积缩小,对功耗提出了新的需求,采用的是单通道检测,机器学习模型介于手机上的第一次和第二次检测之间,并仅在手表运动协处理器检测到抬手手势时运行。如果语音内容超过了本地模型的理解范围,数据就会传递到 Siri 服务器,用更复杂的模型识别。图38:Siri 信号流示意图图39:双
58、通检测(AOP 唤醒主 CPU)资料来源:Apple,国信证券经济研究所整理资料来源:Apple,国信证券经济研究所整理iPhone6iPhone6 时代时代,SiriSiri 仅可以离线被仅可以离线被“唤醒唤醒”,A12A12 仿生芯片时代仿生芯片时代,SiriSiri 可以支持可以支持部分离线请求。部分离线请求。A11 是苹果首次搭载神经网络引擎处理器单元(Neural NetworkProcessing Unit NPU),但主要是支持面部识别。2018 年苹果推出的 A12 Bionic,采用了台积电 7nm 工艺制程,苹果自研的 Fusion 架构,NPU 从双核直接升级到八核,能够
59、实现每秒 5 万亿次计算。搭载 A12 仿生芯片的 iPhoneXS 首次支持 Siri离线运行,在不联网的情况下,Siri 可以执行拨打电话、打开特定应用、设置闹钟等请求,也可以实现语音输入等功能,但是无法响应预设内容以外的请求。这说明 10 亿参数以下的 RNN 模型已经完全可以离线运行,但是复杂请求无法实现。图40:苹果 A11 芯片开始搭载 NPU资料来源:Apple,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告21目前具备运行优化模型能力的终端仅限头部品牌旗舰手机目前具备运行优化模型能力的终端仅限头部品牌旗舰手机。根据目前各家公司对于边缘
60、端部署的情况推测,即使经过量化、剪枝、蒸馏等方式优化大模型后,仍然需要旗舰版的手机芯片可以勉强承载运行。假设旗舰机型主处理器频率应在2.8GHz 以上,或是价格在 1000 美金以上,根据 IDC 数据,1Q23 全球手机销量中主处理器频率超过 2.8GHz 的占比 36%,销售价格在 1000 美金以上的手机销量占比 13%。图41:全球手机分处理器频率销量占比图42:全球手机分价格段销量占比资料来源:IDC,国信证券经济研究所整理资料来源:IDC,国信证券经济研究所整理随着随着 AIGCAIGC 赋能语音助理赋能语音助理,AIoTAIoT 交互体验升级有望激发终端换机需求交互体验升级有望激
61、发终端换机需求。AI 助手在大语言模型和算力加持下,自然语言理解能力大幅提升,具备了实际生产力后,用户产生使用 AI 助手的需求,从而推动手机换机新周期。此外,智能音箱、全屋智能中控屏、VR/AR/MR 等同样有望成为“贾维斯”的交互入口。23 年 4 月,脱口秀演员鸟鸟介绍了自己的分身“鸟鸟分鸟”,这个数字分身为阿里训练出来的类 ChatGPT 语音助手,能够模仿她的音色、语气以及文本风格。阿里展示了“鸟鸟分鸟”模型接入智能音箱使用效果,其智能语音交互功能获得颠覆式升级,聊天技能明显升级,AI 有望真正实现对 IoT 赋能。图43:AIGC 支撑 AI 多模交互图44:鸟鸟和类 ChatGP
62、T 模型分身对话资料来源:腾讯研究院,国信证券经济研究所整理资料来源:阿里巴巴,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告22图45:全球 AR/VR 出货量预测图46:全球智能家居出货量预测资料来源:IDC,国信证券经济研究所整理资料来源:IDC,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告23风险提示风险提示宏观宏观 AIAI 应用推广不及预期应用推广不及预期。AI 技术在应用推广的过程可能面临各种挑战,比如:(1)AI 技术需要更多的时间来研发和调试,而且在应用过程中可能会受到数据质量、资源限制
63、和技术能力等因素的制约;(2)AI 技术的实施需要更多的资源和资金支持;(3)市场竞争可能也会影响企业在 AI 应用推广方面的表现。因此,投资者应审慎评估相关企业的技术实力、资金实力以及管理能力,相关企业的 AI应用存在推广进度不及预期的风险。AIAI 投资规模低于预期投资规模低于预期。尽管 AI 技术在过去几年中受到广泛关注,但 AI 相关领域的企业投资回报并不总是符合预期。部分企业在 AI 领域可能缺乏足够的经验和资源,难以把握市场机会。此外,市场竞争也可能会影响企业的投资力度。因此,存在 AI 领域投资规模低于预期,导致企业相关业务销售收入不及预期的风险。AIAI 服务器渗透率提升低于预
64、期服务器渗透率提升低于预期。虽然 AI 服务器的应用已经较为广泛,但 AI 服务器渗透率提升的速度存在低于预期的风险,这与企业对 AI 技术的投资意愿有关,也可能与市场需求和技术进展的速度有关。AIAI 监管政策收紧。监管政策收紧。由于 AI 技术的快速发展和广泛应用,监管机构可能会加强对AI 技术的监管力度。监管机构可能会制定严格的 AI 技术使用规定,以保障人们的隐私和数据安全,这些监管政策可能会对企业的业务模式和发展战略造成影响。证券研究报告证券研究报告免责声明免责声明分析师声明分析师声明作者保证报告所采用的数据均来自合规渠道;分析逻辑基于作者的职业理解,通过合理判断并得出结论,力求独立
65、、客观、公正,结论不受任何第三方的授意或影响;作者在过去、现在或未来未就其研究报告所提供的具体建议或所表述的意见直接或间接收取任何报酬,特此声明。国信证券投资评级国信证券投资评级类别类别级别级别说明说明股票股票投资评级投资评级买入股价表现优于市场指数 20%以上增持股价表现优于市场指数 10%-20%之间中性股价表现介于市场指数 10%之间卖出股价表现弱于市场指数 10%以上行业行业投资评级投资评级超配行业指数表现优于市场指数 10%以上中性行业指数表现介于市场指数 10%之间低配行业指数表现弱于市场指数 10%以上重要声明重要声明本报告由国信证券股份有限公司(已具备中国证监会许可的证券投资咨
66、询业务资格)制作;报告版权归国信证券股份有限公司(以下简称“我公司”)所有。本报告仅供我公司客户使用,本公司不会因接收人收到本报告而视其为客户。未经书面许可,任何机构和个人不得以任何形式使用、复制或传播。任何有关本报告的摘要或节选都不代表本报告正式完整的观点,一切须以我公司向客户发布的本报告完整版本为准。本报告基于已公开的资料或信息撰写,但我公司不保证该资料及信息的完整性、准确性。本报告所载的信息、资料、建议及推测仅反映我公司于本报告公开发布当日的判断,在不同时期,我公司可能撰写并发布与本报告所载资料、建议及推测不一致的报告。我公司不保证本报告所含信息及资料处于最新状态;我公司可能随时补充、更
67、新和修订有关信息及资料,投资者应当自行关注相关更新和修订内容。我公司或关联机构可能会持有本报告中所提到的公司所发行的证券并进行交易,还可能为这些公司提供或争取提供投资银行、财务顾问或金融产品等相关服务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中意见或建议不一致的投资决策。本报告仅供参考之用,不构成出售或购买证券或其他投资标的要约或邀请。在任何情况下,本报告中的信息和意见均不构成对任何个人的投资建议。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。投资者应结合自己的投资目标和财务状况自行判断是否采用本报告所载内容和信息并自行承担风险,我公司及
68、雇员对投资者使用本报告及其内容而造成的一切后果不承担任何法律责任。证券投资咨询业务的说明证券投资咨询业务的说明本公司具备中国证监会核准的证券投资咨询业务资格。证券投资咨询,是指从事证券投资咨询业务的机构及其投资咨询人员以下列形式为证券投资人或者客户提供证券投资分析、预测或者建议等直接或者间接有偿咨询服务的活动:接受投资人或者客户委托,提供证券投资咨询服务;举办有关证券投资咨询的讲座、报告会、分析会等;在报刊上发表证券投资咨询的文章、评论、报告,以及通过电台、电视台等公众传播媒体提供证券投资咨询服务;通过电话、传真、电脑网络等电信设备系统,提供证券投资咨询服务;中国证监会认定的其他形式。发布证券研究报告是证券投资咨询业务的一种基本形式,指证券公司、证券投资咨询机构对证券及证券相关产品的价值、市场走势或者相关影响因素进行分析,形成证券估值、投资评级等投资分析意见,制作证券研究报告,并向客户发布的行为。证券研究报告证券研究报告国信证券经济研究所国信证券经济研究所深圳深圳深圳市福田区福华一路 125 号国信金融大厦 36 层邮编:518046总机:上海上海上海浦东民生路 1199 弄证大五道口广场 1 号楼 12 层邮编:200135北京北京北京西城区金融大街兴盛街 6 号国信证券 9 层邮编:100032