报告预览

电子行业：云端之下苹果端侧AI布局加速-240509（17页）.pdf

编号：161881

PDF DOCX 17页 3.03MB 下载积分：VIP专享

下载报告请您先登录！

电子行业：云端之下苹果端侧AI布局加速-240509（17页）.pdf

1、行业研究行业研究行业深度研究行业深度研究证证券券研研究究报报告告电子 2024 年 05 月 09日诚信专业发现价值 1 请务必阅读报告末页的声明电子电子云端之下，苹果端侧云端之下，苹果端侧 AI 布局加速布局加速投资要点：投资要点：苹果多层次布局苹果多层次布局 AI 产品，成果不断发布产品，成果不断发布苹果在 AI 布局相对低调，但是近期随着相关成果的对外发布，表明了其对 AI领域的高度重视。从相关布局看，苹果布局涵盖芯片硬件层、开发者框架和工具、各类针对端侧 AI的优化策略以及最上层的大模型和入口，正在全方位多层次的进行 AI 布局。随着 6 月份 WWDC及后续发布会

2、的进行，相关产品有望面世。硬件：硬件：ARM 和统一内存架构业内领先，和统一内存架构业内领先，Flash-LLM 突围端侧突围端侧 AI 内内存瓶颈，存瓶颈，AI 任务中硬件优势进一步扩大任务中硬件优势进一步扩大在 AI 浪潮前，苹果手机和电脑芯片综合性能就业内领先，M系列芯片更是将 ARM 架构和统一内存方案推向大众消费市场。M 系列芯片由于采用统一内存架构，无需在多个内存池之间复制数据，进而实现了笔记本端最高 128G 内存和 400GB/s 的带宽。作为对比，英伟达RTX 4090 显存为 16GB，英特尔 Meteor Lake 最高支持 120GB/s 的带宽。随着 AI负载的增加

3、，苹果高内存和高带宽的优势将进一步扩大。同时我们看到统一内存架构并非苹果率先提出，苹果作为芯片设计商、操作系统开发商、PC 品牌的多重角色，凭借对生态的强力把控，以 M1芯片为硬件基础才得到了开发者的支持，实现了 CPU、GPU 协作的高效性，硬件优势壁垒极高。23 年 12月苹果发布 Flash-LLM 方案，结合存储的硬件特性，创新性提出利用闪存解决大模型运行的内存瓶颈，通过该方案端侧设备能运行的模型参数量达到了原来的 2 倍。同时大模型在 CPU 上的推理速度提高了 4-5 倍，GPU 上推理速度提高了 20-25 倍，合计可将 1Token的 I/O延迟从 2130ms降低至 87ms

4、。软件和模型：端侧模型新思路，结合使用场景的模型路线软件和模型：端侧模型新思路，结合使用场景的模型路线除了 30B 参数的 MM1模型外，苹果更多在端侧模型上进行布局。2024年以来陆续发布了 ReALM、Ferret-UI以及开源模型 OpenELM。ReALM 从智能终端与用户交互中常见的指代消解问题出发，结合 AI新技术和特征工程为该类任务提出了全新的研究范式，8000 万参数模型性能与 GPT-4.0 相当，大幅提升端侧 AI的可用性。Ferret-UI 更是从“如何让 AI更好的理解屏幕”这一问题出发研发模型，初级任务显著优于 GPT-4V。同时高级任务上 GPT-4V 更好的表现

5、也展示了云端 AI的优势所在，混合 AI 将会是 AI 的未来。OpenELM模型提出了“分层缩放”策略，有效分配 Transformer模型每一层参数从而提高准确率，并降低约 50%训练数据量，从实验结果看苹果提出的架构非常有效，为后续苹果端侧 AI 模型的推出打下了坚实的基础。投资建议投资建议苹果在 AI 领域的相关成果展现了其在端侧 AI 领域强大的技术储备和领先性，后续有望落地到硬件产品。建议关注:苹果供应链：立讯精密、歌尔股份、鹏鼎控股、东山精密、长盈精密、国光电器、领益智造端侧 IC：恒玄科技、晶晨股份、乐鑫科技、中科蓝讯、瑞芯微、矩芯科技其它整机品牌：传音控股、漫步者风险

6、提示风险提示技术发展不及预期、场景落地不及预期、市场竞争加剧强于大市强于大市（维持评级）（维持评级）一年内行业相对大盘走势一年内行业相对大盘走势团队成员团队成员分析师：分析师：任志强任志强(S02) 联系人：联系人：陈妙杨陈妙杨(S02)相关报告相关报告 -0.30-0.20-0.100.000.100.205/87/2010/112/132/245/7电子沪深300 华福证券诚信专业发现价值 2 请务必阅读报告末页的声明行业深度研究|电子正文目录正文目录 1 苹果苹果 AI：硬件：硬件/框架框架/模型全面布局模型全面布局.3 2 硬

7、件端优势明显，在硬件端优势明显，在 AI 浪潮下进一步扩大浪潮下进一步扩大.4 2.1 芯片芯片 AI 相关能力持续进化相关能力持续进化.4 2.2 M 系列芯片将系列芯片将 ARM 和统一内存架构推向大众消费市场和统一内存架构推向大众消费市场.4 2.3 Flash-LLM：利用闪存解决运行大模型遇到的内存瓶颈：利用闪存解决运行大模型遇到的内存瓶颈.6 3 苹果在模型端针对端侧场景进行深度布局苹果在模型端针对端侧场景进行深度布局.9 3.1 ReALM：屏幕交互新思路：屏幕交互新思路-端侧场景化小模型端侧场景化小模型.9 3.1.1 ReALM 为端侧为端侧 AI 交互打开新思路交互打开新思

8、路.9 3.1.2 指代消解问题的解决将大幅提升端侧指代消解问题的解决将大幅提升端侧 AI 的可用性的可用性.9 3.1.3 Apple 新路线致力于解决新路线致力于解决 AI 模型在端侧的应用瓶颈模型在端侧的应用瓶颈.10 3.1.4 ReALM 效果突出，小参数实现更高效果效果突出，小参数实现更高效果.10 3.2 Ferret UI：让多模态：让多模态 LLM 更好的理解屏幕更好的理解屏幕.11 3.2.1 现有多模态大模型在屏幕内容理解上表现不佳现有多模态大模型在屏幕内容理解上表现不佳.11 3.2.2 Ferret-UI 结合结合 UI 特点和需求改进模型特点和需求改进模型.12 3

9、.3 OpenELM：多款可在端侧运行的开源小模型：多款可在端侧运行的开源小模型.14 4 行业重点公司行业重点公司.15 5 风险提示风险提示.16 图表目录图表目录图表图表 1：MM1 大模型效果演示大模型效果演示.3 图表图表 2：A 系列芯片系列芯片 NPU 算力（算力（Tops）.4 图表图表 3：M3 系列芯片信息系列芯片信息.4 图表图表 4：M1 芯片芯片 CPU 能效曲线能效曲线.4 图表图表 5：M1 芯片芯片 GPU 能效曲线能效曲线.4 图表图表 6：原有的原有的 Mac 上芯片布局上芯片布局.5 图表图表 7：M1 芯片架构芯片架构.5 图表图表 8：AMD 的的

10、hUMA架构架构.6 图表图表 9：不同模型上不同模型上 1Token 的推理延迟的推理延迟.6 图表图表 10：苹果统一内存架构下的带宽苹果统一内存架构下的带宽.7 图表图表 11：内存的吞吐量随块的大小和线程数增加而增加内存的吞吐量随块的大小和线程数增加而增加.7 图表图表 12：预测变量不会改变零样本任务的准确率预测变量不会改变零样本任务的准确率.7 图表图表 13：Sliding Window 示意图示意图.7 图表图表 14：行列捆绑行列捆绑.8 图表图表 15：使用不同技术后的使用不同技术后的 I/O延迟延迟.8 图表图表 16：日常场景中的模糊引用日常场景中的模糊引用.9 图表图

11、表 17：苹果把指代对象分为三类苹果把指代对象分为三类.10 图表图表 18：训练和测试数据集数量为千级训练和测试数据集数量为千级.10 图表图表 19：不同数据集下模型预测准确率不同数据集下模型预测准确率.10 图表图表 20：UI 界面中的任务及其引用对象复杂界面中的任务及其引用对象复杂.12 图表图表 21：Ferret-UI 训练及测试数据量训练及测试数据量.12 图表图表 22：Ferret-UI-anyres 技术架构技术架构.12 图表图表 23：Ferret-UI-anyres 表现优异表现优异.13 图表图表 24：高级任务实验结果高级任务实验结果.13 图表图表 25：不同

12、模型对同一问题的回答对比不同模型对同一问题的回答对比.14 图表图表 26：不同不同模型效果比较模型效果比较.14 图表图表 27：不同评价框架下不同评价框架下 OpenELM 表现表现.15 图表图表 28：微调在不同参数水平上都能大幅提升模型表现微调在不同参数水平上都能大幅提升模型表现.15 图表图表 29：行业重点公司行业重点公司.15 华福证券eZaVdXeU8XaVdXeU8O8QaQtRmMpNtPjMpPnQiNqRnM6MnMoOwMnQvMuOnNrO诚信专业发现价值 3 请务必阅读报告末页的声明行业深度研究|电子 1 苹果苹果 AI：硬件：硬件/框架框架/模型全面布局模

13、型全面布局苹果在苹果在 AI 领域全方位领域全方位/多层次布局。多层次布局。虽然苹果的 AI布局相对低调，但其在 AI领域的研究进展和投资表明了其对这一领域的重视和决心，并且已经目标明确得在做很具体的应用导向型研究。同时苹果的布局极具体系性，涉及 AI 生态的多个环节。从硬件的芯片，到开发者框架和工具，各类针对端侧 AI 的优化部署策略，上层的大模型，以及 AI 能力的入口 Siri等，苹果均进行了相关的布局。2023 年 12 月：1、苹果面向研究开发人员推出了专为苹果芯片设计的机器学习框架 MLX，增加了对统一内存的支持，可以同时调用内存、显存，并延续了苹果一贯的低学习成本和优秀生态及交

14、互优势；2、发布 LLM in a flash 论文，利用闪存解决端侧模型运行时内存不足的问题。2024年 3 月：1、相关报道显示苹果收购加拿大初创公司 DarwinAI，这家初创公司以其深度神经网络技术的高效小型化而闻名。2、苹果发布 300亿参数的多模态大模型 MM1，由于进行了大规模的多模态预训练，MM1 有不错的图像识别和推理能力，非常擅长在用户输入的图像和文本中寻找“规则”，并能够结合日常知识和数学推理能力给出答案。3、多次宣传 Macbook强大的 AI 能力；4、发布 ReALM模型，提出屏幕人机交互的 AI 方案。2024 年 4 月：1、发布 Ferret-UI 模型，让模

15、型更加理解屏幕；2、发布开源端侧模型 OpenELM，提出“分层缩放”策略提高准确率，降低训练需求；3、购买图片数据进行 AI训练。2024年 5 月：1、库克宣称在 6月 WWDC 大会上公布新的 AI功能。图表图表1：MM1 大模型效果演示大模型效果演示来源：MM1:Methods,Analysis&Insights from Multimodal LLM Pre-training，华福证券研究所华福证券诚信专业发现价值 4 请务必阅读报告末页的声明行业深度研究|电子 2 硬件端优势明显，在硬件端优势明显，在 AI 浪潮下进一步扩大浪潮下进一步扩大 2.1 芯片芯片 AI 相关能力

16、持续进化相关能力持续进化 A 系列芯片系列芯片 NPU 算力快速进化，算力快速进化，A17 Pro 算力达到算力达到 35Tops。由于手机与外界交互更多，如人脸解锁，物体识别，音视频质量优化等，苹果近年来在 A 系列芯片NPU 上发力较多。2017 年首次搭载，芯片具有 2核 NPU，0.6Tops 算力，A12/A13就分别具有了 4/8 核 NPU，A14往后均为 16核 NPU。NPU 算力快速增长，A17 相比 A16提升超过 100%。除了制程进步带来的算力增加，核心数量的增加是更重要的原因，反应了苹果在芯片上对 NPU 的倾斜。M 系列芯片内存、带宽优势明显。系列芯片内存、带宽优

17、势明显。苹果 M系列芯片大内存、高带宽优势明显，在 AI 负载中优势将进一步扩大。M3/M3 Pro/M3 max 的内存分别为24/36/128GB，作为对比，目前英伟达最高端的笔记本 GPU产品 RTX 4090 的显存容量为 16GB。M3/M3 Pro/M3 max的带宽分别为 100/200/400GB/s，我们选取英特尔 2023年发布的 Meteor Lake芯片作为对比，其最高带宽为 120GB/s。图表图表2：A 系列芯片系列芯片 NPU 算力（算力（Tops）图表图表3：M3 系列芯片信息系列芯片信息来源：cpu-monkey，华福证券研究所注：数据为 Pro款机型搭载

18、的 A系列芯片数据来源：Apple官网，cpu-monkey，华福证券研究所注：Pro 和 Max选取可选最高规格 2.2 M 系列芯片将系列芯片将 ARM 和统一内存架构推向大众消费市场和统一内存架构推向大众消费市场 2020 年年 11 月，苹果在月，苹果在 Mac 上告别英特尔芯片，推出首款自研上告别英特尔芯片，推出首款自研 M 系列系列 SoC 芯芯片，综合性能大幅提升片，综合性能大幅提升。首次采用 5nm制程封装了 160亿晶体管，在处理器和内存架构上都大幅革新。M1 芯片将中央处理器速度提升至最高 3.5倍，图形处理器速度提升至最高 6 倍，机器学习速度提升至最高 15 倍。相

19、比性能提升，功耗降低更为惊人。对比当时市面最新的 PC处理器，CPU 在同样性能表现下功耗仅为 25%，GPU 在同样性能表现下功耗仅为 1/3。反映到整机设备上，搭载 M1的 Macbook Air续航最长达 18 小时，比之前多出 6小时。除了除了 ARM 架构的低功耗，高效率之外。架构的低功耗，高效率之外。UMA 也成为性能提升、功耗降低、也成为性能提升、功耗降低、节省内部空间的一大核心技术。节省内部空间的一大核心技术。图表图表4：M1 芯片芯片 CPU 能效曲线能效曲线图表图表5：M1 芯片芯片 GPU 能效曲线能效曲线 0.6561115.8025303540

20、A11A12A13A14A15A16A17NPU算力华福证券诚信专业发现价值 5 请务必阅读报告末页的声明行业深度研究|电子来源：Apple，华福证券研究所来源：Apple，华福证券研究所 M 系列系列芯片芯片采用统一内存架构（采用统一内存架构（Unified Memory Architecture，UMA）。不同于以往电脑端的 CPU，M系列芯片是 CPU，还有 GPU、内存、PCIE 控制器、雷电接口控制器、神经网络引擎等组件组合的芯片，大大节省了机身内部的空间和功耗。由于无需在多内存池之间复制数据就能访问数据，统一内存由于无需在多内存池之间复制数据就能访问数据，统一内存进一步提

21、升了进一步提升了综合综合性能，实现高带宽、低延时性能，实现高带宽、低延时。传统方案的 CPU 和 GPU 即便放在同一颗 SoC 上，但是由于 CPU 和 GPU 不同的访问习惯及数据结构，CPU 和 GPU 针对内存的存取空间是分开的，需要在内存的不同空间之间来回复制数据。M1平台之上的的 RAM 内存，面向 CPU 和 GPU 等不同的处理器时，采用统一可访问的内存池，可以在相同的内存地址访问相同的数据，因而在传输带宽、降低延时、降低功耗上表现优异。图表图表6：原有的原有的 Mac 上芯片布局上芯片布局图表图表7：M1 芯片架构芯片架构来源：Apple，华福证券研究所来源：Apple

22、，华福证券研究所苹果不是第一家尝试使用统一内存的公司，但苹果却是首家将其推向大众主流苹果不是第一家尝试使用统一内存的公司，但苹果却是首家将其推向大众主流市场的厂商。市场的厂商。AMD在 13年就提出了 hUMA方案，与当前苹果的统一内存方案理论类似。但是在 PC领域，要实现 CPU、GPU 协作的高效性，需要开发生态的配合，因此 AMD 在该领域的进展并不如人意。苹果作为芯片设计商、操作系统开发商、华福证券诚信专业发现价值 6 请务必阅读报告末页的声明行业深度研究|电子 PC设备 OEM 厂商的多重角色，凭借对生态的强力把控，以 M1 为硬件基础推行自己的 UMA 架构，让 UMA走向大

23、众消费市场。图表图表8：AMD 的的 hUMA 架构架构来源：AMD，COOL3C，华福证券研究所 2.3 Flash-LLM：利用闪存解决运行大模型遇到的内存瓶颈：利用闪存解决运行大模型遇到的内存瓶颈 2023 年年 12 月，苹果发布论文月，苹果发布论文LLM in a flash:Efficient Large Language Model Inference with Limited Memory，提出利用闪存解决端侧模型运行时，提出利用闪存解决端侧模型运行时 DRAM 不足不足的限制，同时针对闪存带宽不够的问题，苹果提出了两个技术方案：窗口化的限制，同时针对闪存带宽不够的问题，苹果

24、提出了两个技术方案：窗口化（windowing）和行列捆绑（）和行列捆绑（row-column bundling）。效果优异，可支持模型参数量加倍，效果优异，可支持模型参数量加倍，GPU 上推理速度提升上推理速度提升 20-25 倍。倍。通常在推理阶段，LLM都是直接加载到 DRAM中的，一个 70亿参数的模型需要超过 14GB 内存才能以半精度的方式加载参数，大大限制了边缘设备搭载 LLM。苹果通过软硬件协同优化，使设备能够支持运行的模型大小达到了原来的两倍。同时在这项技术的加持之下，LLM 的推理速度在 Apple M1 Max CPU 上提高了 4-5倍，在 GPU 上提高了20-25倍

25、。图表图表9：不同模型上不同模型上 1Token 的推理延迟的推理延迟来源：LLM in a flash:Efficient Large Language Model Inference with Limited Memory，华福证券研究所从硬件出发，苹果的技术创新基于存储自身的硬件特点提出两大关键点。从硬件出发，苹果的技术创新基于存储自身的硬件特点提出两大关键点。1、华福证券诚信专业发现价值 7 请务必阅读报告末页的声明行业深度研究|电子 DRAM 的特点是小存储容量，传输速率高，Flash的特点是大存储容量、传输速率低。针对这一特点，减少需要从闪存传输的数据量成为第一个关键点减少

26、需要从闪存传输的数据量成为第一个关键点。2、读取大块、连续的数据会比读取小块、非连续的数据更高效，可以在读取量不变的情况下提升整体吞吐量，通过优化数据块的大小提升传输速率成为第二个关键点。通过优化数据块的大小提升传输速率成为第二个关键点。图表图表10：苹果统一内存架构下的带宽苹果统一内存架构下的带宽图表图表11：内存的吞吐量随块的大小和线程数增加而内存的吞吐量随块的大小和线程数增加而增加增加来源：LLM in a flash:Efficient Large Language Model Inference with Limited Memory，华福证券研究所来源：LLM in a fl

27、ash:Efficient Large Language Model Inference with Limited Memory，华福证券研究所苹果提出三种方法减少数据传输量。苹果提出三种方法减少数据传输量。（1）把部分参数有选择性的常驻在把部分参数有选择性的常驻在 DRAM中中，而无需进行全模型的加载，提高了计算效率和访问速度，从而提高推理性能。对于常见的 LLM 而言，它的模型参数主要由 Attention 参数和 MLP 参数两部分构成，其中 Attention参数占比约为 1/3，MLP 参数占比约为 2/3。除此之外，还有参数量级很小的 Embedding 层的参数。因为 Atte

28、ntion 参数量相对较少，所以苹果的方案是将苹果的方案是将Attention 参数和参数和 Embedding 层的参数直接加载到层的参数直接加载到 DRAM 中中。（2）仅迭代传输闪存仅迭代传输闪存中必要的、非稀疏数据到中必要的、非稀疏数据到 DRAM 进行处理进行处理。由于 MLP 层的输出只有不到 10%的值是激活状态（不为 0），而激活 MLP 层的哪些神经元与当前的输入相关。苹果利用前馈网络（FFN）模型中固有的稀疏性进行预测，每次在推理时动态加载预测为激活神经元对应的参数。（3）使用滑动窗口技术进行神经元数据管理使用滑动窗口技术进行神经元数据管理，在内存中保留最近一部分输入标记的

29、神经元数据，只对多余的参数进行删除，缺少的参数进行加载。图表图表12：预测变量不会改变零样本任务的准确率预测变量不会改变零样本任务的准确率图表图表13：Sliding Window 示意图示意图来源：LLM in a flash:Efficient Large Language Model Inference with Limited Memory，华福证券研究所来源：LLM in a flash:Efficient Large Language Model Inference with Limited Memory，华福证券研究所基于神经元共同激活的行列捆绑，增加块大小提高传输吞吐量

30、。基于神经元共同激活的行列捆绑，增加块大小提高传输吞吐量。通过对列和行，每次加载将加载 2x 块，而不是单独读取列或行，使每次读取的块大小增加 1倍。华福证券诚信专业发现价值 8 请务必阅读报告末页的声明行业深度研究|电子图表图表14：行列捆绑行列捆绑来源：LLM in a flash:Efficient Large Language Model Inference with Limited Memory，华福证券研究所多种技术合计可将多种技术合计可将 1Token 的的 I/O 延迟从延迟从 2130ms 降低至降低至 87ms。苹果在 M1 Max芯片上配合 1T的 SSD进行实

31、验，并且设定只有 50%的内存可用于大模型计算。相比于标准方式，通过参数常驻 DRAM的方式将模型加载时需要从 Flash加载到 DRAM 的数据量从 13.4GB 降低到 6.7GB，依次增加参数预测/滑动窗口/行列绑定技术，IO延迟可降低至 738ms/164ms/87ms。图表图表15：使用不同技术后使用不同技术后的的 I/O延迟延迟来源：LLM in a flash:Efficient Large Language Model Inference with Limited Memory，华福证券研究所备注：实验设定只有 50%内存可用，模型为 OPT 6.7B 16 位模型华福证

32、券诚信专业发现价值 9 请务必阅读报告末页的声明行业深度研究|电子 3 苹果在模型端针对端侧场景进行深度布局苹果在模型端针对端侧场景进行深度布局 3.1 ReALM：屏幕交互新思路：屏幕交互新思路-端侧端侧场景化小模型场景化小模型 3.1.1 ReALM 为端侧为端侧 AI 交互打开新思路交互打开新思路 ReALM 是一种可在端侧运行的实用高效实体识别系统。是一种可在端侧运行的实用高效实体识别系统。2024年 3 月，苹果发布论文ReALM:Reference Resolution As Language Modeling，主题在于解决非对话实体（non-conversational en

33、tities）中的指代消解（Reference resolution）问题。当前 LLM在非实体对话中的指代消解问题会严重影响端侧 AI 使用体验，ReALM 提出了一个利用大语言模型建立和解析各类指代对象（尤其是非对话实体）的系统。最小的 8000万参数模型在屏幕实体识别的准确率上也比原有系统提升了 5%以上。在与 GPT-4.0 的对比中，8000万参数模型与 GPT-4.0 性能相当，而更大的 ReALM模型则明显优于它，且在屏幕领域表现更加出色。3.1.2 指代消解问题的解决将大幅提升端侧指代消解问题的解决将大幅提升端侧 AI 的可用性的可用性模糊的引用在日常场景中很常用模糊的引用在

34、日常场景中很常用。人类语言通常包含模棱两可的引用，例如“他们”或“那个”，其指代的含义在上下文中是显而易见的。因此使用和理解上下文的能力对于 AI应用来说是至关重要的，否则将无法理解用户的意图以完成任务。图表图表16：日常场景中的模糊引用日常场景中的模糊引用来源：ReALM:Reference Resolution As Language Modeling，华福证券研究所非对话框形式下的实际场景中，指代的实体种类更多，可能不被上下文包含，指非对话框形式下的实际场景中，指代的实体种类更多，可能不被上下文包含，指代消解问题更突出。代消解问题更突出。指代消解问题可以概括为：由于无法理解“它”指的

35、是什么，导致错误的理解和回复。相对云端 AI 对话框，实际应用场景中实体类型更多。ReALM模型主要针对屏幕 UI场景，苹果把该场景下的对象分为三类：多轮对话实体、屏幕实体和后台运行的实体。在这种场景下，针对非文本数据的指代消解问题更突出。华福证券诚信专业发现价值 10 请务必阅读报告末页的声明行业深度研究|电子图表图表17：苹果把指代对象分为三类苹果把指代对象分为三类来源：ReALM:Reference Resolution As Language Modeling，华福证券研究所 3.1.3 Apple 新路线致力于解决新路线致力于解决 AI 模型在端侧的应用瓶颈模型在端侧的应用瓶

36、颈现有模型在端侧核心不足在于指代消解、硬件计算能力有限。现有模型在端侧核心不足在于指代消解、硬件计算能力有限。现有的模型在端侧运行有诸多不足，其中核心问题主要为以下几点。1、模型完全运行在端侧的时候功耗要求高；同时硬件计算能力有限，运行大模型较为困难；2、在屏幕场景下，指代消解问题突出；无法把屏幕上的但在历史对话轮次中未提及的实体纳入对话。3、大模型必须集成应用程序接口 API，泛化能力较弱。针对现有大模型在端侧应用存在的不足，针对现有大模型在端侧应用存在的不足，ReALM 通过以下创新得以大幅改进：通过以下创新得以大幅改进：ReALM 创新点创新点 1：传统的端到端特征工程需要大量的人工特

37、征和规则，适应新领域的成本很高，同时对上下文理解弱。而现有大模型硬件要求高。苹果提出的新范苹果提出的新范式：用式：用 LLM 进行端到端的建模。进行端到端的建模。ReALM 创新点创新点 2：将历史会话、屏幕内容等不同内容的实体统一编码为文本输入给 LLM，实现同时处理对话和非对话实体。这样的好处是。这样的好处是 ReALM 并不直接处理并不直接处理图像数据，图像数据，将指代消解问题变为了建模问题，并且使用单个语言模型解决多种任务。将指代消解问题变为了建模问题，并且使用单个语言模型解决多种任务。同时仅为文本数据降低了模型大小，能够在同时仅为文本数据降低了模型大小，能够在小内存的小内存的 iPh

38、one 上上本地运行，本地运行，并使并使 Siri拥有了视觉能力拥有了视觉能力。3.1.4 ReALM 效果突出，小参数实现更高效果效果突出，小参数实现更高效果效果优异，尤其是在屏幕实体领域。效果优异，尤其是在屏幕实体领域。苹果基于谷歌在 2022 年提出的 Flan-T5 微调模型，使用了包括千数量级的对话、屏幕、背景实体进行训练和测试。最终效果突出。与以前的特征工程方式 MARRS 相比提升巨大，最小的 80M 模型在对屏幕实体的识别上获得了 5%的准确率提升，与大参数的 GPT-4 相比也不遑多让。在代表了泛化能力的未知数据集的准确率上，ReALM 大幅超过 MARRS 和 GPT-3

39、.5，与 GPT-4接近。图表图表18：训练和测试数据集数量为千级训练和测试数据集数量为千级图表图表19：不同数据集下模型预测准确率不同数据集下模型预测准确率华福证券诚信专业发现价值 11 请务必阅读报告末页的声明行业深度研究|电子来源：ReALM:Reference Resolution As Language Modeling，华福证券研究所来源：ReALM:Reference Resolution As Language Modeling，华福证券研究所 ReALM为指代消解提出了全新的研究范式，同时有望引领端侧为指代消解提出了全新的研究范式，同时有望引领端侧 AI和云端和云

40、端 AI走走向不同的技术路线，向不同的技术路线，端侧 AI 将不仅仅是云端 AI 在设备端的弱化版或端侧场景的特殊版，而是和云端 AI在能力上各有所长，相互补充。3.2 Ferret UI：让多模态让多模态 LLM 更好的理解屏幕更好的理解屏幕 3.2.1 现有多模态大模型在屏幕内容理解上表现不佳现有多模态大模型在屏幕内容理解上表现不佳由于由于 UI 界面的特殊性，通用多模态大型语言模型（界面的特殊性，通用多模态大型语言模型（MLLM）在理解和有效交）在理解和有效交互能力方面往往不足互能力方面往往不足。2024 年 4 月，苹果发布论文Ferret-UI:Grounded Mobile UI

41、 Understanding with Multimodal LLMs，基于自身 2023 年 10月推出的多模态大模型Ferret 做了针对 UI 界面的改进。多模态大模型在 UI 领域表现不佳的主要原因包括：1、与现实世界的图像相比，手机屏幕的高宽比和大多数模型训练图形使用的高宽比不同；2、在与 UI的交互中，不仅需要理解屏幕整体，还要能够集中于屏幕内的特定UI 元素。所以 MLLM 需要识别出图表和按钮，但是他们相对来说都比较小，现有MLLM 是把整个屏幕作为单一输入容易丢失细节。华福证券诚信专业发现价值 12 请务必阅读报告末页的声明行业深度研究|电子图表图表20：UI 界面中的

42、任务及其引用对象复杂界面中的任务及其引用对象复杂来源：Ferret-UI:Grounded Mobile UI Understanding with Multimodal LLMs，华福证券研究所 3.2.2 Ferret-UI 结合结合 UI 特点和需求改进模型特点和需求改进模型苹果从苹果从 3 方面对方面对 UI 领域的领域的 MLLM 进行改进进行改进。1）针对大部分模型训练数据和 UI界面的差异，苹果在训练数据上使用 UI 界面的训练样本，该论文中的样本量仅为万级，安卓数据集包含 26527个训练样本及 3080 个测试样本，iPhone 数据集包含 84685个训练样本及 941

43、0 个测试样本。2）同时为增强推理能力，苹果在基础功能之外编制了高级任务，包括详细描述、感知/交互对话和功能推理。3）加入了任意分辨率（anyres），该技术根据原始图像的高宽比获取每个子图像的高宽比，通过放大细节来解决 UI 屏幕识别的小型对象识别问题，从而提高模型对 UI 元素的理解精度。图表图表21：Ferret-UI 训练及测试数据量训练及测试数据量图表图表22：Ferret-UI-anyres 技术架构技术架构来源：Ferret-UI:Grounded Mobile UI Understanding with Multimodal LLMs，华福证券研究所来源：Ferret-U

44、I:Grounded Mobile UI Understanding with Multimodal LLMs，华福证券研究所轻量化下性能更加优秀轻量化下性能更加优秀，初级任务显著优于初级任务显著优于 GPT-4V，高级任务上，高级任务上 GPT-4V 表现表现更好。更好。在多个基础任务和高级任务中，相比没有针对 UI 进行优化的 Ferret，Ferret-UI提升非常显著，同时显著优于 GPT-4V。与 Spotlight相比，Ferret-UI 在 S2W和 WiC 华福证券诚信专业发现价值 13 请务必阅读报告末页的声明行业深度研究|电子两个任务中表现出了优越的性能，Ferre

45、t-UI 性能在 TaP 任务上表现稍弱，但仍然具有竞争力。Spotlight使用了 8000万网页截图和 2.69 亿手机截图进行预训练，而 Ferret-UI由于数据量少，在 8 个 A100 上训练，Ferret UI仅需要 1 天，Ferret-UI-anyres 也只需要 3 天。图表图表23：Ferret-UI-anyres 表现优异表现优异来源：Ferret-UI:Grounded Mobile UI Understanding with Multimodal LLMs，华福证券研究所注 1：S2W:screen2words,WiC:widget captions,TaP:t

46、aperception 注 2：“i”:iPhone,“A”:Android,“Ref”:Referring,“Grd”:Grounding 高级任务上或将是多种模型协作发展的路线。高级任务上或将是多种模型协作发展的路线。高级任务具体看，由于采用了“任意分辨率（anyres）”技术，Ferret-UI-anyres 在详细描述和功能推理上优势非常明显，远超过开源的用户界面理解 MLLM（如 Fuyu、CogAgent），相比理解真实世界的模型 Ferret也是全面大幅领先。在与 GPT-4V的对比上，Ferret-UI-anyres 在与设备端屏幕更相关的任务（详细描述、功能推理）上超过 GP

47、T-4V，但是在对话互动相关的任务中 GPT-4V优势较大。图表图表24：高级任务实验结果高级任务实验结果来源：Ferret-UI:Grounded Mobile UI Understanding with Multimodal LLMs，华福证券研究所注：DetDes：详细描述、ConvP：对话感知，ConvI：对话互动，FuncIn：功能推理。在与屏幕相关的对话交互上，在与屏幕相关的对话交互上，GPT-4V 更倾向于提供与问题无关的信息，更倾向于提供与问题无关的信息，Ferret更偏向简洁。更偏向简洁。高级任务具体看，为了更好的了解界面相关问题交互的准确性和相关性，苹果人工评估了 Fe

48、rret-UI和 GPT-4V的准确率，Ferret-UI的准确率为 91.7%，而GPT-4V 为 93.4%。但是 GPT-4V 往往会提供与问题无关的额外信息，在原有的评分模型中，这些详细答案比 Ferret-UI 简洁的答案得分更高。华福证券诚信专业发现价值 14 请务必阅读报告末页的声明行业深度研究|电子图表图表25：不同模型对同一问题的回答对比不同模型对同一问题的回答对比来源：Ferret-UI:Grounded Mobile UI Understanding with Multimodal LLMs，华福证券研究所 3.3 OpenELM：多款可在端侧运行的开源小模型多款

49、可在端侧运行的开源小模型 2024年 4 月，苹果发布了一款专为终端设备而设计的小模型 OpenELM，包含了2.7 亿、4.5 亿、11 亿和 30亿四个参数版本。OpenELM 核心使用了“分层缩放”策核心使用了“分层缩放”策略来有效分配略来有效分配 Transformer 模型每一层参数模型每一层参数。模型每层的参数数量不同模型每层的参数数量不同，从而提高从而提高准确率，并降低训练的数据需求量准确率，并降低训练的数据需求量。在约 10 亿参数规模下，OpenELM 与 OLMo 相比，准确率提高了 2.36%，同时需要的预训练 Token 数量减少了 50%。图表图表26：不同模型效果比

50、较不同模型效果比较来源：OpenELM:An Efficient Language Model Family with Open-source Training and Inference Framework，华福证券研究所 OpenELM 开源程度行业领先。开源程度行业领先。与以往开源模型只提供权重和代码，在私有数据集上训练不同，OpenELM基于公共数据集进行预训练和微调，并且发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的 checkpoint和训练日志，以促进开源研究。OpenELM 的架构在不同评价框架的实验结果中均显示有效性的架构在不同评价框架的实验结果中均

51、显示有效性。由于 MobiLlama和 OLMo 与 OpenELM 都是在类似的数据集上训练出来的，因此也是 OpenELM 的主要比较对象。与今年 2 月发布的 OLMo 开源 LLM 相比，在三种不同的评价框架下，OpenELM 较 OLMo 在 10B 左右的参数模型中准确率分别提升了 1.28%、2.36%、1.72%，并且是在 50%训练 Token 数量情况下实现的，显示了 OpenELM 架构的有效性。模型参数数量模型参数数量/是否指令微调对最终效果有明显影响是否指令微调对最终效果有明显影响。参数大小对模型表现影响较大，以zero-shot评价框架为例，0.27B/0.45B/

52、1.08B/3.04B模型准确率分别为54.37%、华福证券诚信专业发现价值 15 请务必阅读报告末页的声明行业深度研究|电子 57.56%，63.44%，67.39%。同时微调能将 OpenELM 的平均准确率提高 1-2%。因此我们认为未来端侧模型针对不同算力和场景将会百花齐放。图表图表27：不同评价框架下不同评价框架下 OpenELM 表现表现图表图表28：微调在不同参数水平上都能大幅提升模型微调在不同参数水平上都能大幅提升模型表现表现来源：OpenELM:An Efficient Language Model Family with Open-source Training a

53、nd Inference Framework，华福证券研究所来源：OpenELM:An Efficient Language Model Family with Open-source Training and Inference Framework，华福证券研究所 4 行业重点公司行业重点公司苹果在 AI 领域的相关成果展现了其在端侧 AI 领域强大的技术储备和领先性，后续有望落地到硬件产品，建议关注:苹果供应链苹果供应链：立讯精密、歌尔股份、鹏鼎控股、东山精密、长盈精密、国光电器、领益智造端侧端侧 IC：恒玄科技、晶晨股份、乐鑫科技、中科蓝讯、瑞芯微、矩芯科技其它整机品牌其它整机品

54、牌：传音控股、漫步者图表图表29：行业重点公司行业重点公司公司代码公司名称当前市值 EPS(摊薄)PE（亿元）2023A 2024E 2025E 2026E 2023A 2024E 2022A 2023E 002475.SZ 立讯精密 2,125 1.53 1.93 2.42 2.88 22.52 15.37 12.26 10.27 002241.SZ 歌尔股份 551 0.32 0.62 0.85 1.02 66.05 25.97 19.08 15.75 002938.SZ 鹏鼎控股 626 1.42 1.66 1.92 2.12 15.76 16.22 14.08 12.72 00

55、2384.SZ 东山精密 267 1.15 1.37 1.72 2.05 15.82 11.43 9.10 7.64 300115.SZ 长盈精密 128 0.07 0.57 0.71 0.86 186.10 18.71 14.94 12.27 002045.SZ 国光电器 72 0.63 0.56 0.68 0.88 26.22 22.60 18.61 14.34 002600.SZ 领益智造 350 0.29 0.33 0.45 0.55 23.10 14.93 11.14 9.09 688608.SH 恒玄科技 151 1.03 2.38 3.66 4.83 149.79 52.83 3

56、4.40 26.02 688099.SH 晶晨股份 235 1.20 1.77 2.56 3.29 52.36 31.78 21.94 17.06 688018.SH 乐鑫科技 86 1.69 2.34 3.31 4.52 61.07 45.68 32.37 23.67 688332.SH 中科蓝讯 67 2.10 2.82 3.81 4.73 35.96 19.84 14.69 11.84 603893.SH 瑞芯微 238 0.32 0.84 1.36 2.02 196.53 67.58 41.99 28.24 688049.SH 炬芯科技 32 0.53 0.73 0.97 1.25 7

57、1.39 36.29 27.26 21.20 华福证券诚信专业发现价值 16 请务必阅读报告末页的声明行业深度研究|电子 688036.SH 传音控股 1,162 6.87 8.08 9.57 11.23 20.16 17.84 15.06 12.83 002351.SZ 漫步者 113 0.47 0.61 0.72 0.86 37.44 20.97 17.75 14.82 数据来源：Wind，华福证券研究所注：1、市值数据更新至 2024/5/8；2、盈利预测数据来源于 Wind一致预测 5 风险提示风险提示技术发展不及预期：技术发展不及预期：模型在设备端搭载需要软硬件技术的协同发展

58、，若技术发展不及预期，相关产品推出时间也将延后。场景落地不及预期：场景落地不及预期：相比云端大模型，端侧更加重视和用户及场景结合，端侧模型在具体场景中的表现将影响整体产品力。市场竞争加剧：市场竞争加剧：智能手机市场若竞争加剧，相关供应链公司盈利水平或将承压。华福证券诚信专业发现价值 17 请务必阅读报告末页的声明行业深度研究|电子分析师声明分析师声明本人具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师，以勤勉的职业态度，独立、客观地出具本报告。本报告清晰准确地反映了本人的研究观点。本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。一般

59、声明一般声明华福证券有限责任公司（以下简称“本公司”）具有中国证监会许可的证券投资咨询业务资格。本公司不会因接收人收到本报告而视其为客户。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料，该等公开资料的准确性及完整性由其发布者负责，本公司及其研究人员对该等信息不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断，之后可能会随情况的变化而调整。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态，对本报告所含信息可在不发出通知的情形下做

60、出修改，投资者应当自行关注相应的更新或修改。在任何情况下，本报告所载的信息或所做出的任何建议、意见及推测并不构成所述证券买卖的出价或询价，也不构成对所述金融产品、产品发行或管理人作出任何形式的保证。在任何情况下，本公司仅承诺以勤勉的职业态度，独立、客观地出具本报告以供投资者参考，但不就本报告中的任何内容对任何投资做出任何形式的承诺或担保。投资者应自行决策，自担投资风险。本报告版权归“华福证券有限责任公司”所有。本公司对本报告保留一切权利。除非另有书面显示，否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权，本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分

61、发给任何其他人，或以任何侵犯本公司版权的其他方式使用。未经授权的转载，本公司不承担任何转载责任。特别声明特别声明投资者应注意，在法律许可的情况下，本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易，也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。投资者请勿将本报告视为投资或其他决定的唯一参考依据。投资评级声明投资评级声明类别类别评级评级评级说明评级说明公司评级买入未来 6 个月内，个股相对市场基准指数指数涨幅在 20%以上持有未来 6 个月内，个股相对市场基准指数指数涨幅介于 10%与 20%之间中性未来 6 个月内

62、，个股相对市场基准指数涨幅介于-10%与 10%之间回避未来 6 个月内，个股相对市场基准指数涨幅介于-20%与-10%之间卖出未来 6 个月内，个股相对市场基准指数涨幅在-20%以下行业评级强于大市未来 6 个月内，行业整体回报高于市场基准指数 5%以上跟随大市未来 6 个月内，行业整体回报介于市场基准指数-5%与 5%之间弱于大市未来 6 个月内，行业整体回报低于市场基准指数-5%以下备注：评级标准为报告发布日后的 612 个月内公司股价（或行业指数）相对同期基准指数的相对市场表现。其中 A股市场以沪深 300 指数为基准；香港市场以恒生指数为基准，美股市场以标普 500 指数或纳斯达克综合指数为基准（另有说明的除外）联系方式联系方式华福证券研究所华福证券研究所上海上海公司地址：上海市浦东新区浦明路 1436 号陆家嘴滨江中心 MT 座 20 层邮编：200120 邮箱：华福证券

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（电子行业：云端之下苹果端侧AI布局加速-240509（17页）.pdf）为本站（Nefertari）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

电子行业：云端之下苹果端侧AI布局加速-240509（17页）.pdf

电子行业：云端之下苹果端侧AI布局加速-240509（17页）.pdf

电子行业：云端之下苹果端侧AI布局加速-240509（17页）.pdf