全球主要边/端侧AI算力芯片及存储厂商(截至2023年8月31日) 原图定位 AI 大模型训练所需算力通常部署在云端,但推理算力或将分布在云/边/端侧。不同于训练环节的高计算性能要求,推理环节根据用户需求利用训练好模型进行推理预测,对峰值计算性能要求较低,更加注重单位能耗算力、时延、成本等综合指标,因此除部署于云端外,还可部署于边缘以及终端侧。其中,云端推理芯片较边缘推理芯片功耗更高、浮点算力更强,但在功耗、尺寸上的要求则低于边缘推理芯片。终端推理芯片主要形态为 SoC,通过增加 AI 计算单元(NPU/APU)提升计算能力。终端 SoC 为提升计算效率,通常使用INT8/INT16 整型计算。例如,高通手机骁龙 888 算力达到 26TOPS,瑞芯微(IOT)RK3588 NPU 算力约 6TOPS。