剪枝(Pruning)原理图示 原图定位 大模型压缩技术为模型轻量化和端侧运行提供基础。模型压缩是将深度学习模型的参数量和计算量减少的技术,目的是在节省计算资源的基础上提高模型的运行效率,同时尽量保持模型的性能和准确性。模型压缩的方法主要包括:1)知识蒸馏(Knowledge Distillation),让小模型去拟合大模型的输出,从而使得大小模型获得相似的函数映射;2)剪枝(Pruning),在训练或微调模型中通过删去非重要参数或通道来减少模型的大小和复杂度;3)量化(Quantization),将模型参数的激活值从高精度(如 FP32)转换为低精度(如 FP8、INT4),从而减少模型的存储空间,提高模型的推理速度;4)低秩分解(Low-Rank Factorization),通过矩阵和张量分解来识别深度神经网络的冗余参数。当需要减小模型大小时,低秩分解技术的原理为通过将大矩阵分解为较小的矩阵。