龙凤1314shlf(1314shlf- 给你的生活添彩，新生活从这里开始)

《IMT-2030（6G）推进组：2022无线人工智能（AI）技术研究报告（110页）.pdf》由会员分享，可在线阅读，更多相关《IMT-2030（6G）推进组：2022无线人工智能（AI）技术研究报告（110页）.pdf（110页珍藏版）》请在三个皮匠报告上搜索。

1、 I 目目录录第一章第一章引言引言 .1 1 第二章第二章基于基于 AI/MLAI/ML 的物理层技术的物理层技术 .2 2 2.1 基于 AI/ML 的无线环境建模与感知.2 2.2 基于 AI 的信道估计、预测及反馈.4 2.2.1 信道状态信息估计.5 2.2.2 信道状态信息预测.12 2.2.3 信道状态信息反馈.15 2.2.4 导频、信道估计、信道反馈、预编码联合设计.20 2.3 AI 使能的端到端设计.22 2.4 基于 AI/ML 的信道编译码技术.24 2.4.1 基于 DNN 的编译码算法.25 2.4.2 基于 CNN 的译码算法.27 2.4.3 基于 LS

2、TM 网络的译码算法.28 2.4.4 基于对抗生成网络译码算法.29 2.5 基于 AI/ML 的调制与波形技术.30 2.6 基于 AI/ML 的信源信道联合编码技术.31 2.7 基于 AI 的 OFDM 接收机设计.33 2.8 基于 AI 的多天线收发技术.35 2.8.1 基于 AI 的 MIMO 检测.35 2.8.2 单用户毫米波 MIMO 混合预编码.37 2.8.3 多用户毫米波 MIMO 混合预编码.39 2.8.4 移动自适应协同波束成形.41 2.8.5 基于 AI/ML 的波束漂移抑制技术.43 2.8.6 基于 AI/ML 的波束跟踪技术.44 2.9 基于 AI

3、的多用户接入技术.45 2.10 基于 AI 的活跃用户检测.46 2.11 基于 AI 的定位技术.49 第三章第三章基于基于 AI/MLAI/ML 的链路层技术的链路层技术 .5151 3.1 基于 AI 的功率分配.51 3.2 基于 AI 的信道分配.52 3.3 基于 AI 的接入控制.53 3.4 基于 AI 的链路调度.54 3.5 基于智能体(smart agent)的无线资源调度.54 第四章第四章基于基于 AIAI 的网络上层技术的网络上层技术 .5858 4.1 基于 AI 的无线网络架构.58 4.2 基于 AI 的传输层拥塞控制技术.61 4.3 基于 AI 的

4、业务速率控制.63 4.4 基于 AI 的需求预测与缓存技术.65 4.5 基于 AI 的无线分布式计算.71 第五章第五章基于基于 AIAI 的语义通信的语义通信 .7777 5.1 基于 AI 的语义通信系统架构.77 第六章第六章无线无线 AIAI 研究数据集研究数据集 .7979 II 6.1 无线 AI 研究数据收集和利用.79 6.2 无线 AI 研究数据集的共建共享.80 6.3 无线 AI 伦理规范及隐私保护.82 第七章第七章产业化前景分析与总结产业化前景分析与总结 .8585 7.1 AI 赋能无线技术的潜能及优势.85 7.2 AI 赋能无线技术的产品成熟度.86

5、7.3 AI 赋能无线技术的标准化和产业化影响.87 参考文献参考文献 .8888 附录：缩略词表附录：缩略词表 .9797 贡献单位贡献单位 .100100 III 图目录图 2-1 无线通信链路.2 图 2-2 基于 CNN 和 LSTM 的无线信道建模与预测.3 图 2-3 基于 seq-to-seq 模型的信道预测器.3 图 2-4 多维信道嵌入.4 图 2-5 系统框架图.6 图 2-6 DL 和传统算法的比较.6 图 2-7 接收端示意图.7 图 2-8 LDAMP 网络每一层的结构.7 图 2-9 LDAMP 和其他方法的 NMSE 比较.8 图 2-10 目标小区与干扰小区中

6、用户的 DOA 分布图.8 图 2-11 不同 SNR 下各方法 MSE 性能对比.9 图 2-12 复合神经网络的结构.9 图 2-13 复合神经网络仿真结果.10 图 2-14 估计网络模型 SRCNN 及 DNCNN 结构示意图.10 图 2-15 估计流程示意图.11 图 2-16 误块率性能指标对比示意图（SR+DN 和 LMMSE（最小均方误差）.11 图 2-17 滑窗机制示意图.12 图 2-18 模型工作架构示意图.12 图 2-19 小样本 AI 信道估计仿真结果.12 图 2-20 用于信道预测的 RNN 结构.13 图 2-21 信道预测结果81.13 图 2-22 信

7、道映射关系学习网络.14 图 2-23 信道预测结果.14 图 2-24 基于深度学习的信道选择联合信道外推网络.15 图 2-25 左：均匀选择图案中：信道选择子网络学习到的图案右：两种选择方案信道外推的误差比较.15 图 2-26 基于 AI 的全信道信息反馈架构.15 图 2-27 基于 AI 的隐式反馈架构.16 图 2-28 32 天线下 UMA 加噪信道数据仿真图.17 图 2-29 信道压缩反馈原理.17 图 2-30 特征抽取与特征恢复网络.17 图 2-31 迁移策略性能比较.18 图 2-32 最佳性能比较.18 图 2-33 手动裁剪信道中的近零值来提升基于深度学习的

8、信道压缩反馈方案性能.19 图 2-34 基于深度学习的 FDD 下行信道反馈示意图.19 图 2-35 结合 FDD 上下行互易性的基于深度学习的 FDD 下行信道反馈示意图.20 图 2-36 用 AI 自编码器的思想进行导频序列和信道估计的联合设计.20 图 2-37 导频设计、信道估计、信道信息反馈、预编码的联合设计.21 图 2-38 量化函数及其不同的梯度重写函数.22 图 2-39 基于 AI 的端到端收发机设计（针对 AWGN 信道）.23 图 2-40 基于 AI 的端到端收发机学习得到的星座图样式（针对 AWGN 信道）.23 图 2-41 基于 AI 的端到端收发机学习结

9、果误消息率性能比较（针对 AWGN 信道）.23 图 2-42 基于 AI 端到端 OFDM 系统与单/双导频不同速度下比特误码率.24 图 2-43 DNN Polar 码译码器.25 IV 图 2-44 基于 AI 方法设计的 Polar 码性能优于 DE/GA 方法.25 图 2-45 改进置信传播算法的性能对比.26 图 2-46 Polar 码分段神经网络译码算法.26 图 2-47 Polar 码分段神经网络译码算法性能对比.27 图 2-48 BP-CNN 译码算法.27 图 2-49 BP-CNN 译码性能对比.28 图 2-50 LSTM-aided SCF 算法示意图.28

10、图 2-51 LSTM-aided SCF 性能对比.28 图 2-52 LSTM-Aided CA-SCLF 算法示意图.29 图 2-53 LSTM-Aided CA-SCLF 算法性能比较.29 图 2-54 基于对抗生成网络的低密度奇偶校验码译码模型.30 图 2-55 对抗生成网络的 LDPC 码译码结果.30 图 2-56 基于 autoencoder 的调制解调联合设计.31 图 2-57 基于 AE 的低 PAPR 波形设计.31 图 2-58 基于 AI 的智能波形识别网络.31 图 2-59 信源信道独立编码域信源信道联合编码示意图.32 图 2-60 基于 AI 的信源

11、信道联合编解码方案的神经网络结构图.33 图 2-61 基于 AI 的信源信道联合编码方案的性能.33 图 2-62 传统 OFDM 接收机.34 图 2-63 基于模型驱动的 OFDM 接收机.34 图 2-64 基于数据驱动的 OFDM 接收机.34 图 2-65 DetNET 单层的结构图.35 图 2-66 时变信道条件下各检测算法的误码率性能比较.36 图 2-67 BP 迭代 DNN 检测结构.36 图 2-68 DNN-dBP 和 DNN-MS 算法性能.36 图 2-69 MMNet 算法性能.37 图 2-70 混合预编码架构的收发机模型图.38 图 2-71 基于波束训练与

12、跟踪的毫米波单用户混合预编码原理图.38 图 2-72 不同算法的有效可达速率性能比较.39 图 2-73 多用户 MIMO 下行系统框图.39 图 2-74 提出的网络架构.40 图 2-75 信道数据加噪之后各方案的性能对比.40 图 2-76 基于智能交互式学习范式的毫米波多用户预编码算法.41 图 2-77 不同算法对应的有效可达速率性能.41 图 2-78 毫米波协同波束成形系统框图.41 图 2-79（左）在线学习阶段模型.42 图 2-80（右）深度学习预测阶段模型.42 图 2-81 提出的深度学习方案的有效可达速率.43 图 2-82 波束漂移效应抑制的方法原理图.43 图

13、2-83 有效可达速率-数据传输波束宽度固定与自适应优化.44 图 2-84 用户运动预测.45 图 2-85 基于 AI 方法的多用户接收机.46 图 2-86 DNN-MP-BSBL 结构（N=3;K=6;Lt=2;dc=2）.47 图 2-87 活跃用户检测错误概率性能比较（Nit为迭代次数）.47 图 2-88 D-AUD 网络结构.48 图 2-89 D-AUD 与传统检测算法性能比较.48 图 2-90 网络结构示意图.49 V 图 2-91 性能比较.49 图 2-92 不同场景下 LOS 的概率.50 图 2-93 AI 在 FR1 和 FR2 下的定位仿真结果.50 图 3-

14、1 Actor-critic 强化学习框架.52 图 3-2 物联网中的联合信道接入和包转发.53 图 3-3 基于学习的随机接入非授权频谱策略.54 图 3-4 基于 MARL 的 D2D 场景功率分配方法.55 图 3-5 基于 DRL 的 full-buffer 场景用户调度.56 图 3-6 可扩展的神经网络设计.56 图 3-7 深度强化学习算法性能.57 图 4-1 无线 AI 架构（示例图）.58 图 4-2 基于 AI+MEC 的无线接入网架构（基础设施示意图）.59 图 4-3 基于 AI+MEC 的无线接入网架构（抽象逻辑示意图）.60 图 4-4 基于 AI+MEC 的无

15、线接入网架构（反馈机制示意图）.60 图 4-5 基于 AI 的无线接入网架构.61 图 4-6 基于深度增强学习的拥塞控制算法.63 图 4-7 实验结果.63 图 4-8 基于 AI 的业务层速率控制.64 图 4-9 网络测试结果.64 图 4-10 适应性缓存方案仿真结果.65 图 4-11 无线缓存网络系统图.66 图 4-12 仿真验证示意图.66 图 4-13 缓存结构图.67 图 4-14 评分矩阵与矩阵分解示例.67 图 4-15 协同缓存方案仿真结果.68 图 4-16 边缘计算网络系统图.68 图 4-17 无线缓存网络内容推送系统.69 图 4-18 结构化卷积神经网络

16、.69 图 4-19 仿真验证示意图.70 图 4-20 基于相关性和因果性的无线业务预测模型.70 图 4-21 联合数据压缩和传输系统模型图.71 图 4-22 仿真验证示意图.72 图 4-23 影响数据压缩决策的重要参数.72 图 4-24 基本分割 AI/ML 的思路.72 图 4-25 分割 AI/ML 的不同模式.73 图 4-26 联邦学习中的模型聚合.73 图 4-27 FL 调度流程.74 图 4-28 联合调度性能.75 图 4-29 基于端边云协同的多层次联邦学习架构.75 图 5-1 语义通信模型的一般框架.77 图 5-2 基于深度学习的语义通信系统架构.78 图

17、5-3 语义通信模型的准确率.78 图 6-1 无线 AI 研究数据集的组成示例.79 图 6-2 无线 AI 研究数据集的收集和利用举例.80 图 6-3 内生 AI 架构与无线 AI 研究数据集.81 图 6-4 基于 RT 仿真信道数据（左：BS/UE 部署；右 BS5 和 UE7 直接射线追踪仿真结果）.81 图 6-5 基于无线 AI 研究数据集的定位任务训练结果.82 VI 图 7-1 手机终端 NPU 能力增长图.86 VII 表目录表 3-1 仿真参数.57 表 4-1 传输层拥塞控制主要 AI 算法.62 表 4-2 无线业务预测精度对比结果.70 表 6-2 自定义参数配

18、置.82 表 7-1 典型的复杂神经网络的复杂度列表.86 表 7-2 主要贡献单位和贡献人.100 1 第一章第一章引言引言伴随着人工智能（artificial intelligence,AI）三大驱动力算力、算法和数据相关技术的不断发展，AI 技术正在人类社会中掀起新一轮的技术革命。特别地，作为 AI 技术的一个重要研究方向，机器学习（machine learning,ML）利用了深度神经网络（deep neural network，DNN）的非线性处理能力，成功地解决了一系列从前难以处理的问题，在图像识别、语音处理、自然语言处理、游戏等领域甚至表现出强于人类的性能，因此近来受到了越来

19、越多的关注。AI/ML 技术发展的同时，无线通信系统也在持续高速发展中。第 5 代移动通信（5G）支持增强移动通信（enhanced mobile broadband,eMBB）、超高可靠低时延（ultra-reliable low latency communications，uRLLC）和海量机器类型通信（massive machine type communications，mMTC）等三大应用场景，而未来的无线通信系统必将向更大吞吐、更低时延、更高可靠性、更大连接数、更高频谱利用率等方向演进。已有的研究工作表明，AI 在复杂未知环境建模、学习，信道预测，智能信号生成与处理，网络状态跟踪

20、与智能调度，网络优化部署等许多方面具有重要的应用潜力，有望促进未来通信范式的演变和网络架构的变革，对 6G 技术研究具有十分重要的意义和价值。在 IMT-2030（6G）推进组的统一安排下，无线技术工作组无线 AI 任务组就人工智能技术在 6G 无线空口和无线组网中的应用开展了深入调研分析，以为下一步开展相关研究提供指导和思路。本报告在对当前国内外的主要研究状况进行调研分析的基础上，结合部分成员单位在无线 AI 上的一些研究工作，对无线 AI 的若干研究方向及其关键技术进行了较为全面地分析和讨论，同时探讨了无线 AI 的难点、挑战和产业化前景。2 第二章第二章基于基于 AI/MLAI/ML

21、的物理层技术的物理层技术传统通信链路设计时，人们采取分而治之的方法，将各功能模块进行独立的设计和优化（如图 2-1 所示）。在某些功能模块的设计和优化过程中，可能存在着性能损失。例如，为了降低设计复杂度，将某些非线性处理简化假设为线性操作。又如，一些模块的设计理论仍然缺失或难以分析，只能借助于启发式算法。此时，使用 AI/ML 方法替换这些模块可以带来性能的提升以及处理时延的降低。这也是将 AI/ML 方法用于空口技术设计的最直接方式。图2-1 无线通信链路目前，AI/ML 在无线物理层中的应用包括利用神经网络来取代传统发射机和接收机中的基本功能模块，或者将物理层通信看作一个端到端的信号重

22、构问题，并应用自编码器概念来表示物理层通信过程，进行端到端通信的联合优化。AI/ML 在无线物理层中的应用主要可以分为两种方式。其一为数据驱动方式。目前现有的深度学习网络大多数是基于这种方式的，它使用标准的神经网络结构作为黑匣子并通过大量数据进行训练49123360。训练标准的神经网络除了需要庞大的数据集之外，还需要大量的训练时间。然而这些资源在某些情况下是极其稀缺的，尤其是在无线通信领域。与数据驱动的方法相比，模型驱动深度学习方法基于已知的物理机制和领域知识构建网络拓扑5。因此需要较少的训练数据和较短的训练时间，成为实现智能通信的有效手段。基于此，研究模型驱动深度学习的无线物理层设计6,也是

23、面向 6G 的智能通信发展提供理论支撑并指明技术方向的一大重要方式。一般构造模型驱动深度学习的方法有一下三种：1)将迭代算法形成信号流图；2)将算法作为初始化步骤，并将其与神经网络相结合；3)模仿模型驱动方法中的传统结构。针对模型驱动深度学习的无线物理层设计问题，研究者分别研究了基于模型驱动深度学习的大规模MIMO 信道估计7576、信号检测130、信道译码2526、CSI 反馈85和多用户预编码78。以下将会针对物理层的不同模块分别详细介绍基于这两种方式的各种 AI/ML 实现方案。2.1 基基于于 AI/ML 的无线环境建模与感知的无线环境建模与感知大部分现有无线环境建模的工作侧重于无线

24、信道的建模。传统的随机信道建模1归纳总结大量实测信道的统计特性，得到的信道模型主要用于为不同空口技术算法对比提供一致的信道环境。随机信道模型归纳总结了信道的统计特性，然而无法提供特定场景下的信道信息。另一种传统的信道建模方式为确定性信道建模2，它基于特定传输场景的 3D 地图，通过射线追踪的方式得到场景中的无线信道。这种建模方法以给定场景的 3D 地图为基础，因此其模型具有场景关联性，不同场景下的信道模型无法复用。对于未来的无线通信系统，无线信道模型以及无线场景模型将不再简单地作为各种算法对比的环境基础。我们期望可以通过对无线传输环境的学习和总结，帮助通信系统更加智能地完成调度、功控、波束管理

25、、参数选择与配置等任务。通过采集大量的传输环境信息数据 3（包括信道数据、感知数据等），借助 AI/ML 技术的学习和提炼能力，建立“无线电地图”，给系统的设计和决策提供辅助信息，并降低系统的测量反馈开销。现有工作中，人们尝试了各种结构的模型对无线信道信息进行学习、总结和建模。例如，在文献3中，作者使用了自回归（auto-regressive,AR）模型学习信道的时间相关性，可以将信道作为时间序列，利用这些回归模型进行建模和预测。图2-2 基于CNN和LSTM的无线信道建模与预测多种神经网络结构都曾被尝试用于无线信道的建模，以及基于模型的信道估计和信道预测4-20。以文献20为例，使用了如图

26、 2-2 所示的网络结构，其中包含卷积神经网络（convolutional neural network，CNN）和长短期记忆（long short term with memory，LSTM）模型。将无线信道视为时间序列，在历史信道数据中抽象和提取信道信息特征，保存在模型中。使用时，将当期信道信息输入模型，即可得到对未来信道信息的预测。与大部分现有研究工作中使用基于仿真模型生成的信道不同，作者使用样机平台和商用设备进行实际信道信息的采集，得到包括室内和室外场景的实际信道信息用于 AI/ML 模型训练。图2-3 基于seq-to-seq模型的信道预测器为了将复值信道信息转换为易于实值神经网络

27、处理的数据，作者提出一种信道信息嵌入（embedding）方法，将复值的信道信息通过嵌入处理进行升维，例如将信道冲击响应值升维到 400 维的实值空间。这种嵌入升维操作一方面将复值信道信息转变为实值数据，另一方 4 面提升了信道信息的维度，进而可以在高维空间对信道信息进行更准确的表达和特征提取。将升维后的数据输入神经网络，可以完成信道建模、预测等任务。如图 2-3 所示，作者使用seq-to-seq 模型21，将信道信息作为时间序列，进行预测22。实验发现，当信道存在深衰时，传统的基于参考信号的信道估计方法将出现明显的性能下降，因为此时受到深衰的影响，接收到的参考信号能量极低，无法准确估计信道

28、的幅度和相位信息。而基于 seq-to-seq 模型的信道预测器则可以提供较为准确的信道信息，使得系统解调性能优于传统信道估计算法。进一步的，考虑信道信息在多个维度上的相关性，可以进行多维的信道嵌入操作。如图2-4 所示，将信道的位置、频率、时间、空间属性同时进行嵌入操作。将嵌入升维后的信道信息输入注意力（attention）网络，得到信道模型。这一信道模型可以用于多种信道相关的任务，例如定位、信道压缩、信道指纹等。为了更加快速有效地完成这些任务，可以使用历史信道数据，对信道模型进行预训练。预训练的信道模型连接不同的下游任务网络，再进行进一步训练和调优。作者发现，这种预训练的信道模型具有良好的

29、迁移特性23，即在特定场景下预训练的信道模型可用于相似场景（例如同一幢建筑的不同楼层）的信道相关任务。图2-4 多维信道嵌入 2.2 基于基于 AI 的信道估计的信道估计、预测预测及反馈及反馈在信道状态信息已知的情况下，MIMO 通信系统的容量会随着发送或接收天线的数目线性增长。但是要得到这样的好处，一个很关键的要求就是要在接收端和发送端获得准确的信道状态信息（channel state information,CSI）。因此信道状态信息的估计（estimation）以及预测（prediction）是 MIMO 系统中一个非常重要的任务。信道的估计问题主要是在接收端根据导频序列来估计发送端和

30、接收端之间的信道状态信息的问题，而信道状态信息的预测问题主要是根据部分（时间、空间、频率角度）的信道状态信息来预测和映射其他信道状态信息的问题。此外，在频分双工（frequency division duplexity，FDD）制式下，下行 CSI 需要先由用户端（user equipment，UE）通过反馈链路传送回基站。在下面分别介绍信道状态信息的估计问题、预测问题以及反馈问题。首先，针对信道状态信息的估计问题。由于传统的基于压缩感知，最小均方误差的方法在 MIMO 中存在很高的计算复杂度，因此近些年来有很多的工作通过人工智能的方法来进行信道状态信息的估计57-78。同样地，这些工作也可以

31、被分为两类：数据驱动（data-driven）的方法57-74和模型驱动（model-driven）的方式75-78。在数据驱动中，57最早提出了用神经网络估计信道状态信息的方式，也奠定了之后的大部分工作根据已有信道模型生成训练数据、离线训练的思路基础。在这一类问题中，研究者重点关注的是如何通过改善神经网络，将这种数据驱动的方式应用在不同要求的场景下58-74。特别地，由 5 于数据驱动方式对训练数据的较高要求，导致这种74数据驱动的方式在实际的应用中受限，74给出了一种基于强化学习的非监督式的信道估计方法，主要的方式是通过选择性地探索检测到的符号向量作为额外的导频信号，从而来更新最小均方误差

32、的信道估计，强化学习主要用于最优化对符号向量的选取，以一种高效计算的方式来解决这个问题。这种方式可以降低信道估计的误差。另一部分是模型驱动的方式，这种方式的特点是会根据模型来应用神经网络，或是算法来设计神经网络的结构，他们最重要的是没有完全地抛弃传统方法的对应的模块，而是有选择地应用在新的算法中。75给出了一种通过学习得到的基于降噪的近似消息传递网络。这个网络可以从大量的训练数据中学习到信道的结构并且实现信道估计，给出了波束域的信道信息。77实现了联合的信道估计和信号检测，其中信号检测考虑到了信道估计的误差和统计信息，同时信道估计通过检测到的数据以及信号检测的误差来进行优化。78首先根据最简单

33、的最小二乘法得到一个粗略的信道矩阵，然后再使用一个基于 CNN的超分辨率网络(super resolution network,SPN)来学习他和信道矩阵之间的联系，从而增加准确性。信道状态信息的预测问题，根据时间、频率和空间的关联性，可以分为四类。第一类是根据前段时间的信道状态信息来预测下一时间的信道状态信息，主要是应用在随时间变化的信道或者高速移动的场景下，这类问题主要是通过神经网络来刻画和捕捉信道在时间前后的关联性81-83，由于 RNN 对时间序列很好的处理属性，很自然的，有工作8182基于RNN 对信道的前后状态信息进行了捕捉，基于前几个时间的信道状态信息预测出了后一时刻的信道状态信

34、息。第二类信道预测问题关注于频率角度的相关性84-87，应用在根据FDD 的上行信道状态信息来预测下行信道状态信息的问题上。其中84将迁移学习的方法应用到了 FDD 下行信道的预测问题上，根据全部之前环境中的数据来推测新的环境（频率）中的数据，86,87则使用了传统的 CNN 来根据上行信道信息映射和预测下行信道的信息。第三类是根据空间角度的预测问题。87实现了根据基站部分天线与用户的信道状态信息来预测和映射全部天线与用户的信道状态信息，刻画了信道的空间关联性。第四类是根据相邻用户的信道信息相关性进行预测。对于在同一个场景中并且在同一个基站服务范围内的用户，他们的信道往往也具有很强的相关性，且

35、在不同位置的用户所享有的信道强弱可能不同。因此可以通过部分用户的信道来预测区域所有用户的信道。这一技术在未来万物互联时代将有无限的潜力。最后，针对信道状态信息的反馈问题。传统反馈方案采用矢量量化或基于码本的方法减少反馈开销，主要分为隐式反馈（Implicit Feedback）和显式反馈（Explicit Feedback）。其中，隐式反馈将预编码矩阵索引（Precoding Matrix Index，PMI）、信道质量指数（Channel Quality Indicator，CQI）等部分信道信息进行量化后反馈，显式反馈是对完整信道矩阵进行量化后反馈。上述两种反馈方案的性能依赖于码本的设计，

36、且其码本设计复杂度和相应的反馈量会随着天线数量增加而显著增长，因此大规模 MIMO 给基于码本的反馈方案带来了极大的挑战。近年来，随着人工智能技术的迅猛发展，诞生了基于 AI 的 CSI 反馈方案，并成为当下 CSI 反馈研究的热点。其中有基于 AI 的全信道信息反馈89909192和基于 AI 的隐式反馈两种反馈方案，将在以下分别介绍。2.2.1 信道信道状态信息估计状态信息估计首先介绍数据驱动模型的典型工作57。这个工作基于一个正交频分复用（orthogonal frequency-division multiplexing,OFDM）系统，所提的框架图如下图 2-5 所示。在该文献中将

37、 OFDM 的解调和无线信道都视为黑盒，考虑如何直接从接收到的 6 图2-5 系统框架图数据恢复原始的传输数据，其中包括了解调以及信道估计的过程。他将接收到的信号和原始的传输数据作为训练数据，神经网络的输入是接收到的数据，训练的目标是最小化神经网络的输出和原始传输数据的距离。仿真比较了基于传统的最小平方差（least square,LS）和最小均方误差（minimum mean square error,MMSE）的信道估计和检测方法与这种基于神经网络的方法，得到的结果如下图 2-6 所示。从图中的结果可以看出，LS 表现最差，因为没有用到信道的统计信息，同时 MMSE 有最好的表现，因为此

38、时二阶的信道统计信息假设已知并且被用于检测，可以看出基于深度学习（deep learning,DL）的方法要比 LS 好很多，并且近似于 MMSE 的表现。这个论文以及论文里的结果最早验证了将 DL 应用在信道估计以及检测方面的有效性，具有很强的开创性。之后的很多工作都是基于这种生成数据、离线训练网络和在线测试的方法。这一系列的算法都运用了神经网络来实现信道的估计。相比于传统的算法来说，训练好的神经网络用来进行信道估计具有较快的速度和较低的计算代价，同时能够保证较高的准确率。但是这些方法都存在的一个问题就是对训练数据的要求，需要大量的训练数据来离线地训练网络，这就限制了将这些算法运用在实际的通

39、信系统中。图2-6 DL和传统算法的比较 7 图2-7 接收端示意图下面介绍一个基于模型驱动信道估计的代表性工作75。这个工作主要是根据接收到的信号来估计波束域的信道向量，解决了在大规模 MIMO 系统中，当接收端的射频（radio frequency,RF）链路很少时对信道估计问题产生的限制。考虑下图 2-7 所示的一个毫米波接收端，基于波束域的信道矩阵可以知道这个信道向量不是独立的，即对应的信道矩阵是稀疏的。考虑从接收到的信号来估计信道矩阵。从压缩图像恢复的角度收到了启发，文献75设计了一种专门解决这个问题的可学习去噪近似信息传递网络（learned denosing-based app

40、roximate message passing network,LDAMP）。这个网络由 L 层层叠连接构成，每一层的结构都相同，如下图 2-8 所示。每一层包括相同的降噪器，一个散度估计器和权重。降噪器是有去噪卷积神经网络（denoising neural network,DnCNN）来实现的，主要用于去更新估计的信道向量。图2-8 LDAMP网络每一层的结构值得注意的是，这个网络的输入是加噪的信道，输出是一个残差噪声，而不是估计的信道 h，这个方法是残差学习的方法，能够让网络移除有很强结构性的网络，而不是没有结构的噪声，最终这个残差的学习可以提高训练的时间和网络的准确率。这个 LDAM

41、P 与三种算法进行了比较，如下图 2-9 所示。可以看出 LDAMP 具有很好的表现。这种算法的优势在于很好地将神经网络与迭代信号恢复的算法相结合，从而表现出了很好的效果，同时，实验结果证明了即使是在 RF 链路很少的情况下，其仍然可以有很好地表现。这种模型驱动的算法具有显著优势。首先可以很好地降低训练的数据量和训练所需的时间。其次通过这种更加特殊的神经网络设计，使得整个算法具有很好的可解释性。相比于单纯应用 DNN 和 CNN 来说，可以更好地理解网络的内部结构。其缺点是需要已有较好的传统算法来借鉴，同时网络的设计较为困难。8 图2-9 LDAMP和其他方法的NMSE比较在移动蜂窝通信系统

42、中，小区间导频污染问题也是使得基站侧难以获得精确的信道状态信息的原因之一。根据用户的活动范围不同，分为限制模式和非限制模式。用户的到达角（direction of arrivals,DOA）与基站天线高度以及用户位置和基站之间距离等物理信息有关，因此目标小区用户与干扰小区用户的 DOA 分布具有明显不同（如图 2-10 所示）。通过划分DOA，能够排除干扰小区用户即导频污染的影响。由于利用接收信号获得的 DOA 估计值不含标签，因此可利用无监督学习中的 K-means 聚类方法对目标小区用户与干扰小区用户的DOA 进行划分。图 1-1 展示了不同信噪比（signal-to-noise rati

43、o,SNR）下各种方法的 MSE性能。在限制模式下，利用 K-means 进行 DOA 聚类方法的信道估计性能明显优于传统的LS、MMSE 方法以及利用高斯混合模型的期望最大算法（Gaussian mixture model-expectation maximization algorithm,GMM-EM）进行聚类的方法，由遍历搜索得到的最佳划分性能曲线表明 K-means 聚类方法仍具有提升空间。图2-10 目标小区与干扰小区中用户的DOA分布图 9 图2-11 不同SNR下各方法MSE性能对比近期,诺基亚上海贝尔研究如何在高多普勒的场景下，把辅助信息耦合入信道估计中，从而在对信道进行完

44、美估计的同时，减少对参考信号开销的需求。进而提出一种基于超分辨率神经网络的复合结构，仅使用一个参考信号，在时、频维度上对信道进行准确估计，并对多普勒效应进行自适应补偿，如图 2-12 所示。方案 1 的特点是与特定环境高度相关，并且支网络结构简单，我们仅使用若干 FC/CNN。方案 2 以欠完美的星座图像作为神经网络的辅助信息，通过机器学习图像识别的方式，对多普勒进行自适应补偿。方案 1 是在 ray tracing 的信道模型中进行验证的，如图 2-13 的左图所示，无论是传统方法或者单一的超分辨率神经网络，在仅用一个 DMRS 的情况下，都无法很好地处理多普勒效应。然而在语义信息输入的复合

45、结构中，即使是未经训练的条件下，多普勒影响可以被很好的补偿，对星座图旋转进行有效修正。方案 2 是在 38.901 定义的信道模型上进行的仿真验证的如图 2-13 的右图所示仿真结果证实，通过对星座图识别，可以有效对多普勒影响进行补偿，对星座图旋转进行有效修正，达到接近基于完美信道估计的表现，并优于传统的信道估计方法。图2-12 复合神经网络的结构 10 图2-13 复合神经网络仿真结果但是在基于导频的信道估计问题中，通过维纳滤波插值估计信道的方法存在一些不足。主要有以下两个方面：第一，线性插值估计精度下降：导频密度稀疏时，目标信道与导频的时频相关性并非线性，采用线性插值估计并不准确。第二，

46、DMRS（解调参考信号）资源开销增加：为确保插值时相邻导频点的线性相关性，需要时频域导频达到一定的数量。为了解决上述问题，下面介绍一个基于 AI 的信道估计方案。利用 CNN（卷积神经网络）恢复图像分辨率和降噪的性能，使用 CNN 拟合信道时频点间的非线性关系，提升插值估计精度，降低导频开销。其网络模型如图 2-14 所示，该方案基于图像分辨率恢复和图像降噪算法进行信道估计。该网络主要分为两个部分，第一个部分为 SRCNN79（高分辨率卷积神经网络），该网络原用于恢复图像分辨率，在信道估计算法中用于初步恢复信道响应值。第二个部分为 DNCNN80（降噪卷积神经网络），原用于图像去噪，在信道估计

47、算法中用于对 SRCNN 的估计结果降噪，进一步提高估计精度。图2-14 估计网络模型SRCNN及DNCNN结构示意图该算法的估计流程如图 2-15 所示：（1）获取导频 DMRS：获取的同时不要改变导频原有的时频域位置；（2）DMRS 实部虚部分离：使网络输入变为实数，模型参数可导；（3）线性插值：对输入数据做简单预处理，保证模型输入输出维度一致；（4）AI 插值：SRCNN+DNCNN 进行非线性拟合，估计数据符号处的信道响应值。11 图2-15 估计流程示意图图 2-16 展示了所提出的算法与传统算法的误块率性能指标对比。需要注意的是，训练神经网络时的标签数据是信道的理想估计值，那么

48、神经网络法的估计性能不会超过理想信道估计法的估计性能。我们可以看到，信噪比较高或较低时，受限于理想信道估计法和 LMMSE法估计性能相近，神经网络估计法不会有明显的性能增益。而在其它信噪比区间，理想信道估计法的性能同 LMMSE 法之间拉大，神经网络表现出较明显的性能增益。图2-16 误块率性能指标对比示意图（SR+DN和LMMSE（最小均方误差）此外，就现有的信道估计方法而言，有粗略型和精准型两种形态。粗略型计算相对简单粗暴但精准度相对较差，实际应用广泛。精准型估计的计算量非常大，特别是信道矩阵 H求逆过程十分复杂，实际的总时延会使信道估计的意义降低，实战意义较低。随着通信的发展，导频开销日

49、益严重，如果单纯的依赖增加导频密度来应对更多场景的信道估计方面的挑战，代价是很大的。设计一种 AI 算法，降低对信道测量数据的依赖，比较高效精准的实现信道预测是我们研究的焦点。小样本 AI 应用于信道估计的思路如下。单纯的 HI 算法（传统经验公式法）随着导频稀疏程度增大误差也随之增大。通过小样本 AI 算法可以快速捕获信道变化特点，配合 HI（以曲率圆估计方法为例）来实现信道的快速准确估计。曲率圆估计方法应用在由信道 H的实部、虚部以及时间构成的三维空间坐标系上，通过曲率圆弧的插值方式实现信道估计。小样本 AI 算法重点学习曲率圆的主要特征为：（1）曲率半径；（2）波动周期“T”;（3）曲率

50、圆心位置；（4）包络。小样本 AI 需要通过邻近的历史数据学习这四方面的特征及变化趋势，但是区别于传统 AI，这种抽象学习不需要大量历史数据，因为大量的历史数据（时间或空间差异大）对当前信道估计有效性差。12 滑窗机制下的小数据量 AI 工作原理如图 2-17 所示。通过几个临近“周期”的数据量，快速学习出曲率半径、曲率圆心、波动“周期”及包络的变化趋势并给出判断。该方法对数据的依赖非常小。图2-17 滑窗机制示意图模型工作框架如图 2-18 所示：图2-18 模型工作架构示意图最后，仿真结果如图 2-19 所示，其中，混合速度（50、60、70KM/h）+多径+噪声（10dB）+节省导频

51、开销（25%，50%、75%、95%。结果显示，HI+AI 模型显然对抗导频超稀疏场景的能力更强。多项实验证明该模型在传统导频减少超过 90%时，性能还能保持优良。同时，该工作也给出了未来深度探索的方向。包括（1）相同开销的导频，不同发送策略会产生不同性能效果；（2）不同场景动态调整不同的导频；（3）导频开销节省的极致边界。图2-19 小样本AI信道估计仿真结果 2.2.2 信道状态信息预测信道状态信息预测考虑随时间变化的信道，由于反馈的延迟会导致得到的信道状态信息不再准确，尤其是在快衰落的信道中。为了解决这个问题，81应用 RNN 网络来建立一个长范围的信道预测器。对于一个快衰落信道，通过

52、应用一个多步 RNN 就可以准确地预测信道的增益以及系数。13 其 RNN 网络的结构如下图 2-20 所示，其中的外部输入是对应前几个时刻的信道状态信息，输出是下一时刻的预测的信道状态信息。图2-20 用于信道预测的RNN结构图2-21 信道预测结果81 如上图 2-21 所示，基于 RNN 的方法给出了一种较好的信道预测器，从信道增益的角度，其较好地拟合了信道随时间的变换曲线。这很大程度上来源于 RNN 网络对时间序列的良好处理能力。和现有的 AI 预测器相比，他的计算代价更小同时可以有很好的准确率，如果用多步预测的话可以实现一个长范围的预测。14 同样是从已知信道预测未知信道，文献87

53、则考虑了信道在空间和频率上的相关性，应用这种相关性实现了信道的映射和预测。这个工作解决的问题是如何根据一部分天线和一部分频带的信道状态信息，预测或映射得到全部天线、全部频带的信道状态信息，并且证明了这种映射的可实现性。主要的方法是引入了一个全连接的神经网络（如下图 2-22 所示）对这些映射关系进行学习。图2-22 信道映射关系学习网络网络的输入是部分天线或频带对应的部分信道状态信息，输出是全部的天线和频带的对应信道状态信息。训练数据通过实际的 DeepMIMO 数据集基于 ray-tracing 的方法生成。需要注意的是，这个模型是场景特定的，因为神经网络学习的映射关系是和场景紧密联系的，

54、因此对于不同的场景需要进行新的训练和学习过程。经过离线地学习过程之后，得到的结果如下图 2-23 所示。其中的下界是仅仅根据部分的天线信道状态信息得到的系统可达频谱效率。图 2-23 展示了随着已知信道状态信息的天线数目的增加，系统的可达频谱效率逐步提高，直到最终接近最优的结果。有趣的是，可以看出仅仅 4 个天线的时候（总天线数目的6%）就可以达到超过 4bits/sec/Hz 的容量，同时距离上界仅仅相差 7%。在仅仅 8 个天线信道状态信息已知的情况下，就可以近似到上界。值得一提的是，这些已知的天线都是随机选择的。图2-23 信道预测结果这个工作具有很好的意义，它揭示了信道在频率和空间上

55、的相关性。而事实上，考虑到时间角度的信道预测，这些工作都说明了信道在时间、空间、频率上的相关性，通过合理运用这些相关性或学习这些相关性，能够在较低代价的情况下实现信道的预测。15 文献88同样也考虑了信道时域相关性，即通过一部分天线的信道，去预测所有的天线信道。不同的是，作者同时提出了一个基于深度学习的信道选择子网络，在训练信道预测网络的同时训练最优的天线选择方案。所提的网络结构如图 2-24，其中信道选择子网络实现天线子集的选择，而信道外推子网络则实现从这一天线子集的信道信息到全部天线信道信息的预测。仿真结果如图 2-25 所示。图2-24 基于深度学习的信道选择联合信道外推网络图2-25

56、左：均匀选择图案中：信道选择子网络学习到的图案右：两种选择方案信道外推的误差比较这个工作所提出的信道选择联合信道外推技术减少了大规模天线系统的导频开销，节约了频谱资源和能效。其所使用的信道选择方法也可以用于其他需要进行选择操作的通信问题中。但该信道选择方法仍有待进一步改进，如信道选择网络输出一个信道选择向量，与按元素相乘后得到的信道向量包含大量 0 元素，这给信道外推子网络带来了一定程度的冗余，可以进一步研究可以消除这些 0 元素的方法来降低信道外推子网络的规模。2.2.3 信道状态信息信道状态信息反馈反馈基于 AI 的信道状态信息反馈方案有全信道信息反馈和隐式反馈两种方式。首先介绍

57、基于 AI 的全信道信息反馈方案。这种方案将通信系统建模为端到端的 CSI 图像重构任务。其结构如图 2-26 所示，是一个基于自编码器(autoencoder，AE)的网络架构。位于 UE 端的编码器将完整 CSI 视为图像并压缩为一个满足反馈比特要求的压缩编码，再通过反馈链路反馈到基站（base station,BS）端；BS 端则利用译码器进行解压和重建任务，输出为 CSI 的重建图像。使用 AE 实现端到端的无线通信系统，在训练过程中能够通过优化器共同优化编码器与译码器网络，从而获得最优的 CSI 重建模型。图2-26 基于AI的全信道信息反馈架构 16 基于 AI 的全 CSI 反馈

58、架构 CsiNet89，其编码器包括特征提取、特征压缩两个模块，译码器包括特征解压缩和信道重建两个模块，其中全连接层完成特征压缩与解压任务，信道重建部分则包含两个由三层卷积组成的残差模块，用于细节上的重建。实验表明，相较于基于压缩感知的反馈方案，其重建精度大幅提升，同时运算速度提升近 100 倍。面对时变信道，CsiNet-LSTM90在CsiNet的译码器中利用LSTM的记忆特性有效提取CSI序列的时间相关性，进一步提升了网络的重建性能。CsiNet+91提出了一种多速率反馈架构，并对编码器输出的压缩编码进行非均匀量化，生成比特流便于实际传输。CsiFBnet 92则是提出了一种结合波束成型

59、技术的反馈模型，最大化利用波束成形技术带来的性能增益来提升系统表现。接下来介绍基于 AI 的隐式反馈方案。现有 5G 系统的 CSI 反馈依赖特征向量等间接信息的反馈与利用，从经典模型的角度出发，利用 Type I/II 码本实现特征向量的反馈与恢复。为了更直观平等地比较基于 AI 的反馈方案和 5G NR 中基于码本的反馈方案，考虑将 AI 与隐式反馈相结合，通过提取完整信道矩阵的特征向量，并送入神经网络进行压缩反馈，从而减少反馈开销。图2-27 基于AI的隐式反馈架构图 2-27 所示为基于 AI 的隐式反馈架构，在信道信息压缩反馈前，需要先利用奇异值分解（singular value

60、decomposition，SVD）等算法提取原始全信道信息的特征向量，再将特征向量作为神经网络的输入。UE 端的编码器网络用于对特征向量进行特征提取和压缩，再通过一个量化模块生成传输的比特流并反馈回 BS；BS 端的译码器网络用于解压缩和重建特征向量。实验结果表明，基于 AI 的隐式反馈方案在相同余弦相似度下，所需反馈比特数明显少于 Type I/II 码本。为了验证基于 AI 的隐式反馈性能，中兴移动通信设计了接近于实际情况的加噪信道隐式反馈实验：仿真场景为3GPP中系统级UMA(urban macro honeycomb)信道,天线采用 32T1R 配置，对不同信噪比的高斯白噪声污染的信

61、道数据情况下进行仿真,如图2-28 所示。结果表明，AI 网络对不同噪声功率污染下的 CSI 反馈性能均有鲁棒性，AI 方法在反馈准确性与开销性能上均超过 eTypeII 码本反馈方式。总体来说，基于 AI 的 CSI 反馈方案为进一步降低 CSI 反馈开销与提升反馈精度提供了新的可能性，具有极大的研究价值和发展前景。另外有一个工作是有关迁移学习在解决空口 AI 模型泛化性中的应用研究，并且以信道压缩反馈为用例验证迁移学习应用在解决 AI 模型泛化性方面的效果。用例原理示意图如图2-29 所示：原始信道经编码网络的特征抽取网络与量化层后压缩为一系列比特流，比特流传输至收端后经解码网络的解量化层

62、与特征恢复往后输出回复后的信道。本次实验中使用全连接网络作为特征抽取网络与特征网络恢复网络的主要结构，如图 2-30 所示。我们设置特征抽取网络的全部全连接层与特征恢复网络的前两层全连接层为预训练层，在迁移模型时预训练层权重将保持冻结无法训练，同时设置特征恢复网络的后两层全连接层为适配层，在模型迁移后可进行训练。本实验模型中的量化层使用矢量量化方法。具体参数如表 1 所示。17 图2-28 32天线下UMA加噪信道数据仿真图图2-29 信道压缩反馈原理图2-30 特征抽取与特征恢复网络在仿真环境中采集源域（UMA）和目标域（UMI）的 LOS 信道数据，采用第二节 2 的思路进行迁移学习

63、，即在源域训练模型完成后冻结前 n 层预训练层，在目标域只训练最后 k层后测试结果，源域基础模型的预训练采集 20000 数据，训练的 NMSE 为 0.03006。在目标域上选取了大数据集（20000），中数据集（10000）和小数据集（1000）分别进行测试，验证目标域不同数据样本集的快速迁移的性能增益。验证结果如图 2-31 和图图 2-32 所示。从图 2-32 中可以看出，迁移学习对于所有的场景（不同的目标域数据集大小）下都能取得更好的性能。对于中小数据集场景下，迁移学习能更快速的收敛。为解决 AI 模型的泛 18 化性提供了一种新的思路。而图 2-31 的结果则显示 AI 模型对目

64、标域的迁移存在较优的训练策略，本实验中，训练最后一层的 NMSE 较高，但训练最后两层后 NMSE 快速下降，之后的边际效应递减。迁移训练最后 1-2 层是平衡效率和性能较优的选择。00.050.10.15不同迁移策略下的性能比较大中小00.050.10.150.20.25未迁移迁移未迁移与迁移的最佳性能比较大中小图2-31 迁移策略性能比较（左图）图2-32 最佳性能比较（右图）面向 UMA LoS 与 UMI LoS 两种场景的泛化性实验表明，迁移学习可以使 AI 模型获得较好的泛化性能，并存在最佳的训练策略平衡效率和性能。但 UMA LoS 与 UMI LoS 两种场景本身比较相似，迁

65、移难度较低，未来应该针对区别更加明显的场景（如 UMA NLOS 到UMI LOS）进行进一步实验。实验中使用的迁移学习策略较为直接，仍有大量优化空间，如根据迁移学习框架设计更精细的预训练模型结构等。此外，另一个工作对融合专家知识的无线 AI 设计进行了讨论。作者指出，早期的无线AI 方案大多采用较为直接的设计思路，即在无线系统中寻找与经典机器学习问题相似的用例，再使用已有的机器学习工具解决。例如，编码调制方式识别就是一类典型的模式识别问题，而使用深度神经网络解决该问题也相应地具备较高的可行性。随着无线 AI 研究的不断深入，早期“1+1 式”拼合思路在方案性能提升方面逐渐遭遇瓶颈，无线 AI

66、方案设计需要新的思路。需要根据无线系统特点设计相应的无线 AI 方案已逐渐成为业界的一种共识，而无线系统的特点则集中体现在已有的专家知识积累中，因此产生了融合专家知识（HI）的无线 AI模型设计思路。值得一提的是，业界关于该思路的称呼方式多种多样，“数据与模型双驱动”、“白盒方案与黑盒方案的融合”等说法实质上都在谈论类似的思路。然而，业界仍须解决如何具体实现融合专家知识的无线 AI 模型设计的问题。该问题的挑战性在于无线 AI 在数据特点与模型应用环境方面与传统机器学习大不相同，导致传统机器学习研究中的成果不能简单拓展至无线场景，需要同时对机器学习与无线通信两个领域都有深入了解才能设计出较好

67、的无线 AI 方案。在本报告中，将介绍两种实现融合专家知识的无线 AI 设计思路，即基于专家知识设计更优的数据特征与基于专家知识寻找更具价值的用例。首先是基于专家知识设计更优的数据特征。数据特征设计在机器学习方案设计中具有重要地位，良好的数据特征设计可以在不明显增加模型开销的前提下提升方案性能。以基于深度学习的信道压缩为例，已有的方案大多围绕增强模型本身来提升性能（例如使用更深、结构更复杂的模型等），而围绕信道稀疏特征设计方面提升方案性能的工作较少。事实上，已有实验表明良好的信道稀疏特征设计在提升方案性能方面的贡献要高于单纯的模型改进。接下来我们将具体介绍一种基于裁剪的信道稀疏特征设计方法。频

68、率选择性多天线信道在时延-角度域呈现的稀疏性是信道压缩-恢复方案的理论基础。在传统信号处理中，从时延-角度域提取信道稀疏特征时主要关注信道的高值部分，对接近零的低值部分自动舍弃。然而，在设 19 计深度学习模型的输入时反而需要关注低值部分，其原因在于神经网络在处理低值部分时难以做到自动舍弃，反而会将本来信息量较少的低值部分也纳入特征提取的对象中，导致低值部分成为影响性能的干扰项。因此，如图 2-33 所示，可以使用手动裁剪的方式提前滤除干扰神经网络的低值区域，降低输入信道的维数，从而取得更好的压缩性能。需要指出的是，对信道中近零值裁剪并非传统信号处理方法中常规思路，因为这种方式无助于提升性能，

69、反而可能破坏信道原有的结构特征；然而裁剪却是一种对深度学习模型十分有效的技巧。这表明在设计更优的数据特征时，有时需要跳出传统的信号处理思路，根据 AI 模型本身的特点设计数据处理的方式。图2-33 手动裁剪信道中的近零值来提升基于深度学习的信道压缩反馈方案性能其次是基于专家知识寻找额外信息。专家知识还可以帮助寻找额外信息，从而提升目标任务的性能。举例来说，目前业界围绕 FDD 系统下行信道信息的获取展开大量研究，提出了诸多基于深度学习的信道压缩反馈方案的设计。但考虑到 AI 模型的特征提取能力存在一定上限，仅靠终端反馈的有限信息恢复下行信道终将会到达性能瓶颈。如果想进一步提升FDD 下行信道

70、的获取精度或降低反馈开销，可以考虑利用其他信息作为信道恢复时的补充，尤其是利用传统信号处理方法无法充分挖掘的信息。例如图 2-34 所示，FDD 上下行存在部分互易性，但该互易性在实际系统中如何建模与利用尚未完全研究清楚。但如果将 FDD 上行信道作为补充信息用于下行信道的恢复（如图图 2-35 所示），则不仅可以避开互易行建模问题交给深度学习网络自行学习，而且可以以近乎不增加任何空口开销的方式提升下行信道恢复精度。图2-34 基于深度学习的FDD下行信道反馈示意图 20 图2-35 结合FDD上下行互易性的基于深度学习的FDD下行信道反馈示意图基于 AI 的全信道信息反馈方案，能够利用 A

71、I 在图像等领域表现出的优异性能，对全信道信息进行高效反馈。然而，目前 3GPP 标准并未对全信道信息反馈做专项研究和标准化，如何有效利用反馈得到的全信道信息仍需开展深入研究。基于 AI 的隐式反馈方案，对提取出的特征向量进行压缩反馈，可更为公平地与现有标准中的码本方案进行比较，但还需额外开销反馈特征值等信息。针对现有通信系统的需求与特征，设计基于 AI 的特征向量反馈可进一步减少反馈开销，且重建得到的特征向量可直接用于预编码。总的来说，基于 AI 的 CSI反馈方案相比于传统算法具有明显的性能优势，且具有极大的研究价值和发展前景。2.2.4 导频、导频、信道估计、信道估计、信道反馈、预编码联

72、合设计信道反馈、预编码联合设计在无线通信系统中很多模块实际上都是关联的，如 MIMO 系统的系统容量与预编码有关，预编码是基于信道估计（TDD 系统基于互易性、FDD 系统基于信道信息反馈）生成，信道估计又与导频序列的设计相关。单模块的 AI 优化虽然可以提升每个模块的性能，但从整体系统性能来讲并不能实现全局最优。因此，可以考虑将多个相关的模块用一个 AI 网络进行联合模拟并优化，实现多个参数的联合设计。文献71考虑一个 FDD massive MIMO 系统，实现导频序列设计和信道估计的 AI 网络联合优化。如图 2-36 所示，在信道估计过程中将导频发送过程定义为一个编码器网络，将收端的

73、信道估计过程定义为一个解码器网络，基于自编码器的思想，实现联合优化。文献中的神经网络以信道作为训练数据，发送端用一层的全连接网络模拟导频序列经过信道的过程（网络的神经元系数就是导频序列），接收端用一个全连接网络串联多个卷积神经网络来获得信道估计。整个自编码器的优化采用监督学习的方式，采用 Adam 算法实现接收端的输出（即信道估计结果）和发送端的输入（即训练用的信道）之间的均方误差的最小化。图2-36 用AI自编码器的思想进行导频序列和信道估计的联合设计 21 文献72将导频设计、信道估计、信道信息反馈、预编码等模块进行了联合设计。首先，文献72通过理论分析证明，在 FDD 多用户 massi

74、ve MIMO 系统中，上述“导频设计、信道估计、信道信息反馈、预编码”是一个分布式源编码（distributed source coding）问题，在多个用户端分别进行信道估计且不做信息交互，也可获得逼近多用户联合编码反馈时的最优性能。但目前分模块优化的方案相比上述最优性能还有一定的差距，多模块联合设计有较大的性能提升空间。文献72的工作不仅是更多模块的扩展，其使用的学习思路也有很大区别。区别于现有很多方法采用最小化损失函数的监督学习的思路，文献72采用非监督学习，以最大化频谱效率为目标进行网络的训练。文献72考虑一个FDD多用户massive MIMO系统，其中基站天线数为 M，用户是单天

75、线，基站为 K 个用户提供服务，导频长度为 L，用户用于信道信息反馈的比特数为 B。AI 网络的结构如图 2-37 所示，整个可视为“下行导频传输”、“上行信道信息反馈”和“预编码设计”三个子网络的串联。以每个用户的信道（训练数据）作为输入，基站端用一层的全连接网络模拟导频过信道的过程（导频是该网络的神经元系数），并将每个用户过完信道的导频加噪声作为“信道信息反馈子网络”的输入。这里需要强调的是“导频传输子网络”的神经元系数要做归一化，进而满足导频的功率约束。“信道信息反馈子网络”模拟在多个用户端的信道估计和信道信息反馈过程，这里信道估计过程是隐式地包含在网络中的。值得注意的是，信道信息反馈子

76、网络的最后一层是一个量化函数，该函数只有在输入为0 时有梯度（且梯度为无穷大），在其他输入处梯度为 0。因此，在反向梯度传播时会造成无梯度可以传的问题。对此，需要对该函数进行梯度重写，正向传递的时候仍进行正常的量化，但在反向梯度传播时以重写的函数的梯度替代原函数的梯度。常用的重写方法有直通估计器（straight through estimator,STE），sigmoid 调整的直通估计器和退火 sigmoid 调整的直通估计器等，其具体函数形式如图 2-38 所示。可根据量化函数的输入取值范围和训练的收敛速度等具体情况，选择不同的梯度重写方法。图2-37 导频设计、信道估计、信道信息反馈、

77、预编码的联合设计 22 图2-38 量化函数及其不同的梯度重写函数 2.3 AI 使能的端到端设计使能的端到端设计此类研究的目的是在特定的信道环境下联合优化发射机和接收机939495。与传统人工设计相比，基于 AI 的端到端收发机设计往往呈现出不太一样的编码和/或调制样式9495。端到端优化设计更适合于具有各种非线性效应的非典型信道，因为神经网络可以学习这些非理想的信道效应，而传统优化方法面对较多的非线性因素时往往出现性能下降的现象939495。最初的基于 AI 的端到端收发机设计示意图如图 2-39 所示。该系统考虑一种在加性高斯噪声信道上进行通信的场景，其中收发两端的信号处理都通过神经网

78、络实现。具体来说，发端网络完成将待发送的消息映射为发送符号的过程，而收端网络则完成相应的逆过程。负责收发信号处理的网络都采用简单的全连接结构，层数为 3 层。由于信道为加性高斯白噪声（additive white Gaussian noise,AWGN）信道，所以我们可以将信道嵌入该网络中，作为网络的一层。该网络的结构与深度学习中的自编码十分类似，两者都具有输出与输入信号（近似）等价的特点。但自编码器侧重于学习信号的低维稀疏表示，而该网络则侧重于学习代表收发机的神经网络。整个神经网络可以通过端到端的方式进行优化，即损失函数设为检测消息的错误概率或相似性（用如交叉熵等方式进行度量），通过梯度下降

79、或是相关变种优化算法优化各个权重。在仅考虑高斯信道时，我们可以直观地将神经网络学习的信号处理过程理解为编码加调制的结合，通过调整输入消息的种类和输出符号的比，可以实现不同码率的传输，图 2-40 展示了该网络学习的星座图结果。可以发现，神经网络学习的星座图与传统意义上的正交幅度调制（quadrature amplitude modulation,QAM）星座图会有一定的差别，这种区别在调制阶数较高的时候会更加明显。图 2-41 给出简单的误消息率结果，可以发现神经网络学习得到的信号处理过程可以达到甚至能够超过一些人类专家设计。相关思路不仅可以实现在 AWGN 信道下的消息传输，还可以实现在典型

80、衰落信道下的消息传输11。在实现基于 AI 的端到端收发机设计9394的基础上，实现了对端到端 OFDM 系统进一步去冗96，即同时消除了循环前缀（CP）及导频（Pilot），其仿真结果如图 2-42 所示。仿真证实，与使用传统的 LMMSE 接收机比较，无循环前缀及导频端到端系统有着相近或更好的比特误码率（BER）。而与使用基于神经元网络的接收机比较，有着相近的比特误码率（BER）。但是，无循环前缀及导频端到端系统却提供了至少 18%有效输出的增益。更进一步地，神经网络还可以学习传输过程中的同步、信道估计、帧结构设计等内容，但学习不同模块的开销不同，例如对于同步与帧结构的学习往往较为困难95

81、。23 图2-39 基于AI的端到端收发机设计（针对AWGN信道）图2-40 基于AI的端到端收发机学习得到的星座图样式（针对AWGN信道）图2-41 基于AI的端到端收发机学习结果误消息率性能比较（针对AWGN信道）24 2.4 基于基于 AI/ML 的信道编译码技术的信道编译码技术自香农提出信道编码定理以来，学界致力于寻找能够逼近香农限的编码方案。随着时间的推移，学者们提出了汉明码、循环码、卷积码、Turbo 码、低密度奇偶校验（low density parity check，LDPC）码以及极化码（Polar code）2。其中 LDPC 码能够在码长趋于无限时，性能无限逼近香农限；

82、而 Polar 码是目前唯一一种被证明能够在特定信道下达到香农限的编码方案。随着深度学习在无线通信物理层研究中的逐步应用，深度学习在信道编译码问题上已经有了一定的突破。与传统的信道译码方法相比较，基于深度学习的译码器在性能上有显著的改善，但同时由于维度爆炸，深度学习应用于编码技术也存在一定的局限性。图2-42 基于AI端到端OFDM系统与单/双导频不同速度下比特误码率目前，学界涌现出一批性能优异的基于深度学习的编译码算法。Nachmani 等提出了一种基于深度学习的改进置信传播算法（belief propagation，BP）98104.Cammerer 等提出了一种基于深度学习的 Pola

83、r 码分段译码算法105。Liang 等提出了一种基于 CNN 的迭代BP-CNN 结构106，用于相关噪声下的信道译码。Wang 等提出了一种 LSTM 网络辅助的SCF 译码算法107。Chen 等提出了一种低复杂度的 LSTM 网络辅助的 CA-SCLF 译码器108。25 AI/ML 在信道编译码方面的应用主要体现在两个方面。一方面，可以将 AI/ML 算法和神经网络直接嵌入通信链路，替代译码器。例如，在文献24中，如图 2-43 所示的 DNN 被用于 Polar 码和随机码的译码，可以以更低的复杂度达到最大后验概率算法（maximum a posteriori,MAP）性能。文献2

84、5使用 DNN 进行 turbo 码译码，解决传统 max-log-MAP 算法将非线性简化为线性导致的性能损失问题。另一方面，也可以利用 AI/ML 方法进行信道编码方案的设计。例如，文献27使用遗传算法（genetic algorithm，GA）进行 Polar 码设计，而文献28利用 RNN 进行 LDPC 码的度数分布设计。图2-43 DNN Polar码译码器注意到利用 AI/ML 方法的学习能力，可以设计信道编码方案，特别是在一些没有理论指导的场景中（例如在列表译码算法下的 Polar 码设计），AI/ML 可以找到比人工设计性能更好的码。在文献4445中，作者使用遗传算法和强化

85、学习（reinforcement learning，RL）框架进行 Polar 构造序列的设计。如图 2-44 所示，AI/ML 方法得到的 Polar 码性能在绝大部分码率下优于使用传统的密度进化（density evolution，DE）/高斯近似（Gaussian approximization,GA）方法得到的 Polar 码。图2-44 基于AI方法设计的Polar码性能优于DE/GA方法 2.4.1 基于基于 DNN 的编的编译码算法译码算法 Nachmani 等提出了一种基于深度学习的改进 BP 算法98104，该方法通过对 Tanner图的边赋予权值，推广了标准的置信传播算法。

86、然后，作者使用深度学习的方法训练这些边缘的权值。置信传播算法的一个众所周知的特性是性能对传输码字的独立性。基于深度学习的改进 BP 算法的一个关键特性就是译码器保留了这个特性。此外，此属性允许网络只学习单个码字，而不需要学习随码长增加数量指数级增加的全部码字，能够很大程度上解决编译码过程中的唯独爆炸问题。26 图 2-45 显示了该算法的位误码率（bit error rate,BER），在高信噪比的情况下，误码率提高了 0.75dB。此外，深度神经网络的误码率始终小于或等于 BP 算法的误码率。这一结果与观察到的网络性能不会比 BP 算法差的结论吻合。图2-45 改进置信传播算法的性能对比 C

87、ammerer 等提出了一种基于深度学习的 Polar 码分段译码算法105。在这项工作中，作者证明了当译码器的子块被神经网络取代时，能够提升传统的极化码迭代译码算法的性能。因此，作者将编码图划分为更小的子块，并分别对它们进行训练，接近每个子块的 MAP性能，系统示意图如图 2-46 所示。图2-46 Polar码分段神经网络译码算法所得到的解码算法是非迭代的，并且固有地实现了高水平的并行化，同时其误比特率（BER）性能十分优异,如图 2-47 所示。27 图2-47 Polar码分段神经网络译码算法性能对比 2.4.2 基于基于 CNN 的译码算法的译码算法 Liang 等提出了一种基于

88、CNN 的迭代 BP-CNN 结构106，用于相关噪声下的信道译码。本文设计了一种新的接收机结构来解决信道噪声中存在相关性时的译码问题。这种结构将一个经过训练的 CNN 与一个标准的 BP 译码器连接起来，接收到的符号在 BP 和 CNN之间迭代处理，因此被称为迭代 BP-CNN。在接收端，首先由 BP 解码器对接收到的符号进行处理以获得初始解码结果。然后，从接收到的符号中减去估计的发射符号，而得到信道噪声的估计。由于编码误差的存在，信道噪声估计不准确。然后，将信道噪声估计输入到 CNN中，进一步消除了 BP 译码器的估计误差，并利用噪声相关性得到更准确的噪声估计。BP和 CNN 之间的迭代将

89、逐步提高译码信噪比，从而获得更好的译码性能。其算法示意图如图2-48 所示。图2-48 BP-CNN译码算法为了训练一个性能良好的 CNN 模型，作者定义了一个新的损失函数，它不仅涉及噪声估计的精度，而且还涉及估计误差的正态性检验，即测量估计误差服从高斯分布的可能性。在 CNN 训练中引入正态性检验，与使用标准二次损失函数相比，进一步降低了迭代译码的误码率。该算法性能如图 2-49 所示。可以看到基线 BP-CNN 和增强后的 BP-CNN 在相关噪声下都取得了显著的性能提升。在强相关情况下，当=0.8时，BP-CNN 在误码率为-410时可将译码性能提高约 3.5dB。需要强调的是，在标准

90、 BP 译码器中，这种性能增益不能通过更多的迭代来补偿，因为 BP（50）已经达到饱和性能。在=0.5的中等相关性情况下，性能增益变小，因为相关性较弱，采用 CNN 的好处较小。对于=0且噪声变为独立同分布（即标准 AWGN 信道）的特殊情况，所提出的方法与标准 BP 译码的性能类似。28 图2-49 BP-CNN译码性能对比 2.4.3 基于基于 LSTM 网络的译码算法网络的译码算法 Wang 等提出了一种 LSTM 网络辅助的 CA-SCF 译码算法107。极化码串行抵消（successive cancellation,SC）翻转译码的关键是准确识别第一个错误位。由于缺乏解析解，最优翻转

91、策略被认为是难以实现的。为解决这个问题，作者提出了一种深度学习辅助的SC-flip 算法。其系统示意图如图 2-50 所示。图2-50 LSTM-aided SCF算法示意图具体地说，在每次 SC 译码尝试之前，利用 LSTM 网络来定位第一个错误位，或者撤消先前的“错误”翻转。在每次 SC 译码尝试中，利用在上一次 SC 译码尝试中导出的对数似然比（log likelihood ratios,LLRs）序列来决定要采取的操作。据此，作者提出了一种 LSTM 网络的两阶段训练方法，即在第一阶段学习定位第一个错误位，然后在第二阶段学习撤销“错误”翻转。仿真结果如图 2-51 所示。显然，与传统

92、 SCF 算法相比，该方法能更准确地识别错误比特，并获得更低的快错误率（block error rate,BLER）。图2-51 LSTM-aided SCF性能对比 29 Chen 等提出了一种低复杂度的 LSTM 网络辅助的 CA-SCLF 译码器108。其将LSTM 应用于 CA-SCLF 译码器，可以有效地从顺序译码的过程中产生的 LLR 中提取特征，增强误码预测能力。算法示意图如图 2-52 所示。图2-52 LSTM-Aided CA-SCLF算法示意图实验结果如图 2-53 所示，该算法能有效地提高 BLER 性能 0.11dB。同时，对输入数据进行预处理和输出降维，可以显著降

93、低 30%以上的内存需求和计算复杂度，使其设计更适合于硬件实现。图2-53 LSTM-Aided CA-SCLF算法性能比较 2.4.4 基于基于对抗生成网络对抗生成网络译码算法译码算法针对 DNN 信道解码的局限性，小米公司提出一种基于生成对抗神经网络进行低密度奇偶校验码译码的方法。提出的基于对抗生成网络的低密度奇偶校验码译码模型如图 2-54 所示。生成器接收到经过 BPSK 调制后通过 AWGN 信道的含有噪声的码字，在生成网络端学习低密度奇偶校验码的译码规则，并生成译码结果。初步生成译码结果。并将此结果输入辨别器，对译码结果和真实信息序列进行比对，判别器给出是或非的结果，得到结果后进

94、行反向传播，进行反向传播时首先判别器不更新，生成器更新，更新之后对判别器更新，生成器不更新。生成端和辨别端更新后，继续输入数据来训练对抗生成网络的低密度奇偶校验码译码算法。对译码生成器以及译码辨别器进行更新后，如果用于本轮训练的一个或多个信息序列样本中存在尚未经过译码生成器和译码辨别器处理的信息序列样本，则将从尚未处理的信息序列样本中任意一个获得的接收码字样本输入译码生成器以获得与该信息序列样本对应的译码码字样本，并将该信息序列样本和译码码字样本输入译码辨别器以确定能够区分该二 30 者，如果能够区分，则再次对译码生成器和译码辨别器进行更新，直至用于本轮训练的一个或多个信息序列样本中没有未经过

95、译码生成器和译码辨别器处理的信息序列样本，即用于本轮训练的所有信息序列样本均已被使用，则可以开始下轮训练。如果确定无法区分译码码字样本和信息序列样本，结束迭代训练并获得预训练的 GAN 模型。如果译码辨别器无法区分出译码码字样本和信息序列样本，这表明译码生成器能够根据接收码字样本还原信息序列样本。图2-54 基于对抗生成网络的低密度奇偶校验码译码模型仿真结果如图 2-55 所示，结果表示了基于对抗生成网络的 LDPC 码的译码结果，并与 LDPC 码传统的译码算法 BP、LLR-BP、Min-Sum 译码进行了比较。通过仿真图可以看出，网络实现了对 LDPC 码的译码，其译码误码率优于传统译

96、码算法。图2-55 对抗生成网络的LDPC码译码结果 2.5 基于基于 AI/ML 的调制与波形技术的调制与波形技术早期的工作中，AI/ML 方法主要用于在多种调制方式混合的信号中识别调制方式29，这种应用在无线通信领域实际场景并不多。和信道译码一样，神经网络也被用于替代通信链路的解调模块30。对调制解调模块的优化还体现在星座图的设计上，此时，调制和解调常常联合优化。文献31使用如图 2-56 所示的自编码器进行调制星座的位置整形和概率整形联合优化，并得到相应的解调神经网络。这个方法得到的调制解调模块性能非常接近香农极限。AI/ML 方法还可以针对特定场景进行星座图设计，例如文献32中，使用

97、 AE 结构设计光纤通信中使用的调制星座图，以对抗光纤信道的非线性。31 图2-56 基于autoencoder的调制解调联合设计 AI/ML 方法可以用于直接进行类似 OFDM 波形的设计，例如文献38中，不使用 DFT操作，可以直接用 DNN 得到信号的波形。AI/ML 方法也用于低峰均功率比（peak to average ratio,PAPR）波形的设计，例如，文献39使用如图 2-57 所示的 AE 结构，设计得到低 PAPR波形。此外，AI/ML 方法也被用于作智能波形的识别网络，如图 2-58 所示。图2-57 基于AE的低PAPR波形设计图2-58 基于AI的智能波形识别网络

98、 2.6 基于基于 AI/ML 的的信源信道联合编码技术信源信道联合编码技术传统的通信系统通过信源编码、信道编码分别实现图像/视频的压缩和传输，并将信源和信道编码划分为两个模块独立设计。信源信道分别独立编码具有设计简单、模块化的特点。基于香农分离定律，信源信道独立编码在码长无穷大的条件下是理论最优的。然而，包括物联网，自动驾驶和触觉互联网在内的许多新兴应用都要求极低延迟，带宽和能量约束的条件下传输图像或视频数据，这限制了在计算上需要依赖较长编码的信源信道独立编码技术的使 32 用。对此，Gamal-Kim 从理论上阐述了多种信源信道联合编码模式，可以利用信源的相关性将通信系统的信源编码和信道

99、编码作为一个整体来进行优化设计，取得比信源信道独立编码更好的性能40。图 2-59 中分别描述了信源信道独立编解码（图 2-59（a）和信源信道联合编解码（图 2-59（b）的框图。图2-59 信源信道独立编码域信源信道联合编码示意图传统的信源信道联合编码允许用户根据信道或网络条件改变信源编码参数，或是根据信源特性选择信道编码、调制及网络参数。其本质是研究人员使用专家知识精巧的设计信源信道编码方案。其中的代表是由 Wu 团队和 Katabi 团队在 2010 年提出的 Softcast 模式4142，通过变换对输入图像或视频进行处理，并将系数直接调制为密集的星座图进行传输，须进行常规的量化、

100、熵编码和信道编码。Softcast 方案的局限性在于需要提前获得确定的信道模型，而真实环境下的信道特性往往是不可预测的。近年来，深度学习技术在图像、语音压缩等领域的发展为 JSCC 的设计提供了新的思路。其中，自编码器作为神经网络的一种，经过训练后能尝试将输入复制到输出。自编码器内部有一个隐藏层，可以产生编码表示输入。该网络可看做由两部分组成：一个由函数 h=f(x)表示的编码器和一个生成重构的解码器 r=g(h)。在这种结构的启发下，近期有研究提出用深度神经网络代替传统编解码，设计端到端的信源信道联合编码结构43。鉴于自编码器编解码器无监督联合优化的特点，可以考虑使用人工神经网络对信源压缩和

101、信道编码进行联合设计，从而使通信系统达到端到端的最优性能。具体的，文献43受无编码传输的启发，编码器完成信源编码+信道编码+调制的功能，解码器完成解调+信道解码+信源解码的功能，其系统模型如图 2-60 所示。该网络的编码器由 5 个卷积层+PRELU 激活函数的模块组成，解码器由 5 个转置卷积层+PRELU/Sigmoid 激活函数的模块组成。信道层作为不可训练层位于编码器和解码器之间。33 图2-60 基于AI的信源信道联合编解码方案的神经网络结构图错误错误!未找到引用源。未找到引用源。对比了 CIFAR10 数据集下评估了在不同的压缩比（k/n）条件下基于 AI 的信源信道联合编解码

102、和 JPEG/JPEG200+方案的峰值信噪比（Peak Signal to Noise Ratio,PSNR）性能。该性能仿真表明：在恶劣的信道条件下（SNR=0dB），信源信道独立编码方案无法进行无差错传输导致译码失败，基于 AI 的信源信道联合编码方案的 PSNR 高于 20dB，可以较好地进行传输。在中（SNR=10dB）、高（SNR=20dB）性噪比和有限的信道资源条件下，k/n 0.3，基于 AI 的信源信道联合编码方案的性能也显著优于 JPEG 和JPEG2000 方案。图2-61 基于AI的信源信道联合编码方案的性能 2.7 基于基于 AI 的的 OFDM 接收机设计接收机设计

103、由于无线信道的随机衰落、多径、干扰和噪声等因素的影响，传统的基于信号相干检测的接收机性能较差，误码率较高。因此面对 5G 及未来移动通信系统中越来越复杂的无线信道环境，设计误码率和复杂度更低的接收机，实现接收信号的高效检测至关重要。以传统的OFDM 系统的接收机为例，其主要分为信道估计和符号检测两个模块。首先，利用接收到的参考信号与预先定义的参考信号序列，采用最小二乘法、最小均方误差等线性信道估计方法插值得到每个子载波的频域信道系数，并通过迫零和 MMSE 等信道均衡方法进行符号检测，得到估计比特流。采用如上的线性信道估计和检测方案，复杂度较低，但性能较差。而 34 采用最大似然检测等非线性

104、接收机算法，在多输入多输出（MIMO-OFDM）系统中，当天线数增加、调制阶数较高时，复杂度太高，难以应用。而基于 AI 的 OFDM 接收机设计，利用神经网络拟合接收机中的非线性映射，以最小化接收机的误比特率。同样也包括基于模型驱动的 OFDM 接收机和基于数据驱动的 OFDM 接收机。基于模型驱动的设计中，利用神经网络对传统 OFDM 接收机中的部分模块进行替代或增强。通过设计合适的神经网络，可以有效降低接收机的误码率。传统的 OFDM 收机主要包含信道估计和符号检测两个模块，结构框图如图 2-62 所示。信道估计信道估计符号检测符号检测pXYHX 图2-62 传统OFDM接收机基于模型

105、驱动的 OFDM 接收机方法结构框图如图 2-63 所示。2.2.1 节中提到的去噪卷积神经网络 DnCNN 对接收信号和估计信道进行去噪，能够显著提高信道估计准确度，进而降低接收机误码率。基于模型驱动的接收机对传统接收机进行分模块化增强，每个网络具有明确的物理意义，网络复杂度较低，参数集较小。但该方案受限于传统信道估计算法和符号检测的性能。通常，信道估计利用参考信号和 MMSE 插值滤波得到所有时频位置的信道。当参考信号密度较大时，MMSE 信道估计性能较高；当参考信号密度过低时，MMSE 信道估计性能较差，因此基于模型驱动的接收机性能也受限。信道估计信道估计符号检测符号检测pXYHX去

106、噪网络去噪网络DnCNNDnY去噪网络去噪网络DnCNNDnH 图2-63 基于模型驱动的OFDM接收机接收信号是由来自于有限固定集合的星座点经信道和噪声后得到的数据，因此接收机的设计可以等效处理为图像的分类识别问题。为解决基于模型驱动的 OFDM 接收机在参考信号密度过低时的性能问题，提出基于数据驱动的 OFDM 接收机，其结构框图如图 2-64 所示。这种接收机方案采用端到端的设计方法，输入为接收信号，输出为估计的发送符号。该方案中没有显式地信道估计与符号检测模块，所采用的 CNN 网络复杂度较高，参数集较大，但是能显著改善低参考信号密度下的接收机性能。端到端端到端CNNYX 图2-6

107、4 基于数据驱动的OFDM接收机 35 2.8 基于基于 AI 的多天线的多天线收发收发技术技术神经网络算法由于其强大的高维特征提取和表示能力在大维度的多天线技术领域中也受到了广泛的关注。深度学习辅助技术实现了离线学习过程，然后在线部署了经过训练的深度神经网络，不仅有效提取和表达了大维特征空间，与迭代算法相比，还大大降低了时间复杂度。因为训练后的网络仅包含简单的线性和非线性变换单元，所以它具有极低的复杂度和良好的性能。深度学习在混合预编码问题上的应用也由此受到关注。受致密全连通层启发，109110111中提出了多层感知器(multi-layer perceptrons,MLPs)。具体地说，

108、在109和110中，MLP 仅用于单用户场景下预编码器的设计。在文献111中，MLP 结构被考虑用于协同波束训练，并假设完全信道信息是已知的。而在文献112和文献113中，基于不完全信道状态信息的鲁棒的深度学习方案被提出。在文献112中，提出了一种基于卷积神经网络(CNN)的方法来解决联合预码器和组合器的设计问题。在文献113中，量化和非量化的 CNN被用于混合预编码。此外，对于常见的多用户 MIMO 场景，文献114给出了基于深度学习的混合预编器的设计方案，具有很高的实际意义。2.8.1 基于基于 AI 的的 MIMO 检测检测早在 1994 年，就有学者提出基于 Hopfield 神经网

109、络的码分多址制式（code-divison multiple access,CDMA）通信系统下的多用户检测框架5，但受到当时 CPU 计算能力的限制，进展缓慢，随着近年来深度学习领域的飞速发展和大规模 MIMO 技术在通信中的应用，研究者们提出了许多基于 AI 的 MIMO 检测方案。2017 年，耶路撒冷希伯来大学的学者 Neev Samuel 依据投影梯度下降法推导设计出了用于 MIMO 检测的深度神经网络 DetNet（(Detection Network)）127128，并验证了其在时变和非时变信道下的性能，引起了学术界的广泛关注。DetNET 每一层的结构如图 2-65 所示。图2

110、-65 DetNET单层的结构图仿真结果如图 2-66 所示，可以看出该算法在高斯信道条件下的 BER 性能及运算速度均优于现有的几种方法，包括迫零算法（zero forcing,ZF）、近似消息传递算法（approximate message passing,AMP）和半定松弛算法（semidefinite relaxation,SDR）。36 图2-66 时变信道条件下各检测算法的误码率性能比较文献129中提出了基于 DNN 的 BP 用户检测算法，通过对 BP 迭代过程的展开，分别设计了基于 Damped BP 算法和 Max-Sum BP 算法的 DNN MIMO 检测器，迭代相关

111、的校正因子也在训练的过程中不断地更新优化。图 2-67 给出了进行 3 次 BP 迭代过程的 DNN 检测器的框架示意图。图2-67 BP迭代 DNN检测结构（a）Rayleigh 信道下各类算法性能比较（b）不同相关信道下各类算法性能比较图2-68 DNN-dBP和DNN-MS 算法性能图 2-68 所示的仿真结果表明了基于 DNN 的 BP 检测算法在不同信道条件下都具有良好的鲁棒性，且在较高的信噪比下，DNN-dBP 的性能优于其他 BP 算法变体（如 heuristic 37 automatic damping,HAD）以及 MMSE 等线性检测器。可以看到，由于先验近似的存在

112、，MS 检测算法的性能很差，但基于DNN 改进后其性能获得了很大的改善，进一步验证了DNN的有效性。文献130提出基于 OAMP（Orthogonal AMP）算法设计的 OAMPNet 检测网络，并对其在Rayleigh信道和基于指数分布的Kronecker模型下的小型空间相关信道下的性能进行了验证，在计算复杂度相似的情况下，OAMPNet 实现了比传统 OAMP 算法更低的 BER。然而，DetNet、DNN-dBP 和 OAMPNet 的训练过程都是离线进行的，通过单一信道模型训练得到的网络难以适应实际的时变衰落信道。在这种情况下，文献132提出了一种支持在线学习的 MIMO 检测网络M

113、MNet，基于迭代软阈值算法（ISTA）理论，MMNet 利用信道在时域和频域上的局部化特性来加速网络的训练过程，使接收机可以根据实际的信道自适应地调整检测器的参数，MMNet 无论是在计算复杂度还是模型的鲁棒性上均超越了DetNet 和 OAMPNet。各类算法在误符号率（symbol error rate,SER）上的性能对比如图 2-69所示。（a）高斯信道下不同检测算法的 SER 性能比较（b）3GPP MIMO 信道下不同检测算法的 SER 性能比较图2-69 MMNet算法性能 2.8.2 单用户单用户毫米波毫米波 MIMO 混合预编码混合预编码文献115提出了基于深度神经网

114、络的毫米波 MIMO 混合预编码方案，其架构如图 2-70所示。主要的设计目标是，在保证最小化信道训练开销的基础上，通过最大化系统可达速率直接对混合预编码器以及合并器进行设计。38 图2-70 混合预编码架构的收发机模型图在经典的非机器学习信号处理中，信道估计和混合预编码设计通常经过三个阶段。首先，利用 mmWave 信道的稀疏特性，使用压缩测量对信道进行感知。然后，利用压缩感知对信道进行重构。最后，利用重构的信道设计混合预编码的设计。而在文献115所提的方案中，其处理方法是：（a）不同于在压缩感知中的随机测量，该方案能够基于用户分布和周围环境，学习如何优化测量向量，从而将测量功率集中于最可

115、靠的空间方向。（b）基于深度学习的模型会记忆并学习如何直接从压缩的测量值中预测混合波束成型向量。从而大大减少了训练开销并实现近似最优的可达和速率。文献99 利用 mmWave 信道的稀疏特性以及考虑到直达径（或路径增益最强的径）往往起主导作用，提出只需搜索出路径增益最强的径并使得波束形成向量（记作f）与之相匹配即可，即只需要使得信道与波束方向乘积的模最大化。考虑到毫米波通信的特点，可以将波束形成向量离散化（即f选自于预先指定的码书），相应地，混合预编码设计问题便转化为波束训练问题，如图 2-71 所示。最优波束形成向量取决于信道环境，尽管信道环境不断变化因而最优波束也不断变化，但是信道环境或最

116、优波束方向在相邻的两个时隙内的变化是有限的，因此无需搜索整个波束空间，只需搜索以前一时隙的最优波束方向为参考点的一个较小的局部范围。局部搜索范围的大小与信道环境变化模式密切相关，为了优化搜索范围以减小训练开销，文献101提出了波束指标差分技术及相应的学习算法。波束指标差分技术的核心是定义整数对(,)a b，其中a表示相邻两个时隙最优波束指标的偏移量，用于刻画信道环境变化的快慢程度，0b 刻画需要进行局部扫描的波束子空间的大小。图2-71 基于波束训练与跟踪的毫米波单用户混合预编码原理图最优的波束扫描方案（即整数对）与环境相关，可通过使用交互式在线机器学习方法（即Bandit Learning

117、方法）实现，而 Bandit Learning 方法的核心是定义行动空间和奖励函数。图 39 2-72 比较了不同算法的有效可达速率性能，Algorithm 1 和 2 基于波束指标差分技术并通过Bandit-learning 实现，Bandit-learning 分别采用贪婪搜索与置信区间上界（upper confidence bound,UCB）算法实现。由图 2-72 可以看出提出的算法可以获得接近理想算法（即Oracle-Aided 算法，波束训练开销为零且获得最优性能）且远优于其他算法的性能。图2-72 不同算法的有效可达速率性能比较 2.8.3 多用户毫米波多用户毫米波 MIM

118、O 混合预编码混合预编码多用户情况则更为复杂。文献114研究了基于 AI 的多用户毫米波 MIMO 系统混合预编码问题。系统模型如图 2-73 所示。图2-73 多用户MIMO下行系统框图基于不完全的信道状态信息，通过最大化可达速率来设计混合预编码器和合并器。具体的过程如下。首先解决混合预编码问题，得到训练数据样本标签，接着向网络提供不完全 CSI 来预测混合预码器与合并器。也就是说深度学习的网络提供了一种信道矩阵与预编码器之间的非线性映射关系。为了获得鲁棒的性能，在离线训练阶段向网络提供了一定比例的被噪声破坏的信道实现。因此，在测试阶段，当网络预测预码权重时，则不一定需要完美的CSI。通

119、过该方法能较好地处理信道矩阵损坏的情况，并实现较好的可达速率。所提方案的网络结构如图 2-74 所示。40 图2-74 提出的网络架构在图 2-75 中模拟了不同 SNR 下算法的性能。可以看出，拥有完整信道状态信息的算法获得了最优的性能。与其他方法相比，CNN-MIMO 在输入数据有噪声干扰的情况下更具鲁棒性，这是因为在 CNN-MIMO 中预编码向量与合并向量集合只在训练阶段被使用，在预测阶段不被需要，而仅根据信道信息就可以自动进行预测。基于通信本质是与时变环境持续交互这一基本事实，文献102提出了一种基于智能交互式学习范式的毫米波多用户预编码算法如图 2-76 所示。相应的通信模型模块

120、与自适应学习模块主要组成部分及作用如下：a)通信模型模块主要由波束扫描模块和数字预编码器优化模块构成，主要任务是确定模拟与数字预编码器，其中模拟预编码器通过波束扫描的方式确定，而数字预编码器通过成熟的优化技术获得。由于波束扫描的范围与信道环境变化密切相关，因而由自适应学习模块提供。b)自适应学习模块基于积累的历史经验信息实时预测最优波束子空间，由于最优波束子空间受到不断变化的物理环境的影响且不断变化，自适应学习模块必须能够实时感知环境变化的规律并从中提取所需要的概率统计信息。智能交互式学习范式可通过强化学习算法具体实现，核心是定义行动空间、状态空间及回报函数，行动空间可以通过波束指标差分技术实

121、现102，状态空间通过波束图像技术实现，回报通过求解相应优化问题获得。图2-75 信道数据加噪之后各方案的性能对比 41 图2-76 基于智能交互式学习范式的毫米波多用户预编码算法图 2-77 比较了不同算法的有效可达速率性能，包括基于穷尽搜索（ExSeBT）、分层搜索（HSBT）和基于随机 Bandit 学习（SBLBT）三种算法，也提供了理想算法（OABT，其训练开销为零且获得最优性能）的仿真结果。由图 2-77 可以看出，文献102提出的多用户混合预编码算法（ESBT）与理想算法之间的性能间隙较小且优于其他 3 种预编码算法。图2-77 不同算法对应的有效可达速率性能 2.8.4 移动

122、自适应移动自适应协同协同波束成形波束成形移动情况下的自适应波束成形也有学者开展了一些探索111。图 2-78 给出了所考虑的移动系统框图。图2-78 毫米波协同波束成形系统框图 42 由于多个基站同时为用户提供服务，协同波束成型系统提供了抗阻塞的能力、多样性和鲁棒性，这直接提高了系统的覆盖率、可靠性和延迟性能。然而，该系统设计的主要挑战是实现高数据速率的要求，因为训练和设计 RF 波束成型的时间开销可能非常大，特别是对于高移动用户。基于这一动机，该方案着重于开发有效的信道训练和波束成型设计策略，以最大限度地提高系统的可达速率，并使高速移动场景下的 mmWave 应用成为可能。直观上，波束训练

123、的结果是一个关于环境设置(譬如用户/BS 位置，房间家具，街道建筑和树木等整个场景)的函数。然而，这些函数难以刻画，因为它们会涉及到很多的参数，且对于每种环境设置都是惟一的。因而文献111所提方案将深度学习模型与通信系统设计相结合，就是要学习波束训练结果与相关环境设置的隐式映射函数。该机器学习模型利用基站端接收到的全波束模式或准全波束模式的导频信号，预测出最优的射频波束成型矢量。这些在 BSs 接收到的导频信号是来自用户的传输信号与环境中不同元素相互作用的结果，通过传播、反射和衍射。因此，这些在不同的基站端联合接收的导频信号，刻画的是环境和用户/BS 位置的一个特征，也就是我们学习波束成型方向

124、所需要的特征。该系统分为两个阶段运行，即在线学习和深度学习预测阶段。图2-79（左）在线学习阶段模型图2-80（右）深度学习预测阶段模型（a）如图 2-79 所示，在学习阶段，用户发送导频信号，基站端使用波束成形码本中的向量以及全向波束进行接收。因此，深度学习模型可以学习所有 BS 上联合捕获的 OFDM 全向接收信号与不同射频波束形成矢量带来的系统速率之间的隐式关系。（b）如图 2-80 所示，在预测阶段，系统依据训练好的学习模型，基于基站端接收到的全向信号来预测使得系统可达速率最大的最优波束成形矢量。43 图 2-81 中考虑的是在 NLOS 场景中，展示了对于不同大小的训练数据集，用户

125、端以30mph 速度运行时的有效可达速率。它显示了该深度学习模型不仅可以学习 LOS 场景下的波束成形同时还可以预测 NLOS 场景下的最优波束成形矢量。该方案依赖于多路径衰落，而不是仅仅是通过用户位置/坐标来预测波束。图2-81 提出的深度学习方案的有效可达速率 2.8.5 基于基于 AI/ML 的波束漂移抑制技术的波束漂移抑制技术现行的毫米波波束形成方案通常假设在给定的时隙中，信道路径的到达角/分离角是不变的，因此最优的波束方向也是不变的。但是由于用户不断移动等导致的信道环境快速变化，信道的到达角/分离角实际上是连续变化的，又由于实际波束的非理想性，已经对齐的波束的主瓣中心角很快偏离实际

126、的信道方向，导致系统性能的下降，这一现象被称之为波束漂移。需要指出的是，即使环境变化极慢，波束漂移效应相对较弱，但只要发生波束切换，波束漂移效应便不可避免，因而为了获得更好的性能需要抑制波束漂移效应。在现行的技术方案中，当通过波束训练或其他方法估计出信道路径的到达角或分离角后，便基于估计的信道方向设计波束形成向量/矩阵进行数据传输，典型的方案是使用主瓣中心角匹配估计的信道方向的窄波束进行数据传输。这一方案忽略波束漂移效应会引起系统性能的下降，因而需要进一步优化波束形成方案。图2-82 波束漂移效应抑制的方法原理图由于波束漂移效应与环境变化密切相关，感知环境变化的快慢便成为抑制波束漂移效应的基

127、础和关键。为了抑制波束漂移现象，文献100提出了如图 2-82 所示的通信方案，主要包括两个模块，即波束对齐/训练模块与数据传输模块。波束对齐/训练模块主要用于估计信 44 道的方向，依据波束变化的局部性原理，即波束切换通常仅仅在以当前波束为中心的一个较小的范围内，故可以使用窄波束进行波束训练以提高角度估计的精度。数据传输模块设计的核心是感知信道环境变化的快慢，并结合估计的信道方向选择/设计适当的波束或波束子集进行数据传输，主要方法有两种：（1）依据感知的信道环境变化的快慢，自适应地调整数据传输波束的宽度，典型方法是使用多分辨率码书；（2）数据传输波束的宽度不变，但采用更高的频率进行切换，且切

128、换的频率由信道环境变化的快慢决定。具体的实现方法是使用基于上下文的 Bayes Bandit 算法，核心是定义行动空间、状态空间和奖励等。具体而言，行动空间由数据传输波束宽度或波束切换频率构成，状态空间由发送功率、等效信道系数、发送功率和波束宽度等构成，奖励由感兴趣的性能指标构成，如有效可达速率。图 2-83 提供了数据传输波束宽度固定方案（SCB）与为抑制波束漂移效应而设计的数据传输波束宽度自适应优化方案(BWO)的仿真性能比较，即采用第一种方法设计并通过多分辨码书实现。由图可以看出由于能够有效地抑制波束漂移效应，与波束宽度固定的方案相比，波束宽度自适应的方案可以获得更好的有效可达速率性能。

129、图2-83 有效可达速率-数据传输波束宽度固定与自适应优化 2.8.6 基于基于 AI/ML 的波束的波束跟踪跟踪技术技术虽然波束成形可以增强用户端的信号强度，提高覆盖，但前提是波束方向需要和目标用户对准。这一点需要通过波束训练实现。一旦波束的指向偏离用户，用户反而接收不到高质量的无线信号，可谓是差之毫厘，谬以千里。在移动通信场景下，用户移动与随机遮挡导致信道时变，需要反复的进行波束训练获取实时准确的信道信息；但是工作在毫米波和太赫兹频段的大规模天线阵列规模较大，传统穷举式的波束训练方式会产生巨大的导频开销。因此常采用波束跟踪辅助波束训练的方式。根据信道的时变规律，以低开销快速的获取信道信息

130、，大开销的波束训练仅在追踪失败后重新开始。可以说，快速高效的波束跟踪算法是保证移动通信质量的关键。波束跟踪的关键在于精准的信道预测，对信道如何随时间变化进行一定的预测，以预测的结果作为先验知识，进行波束跟踪。文献117提出来一种简单的线性运动预测法，该方法主要应用于存在 LOS 的情况。如图 2-84 所示，假设用户做匀速直线运动，以线性运动为例，x 轴为基站天线，蓝色虚线为用户在两个时隙内的移动情况，用户由 A 点移动到 B 点，再移动到 C 点。45 图2-84 用户运动预测根据这个模型我们可以由 t 时刻的发射角和角速度推导出 t+1 时刻的发射角和角速度。由此来根据用户过去状态 LO

131、S 径预测发射角，降低导频开销。但是该方案，需要对用户移动性做一定假设，无法满足用户移动较复杂的场景；另外，该方法仅仅限于存在 LOS 的情况下，对 LOS 进行预测。对于上述问题，为了减少训练开销，一个可行的方法是从以往的波束训练中提取和利用信息，以减少波束搜索空间，并为以后的训练做准备。这种想法和机器学习相结合，产生了基于 ML 的波束训练算法118119120。但是这些方法都是基于监督学习，事先需要大量的数据做神经网络的训练。最近，文121提出来基于强盗测试算法（Bandit learning）的波束跟踪算法121：该文将波束跟踪建模为一个随机 bandit 问题。为了感知环境的变化，利

132、用最优波束序号的偏移，提出了基于 Bandit learning 的波束跟踪算法。该算法针对基于码本的波束跟踪。波束成形的预编码取自一个预先设计的码本。一般该码本的码字是按照角度排列的 DFT 向量。该方法利用这两个序号之间的差值来感知环境变化。令 u 表示相邻两个时刻的最优波束序号指数的差值（或偏移量），b 表示下个时刻进行波束扫描需要考虑的波束个数。该方法的关键就是如何根据以往的行动空间和最优的波束，找到下一时刻最优的u和b。文121将该优化问题建模为随机 bandit 问题（赌博中的老虎机模型）。基于该模型，文121采用 Bandit learning 的方法，对其进行优化。Bandit

133、 learning 是一种简单而强大的在线学习算法，一切通过数据收集而得到的概率预估任务，都能通过 Bandit 系列算法来进行在线优化。算法的框架包含两个部分，一是探索未知（explore），二是利用已知（exploit）。文121中以最大化系统的传输速率，通过 Bandit learning 的框架，分别利用 Bandit learning常用的 Epsilon-Greedy 算法和 UCB 算法（Upper Confidence Bound，置信区间上界)，利用以往的u和b，推断出下一时刻的波束扫描范围，在大大降低训练开销的情况下，使得系统性能接近最优。2.9 基于基于 AI 的多的多用

134、户用户接入接入技术技术随着设备数量的爆发式增长以及大规模 MIMO 系统的广泛应用，传统的多接入技术无法满足大规模设备的接入要求，非正交接入技术通过对时、空、频和功率等多个维度资源的复用，可以保证用户的接入性能，同时也使得多用户检测的计算复杂度问题变得极具有挑战性。传统的压缩感知（compressed sensing，CS）方法虽然能利用稀疏性减少复杂度，但其 46 性能和复杂度还有很大的改进空间。基于深度学习的多接入技术122是近年来 AI 在无线通信中应用的研究热点之一，国内外众多研究机构均对该方向开展了深入探索，相关工作集中于依据各类信号检测算法的特性设计神经网络，以实现智能化的多用户

135、检测、用户活动性（用户激活）检测2-4、多用户 MIMO 检测5-11或多用户干扰分离133，提高检测性能的同时极大地降低了计算量。如前文所述，基于 AI 的多接入技术可分为模型驱动方法和数据驱动方法。模型驱动方法的网络结构由可训练变量的迭代算法设计而成，学习时使用现有算法的结果作为初始起点，并基于反向传播算法优化变量，如智能用户活动性检测网络 DNN-MP-BSBL123以及前文提到的智能 MIMO 检测网络 DetNet127和 OAMPNet130。而数据驱动方法的网络学习过程是模型不断拟合现实数据的过程，如智能用户活动性检测网络 D-AUD124和BRNN131 以及智能 MIMO 检

136、测网络 DNN-dBP129和 MMNet132。图2-85 基于AI方法的多用户接收机针对非正交接入（non-orthogonal multiple access,NOMA）系统中的多用户干扰问题，华为使用 AI/ML 方法设计了如图 2-85 所示的多用户接收机46，其性能优于传统接收机。2.10 基于基于 AI 的活跃用户检测的活跃用户检测在物联网场景下的免授权随机接入系统中，基站需要进行用户活动性检测来使识别有哪些用户处于激活状态，以便后续对传输数据进行解码，确保基站和用户之间的有效通信，因而其检测的准确度大大影响着系统的整体性能。目前有关活跃用户检测算法的大量研究仍是基于传统的压

137、缩感知算法进行改进，性能提升非常有限。为克服传统压缩感知算法的技术限制，解决大规模免授权接入系统的活跃用户检测问题，国内学者在深度学习的基础上构建了 LDS-OFDM（Low-density signature-OFDM）系统的活跃用户检测（active user detection,AUD）与信道估计（channel estimation,CE）方案，根据基于块稀疏表示的贝叶斯学习算法设计了 DNN-MP-BSBL（deep nneural 47 network-aided message passing-based block sparse bayesian learning）框架123。

138、该算法迭代一次的网络结构及其每层实现的操作如图 2-86 所示。图2-86 DNN-MP-BSBL结构（N=3;K=6;Lt=2;dc=2）由网络结构可知，DNN-MP-BSBL 将消息传递的迭代过程从因子图转移到神经网络中，因此促进算法收敛的同时也提高了检测结果的准确度。其性能如图 2-87 所示，基于 DNN 的MP-BSBL 算法在不同活跃用户概率下检测的准确度均高于传统算法，尤其是在迭代次数较少时，其优势更为显著。但随着迭代次数和系统参量的增大，网络的规模也不可避免地越来越大，会造成巨大的训练开销。图2-87 活跃用户检测错误概率性能比较（Nit为迭代次数）DNN-MP-BSBL 解决

139、的是联合 AUD 和 CE 问题，针对 AUD 问题，近期，精通压缩感知理论的韩国学者B.Shim的团队提出了基于 AI 的上行链路免授权 NOMA 系统的活跃用户检测方案D-AUD（deep active user detection）125，如图 2-88。利用某一个时刻活跃用户的稀疏性，活跃用户检测问题可以转化为支持向量检测的问题，并用神经网络直接学习接收信号到活跃用户索引集合间的映射关系。48 图2-88 D-AUD网络结构 D-AUD 的训练是监督学习的过程，基于人工生成的大量训练数据，网络最终能收敛到一个较为稳定的状态。从图 2-89 中可以看出，在不同的过载条件下（过载因子=用户

140、数/子载波数），D-AUD 的活跃用户检测成功率均明显优于传统的 LS-BOMP、MMSE-BOMP 和AMP 算法，尤其是在过载因子较大的时候，传统算法由于感知矩阵的欠定程度严重，性能也急剧恶化，而 D-AUD 则在过载因子增大和活跃用户数目增多时表现出了较强的鲁棒性。（a）不同过载因子下 AUD 成功概率比较（b）AUD 成功概率随活跃用户数目变化曲线图2-89 D-AUD与传统检测算法性能比较基于固定网络长度的 AI 的算法无法有效适应海量机器通信中动态激活用户数的需求。文献116提出了一种根据稀疏度动态调整 AI 网络深度的方法，与固定长度的 AI 算法比，在相同的迭代次数下获得

141、了更好的性能。以 LISTA 为列，图 2-90 展示了相应网络结构。具体的方式是在现有的 deep unfolding network 的每一次迭代后增加一个分支，这些分支会衡量x 求解的情况，给出停止分数(halting score).当某次迭代的停止分数小于给定的门限值时，x就会从当前的迭代下输出。这些分支构成了 halting score network。49 图2-90 网络结构示意图仿真结果如图 2-91 所示，展示了动态网络深度和固定网络深度在性能上的差异。图中虚线是使用了 halting score network 的性能，可见当 deep unfolding network

142、一样时，在相同的迭代次数下此方案提出的方法获得了更小的均方误差(MSE)。图2-91 性能比较 2.11 基于基于 AI 的定位技术的定位技术目前，消费者市场，比如商场导购、停车场反向寻车、家人防走散、展厅自助导游等,垂直行业，如人流监控和分析、智慧仓储和物流、智能制造、紧急救援、人员资产管理和服务机器人等，都对定位服务提出了更高精度的需求。总之，高精度定位是未来智能生活和智能工厂普及化的基石。然而，在很多应用场景中，多径,NLOS,室内覆盖和同步问题都是实现高精度定位难以跨越的障碍。3GPP 在 NR Rel-16 标准中引入了多种定位方法，包括基于时间测量的方法和基于角度的方法。之后，

143、3GPP 在 R17 通过定位增强的立项，旨在满足消费者市场和企业市场的高精度位置服务需求。3GPP NR Rel-17 标准的应用场景主要是商业场景以及 IIOT 场景。精度要求非常高，最高达到分米级。特别是在 IIOT 场景，水平方向要求定位精度小于 0.2m。然而，目前经典的定位算法，比如 TDOA 算法，比较依赖场景中的 LOS 基站个数，当 LOS 基站的个数少于 4 个时，定位的精度一般都很难达到要求，而在 IIOT 某些场景中，LOS 概率都是比较小的。因此很难 50 达到 0.2m 的定位精度要求。比如 DH（3GPP 仿真场景之一）在各种参数配置下的 LOS 概率如图 2-9

144、2。图2-92 不同场景下LOS的概率（左）图2-93 AI在FR1和FR2下的定位仿真结果（右）也就是说在 InF-DH 和 InF-DL 下，最多只能保证 1-2 个 LOS 基站，在这种情况下，定位的精度误差一般在 16m 以上。因此需要进一步研究新的定位算法，比如利用 AI 的高效的特征提取功能，来提取基站到用户信道测量信息的抽象特征，可能会对上述问题带来重大的突破。利用神经网络的非线性优势，可借助所有信道测量信息，包括非直射径的信道信息进行特征提取并训练，达到更高的定位精度要求。从上面的仿真结果可以看出，在 InF-DH 场景且极端 NLOS 环境下，对比传统的经典算法（十几米定位误

145、差），AI 定位的精度达到了分米级，如图 2-93 所示。51 第三章第三章基于基于 AIAI/ML/ML 的链路层技术的链路层技术未来无线通信系统将由不同的接入制式，多样的网络部署方法和混合异构网络共同组成，旨在实现数据传输速率、网络覆盖率和可连接设备数量等方面的大幅提升以及网络时延和设备能耗的持续降低。在未来无线通信系统中，无线资源分配以及系统内部与系统之间的干扰协调是业界关注的一大研究热点。面对状态多变、架构复杂的未来网络，传统模型和算法难以提供高效可靠的技术支撑。基于人工设计的传统的资源管理方法将很难满足日益苛刻的通信服务质量需求。同时，下一代无线网络期望更多地考虑用户环境以及行为

146、特征，从而提供更高质量的个性化的通信服务11。为解决这些问题，面向下一代无线网络的资源管理方法亟需理论和范式上的创新与突破。另一方面，基于 AI 的最优控制方法在近几年有着迅猛的发展，其中最主要的发展方向为强化学习。强化学习能够通过与环境的交互，学习环境的特征，从而自适应地实现最优决策。特别是深度强化学习（deep reinforcement learning，DRL）,能够以极低的计算成本智能地处理复杂系统的最优控制问题12。不同于传统模型和算法，AI 技术对复杂多变的网络环境和网络结构具有很好的适应性，并且能从已有数据和先验信息中提取出未知特征以推演出高效的资源调度和干扰协调方案。由此，应

147、用先进的 Al 技术解决异构无线资源调度和干扰协调问题逐渐发展为无线网络技术研究中一类新兴的研究手段。因此，基于强化学习的无线资源管理具有很大的研究空间与发展潜力。其有望替代基于人工设计的传统方法进行无线资源管理，协助无线网络智能地学习和自适应地决策。基于强化学习的无线资源管理作为当前的研究热点，得到国内外诸多著名研究团队与企业的推进和发展13-23。目前，在频谱资源分配13，车联网14，无人机通信16，绿色通信17等诸多方面，已有较为成熟的研究成果。这些研究成果表明，相比基于人工设计的传统方法，基于强化学习的无线资源管理在计算成本与服务质量上的表现均有提升。在无线通信干扰协调、资源调度（包括

148、功率分配、信道分配、接入控制）和集中式分布式架构方面，AI 已经有了各种研究和应用，详细如下所述：3.1 基于基于 AI 的功率分配的功率分配文献143中，作者考虑了由单个 MBS 和若干个 SBSs 构成的混合供能异构网络，基站可以消耗传统电网的能量也可以消耗可再生的新能源。由于在移动环境中准确和完整的环境模型是未知的，论文构建了基于无物理模型（model-free）的强化学习模型用于指导网络的用户调度和能源分配，最大化系统的能量利用率。具体的，作者提出利用参与者-批评者(actor-critic)强化学习算法来得出最优随机策略。其示意图如下：52 图3-1 Actor-critic 强化

149、学习框架该算法由于结构特征具有收敛性。仿真结果证明当网络提供更多的可再生能源时，所提出的算法可以提高资源利用率。文献145中，作者提出一种分布式 model-free 强化学习算法实现所有发送机的加权效用和最大化目标。具体的假设信道 CSI 的随机变化和延迟都是固有的，每个发送机收集邻居的 CSI 和 QoS，采用深度 Q-learning 决定自身的发送功率。论文提出的算法可以得到一个相比于集中式算法更快的次优算法。文献150在进行功率分配的同时，考虑了信道间存在干扰，并基于此提出了一种基于Q-learning 的功率分配策略。该策略根据所观察到的无线电环境状态和干扰功率以及描述每个状态作

150、用对的折扣长期回报的质量函数或 Q 函数来选择发射功率。该方案在不考虑信道模型和干扰模型的情况下，在 MIMO NOMA 动态抗干扰博弈中推导出多用户最优策略。3.2 基于基于 AI 的信道分配的信道分配文献146研究了毫米波超密集网络中的频谱管理问题，并将时空复用作为提高频谱利用率的一种方法。作者将频谱管理问题归结为设备间的非合作博弈，证明了该问题是一个保证纳什均衡（nash equilibrium,NE）存在的一般潜在博弈。为了帮助设备在没有全局信息的情况下实现 NE，作者设计了一种新颖的分布式 Q-learning 算法，使得设备能够从个体奖励中学习环境。每个设备的动作和回报分别是信道

151、选择和信道容量。经过分析得出学习主体间的耦合有助于加速学习的收敛。仿真结果表明，该方案比多条对比基准线收敛更快、更稳定，且延迟小。不同于已有工作中直接利用经典的强化学习方法，文献147则设计了一种全新的包含递归神经网络的强化学习方法来处理 LTE-U 系统中许可和未授权频带的管理。该问题被描述为一个以 SBSs 和 MBS 为博弈参与者的非合作博弈，且每个 SBS 已知的网络信息有限。为了实现混合策略的 NE，提出了一种基于回声状态网络(echo state networks,ESNs)的多智能体强化学习方法。与传统的 RL 方法相比，该方法可以在不需要太多训练数据的情况下快速地学会分配资源。

152、在算法执行过程中，每个 BS 只需要广播当前所采取的动作及其最佳动作。仿真结果表明，与 Q-learning 相比，该方法下第 50 百分位用户的速率总和提升达到 167%。在部署异构网络时，干扰是实现高频谱效率的最大限制因素之一。文献151研究了一个异构网络中的多目标、频谱访问问题，旨在实现 QoS 约束下同时最小化在微蜂窝处接收的帧内/层间干扰以及从微蜂窝到演进基站（evolved node B,eNB）的层间干扰。由于缺乏全局完整的信道信息，节点数量未知等因素，作者提出了一种基于联合效用和策略估计的强化学习方法，该方法包含两个序列层次，第一级的目的是为飞蜂窝识别可用的频谱资源，第二 53

153、级负责资源的优化选择。仿真结果表明，该方法使得层内和层间干扰的显著减少，从而实现更高的小区吞吐量。文献142提出了一个基于机器学习的多无人机管理框架减轻无人机小区之间的干扰，旨在保证地面用户所需的数据率的同时，最大限度地提高无人机小区的能源效率。该框架的关键技术包括用于控制发射功率的亲和传播干扰管理（APIM）方案和用于位置重排的 K-means 位置调整方案。与已有的方案相比，该方案减少干扰并提高 25的能效。3.3 基于基于 AI 的接入控制的接入控制接入控制的本质是复用，根据资源复用时是否有可能会发生碰撞冲突,我们将接入控制分为无冲突的调度和基于竞争的随机接入。文献15提出了一种基于

154、深度 Q-learning（deep Q-learning，DQL）的物联网传感器的动态信道接入方案。在每一个时隙，传感器选择 M 个信道中的一个来传输它的数据包。信道状态低干扰，即表示成功传输，反之高干扰，代表传输失败。由于传感器在选择了通道后只知道通道状态，因此传感器的优化决策问题可以表述为部分可观察马尔可夫决策过程。文献149中则考虑了一种多传感器场景，并使用 DQL 处理联合信道接入和包转发。该模型如图 3-2 所示，其中一个传感器作为中继，将从邻近传感器接收到的数据包转发给接收器。该传感器装有缓冲区以存储所接收的数据包。传感器在每个时隙中选择一组信道进行数据包转发以最大化其效用，即传

155、输数据包的数目与传输功率的比率。本文证明了传感器的效用函数是有界的，保证了算法的收敛性。图3-2 物联网中的联合信道接入和包转发尽管调度可以完美规避冲突，但其需要预先设计策略，导致自适应能力与可扩展性较差。相反，基于竞争的随机接入算法往往无需中心控制节点或者少量中心控制信号，通过精巧设计的分布式算法实现在复杂网络环境中的接入控制。文献153中，作者提出了一种基于学习的二进制指数回退算法，用以解决无线局域网内的冲突问题。不同于传统回退算法中随机选择后退时长，新算法会根据上一次成功发送选取固定值，进而可以有效减少冲突的发生频率，提升整体性能。文献21中，作者引入隐马尔可夫模型（hidden Ma

156、rkov model,HMM），并通过对频谱参数的学习，解决了次级用户接入空闲频谱资源的冲突问题。相比较次级用户而言，初级用户的突发传输会导致频谱检测误差大大增加，并严重影响次级用户随机接入的成功率。作者通过对初级用户的特征建立 HMM，设计了一种信道学习算法，可以有效的识别出初级用户的传输模式，其基本框架如图 3-3 所示。54 图3-3 基于学习的随机接入非授权频谱策略 3.4 基基于于 AI 的链路调度的链路调度文献145研究了在密集部署的无线网络场景下无线调度问题，利用空间深度学习，对具有全频率复用的多个干扰链路提出了最佳调度的解决方案。针对此问题的经典优化方法通常有以下模式：首先估

157、算所有干扰信道强度，然后使用该模型找到最佳解决方案。然而，传统的调度方法是计算密集的，尤其是在密集网络中，信道估计成本很高，并且链路调度的优化通常是非凸问题。研究人员采用一种深度空间学习方法来解决调度问题。完全绕过信道估计阶段，并使用深度神经网络仅基于网络中发送器和接收器的地理位置来产生接近最佳的调度。使用神经网络架构将受干扰的节点和相邻节点的地理空间卷积作为多个反馈阶段的输入，以学习最佳解决方案。用地理位置信息（GLI）替代每个发射机和接收机的信道状态信息作为神经网络的输入，将问题的复杂度由变成。将一个网格区域的连续变量离散量化发射机和接收机的网格密度作为输入。其相比传统方法的优势在于通过使

158、用地理空间卷积来估计每个链路周围的干扰邻居的密度以及用于逐步调整链路活动模式的反馈结构。深度神经网络实际上可以学习网络干扰拓扑并仅根据地理空间信息就可以执行调度到接近最佳状态，从而省去了昂贵的信道估计阶段。3.5 基于基于智能体智能体(smart agent)的无线的无线资源调度资源调度为了应对无线传输环境的高度动态性和未来无线通信用户的需求多样性，灵活高效一直是空口技术设计的原则。当通信算法设计从单链路扩展到网络级、系统级时，问题的复杂度程度往往急剧上升。大量传统算法为了在可接受复杂度范围内工作，不得不进行简化和假设，使得系统性能受损，因此这类问题往往有着更大的增益空间。AI/ML 方法中

159、的 RL 算法可以通过智能体与环境交互，动态调整自身的决策策略，获得最优的期望收益。它无需对系统进行显式建模，因此非常适合用于解决复杂通信系统中的参数选择、跨模块联合优化、跨层资源分配和决策类任务。现有工作中体现的 RL 对空口的影响主要体现在将其用于解决功控、调度、资源分配等决策类任务时，空口参数的优化配置。例如，文献47使用 DRL 方法解决车辆到基础措施（vehicle to infrastructure,V2I）场景下设备调度问题，通过控制设备开启和休眠，使得系统在满足 QoS 需求的情况下延长路边单元的电池使用时间。文献48使用 DRL 方法实现 IoT设备的调度，在不影响正常语音业

160、务的情况下，最大化 IoT 业务的吞吐。文献49联合优化了调度和内容缓存策略。文献50则在给定功率限制下优化用户的上行调度流程，最大化系 55 统的上行吞吐。这类问题常常考虑多个小区，因此需要使用多智能体 RL（multi-agent RL,MARL）。根据多智能体的实现方式不同，可以将这些工作大致分为两类。第一类工作中，多个智能体采用各不相同的神经网络参数。这些智能体在同一个环境中进行训练，它们各自的决策需要考虑其他智能体可能的动作情况，同时会对其他智能体产生影响。例如文献51基于 MARL 中常用的单 critic 网络+多 actor 网络结构解决异构网络中的功控问题。中心式的训练过程中

161、，中心 critic 网络可以获得全局信道，多个 actor 被部署在多个网络 AP 上，各自根据 critic 的指导和本地信息进行训练。文献52中，各用户基于深度 Q-learning 网络（deep Q-learning network,DQN）训练自身的智能体，完成 AP 关联和资源分配。图3-4 基于MARL的D2D场景功率分配方法另一类工作中，多个智能体使用相同的神经网络结构和参数。不同智能体从本地局部环境中收集的经验增加了神经网络的训练样本，帮助网络更快收敛。训练好的神经网络也可以直接下发给新入网的智能体，解决了扩展性问题。如图 3-4 所示，文献53使用这种方法解决了物与物（

162、device-to-device，D2D）场景中的功率分配问题。文献54则用于解决蜂窝网络多小区联合调度和功控问题，建模过程中，考虑系统状态收集和交互的时延，即智能体智能通过一些过期的信息进行决策。作者尝试使用 DRL 方法解决蜂窝网络用户调度问题。考虑了两种流量模型，其中全缓存（full-buffer）流量模型下，可以通过优化算法得到问题的最优解；而非全缓存（non-full-buffer）流量模型下，最优解则无法显式获得。56 图3-5 基于DRL的full-buffer场景用户调度对于full-buffer流量模型，作者基于DRL框架，设计了如图3-5所示的三种学习方法55。在直接学习

163、方法中，使用常规的 DRL 算法，一个智能体通过和环境交互，调制调度策略。这种方法极易落入局部最优点。在对偶学习方法中，作者采用两个智能体，固定智能体 0，训练智能体 1 以实现由于智能体 0 的性能，一段时间后，固定智能体 1，开始训练智能体 0，使其性能优于智能体 1。通过多次迭代，实现两个智能体之间的相互学习，最后可以收敛到最优性能。专家学习方法则采用最优算法作为专家知识，训练智能体，最后也可以达到最优性能，且收敛速度更快。对于 non-full-buffer 流量模型，无法获得显式的最优算法。作者使用 DRL 方法，结合 n步回退、熵正则化、动作掩码（masking）等训练方法，可以得

164、到优于现有算法的性能：在不损失公平性的情况下，实现吞吐的提升和丢包率的下降56。作者还将在单 RBG（resource block group）条件下训练的智能体用于多 RBG 场景的调度推理，同样可以获得类似的优于传统算法的性能，这说明了这种方法的泛化性能有一定保证。另一个工作同样提出了智能无线资源管理的问题。基于深度强化学习的调度设计可以建模为一个马尔科夫决策过程（Markov decision process,MDP），针对 MDP 问题的求解，可以采用基于策略的 advantage actor-critic(A2C)架构。其中包含两个待训练神经网络，即策略网络和价值网络。如图 3-6

165、所示，我们提出了一种可扩展的神经网络设计方法，其中同一个策略网络被重复使用 K 次，用以处理用户设备的每一个状态；价值网络则只被使用一次，用以处理所有用户设备的平均状态。所有用户设备共享同一个策略网络。策略网络和价值网络都是全连接的神经网络，其激活函数设置为：策略网络和价值网络的所有隐藏层的激活函数均使用 ReLU 函数，策略网络输出层的激活函数使用 softmax 函数，价值网络输出层的激活函数使用线性函数。因此，策略网络和价值网络的输入层的维度均为 4，输出层维度均为1。用户设备的数量值只影响策略网络的使用次数，这称为用户调度的置换不变性。图3-6 可扩展的神经网络设计 57 深度强化学习

166、中智能体的训练需要很长时间，且在探索新的动作过程中会使得系统性能和鲁棒性下降。因此，通过随机初始化并从零开始训练的在线训练方法效率很低。对此，我们采用离线训练的方式，并将训练完成后的参数设置为智能体的初始参数。在离线训练过程中，先从实际系统中采集数据，包括信道状态和缓冲区状态，并存储在数据库中。当智能体完成相应动作后，将被调度到的用户设备的估计速率加入到系统吞吐量中，并计算每个用户设备的丢包数的方法，可以计算出相应的奖励值。通过上述离线训练的方法，可以有效地加快智能体的训练速度。首先验证基于深度强化学习的调度方案的可扩展性。其他仿真参数如 0 所示。图 3-7 刻画了在单蜂窝、5 用户设备、单

167、蜂窝、50 用户设备、3 蜂窝、每个蜂窝 10 用户设备三种场景下可扩展神经网络的性能。相比于传统的 PF 调度算法，基于深度强化学习的调度算法可以在几乎不损失公平性的前提下达到更高的吞吐量和更低的丢包率。相同的神经网络设计用于不同场景可以获得类似的性能增益，体现了基于强化学习方的资源调度的有效性和可扩展性。表3-1 仿真参数图3-7 深度强化学习算法性能利用智能体/多智能体技术，完成参数配置、跨模块优化、资源分配等任务一直是研究的热点和方向。58 第四章第四章基于基于 AIAI 的网络上层技术的网络上层技术 AI 在无线通信网络的应用层和网络层主要有两方面的应用。首先，它们可以用于预测

168、、推理和大数据分析。在此应用领域，AI 功能与无线网络从其用户、环境和网络设备生成的数据集学习的能力有关7。例如，AI 可以用来分析和预测无线用户的可用性状态和内容请求，从而使基站能够提前确定用户的关联内容并进行缓存，从而减少数据流量负载。在这里，与用户相关的行为模式（如移动方式和内容请求）将显著影响缓存哪些内容、网络中的哪个节点以及在什么时间缓存哪些内容。第二，AI 在无线网络中的另一个关键应用是通过在网络边缘及其各网元实体（如基站和终端用户设备）上内嵌 AI 功能来实现自组织网络操作。这种边缘智能是资源管理、用户关联和数据卸载的自组织解决方案的关键促成因素。在这种情况

169、下，AI 可以学习环境，并随着环境的变化采用不同的解决方案，使得设备自主决策成为可能，从而实现网络智能化。4.1 基于基于 AI 的的无线网络架构无线网络架构未来网络演进的目标是通过人工智能的引入实现网络的自主决策和自主演进，达到无人自治的完全智能化网络。对现有 5G 架构，应尽量将影响降低至最小化，尽量不引入新增接口，并且能够实现和当前 RAN 的兼容和共存。此外，还需在研究中考虑到人工智能相关数据在接口上的安全性要求，保证人工智能相关数据传输的健壮性和可靠性。基于 6G 网络的无线人工智能架构在设计时，不仅需要考虑后向兼容，即兼容基于 5G 网络的无线人工智能架构，还需要适当地考虑前向兼

170、容，即在包括 6G 在内的未来网络中运行人工智能时，避免因未来网络演进而产生各层网元设备无法实现相关功能而进行大量改动。具体来说，未来的无线人工智能架构至少需要满足如下需求：1）大量不同类型数据的统一化获取、预处理、管理、共享、存储以及安全传输。2）增强接口功能，能够实现节点间人工智能功能的开启与关闭、人工智能模型获取和测量结果报告。3）能够根据应用场景和用例需求选择不同的人工智能训练模型，包括监督学习、非监督学习、强化学习等，并可以确定对应的输入与输出。4）支持不同应用的统一化架构，包括节能、负载平衡、资源分配、移动性管理和覆盖范围优化等。5）人工智能功能边缘化，从边缘获取数据后可以利用边缘

171、资源进行实时化决策制定，提高系统能效并减少数据传输带宽需求，满足变化快、实时性较高的业务控制需求。根据上述需求，未来的无线 AI 架构的实例图之一如图 4-1 所示：图4-1 无线AI架构（示例图）59 具体而言，接入节点对算力需求比较低，需要处理的数据量较小，重点实现网元级人工智能策略的执行，提供实时性 AI 处理能力。同时，需支持接入节点之间的人工智能互操作性，实现分布式的 AI/ML 算法。边缘节点实现轻量级 AI，运行轻量级的机器学习模型，具有一定的计算和决策的能力，以满足敏捷连接、实时业务、安全与隐私保护等方面的需求。RAN 侧的人工智能功能从层次上来说分为：通用 AI 处理和特定用

172、例 AI 处理。通用 AI 处理包括根据特定用例进行的模型选取和调用、底层软硬件资源的统一分配和算力编排等。特定用例 AI 处理包括：针对特定用例（移动轨迹预测、Massive MIMO 增强等）进行数据规范化处理和智能分类等。基于此，南京邮电大学周亮教授课题组提出了一个基于云计算、移动边缘计算和 AI 技术的分层网络架构，该架构重点优化了无线网络底层向云端服务器传输训练数据的环节，并通过设计无线接入网、边缘计算节点和云计算服务器之间的循环反馈机制，实现可动态更新与自组织优化的无线网络调度系统。图 4-2 所示的基础设施架构分三层，接入网层面所涉及的空口技术和组网方式仍遵照5G 或 B5G 的

173、标准，其部分网络优化功能或通信功能的算法将替换为 AI 驱动的模块来实现；核心网层面则仍遵照 3GPP 的标准实现，并可以结合 SDN 与 NFV 的手段来提升核心网平面的配置弹性和性能；云端深度学习训练平台则特化为专门训练用于无线接入网的 AI 模型，即学习用户端或基站传来的诸多原始信息（如网络流量、信号状态、用户状态等）来优化网络调度功能。整个接入网架构的抽象逻辑示意图如图 4-3 所示。所提架构充分利用了 AI 技术训练收敛时间长（计算量大）和执行速度快（计算量小）的特点，并结合云计算和移动边缘计算的技术特点，设置了 AI 训练分步学习的流程。部署于边缘计算节点的数据预处理平台主要负责接

174、收底层原始数据并辅助基站执行最终 AI 模型。来自无线接入网的数据会先由边缘服务器进行预处理，以避免海量数据全部上传云端带来不必要的巨额通信开销。云计算节点则会根据不同网络优化问题的特点和筛选后数据的情况，输入到合适的深度神经网络中，进行AI 模型的训练。而训练好的模型则会传回基站直接使用，此时执行模型的速度则可以满足无线接入网严苛的实时性要求。图4-2 基于AI+MEC的无线接入网架构（基础设施示意图）60 图4-3 基于AI+MEC的无线接入网架构（抽象逻辑示意图）图4-4 基于AI+MEC的无线接入网架构（反馈机制示意图）图 4-4 所示为所提接入网架构中循环反馈机制示意图。考虑到无线网

175、络环境的复杂性和动态性，一个可动态更新和循环反馈的调度系统是必不可少的。因此，在无线接入网中应用AI 技术，就需要向训练模型长期反馈大量样本数据用于升级算法，而非一劳永逸。进而使基于 AI 的无线网络调度系统既能做出实时决策，又具有足够鲁棒性应对可能的突发变化。并且这一反馈更新机制也可根据不同网络优化议题设置为小时级、分钟级或其他时间尺度。为了最大化 AI 对无线网络潜在的增益，图 4-5 中提出一种基于 AI 的无线接入网架构，有如下特征：1）接入网（RAN）AI 部署在基站（包含 CU 和 DU）内部，与核心网、网管、应用服务器有相应的接口用于数据交互.2）接入网 AI 和核心网 AI、网

176、管 AI、应用服务器 AI、以及终端 AI 互相配合，联合优化系统性能。61 3）基于采集的数据，接入网 AI 学习与预测移动业务的特征、用户移动性规律、用户业务行为、信道与干扰情况、业务质量（QoS)、业务体验(QoE)等信息；并把分析的结果通过接口传递到核心网、网管、应用服务器、以及接入网功能（RRC、RRM、协议栈功能等），支持网络的优化和业务的优化。4）接入网 AI 负责所有必要的接入网 RRC、RRM、协议功能配置、MAC 层调度和物理层算法等。与传统方案相比，基于 AI 的 RAN 架构有更智能的算法：1）智能业务识别：通过深度学习、强化学习、Q 学习等多种人工智能技术学习业务特征

177、，这些信息将使 MAC 调度器能够采取更智能的策略和算法；2）智能协议功能选择：针对不同的用户或者业务采用最合适的协议栈功能组合与处理算法，提高效率；3）强大的 MAC 调度：基于对信道状态、业务特征、移动性、缓存状态和 QoE/QoS 等的预测，调度程序可以更加高效和智能。4）智能物理层功能：可以针对现有的物理层模块进行功能增强或者链路整体增强，包含智能的导频、MCS 选择、MIMO 模式选择等。5）开放的接口：接入网 AI 的算法可以是运营商、设备商、或者第三方设计，并通过接口作用到系统的 MAC 调度器，推动接入网的开放和智能。RRC RRC 连接管理连接管理接入控制接入控制无线资源管

178、理无线资源管理HARQ HARQ 移动性管理移动性管理安全控制安全控制MACMAC调度调度QoS QoS 流控流控安全安全头压缩头压缩ARQARQ块分割块分割RRC RRC&RRM RRM 物理层功能物理层功能高层协议栈功能高层协议栈功能接入网接入网AIAI信道编码信道编码调制调制交织交织MIMOMIMO波形波形帧结构帧结构双工双工端到端端到端AIAI网络网络参考信号参考信号应用服务器数据采集数据采集、处理处理模型训练模型训练、推理推理RANRAN功能配置功能配置业务交互参数业务交互参数输入输入输出输出核心网核心网AIAI网管网管AIAI基于基于AI的接入网的接入网图4-5 基于AI的无线接

179、入网架构 4.2 基基于于 AI 的传输层拥塞控制技术的传输层拥塞控制技术传输层拥塞控制技术作为网络领域最重要的技术之一，对于提升网络效率和降低时延起着至关重要的作用。最早拥塞控制是从传输控制协议(transmission control protocol,TCP)开始的，TCP Tahoe 于 1988 年由 Jacobson 提出，是最经典的传输层拥塞控制算法，引入了慢启动和拥塞避免，快速重传等机制。后来 TCP Reno 引入了快速恢复机制。TCP new Reno维护了快速恢复状态，避免了因为连续丢包导致的连续砍窗口的问题。TCP SACK 加入了选 62 择确认(selective

180、 ACK,SACK)与重传机制，避免了累计确认(cumulative ACK)与重传机制带来的低效的回退问题。后来数据中心的兴起，由于数据中心属于单一自治域的同构网络环境，有相对固定的拓扑和相同的网络配置，比如显式拥塞通告(explicit congestion notification,ECN)，于是基于数据中心的拥塞控制技术研究成为热点，比如最有代表性的 DCQCN155算法，实现了交换机端的 ECN 标记和主机端的速率控制。但是仍然存在以下问题：1）已有的方法只考虑了有限的输入和数学建模，比如 ECN，丢包，往返时延(round-trip time,RTT)，实际网络非常复杂，需要考虑更

181、多因素（比如动态业务模型）和复杂建模。2）由于获取的网络信息有限，导致收敛速度慢，容易导致网络排队时延增大。3）由于算法的状态多和优化的参数众多且复杂，使得算法调优非常复杂。为了解决存在的问题，由于 AI/ML 技术可以解决多维度复杂场景下的建模，开始引入AI/ML 到传输层拥塞控制算法的研究中。主要的研究方法包括基于离线训练的有监督学习、深度强化学习、在线训练的学习。基于 AI 的传输层拥塞控制技术主要有以下方向：离线训练的有监督学习、深度强化学习、在线训练的学习。每种算法主要的区别在于不同的目标函数的选择，不同的输入输出和AI/ML 模型的选择。下表列出了主要 AI 算法的比较156：表4

182、-1 传输层拥塞控制主要AI算法 Remy 和 Indigo 算法是典型的基于离线训练的有监督算法，把业务模型和对网络资源消耗作为先验信息，在离线训练阶段，将吞吐率和时延最优作为目标函数，将最优的拥塞窗口作为训练模型的输出。深度增强学习的引入可以将已经训练好的模型与实际的运行环境结合，通过反馈不断优化模型。如下图 4-6 所示，将带宽，RTT，丢包率，拥塞窗口等作为输入，AI 模型输出是发送窗口或者是拥塞窗口的选择。结合实际运行环境的反馈，将累积的收益函数作为优化目标，优化 AI 模型。Aurora 和 Custard 是其中典型的采用深度增强学习的算法。63 图4-6 基于深度增强学习的拥塞

183、控制算法基于离线学习的算法好处在于收敛速度快，但由于需要获取较多的离线数据用于模型的训练，完整的数据集成为了在实际应用过程中的一个瓶颈。从下图的实验结果表明146，基于 AI 的拥塞控制方法在不同的带宽，时延，队列大小，丢包率下，相比传统 TCP CUBIC 而言，性能都有了不错的提升。图4-7 实验结果 PCC 和 Vivace 是在线学习的典型算法。它们采用了不断试错的机制来确定发送窗口。PCC 的目标函数跟吞吐率和时延相关。Vivace 采用了 RTT 梯度来替代 RTT 实现对网络拥塞更精确的感知。在线学习对网络的反应非常迅速，但是由于没有先验信息，很难获取全局最优，通常来说，整体的

184、收敛速度较慢。中国移动研究院面向 6G 移动网络，研究 HI+AI 结合传输层拥塞算法，并研究与移动网络融合设计的方案，包括：1）研究 HI+AI 结合的传输层拥塞控制算法，并扩展到业务层速率控制算法；2）研究与移动网络深入融合进行联合设计和优化的方法，一方面考虑对移动网络的实时感知，另一方面考虑与移动网络资源调度机制相结合。4.3 基于基于 AI 的业务速率控制的业务速率控制类似的思路还可以用作业务层的速率控制，比如 Pensive144,视频码率的动态选择。如下图 4-8 所示，带宽、速率、终端缓存作为码率选择模型的输入，输出为动态码率选择。然后与实际的视频体验质量（quality of

185、 experience，QoE）运行环境结合，将 QoE（考虑视频码率、视频卡顿率和码率切换）作为收益反馈到 AI 模型中，不断完善码率选择模型。通过实际网络的测试结果如图 4-9 所示，结果表明从视频码率，卡顿率和视频切换顺畅度各维度进行评估，都表现出了良好性能。64 图4-8 基于AI的业务层速率控制图4-9 网络测试结果 65 4.4 基基于于 AI 的需求预测与缓存技术的需求预测与缓存技术随着智能终端设备的快速发展与普及，诸如短视频等新型移动多媒体业务不断地涌现，人们对于无线数据服务的需求呈现出爆炸式的增长160。然而，由于频谱的稀缺性，现有的无线网络难以支撑移动多媒体业务的持续增

186、长，需要我们提出新的解决方案。得益于大数据技术的高速发展，广义认知网络可以将认知对象从电磁环境拓展到用户需求。同时，也得益于存储技术在过去二十年中的长足进步，目前的网络边缘设备均配置了一定容量的存储介质。因此，可以将热门文件与用户未来可能请求的文件主动缓存至移动网络边缘的存储介质中。在用户发起真实请求后，可以直接从网络边缘的存储介质或本地缓存区中读取，从而降低用户的请求时延和移动网络的峰值功率。要想尽可能地提高缓存系统的能效与谱效，需要解决的问题包括：如何提高文件热度预测与用户请求预测的准确性？如何基于预测的文件热度和用户请求在有限的缓存区内制定缓存策略？如何基于缓存策略制定相应的推送与服务策

187、略？国内外众多学者围绕上述问题以 AI 为手段开展大量的研究，下面简要介绍。a)a)蜂窝网络内容热度预测和缓存策略设计蜂窝网络内容热度预测和缓存策略设计在文献161中，康奈尔大学的 Krishnamurthy 教授提出了一种适应性缓存方案以解决蜂窝网络中的文件缓存问题，首先通过机器学习方法，基于用户行为和文件特征等估计内容热度，再结合蜂窝网络相关参数，通过解混合整数线性规划问题得到具体的缓存策略，该方案得到的缓存策略可以根据网络参数如网络拓扑、通信链路、路由策略的变化而进行调整，如图 4-10 相比于单一固定的缓存策略，该方案可以更好地适应复杂的网络环境变化。文献158提出一种面向内容缓存的

188、基于加权用户聚类的内容流行度预测算法。为了克服实际情况中用户请求过于稀疏对流行度预测带来的影响，并探索不同用户之间内容流行度演变趋势的多样性，首先给出基于用户聚类的内容流行度预测框架。接着，其分析了单个内容的预测误差分布，并通过设计缓存阈值来刻画不同类型内容的预测误差对缓存性能的影响，从而得到预测准确度和缓存性能之间的闭式关系。在此基础之上，此研究通过分析用户相似度和不同内容对内容缓存性能的影响关系，提出了一种基于缓存内容加权的用户聚类策略。图4-10 适应性缓存方案仿真结果 66 图4-11 无线缓存网络系统图基于两类真实数据集对所提出的方案和一些已有方案进行了性能比较。如图 1-1 仿真

189、结果表明在不同场景下，该方案产生的缓存命中率损失低于其他对比方案，表明缓存性能相较于其他方案有了较大提升。图4-12 仿真验证示意图 b)b)雾雾无线接入网络用户偏好预测和缓存策略设计无线接入网络用户偏好预测和缓存策略设计在文献162中，东南大学尤肖虎教授团队研究了雾无线接入网络中的缓存问题，文中考虑了内容流行度在时间和空间上的变化，使用在线梯度下降（online gradient descent,OGD）方法和 FTRL-Proximal 方法提出了对用户偏好的低复杂度在线学习算法，更准确高效地预测用户需求的变化，进一步以用户个体的偏好为基础，预测给定空间范围或时间范围内的内容流行度，从而

190、得到有效的缓存策略。67 图4-13 缓存结构图 c)c)D D2D2D 通信中用户偏好分析通信中用户偏好分析在文献164中，悉尼大学 Branka Vucetic 教授考虑基于个人的内容请求概率，而非整体的内容请求概率来设计缓存策略，以此更准确地反应用户个人的偏好而非整体的内容热度，从而实现更准确高效的缓存策略。作者引入了评分矩阵的概念，并对矩阵进行分解得到内容特征与用户偏好的对应关系，通过贝叶斯学习方法预测用户个人对不同特征的偏好程度，并据此设计缓存策略。该方案还可扩展到 D2D 通信中以进一步降低延时，提高预测准确度。图4-14 评分矩阵与矩阵分解示例 d)d)协协同缓存的最优策略同缓

191、存的最优策略在文献166中，伦敦玛丽皇后大学的 Yue Chen 教授研究了协同缓存中内容放置的优化问题，其目的是最大化移动用户的总平均意见得分（MOS）。首先，作者利用递归神经网络（RNN）来预测用户的移动性和内容的热度。然后，作者提出了一种基于学习自动机的Q-learning 协同缓存算法，该算法通过调用学习自动机进行 Q-learning 来获得在随机和平稳环境下的最优决策。仿真结果显示协同缓存优于非协同缓存和随机缓存。68 图4-15 协同缓存方案仿真结果 e)e)移移动边缘网络文件热度预测与缓存设计动边缘网络文件热度预测与缓存设计在文献167中，德克萨斯 A&M 大学的 Ning

192、 Zhang 助理教授使用循环神经网络模型对内容热度进行预测，并基于热度的预测更新缓存策略，通过缓存降低核心网的拥挤程度和降低用户服务延时。循环神经网络模型可以有效捕捉用户请求在时间上存在的内在关联性，并依据用户请求在时间上的相关性更准确地预测用户未来的请求。仿真结果表明该方案会随着更深的神经网络层数以及更长的时间步长而提升性能。f)内容推送技术内容推送技术利用无线传输的多播特性将内容推送到多个用户设备端进行主动缓存，能够有效缓解中心网络负载，提升用户体验。有限的无线传输资源和缓存资源导致内容推送决策之间相互耦合。有限的无线传输资源下，系统每个时隙内只能推送有限的内容到特定的用户设备端。过早

193、的内容推送将带来用户设备端额外的缓存代价，而过迟的内容推送将面临错过用户请求的风险。亟需利用有限的网络资源,实现最大化数据卸载量和最小化缓存代价的平衡。文献163提出了一种基于结构化卷积神经网络的内容推送策略。图4-16 边缘计算网络系统图 69 图4-17 无线缓存网络内容推送系统具体地，文献163通过分析内容缓存时长对推送性能的影响，设计了一种用于提取单内容的不同推送决策之间的耦合特性的卷积层。与此同时，进一步设计了用于探究有限传输信道下不同内容推送决策之间空间耦合关系的全连接层。此外，作者通过松弛原问题的传输约束并提出相应最优策略，得到了用于监督学习的推送性能上界。图 4-19 对所提

194、出的策略和一些已有策略进行了性能比较。仿真结果表明在不同场景下，该策略获得的推送性能优于其他对比策略。此外，在面对不确定的用户请求预测信息时，该算法相较于已有策略具有更加稳健的性能。g)g)基于相关性和因果性的业务预测技术基于相关性和因果性的业务预测技术文献165提出利用无线业务的两个本质属性，相关特性和因果特性，以准确预测无线业务。1)无线业务相关特性：无线业务具有空时相关特性，即相同小区不同时间段以及不同小区业务之间的相互关系。人们一般使用相关系数来衡量两个变量之间的相互关系，其取值范围在-1,1之间，其中 1 代表完全正相关，而-1 代表完全负相关，而 0 意味着没有相关性。根据实测无

195、线网络业务的相关性分析可知，无线网络业务在同一地点不同日期的同一时段的业务量呈现很强的相关性（时间相关性），相邻小区同一时段的业务量呈现一定的相关性（空间相关性），因此有效利用无线业务的时空相关性有助于预测无线业务的规律项，提高预测精度。2)无线业务因果特性：无线业务因果特性揭示了网络业务变化的原因。根据格兰杰因果检测方法可知，如果一个平稳时间序列 X 的历史值有助于提高另一个平稳时间序列 Y 的预测值，则 X 是 Y 的格兰杰因果，也称预测性因果。例如，大型活动、上课、航班起飞/降落等都是无线网络业务变化的原因，具备一定的因果性。探索和利用无线业务的因果性将有助于预测无线业务的变化量，提高预

196、测精度。图4-18 结构化卷积神经网络 70 图4-19 仿真验证示意图在充分探索无线业务的相关性和因果性的基础上，文献165提出了如图 4-20 所示的基于业务相关性和因果性的业务预测模型，其由基于相关性的子预测器和基于因果性的子预测器组成。上述两个子预测器分别对业务的规律项和变化趋势进行预测，最终的预测结果将由两个子预测器的输出融合而得。基于相关性的子预测器，其输入为待预测的目标小区和其相邻小区的业务量以及小区位置等信息，经过取平均、取中位数、求方差等特征工程，形成新的特征以丰富训练集，然后选择差分整合移动平均自回归模型(autoregressive integrated moving

197、average model,ARIMA)、深度神经网络(DNN)、梯度提升决策树(gradient boosting decision tree,GBDT)等预测算法进行预测。基于因果性的子预测器，在充分利用无线业务的因果特性的基础上，还利用数据分集、特征分集、方法分集等来获得分集增益，从而提高预测精度。具体而言，与业务因果性相关的特征，如公共事件和移动信息将作为输入，经过因果性的分析，提取因果系数，然后再利用轻量级预测算法 LightGBM 进行预测。通过真实网络实测业务流量数据测试发现，相比于基于时空相关性的业务预测方法，所提的基于相关和因果特性的业务预测模型的预测精度提升了 10%。图4

198、-20 基于相关性和因果性的无线业务预测模型表4-2 无线业务预测精度对比结果 71 4.5 基于基于 AI 的无线的无线分布式分布式计算计算随着移动互联网的飞速发展，各类互联网应用产生的数据量呈爆炸式增长。面对如此巨大的数据量，传统的依托于数据中心进行集中数据分析与处理这种模式逐渐难以满足业务需求。在传统模式中，网络的边缘节点只负责数据收集与用户交互行为，并将所有原始数据上传到数据中心进行处理，这将导致巨大的通信消耗例如带宽占用和能量消耗等，此外，对原始数据的上传还可能导致用户的隐私泄露。目前移动设备的快速发展与普及使得网络的边缘节点具有较强的计算能力与储存能力，可以胜任针对本地的小规模

199、数据量的分析与计算。因此，为了解决这些问题并且更高效地完成大规模数据的分析与处理，我们可以采用分布式计算的思想，借助移动边缘计算和人工智能算法，将庞大的计算任务分发给网络边缘节点完成，而后由中心服务器将各个节点的计算结果进行整合统一，从而形成全局的计算模型。因此，AI 在未来无线计算中的应用成为了一个重要的研究课题，而联邦学习（federated learning,FL）能够在无线计算任务中实现分布式训练与训练结果的集中整合，有望有效地解决大规模数据处理的资源消耗与隐私保护问题。联邦学习避免了对边缘节点和设备收集到的大量的原始数据进行传输，而只对各个节点训练完成的本地模型进行传输。通过这种方法

200、，一方面，传输的数据量得到显著的降低，因此可以显著地降低边缘设备与中心服务器之间的通信代价。另一方面，由于原始数据仅保存在本地，因此用户的隐私能够得到保护，解决了原始数据上传可能导致的用户隐私泄露问题。联邦学习在无线计算中的研究主要包括对模型聚合的策略研究和对本地模型的调度策略研究。具体来说，联邦学习中的模型聚合策略应该结合各个边缘节点的模型结果，将各个节点在计算、传输等方面的差异充分考虑，从而聚合出适应全局的模型。联邦学习中，本地模型的计算受到节点间不同的存储和计算能力的影响，模型的上传受到通信资源的限制，因此需要仔细考虑众多本地模型的调度问题，以最优化全局系统的整体性能。当前的研究主要包括

201、如下方面：a)a)基于基于 A AI I 的移动边缘计算技术的移动边缘计算技术在边缘节点执行数据压缩可以有效地减少需要传输的数据量，大大缓解了网络负载。如何联合优化系统中的数据压缩和传输成为了一个亟待解决的问题。以往的研究工作解决的都是单时隙之间数据压缩和传输的耦合问题。然而在大数据背景下，考虑到数据压缩时间不可忽略，数据需要在压缩完成后的时隙传输，因此时隙间耦合使数据压缩和传输问题更为复杂。文献172在考虑传输资源和计算能力受限的情况下，提出了一个分布式的数据压缩和传输调度算法。为了描述实际等待的数据包数量，此研究建立了原始数据队列和压缩数据队列之间的队列映射关系。以吞吐量最优为目标，其利

202、用原始数据队列设计了基于李雅普诺夫优化的传输调度算法。为了解决数据传输决策与数据压缩决策解耦过程中产生的长期收益问题，利用深度 Q 网络估计每个节点对压缩方案的偏好，并提出一种最优的数据包替换算法。图4-21 联合数据压缩和传输系统模型图 72 文献185对所提出的算法和一些已有工作进行了性能比较。图 4-22 和图 4-23 仿真结果表明与已有的工作相比，该研究在不同场景中取得了更低的平均传输时延性能。此外，吞吐量最优算法下不同场景对不同的压缩方案选择次数也有不同。图4-22 仿真验证示意图图4-23 影响数据压缩决策的重要参数 b)b)针针对对 AI/ML AI/ML 模型分割的需求模型

203、分割的需求在许多情况下，有必要在终端设备和远端算力之间进行针对神经网络的分割训练及推理，以使智能应用在广泛扩展的同时最大程度地规避上述问题。一个基本的分割 AI/ML 的描述如图 4-24 所示，整体的网络结构可被分割为三段并分别作用于终端与网络设备之间。图4-24 基本分割AI/ML的思路不同的 AI/ML 分割模式如图 4-25 所示。这些模式重点考虑了不同网络直接做 AI/ML 分割的可能性。例如图 4-25（a）和（b）是基本的云计算及模型下载利用模式，图 4-25（c）至图 4-25（g）所示的分割结构则尝试根据当前任务和环境将 AI/ML 推理甚至模型拆分为多个部分，以减轻终端

204、设备和不同网络节点的计算、存储、功耗和所需数据速率的压力，并获得更好的模型推理性能，准确性和隐私保护。73 图4-25 分割AI/ML的不同模式 c)c)联联邦学习中的邦学习中的模模型型聚合策略聚合策略在文献186中，传统联邦学习方法往往采取对模型更新进行数字传输，并在服务器端进行模型聚合计算这一流程，而模型聚合的操作往往会耗费相当的时间，作者提出采空中计算（over the air computation）的方法，通过利用模拟信号在多接入信道中叠加的特性，进行快速的全局模型聚合，省去了在服务器端显式地计算模型聚合的时间。同时，由于数据集越大通常机器学习模型效果越好，作者提出了在均方误差约束

205、条件下最大化参与联邦学习的设备数量这一优化问题，并使用凸差分算法（DCA）进行求解，实验结果表明提出的 DC 算法相比于其他方法可以提高模型的预测精度。联邦学习的流程如图 4-26 所示。图4-26 联邦学习中的模型聚合 d)d)联联邦邦学习学习中的中的调度策略调度策略 74 最小化损失函数最小化损失函数/最大化模型精度：最大化模型精度：在文献25中，由于无线网络中的联邦学习需要通过无线连接来传输参数，所以会受到无线资源的限制，需要选择合适的用户子集、资源分配方式以及学习的策略。针对 OFDMA 传输，作者提出了一个存在误包的情况下的本地模型丢弃策略，和一个在延时、功率以及能量约束条件下的最小

206、化损失函数的优化问题，并使用二分图匹配算法进行了求解，得到了用户选择和资源配置策略。实验结果表明作者提出的算法和基线方法相比，损失函数更小，预测精度更高。最最大化大化收敛收敛速度：速度：在文献26中，同样由于无线资源的限制，需要选择合适的用户子集和资源分配方式。针对 OFDMA 传输，作者提出了一个概率用户选择策略，对全局模型有较大影响的用户被选择的概率较高，且每个用户被选择的概率均大于 0 的。同时作者还提出利用神经网络来表示不同的用户本地模型之间的关系，并利用它来估计那些未被选择的用户的本地模型，以此利用更多的用户数据集信息。在给定用户子集的基础上，优化无线资源块的分配，最小化收敛时间。流

207、程如图 4-27 所示。仿真实验表明提出的方法在预测精度和收敛速度上高于基线方法。e)e)计算资源与通信资源联合调度计算资源与通信资源联合调度在文献190中，作者研究了在联邦学习中如何有效利用边缘节点有限的计算资源与通信资源达到最优的学习性能。模型聚合的频率是可以控制的，而非最优的聚合频率可能导致大量的资源浪费。作者从理论角度分析了基于梯度下降算法的联邦学习收敛界，并据此提出了一种控制算法来动态控制模型聚合的频率，以在有限的资源预算下最小化损失函数。通过实际数据集仿真验证，该控制算法在多种不同情况下都能达到近乎最优的性能。图4-27 FL调度流程在文献191中，作者研究了在无线通信网络中的

208、联邦学习延时最小化的问题。在联邦学习中，本地计算时延与通信时延都取决于目标学习准确度，通过联合考虑这两方面的时延，作者建立了一个联合传输与计算优化问题以最小化联邦学习延时，并理论证明了延时是学习准确率的凸函数。而后，基于这一凸函数性质，作者提出一种二分查找算法得到最优的学习准确率。75 图4-28 联合调度性能 f)f)基基于端边云协同的多层次于端边云协同的多层次联邦学习机制联邦学习机制为了缓解传统的端云协同的联邦学习在流量开销、能耗开销和训练延迟等方面的劣势，文189提出基于端边云协同的多层次联邦学习机制。架构如图 4-29 所示，相比于传统的端云协同的联邦学习，该架构进一步引入了邻近终端

209、的边缘节点来参与模型训练，并且在模型训练过程从传统的“本地训练+全局聚合”两阶段扩展到“本地训练+边缘局部聚合+云端全局聚合”的三阶段。上述三阶段的具体工作流程如下，（1）本地训练阶段：终端设备基于本地数据训练对应的本地模型参数，并将本地模型参数上传至邻近的边缘节点；（2）边缘局部聚合：边缘节点在接收到邻近的多个终端设备上传的本地模型参数后，对这些模型参数进行聚合，并将聚合后的局部模型参数进一步上传至云端；（3）全局模型聚合：云端在接收到多个边缘节点上传的局部模型参数后，对这些模型参数进行聚合，从而得到全局模型参数，最后进一步将全局模型参数通过边缘节点下发到所有的终端设备，以便进行下一轮模型训

210、练。图4-29 基于端边云协同的多层次联邦学习架构 76 不难发现，在上述“本地训练+边缘局部聚合+云端全局聚合”的三阶段过程中，大量终端设备参数的海量模型参数在邻近的边缘节点即被聚合，考虑到终端设备通常与邻近的边缘节点通过局域网相连，那么通过边缘局部聚合即可降低大量的广域网流量开销。以 10000台设备同时训练 VGG-19 模型为例，若引入 100 个边缘节点参与局部模型聚合，那么理论上广域网流量可降低 99%。此外，由于局域网引起传输延迟也相应降低，终端设备传输本地模型参数的能耗开销也进一步降低。在引入边缘节点参与模型聚合后，上述端边云协同的多层次联邦学习架构的异构性进一步加强，除了不同

211、的终端设备具有不同的计算能力和能效之外，不同边缘节点的接入带宽与最大连接数也不同。此外，不同的终端节点能够通过局域网互联的边缘节点的数量可能同样存在差异性。在实际部署中，这些异构性可以优化以下决策从而被优化利用，以达到进一步降低端边云协同的多层次联邦学习架构的训练延迟与能耗开销的目的。（1）计算资源分配决策：不同的终端设备具有不同的计算能力（即 CPU 频率），计算能力的决策不仅会影响终端设备的能耗，同时还是影响本地模型训练的计算延迟。在决策计算资源分配时，需要平衡优化能耗开销和模型计算延迟。（2）网络资源分配决策：当多个终端设备向某个边缘节点上传本地模型参数时，需要优化该边缘节点的接入带宽在

212、这些终端设备间的分配，从而平衡不同终端节点的模型传输延迟。（3）端边匹配决策：考虑到单个终端设备可以通过局域网与多个边缘节点相连，因此在边缘局部聚合阶段，需要优化决策终端与边缘节点的匹配关系，从而优化全局模型训练延迟和能耗开销。上述协同优化计算和网络资源分配以及端边匹配决策从而最小化能耗开销与训练延迟的问题可以在理论上建模成一个非线性的混合整数规划问题，难以利用现有的求解器求解，因此需要进一步设计高效的近似优化算法来求解。77 第五章第五章基于基于 AIAI 的语义通信的语义通信近年来，随着人们对无线通信智能化需求的迅速提升，各种基于无线通信技术的新兴智能业务（如工业互联网、智能网联车、

213、远程医疗/手术、虚拟现实及全息投影技术等）层出不穷。这些新兴业务不再仅仅依靠高速率的数据传输，而逐渐对网络智能化和服务多样性等方面提出更多要求。在这一发展趋势的推动下，未来通信网络将开始逐步向高度自动化、智能化且可提供更贴近人类用户需求和体验的万物智联全新架构转变。语义通信是一种全新的通信架构，它通过将用户对信息的需求及语义融入通信过程，将有望大幅度提高通信效率、改进用户的体验质量（QoE,quality of experience），并从根本上解决基于数据的传统通信协议中存在的跨系统、跨协议、跨网络、跨人机不兼容和难互通等问题，真正实现“万物透明智联”的宏伟愿景，即通信网

214、络、计算和存储等软/硬件设备无缝融入人们的生活。人们无须携带手机或计算机等专属计算和通信设备也可以享受无处不在的计算、存储和通信等服务。5.1 基于基于 AI 的的语义通信系统架构语义通信系统架构语义通信模型的一般框架如图 5-1 所示,与传统通信系统相同，语义通信系统包含发送端、信道与接收端三个部分，主要区别在于语义通信系统所采用的编解码方式。语义通信系统的发送端包含语义编码与信道编码部分，接收端包含信道解码与语义解码部分。在已有的工作中,文献 196将深度学习与联合信源信道编码结合，通过语义信息的传递在接收端恢复文本信息。文献197 将联合信源信道编码用于图像的传输中，并取得了较好

215、的效果。文献198出了内容为语音的语义通信方式，验证了语义通信对语音的有效性。图5-1 语义通信模型的一般框架进一步，上海交大陈文团队提出了基于深度学习的语义通信系统模型，将文本作为传输内容，实现从发送端到接收端的传输。采用 Transformer 模型作为语义编解码的核心部分，用于语义信息的提取与理解。如图 5-2 所示,网络的整体结构包含编码器、信道、解码器三部分。采用欧洲议会语料库作为文本数据集，其中包含 220 万个句子以及 5300 万个单词。对数据集进行预处理，选择长度为 430 个单词的句子并分为训练集与测试集。处理后的训练集包含 116 万个句子，测试集包含 1.2 万个句子

216、。仿真结果如图 5-3 所示。该图比较了在平均每单词比特数一定时，本文提出的基于深度神经网络的语义通信模型与两种传统通信模型在不同信噪比下的词准确率。所提模型能够利用有限的平均每单词比特数进行编码,并取得比传统通信模型更高的准确率。78 图5-2 基于深度学习的语义通信系统架构图5-3 语义通信模型的准确率 79 第六章第六章无线无线 AIAI 研究数据集研究数据集无线 AI 研究需要高质量的数据，如何共建共享无线 AI 研究数据集是无线 AI 研究向前推进需要迫切解决的问题。如图 6-1 所示，一种典型的无线 AI 研究数据集可以包括如下 5个子数据集：1）信道数据集，包括对信道状态的

217、记录 2）环境数据集，包括对客观环境的描述 3）经验数据集，包括无线网络状态、决策和性能的记录 4）用户画像数据集，包括对用户属性、行为的描述 5）预训练模型数据集，包括预先训练好的可用于通信任务的神经网络模型及参数图6-1 无线AI研究数据集的组成示例其中，信道状态可以是信道估计得到的信道系数，也可以是 CSI 测量信息等信道相关的信息。环境数据则可以包括用于描述客观传输环境的图像、点云数据等。用户画像可以包括用户使用的终端型号、位置等用户属性和行为信息。而预训练模型则可以是不同场景下的信道预训练模型、信道数据的分布模型或无线网络优化模型等可用于特定场景特定任务的预先训练的神经网络模型集

218、合200201。6.1 无线无线 AI 研究数据收集和利用研究数据收集和利用无线 AI 研究数据集中的各个子数据集在无线通信的过程中实时收集，甚至通过预训练模型的训练和推理，这些数据可以用于辅助通信中的各个任务，让网络变得更加智能。图6-2 展示了一个实时收集并利用各个子数据集的例子，通信中历史采集得到的信道数据可以预先训练好一个信道模型，这个信道模型学习了信道状态在时、频、空域的变化规律，根据实时信道状态的输入，可以输出信道的压缩表示。该信道表示数据再拼接环境数据、用户画像等信息，就可以足够充分的表达当前场景，输入下游用于具体任务的神经网络模型，可以输出智能决策用于执行智能空口配置、资源管

219、理调度及智能环境感知等任务。收集这些任务执行后的状态、决策和性能指标等可以得到经验数据集，经验数据集可反馈用于模型的持续在线训练过程。80 图6-2 无线AI研究数据集的收集和利用举例 6.2 无无线线 AI 研究数据集的共建共享研究数据集的共建共享无线 AI 研究在数据集的建立上也面临很大的挑战。不同于互联网上随处可见的图像、语音、文本等数据，真实无线传输环境下的数据采集往往需要昂贵的专用设备和大量的人力和时间。而采集到的数据也面对着诸如数据种类繁多，数据质量参差不齐，数据处理方法和数据格式多种多样，体量巨大等一系列问题。在此种情况下，讨论如何共建共享无线 AI 研究数据集，并发展一套与之

220、匹配的系统性的评估理论和方法，是需要各研究单位协同参与并一起解决的关键问题。结合无线通信系统的特点，如图 6-3 所示，内生 AI 网络架构中所涉及到的无线数据集主要可分为五类：信道数据集信道数据集、环境数据集环境数据集、经验数据集经验数据集、用户画像数据集用户画像数据集和预训练模型预训练模型数据集数据集。在内生 AI 网络中的相关建立和部署方法可以分为以下四个步骤：步骤步骤 1：建立多场景仿真信道数据集。：建立多场景仿真信道数据集。首先建立统一的大规模仿真信道数据集，用于AI 算法的验证以及模型的预训练。仿真信道数据的产生可以采用射线追踪（Ray-tracing）方法，并在信道数据产生的同时

221、记录反映通信场景的信息，例如环境中的建筑物布局、设备位置等。步骤步骤 2：引入实采数据和仿真链路与系统。：引入实采数据和仿真链路与系统。在少量实测场景中采集实际数据，验证在该场景下信道预训练模型的性能，并尝试在真实数据上进行模型迁移，提升当前场景下的模型性能。同时，研究实采数据的分布，校正仿真信道数据生成模型，提升仿真数据集的真实性。81 图6-3 内生AI架构与无线AI研究数据集步步骤骤 3：单站真实系统部署：单站真实系统部署。通过单站、小规模真实系统的部署，对预训练的模型和算法进行初步验证、调优，并把经验数据收集起来。步骤步骤 4：多站多用户系统部署。：多站多用户系统部署。将模型部署在多

222、站多用户真实系统中进一步验证模型的泛化能力以及多站多用户之间的联合学习、多智能体强化学习等算法。图6-4 基于RT仿真信道数据（左：BS/UE部署；右BS5和UE7直接射线追踪仿真结果）在示例中，相关数据集的建立过程如：1）通过在全球 40 多个大城市的公开地图上进行采样，可获得 10000+真实建筑物布局，每一个建筑物布局可以看作一个环境；然后在每个环境里随机撒点，可获得 5 个基站和 30 个终端的位置；2）利用射线追踪方法仿真基站和终端的所有 150 种组合，得到 150 个组合场景的数据。这样，我们可以得到了 150 万+的场景，每

223、个场景包括环境信息（建筑物布局）、基站和终端的位置，以及仿真信道。其中，仿真信道包括了当前基站和终端链路的所有的射线信息，每条射线又包括出发角、到达角、时延以及不同频点的频率响应等。如图 6-4 所示，在给定建筑布局场景中进行 BS 和 UE 撒点，其中 UE 的撒点位置为随机，BS 的撒点则要求在建筑附近的街道上，以保证一定的合理性。3）获得 BS 和 UE 之间的射线追踪仿真结果。如图 6-4 中所示的 BS5 和 UE7 之间的射线情况，其中，颜色越深代表射线的路损越小。采用该方法获得的信道数据除了具有场景多样、贴近真实的特点，还可以提供和数据集配套的数据预处理代码，对频点、系统带宽、O

224、FDM 参数、天线数、天线间隔等参数进行自定义配置，并输出与此参数对应的信道冲击响应。以定位任务为例，由于多径信道受到通信设备周边的环境影响，理论上结合环境信息，即使只有单站的信道，也可以实现具有一定精度的定位。定位实验的参数配置如表 6-1 所示，数据集中的每份数据包含：时延角度域的信道冲击响应、当前的环境以及设备位置等信息。82 读取的数据按照 9:1 的比例分成训练集和测试集，训练时以信道冲击响应、环境、发射设备位置作为神经网络的输入，以接收设备位置作为神经网络的输出。表6-2 自定义参数配置频点带宽载波数接收天线数发射天线树天线间距 2.16GHz 5M 25 2/4 8/

225、32 半波长示例中的训练可采用卷积神经网络和全连接网络提取信道、环境和发射端位置的特征，并输出预测的接收端位置。用于定位的神经网络的从数据集预处理得到的输入数据经过DNN 或 CNN 后得到不同特征并拼接，再经过 DNN 推演，得到接收端的预测位置。训练使用 Adam 优化器，并以接收端位置的真实值和预测值的 MSE 作为损失函数，batch size 设置为 500。其中 CNN1 和 CNN2 采用传统的卷积神经网络，卷积核尺寸为 3，特征 A、B 和 C的维度为 512，拼接后维度为 1536，经过 DNN2 后得到维度为 2 的接收端预测位置。在对比实验中，我们尝试了有环境信息和没有

226、环境信息、以及 8T2R 和 32T4R 的天线数组合。在没有环境信息的实验中，为公平起见，仍然保持神经网络大小不变，只是将环境信息置为全零。从图 6-5 中可以看出，有环境信息的实验无论是训练集还是测试集，定位精度都要高于没有环境信息的实验。当天线数从 32T4R 降为 8T2R，由于角度分辨率降低，定位精度下降，但是有环境信息的实验训练集下降很少，测试集的定位精度下降也少于没有环境信息的实验。另外从上述实验结果中可以看出，环境信息的引入对于定位精度的提升有一定帮助。图6-5 基于无线AI研究数据集的定位任务训练结果高质量的无线 AI 研究数据集中含有丰富的信道、环境、场景信息等，对于未来

227、无线 AI的研究有极其重要的基础价值。6.3 无线无线 AI 伦理规范及隐私保护伦理规范及隐私保护随着无线通信网络的迅速发展，未来无线网络的规模、接入量及复杂度将会呈指数增长。因此，无线通信网络一直在探寻将人工智能引入网络，为无线网络赋能的道路。然而，伴随着人工智能在各行各业的大规模应用，除了人工智能带来的巨大收益之外，也催生了人机关系的新变化和新挑战。随意滥用人工智能带来了一系列恶果，如深度伪造（deep fake），自动生成虚假新闻等。一些组织和机构已经开始重视应用人工智能过程中的正确态度，并对人工智能的行为规范展开了研究，总结出了人工智能的伦理规范。由于无线通信网络属于基础设施，处于强

228、监管领域，用于无线通信网络的人工智能需要满足严格的伦理规制和监管要求，保证其安全可靠，确保人工智能的应用受到合理约束，才能够在无线通信领域顺利应用，使人工智能真正助力无线通信系统的发展。83 目前，对人工智能进行约束的首要目标是构建人工智能伦理规范及伦理体系，众多国际组织、政府机构、及公司等均发布了人工智能伦理相关文件。从发布主体分类，可大致分为三种文件：国际组织文件、政府文件、产业界文件，包括宣言、原则、指南、白皮书等多种形式。截止目前，约有 74 份人工智能伦理相关文件已经发布，虽然出发点不同，但最终落脚点均落在对人类有益、保护数据安全及隐私、可靠、可解释等特点上。我国从 2017 年便开

229、始重视人工智能面临的伦理及隐私保护问题，国务院在 2017 年 4月发布了新一代人工智能发展规划，明确指出要“制定促进人工智能发展的法律法规和伦理规范”205。2019 年 6 月，国家新一代人工智能治理专业委员会发布了新一代人工智能治理原则发展负责任的人工智能，提出了人工智能治理的框架和行动指南，其中第四条提到“尊重隐私：人工智能发展应尊重和保护个人隐私，充分保障个人的知情权和选择权。在个人信息的收集、存储、处理、使用等各环节应设置边界，建立规范。完善个人数据授权撤销机制，反对任何窃取、篡改、泄露和其他非法收集利用个人信息的行为”206。2020年 8 月，我国国家标准化管理委员会、中央网信

230、办、国家发展改革委、科技部、工业和信息化部等五部委联合发布了国家新一代人工智能标准体系建设指南，提到要“建立人工智能标准体系结构”，其中一个重要方面就是建立伦理与安全隐私保护标准，包括“基础安全，数据、算法和模型安全，技术和系统安全，安全管理和服务，安全测试评估，产品和应用安全”等六个部分，贯穿整个人工智能标准体系207。由此可见，我国对于人工智能伦理规范建设的需求已经刻不容缓。世界范围内也对人工智能的伦理规范和隐私问题进行了广泛探讨，期望规范人工智能的行为。举例来说，2020 年 2 月，欧盟委员会发布了人工智能白皮书208，在人工智能白皮书中，欧盟提出要建立一个“受信任的人工智能环境”，要

231、求确保隐私和个人数据在使用人工智能的产品和服务中受到合理保护，因为人工智能增加了跟踪和分析人们日常习惯的可能性。此外，通过分析大量数据并识别数据之间的关联，人工智能还可以用于对个人的数据进行回溯和去匿名化处理，这对即使本身不包含个人数据的数据集，也带来了新的个人数据保护风险。斯坦福大学在 2019 年 3 月成立了以人为本人工智能研究院（HAI），旨在减少人工智能的危害，认为“把伦理研究纳入人工智能的研究和开发的基础中是当务之急。”当人工智能被应用于无线通信系统时，其应当遵守的伦理规范和确保的隐私保护原则应更为严格。无论是 5G 或者未来的 6G 无线通信系统，最终愿景是从人人互联、人物互联，

232、到物物互联，再到人网物三者的结合，最终构建万物互联的智能世界。由于未来的 6G 无线网络将支持丰富的应用服务，因此会涉及到大量的用户隐私数据，如终端硬件标识、用户的身份证（ID），以及用户的行为偏好等。同时，由于数据挖掘技术进步，使得隐私信息的提取方式变得更加强大。因此，人工智能应用于无线通信网络时，应遵守以下伦理守则：保护数据安全及隐私鲁棒性透明性可解释性由于无线通信系统的高度重要性，无论是无线通信系统内部或者垂直应用场景下的数据安全和隐私均应当得到充分的保护：传统意义上的无线通信网络用户隐私数据，如用户数据、位置、行踪、通信内容、通信行为、通联关系、账号等；84 垂直应用场景中的隐

233、私数据，如智慧工厂、智慧海洋、智慧物联中的相关敏感信息等。这些隐私信息的敏感和需要保护的程度将更为严格；未来无线通信网络中的隐私数据，此时无线通信网络接入的设备多样化，支撑多种业务，如无人驾驶，智慧城市，工业自动化，及超大规模物联网等。在此阶段，人工智能将会收集、存储、处理海量的数据，其数据安全和隐私保护要求将会上升到一个更高的高度。总之，无线通信网络的智能化是大势所趋，通过人工智能赋能，运用人工智能优化管理的通信网络将获得提高网络性能，降低运维开支等众多优势。但是，由于人工智能的应用伴随着大量的数据收集、存储、处理过程，数据安全和隐私保护是一个无法回避，且亟待解决的问题。无线通信系统作为基础

234、设施，承载着海量数据传输的任务，数据安全和隐私保护应当受到高度重视，让安全，可靠，可信的人工智能系统助力无线通信系统发展，实现无线通信网络的高度智能化。85 第七章第七章产业化前景产业化前景分析分析与与总结总结在本报告中，我们在结合现有的一些研究工作的基础上，对无线 AI 这个研究领域上涉及到的研究内容进行了讨论。主要讨论总结了现有的基于 AI/ML 的物理层技术，链路层技术以及网络上层技术，并探讨了无线 AI 的一个关键性问题，即研究数据集的获取和共享问题。本章将总结全文内容，概述 AI 赋能的无线技术的潜能和优势，分析其产业化前景、现有的技术成熟度及其对标准化和产业化应用的影响。7.1

235、 AI 赋能无线技术的潜能及优势赋能无线技术的潜能及优势现有无线通信系统基于模块化系统设计，各个功能通过独立的不同模块来实现。模块化系统设计只以某个模块的性能为目标，难以实现整个系统的最优设计。其次，通信系统中存在多样的非线性器件和非线性传输问题，很难用数学模型精确描述。再次，现有 5G 无线通信系统支持 eMBB，mMTC，URLLC 三大场景，针对不同场景的不同性能指标需求，无线空口和技术特征的设计也不同，未来会出现越来越多的新兴场景，5G 的系统设计思路对新兴场景的支持缺乏灵活性。相反，无线 AI 可以实现多模块联合优化甚至端到端通信的整体优化；数据驱动的无线AI 模型可有效地逼近与拟

236、合任意复杂的输入输出关系，提取与处理隐含的特征；无线 AI（如强化学习）可在多种场景和情况下不断调整、演进、修复，基于无线 AI 的系统设计思路能更好的兼容未来的多种新型场景；无线通信系统中智能化设备越来越多，数据收集和处理能力也有了质的提升；此外，网络设备可以通过各类参考信号以及终端设备的反馈信息，非常方便地获得海量的无线环境数据；最后，可以通过通用硬件实现多种功能的神经网络，并支持未来网络的平滑升级和替换，降低网络部署和维护的成本。AI/ML 在物理层的应用已有大量的成功案例。本报告的第二章节讨论了 AI 在物理层的各个模块，包括无线环境建模与感知、信道估计预测及反馈、编译码、调制与波形技

237、术等方面的现有研究成果。这些成果显示 AI 特别是深度学习由于其具有端到端优化的能力可以避免传统通信链路的模块化设计，同时由于其的非线性处理能力，带来了显著的性能提升。AI 特别是强化学习，能够通过与环境的交互，学习环境的特性，从而自适应地实现最优决策，已被广泛地应用到无线链路层的资源分配与调度中。本报告的第三章节概述了 AI在干扰链路调度、功率分配、信道分配、接入控制、频谱资源检测等方面的成功应用。这些成果显示，AI 技术，特别是深度强化学习，对复杂多变的网络环境和网络结构具有很好的适应性，能够以极低的计算成本智能地处理复杂系统的最优控制问题。AI 在应用层和网络层的应用主要有两方面。一是用

238、于预测、推理和大数据分析。在这一方面，本报告的第四章介绍了基于 AI 的拥堵控制技术、业务速率控制技术、需求预测与缓存技术等。二是通过在网络边缘及其各网元实体上内嵌 AI 功能来实现自组织网络操作。第四章也讨论了相关的无线分布式计算技术，包含移动边缘计算技术、AI/ML 模型分割技术、联邦学习等。这些边缘智能可以学习环境，并随着环境变化而改变策略，从而实现网络智能化。通过上述讨论可以发现，AI/ML 方法已经被用于无线技术研究的多个方面，并且相较于传统算法获得显著的性能提升。AI 的一些技术与模型（如 CNN,RNN,DRL 等）与无线技术深度融合，尤其是与物理层/链路层空口技术的结合和后续发

239、展值得重点关注。此外，如本报告的第五章节中所探讨的，如何获取和利用研究数据集是无线 AI 研究的关键和难点之一。86 此外,AI 应用到无线移动通信网络中主要采用：固化推演方式和系统外推演方式。固化推演方式即通过离线训练获得推演阶段所使用的机器学习模型后，将其固化到系统中，系统在运行时，应用固化在系统中的机器学习模型进行推演，实现相应的功能。系统外推演方式即机器学习的训练和推演均在无线移动通信系统之外进行，机器学习推演机构利用系统提供的数据进行推演，并将推演的结果应用到目标系统之中。本报告中所介绍的大部分工作主要考虑这种方式，其对当前标准架构影响较小，仅涉及测量、统计量层面的丰富化。采用系统外

240、推演的方式，需要无线移动通信系统分别向机器学习训练机构和机器学习推演机构提供大量用于训练和推演的数据，随着所需要解决问题的复杂化，特别是将机器学习用于无线信号处理时，大量的训练和推演数据向系统外提供将成为一种负担。同时，系统内外的数据交互会增加处理时延，限制了机器学习技术的应用场景。将无线移动通信系统内部的数据提供给系统外的机器学习机构使用，还可能引发数据安全的问题。因此，有必要将机器学习的训练和推演引入到无线网络内部，构造具备内生智能的新一代无线移动通信系统204。采用内生智能的方式，可以降低系统内外传递的数据量的需求，降低处理时延，从而更有利于采用机器学习技术解决无线移动通信系统内部的问题

241、。但是内生智能同样引发一系列问题，包括机器学习模型部署/更新问题、标准化问题等。这些问题需要在无线网络智能化进程中被持续关注和研究。特别地，在标准化方面，由于网络内生智能将影响不同网元、单元的功能与接口的变化，这将导致无线网络架构的变革。在下一代无线通信系统中，如何在设计之初就考虑原生支持 AI 技术，实现未来万物智联的美好愿景，是本专题任务组关注的重点课题。7.2 AI 赋能无线技术的产品成熟度赋能无线技术的产品成熟度目前手机终端的嵌入式神经网络处理器（Neural-network processor unit,NPU）的处理能力与日俱增，具体数据如下图 7-1 所示。在 2018 年以前

242、，手机终端尚无专门的 NPU 模块，从 2018 年开始，手机终端的 NPU 处理能力每年都提升数倍。按照这个速度，2030 年手机终端的 NPU 处理能力将持续高速提升。图7-1 手机终端NPU能力增长图表 7-1 列出了一些典型的复杂神经网络的复杂度，以及这些神经网络占据目前典型芯片的 NPU 1 秒计算能力的比例。通过将现有手机 NPU 的处理能力与经典的神经网络的复杂度进行比较，可发现目前手机 NPU 处理能力已经非常强大。神经网络的复杂度一般以 OP 为单位计算，即一次实数乘法或一次实数加法为一个 OP。以 GoogleNet 为例，它的复杂度为2G OPs，但它只占据目前典型芯片

243、的 NPU 1 秒计算能力的 1.3e-4（即 1 秒可以计算 7500 次，或执行一次网络只需 0.13 毫秒）。表7-1 典型的复杂神经网络的复杂度列表 87 神经网络复杂度(OPs)神经网络占据目前典型芯片的NPU 1 秒计算能力的比例 Inception V2 4.1G 2.7e-4 Inception V3 12G 8.0e-4 CaffeNet 724M 4.8e-5 GoogleNet 2G 1.3e-4 MobileNet 1.15G 7.7e-5 无线 AI 中使用的神经网络一般是轻量级神经网络，复杂度不高。因此，在手机终端上执行基于神经网络的运算已成为现实。随着手机终端 N

244、PU 处理能力的快速增长，在手机上支持更复杂的无线 AI 成为可能。7.3 AI 赋能无线技术的标准化和产业化影响赋能无线技术的标准化和产业化影响无线 AI 中的数据获取和 AI 模型参数更新，可能需要通信标准定义相应的流程，或者部分功能基于终端和网络设备的实现，并且要从法律法规和隐私保护方面进行慎重探讨。3GPP 当前的标准讨论中，在核心网侧，增加了 NWDAF，用于进行数据收集和分析。并且在 RAN 工作组和 SA 工作组上分别设立了一个 SI（Study Item），分别对数据采集和 AI/ML模型传输进行研究，并讨论下一步标准化的可能，相关的进展情况可以参考 3GPP TR 37.8

245、17“Study on enhancement for data collection for NR and ENDC”和 TR22.874“Study on traffic characteristics and performance requirements for AI/ML model transfer”。由于无线 AI 可以实现相关通信模块的联合优化，传统通信标准中所涉及的内部接口将被简化，相关的信令过程也会有一定的改变，信令、参考信号的开销也将会降低。同时，不同阶段的无线 AI 对标准化和产业化的影响不同。在初始阶段，无线 AI 将会以辅助工具或优化方案来提升现有无线通信系统的性

246、能，其标准化影响相对较小。随着无线 AI 技术的成熟和无线通信系统对 AI 的开放性和支持度的提高，多个功能模块会逐渐被性能更好的无线 AI 模块所替代，其标准化影响将会更大。88 参考文献参考文献 1 Kermoal,Jean-Philippe,et al.A stochastic MIMO radio channel model with experimental validation.IEEE Journal on selected areas in Communications 20.6(2002):1211-1226.2 Hur,Sooyoung,et al.Proposal on

247、millimeter-wave channel modeling for 5G cellular system.IEEE Journal of Selected Topics in Signal Processing 10.3(2016):454-469.3 Sternad,Mikael,and Daniel Aronsson.Channel estimation and prediction for adaptive OFDM downlinks vehicular applications.2003 IEEE 58th Vehicular Technology Conference.VTC

248、 2003-Fall(IEEE Cat.No.03CH37484).Vol.2.IEEE,2003.4 Q.Bai,J.Wang,Y.Zhang and J.Song,Deep Learning-Based Channel Estimation Algorithm Over Time Selective Fading Channels,in IEEE Transactions on Cognitive Communications and Networking,vol.6,no.1,pp.125-134,March 2020.5 Z.Xu and J.Sun,“Model-Driven Dee

249、p-Learning,”National Sci.Rev.,vol.5,no.1,2018,pp.2224.6 H.T.He,S.Jin,C.-K.Wen,F.Gao,G.Y.Li,and Z.Xu,“Model-driven deep learning for physical layer communications”,IEEE Wireless Communications,vol.26,no.5,pp.77-83,Oct.2019.7 H.T.He,M.Zhang,S.Jin,C.-K.Wen and G.Y.Li,“Model-driven deep learning for mas

250、sive MU-MIMO with finite-alphabet precoding,”IEEE Commun.Lett.,vol.24,no.10,pp.22162220,2020.8 Y.He,H.He,C.-K.Wen,and S.Jin,“Model-driven deep learning for massive multiuser MIMO constant envelope precoding,”IEEE Wireless Commun.Lett,vol.9,no.11,pp.1835-1839,Nov.2020.9 W.Jiang and H.D.Schotten,“Recu

251、rrent neural network-basedfrequency-domain channel prediction for wideband communications,”inProc.IEEE Veh.Technol.Conf.(VTC),Kuala Lumpur,Malaysia,Apr.2019,pp.16.10 T.Ding and A.Hirose,“Fading channel prediction based on com-bination of complex-valued neural networks and chirpZ-transform,”IEEE Tran

252、s.Neural Netw.Learn.Syst.,vol.25,no.9,pp.16861695,Sep.2014.11 W.Jiang and H.D.Schotten,“Multi-antenna fading channel prediction empowered by artificial intelligence,”inProc.IEEE Veh.Technol.Conf.(VTC),Chicago,IL,USA,Aug.2018,pp.16.12 Y.Sui,W.Yu,and Q.Luo,“Jointly optimized extreme learning machine f

253、or short-term prediction of fading channel,”IEEE Access,vol.6,pp.4902949039,2018.13 J.Yuan,H.Q.Ngo,and M.Matthaiou,“Machine learning-based chan-nel estimation in massive MIMO with channel aging,”inProc.IEEE20th Int.Workshop Signal Process.Adv.Wireless Commun.(SPAWC),Cannes,France,Jul.2019,pp.15.14 M

254、.Mehrabi,M.Mohammadkarimi,M.Ardakani,and Y.Jing,“Decision directed channel estimation based on deep neural networkk-step predictor for MIMO communications in 5G,”IEEE J.Sel.AreasCommun.,vol.37,no.11,pp.24432456,Nov.2019.15 J.Wang,Y.Ding,S.Bian,Y.Peng,M.Liu,and G.Gui,“UL-CSI datadriven deep learning

255、for predicting DL-CSI in cellular FDD systems,”IEEE Access,vol.7,pp.9610596112,2019.16 M.Arnold,S.Drner,S.Cammerer,S.Yan,J.Hoydis,and S.T.Brink,“Enabling FDD massive MIMO through deep learning-based channel prediction,”Jan.2019.Online.Available:arXiv:1901.036.17 W.Liu,L.-L.Yang,and L.Hanzo,“Recurren

256、t neural network based narrowband channel prediction,”in Proc.IEEE 63rd Veh.Technol.Conf.(VTC),Melbourne,VIC,Australia,May 2006,pp.21732177.18 T.Ding and A.Hirose,“Fading channel prediction based on combination of complex-valued neural networks and chirp Z-transform,”IEEE Trans.Neural Netw.Learn.Sys

257、t.,vol.25,no.9,pp.16861695,Sep.2014.19 J.Yuan,H.Q.Ngo and M.Matthaiou,Machine Learning-Based Channel Prediction in Massive MIMO With Channel Aging,in IEEE Transactions on Wireless Communications,vol.19,no.5,pp.2960-2973,May 2020,doi:10.1109/TWC.2020.2969627.20 Luo,Changqing,et al.Channel state infor

258、mation prediction for 5G wireless communications:A deep learning approach.IEEE Transactions on Network Science and Engineering(2018).21 Sutskever,Ilya,Oriol Vinyals,and Quoc V.Le.Sequence to sequence learning with neural networks.Advances in neural information processing systems.2014.22 Huangfu,Your

259、ui,et al.Predicting the mumble of wireless channel with sequence-to-sequence models.2019 IEEE 30th Annual International Symposium on Personal,Indoor and Mobile Radio Communications(PIMRC).IEEE,2019.23 Huangfu,Yourui,et al.Realistic Channel Models Pre-training.2019 IEEE Globecom Workshops(GC Wkshps).

260、IEEE,2019.24 T.Gruber,S.Cammerer,J.Hoydis,and S.t Brink,“On deep learning-based channel decoding,”in 2017 51st Annual Conference on Information Sciences and Systems(CISS),Mar.2017.25 He Y,Zhang J,Wen C K,et al.TurboNet:A model-driven DNN decoder based on max-log-MAP algorithm 89 for turbo codeC/2019

261、 IEEE VTS Asia Pacific Wireless Communications Symposium(APWCS).IEEE,2019:1-5.26 Y.He,J.Zhang,Shi Jin,C.-K.Wen,G.Y.Li,“Model-Driven DNN Decoder for Turbo Codes:Design,Simulation,and Experimental Results,”IEEE Trans.Commun.,vol.68,no.10,pp.61276140,Oct.2020 27 Elkelesh A,Ebada M,Cammerer S,et al.Deco

262、der-tailored polar code design using the genetic algorithmJ.IEEE Transactions on Communications,2019,67(7):4521-4534.28 Nisioti E,Thomos N.Design of Capacity-Approaching Low-Density Parity-Check Codes using Recurrent Neural NetworksJ.arXiv preprint arXiv:2001.01249,2020.29 OShea T J,Corgan J,Clancy

263、T C.Convolutional radio modulation recognition networksC/International conference on engineering applications of neural networks.Springer,Cham,2016:213-226 30 Shental O,Hoydis J.Machine LLRning:Learning to Softly DemodulateJ.arXiv preprint arXiv:1907.01512,2019.31 M.Stark,F.A.Aoudia,and J.Hoydis,“Jo

264、int Learning of Geometric and Probabilistic Constellation Shaping,”in 2019 IEEE Globecom Workshops(GC Wkshps),Dec.2019.32 R.T.Jones,T.A.Eriksson,M.P.Yankov,and D,Zibar,“Deep Learning of Geometric Shaping Including Fiber Nonlinearities,”in 2018 European Conference on Optical Communication(ECOC),Sep.2

265、018 33 C.Wen,et al,“Deep Learning for Massive MIMO CSI Feedback,”in IEEE WCL,vol.7,no.5,pp.748-751,Oct.2018 34 J.Joung,“Machine Learning-Based Antenna Selection in Wireless Communications,”IEEE Communications Letters,vol,20,no,11,pp.2241-2244,Nov.2016.35 F.Sohrabi,H.V.Cheng,and W.Yu,“Robust Symbol-L

266、evel Precoding Via Autoencoder-Based Deep Learning,”in 2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),May 2020.36 H.He,C.-K.Wen,S.Jin,and G.Y.Li,“A Model-Driven Deep Learning Network for MIMO Detection,”in 2018 IEEE Global Conference on Signal and Information Pr

267、ocessing(GlobalSIP),Nov.2018 37 J.R.Hershey,J.L.Roux,and F.Weninger,“Deep Unfolding:Model-Based Inspiration of Novel Deep Architectures,”Online https:/arxiv.org/abs/1409.2574.pdf,Nov.2014 38 Z.Zhao,M.C.Vuran,F.Guo,and S.Scott,“Deep-Waveform:A Learned OFDM Receiver Based on Deep Complex Convolutional

268、 Networks,”Online https:/arxiv.org/pdf/1810.07181.pdf,Nov.2018.39 M.Kim,W.Lee,and D.-H.Cho,“A Novel PAPR Reduction Scheme for OFDM System Based on Deep Learning,”IEEE Communications Letters,vol.22,no.3,pp.510-513,Mar.2018.40 A.E.Gamal,Y-H.Kim.Network information theoryM.Cambridge:Cambridge Universit

269、y Press,2011.41 H.Cui,C.Luo,C.W.Chen and F.Wu,“Robust uncoded video transmission over wireless fast fading channel,”IEEE INFOCOM 2014-IEEE Conference on Computer Communications,Toronto,ON,Canada,2014,pp.73-81.42 S.Jakubczak and D.Katabi,SoftCast:Clean-slate scalable wireless video,2010 48th Annual A

270、llerton Conference on Communication,Control,and Computing(Allerton),Monticello,IL,USA,2010,pp.530-533 43 Bourtsoulatze E,Kurka D B,G nd z D.Deep joint source-channel coding for wireless image transmissionJ.IEEE Transactions on Cognitive Communications and Networking,2019,5(3):567-579.44 L.Huang,H.Zh

271、ang,R.Li,Y.Ge,and J.Wang,AI Coding:Learning to Construct Error Correction Codes,IEEE Transactions on Communications,vol.68,no.1,pp.26-39,Jan.2020.45 Huang,Lingchen,et al.Reinforcement learning for nested polar code construction.2019 IEEE Global Communications Conference(GLOBECOM).IEEE,2019.46 Wang,J

272、un,et al.Artificial intelligence and wireless communications.Frontiers of Information Technology&Electronic Engineering(2020):1-13.47 R.Atallah,C.Assi,and M.Khabbaz,“Deep reinforcement learningbased scheduling for roadside communication networks,”in 2017 15th International Symposium on Modeling and

273、Optimization in Mobile,Ad Hoc,and Wireless Networks(WiOpt).IEEE,2017,pp.18.48 S.Chinchali,P.Hu,T.Chu,M.Sharma,M.Bansal,R.Misra,M.Pavone,and S.Katti,“Cellular network traffic scheduling with deep reinforcement learning,”in Thirty-Second AAAI Conference on Artificial Intelligence,2018.49 Y.Wei,Z.Zhang

274、,F.R.Yu,and Z.Han,“Joint user scheduling and content caching strategy for mobile edge networks using deep reinforcement learning,”in 2018 IEEE International Conference on Communications Workshops(ICC Workshops).IEEE,2018,pp.16.50 M.Chu,H.Li,X.Liao,and S.Cui,“Reinforcement learning based multi-access

275、 control and battery prediction with energy harvesting in iot systems,”IEEE Internet of Things Journal,2018.51 Zhang,Lin,and Ying-Chang Liang.Deep Reinforcement Learning for Multi-Agent Non-Cooperative Power Control in Heterogeneous Networks.arXiv preprint arXiv:2004.12095(2020).90 52 Zhao,Nan,et al

276、.Deep reinforcement learning for user association and resource allocation in heterogeneous cellular networks.IEEE Transactions on Wireless Communications 18.11(2019):5141-5152.53 Nasir,Yasar Sinan,and Dongning Guo.Multi-agent deep reinforcement learning for dynamic power allocation in wireless netwo

277、rks.IEEE Journal on Selected Areas in Communications 37.10(2019):2239-2250.54 Naderializadeh,Navid,et al.Resource Management in Wireless Networks via Multi-Agent Deep Reinforcement Learning.arXiv preprint arXiv:2002.06215(2020).55 Wang,Jian,et al.Deep reinforcement learning for scheduling in cellula

278、r networks.2019 11th International Conference on Wireless Communications and Signal Processing(WCSP).IEEE,2019.56 Xu,Chen,et al.Buffer-aware wireless scheduling based on deep reinforcement learning.2020 IEEE Wireless Communications and Networking Conference(WCNC).IEEE,2020.57 H.Ye,G.Y.Li and B.-H.Ju

279、ang,“Power of deep learning for channel estimation and signal detection in OFDM systems,”IEEE Wireless Communications Letters,vol.7,no.1,pp.114-117,February 2018.58 D.Neumann,T.Wiese and W.Utschick,“Learning the MMSE channel estimator,”IEEE Transactions on Signal Processing,vol.11,no.66,pp.2905-2917

280、,June 2018.59 X.Cheng,D.Liu,C.Wang,S.Yan and Z.Zhu,“Deep-learning based channel estimation and equalization scheme for FBMC/OQAM systems,”in IEEE Wireless Communications Letters,2019.60 Y.Yang,F.Gao,X.Ma and S.Zhang,“Deep learning-based channel estimation for doubly selective fading channels,”in IEE

281、E Access,2019.61 A.Aboutaleb,W.Fatnassi,M.Soltani,and Z.Rezki,“Symbol detection and channel estimation using neural networks in optical communication systems,”IEEE International Conference on Communications(ICC):Wireless Communications Symposium,2019.62 E.Balevi and J.G.Andrews,“Deep learning-based

282、channel estimation for high-dimensional signals,”preprint arXiv:1904.09346,2019.63 T.-H.Li,M.R.A.Khandaker,F.Tariq,K.-K.Wong and R.T.Khan,“Learning the wireless V2I channels using deep neural networks,”preprint arXiv:1907.04831,2019.64 S.Han,Y.Oh and C.Song,“A deep learning based channel estimation

283、scheme for IEEE 802.11p systems,”in Proc.IEEE International Conference on Communications(ICC),2019.65 H.Mao,H.Lu,Y.Lu and D.Zhu,“RoemNet:Robust meta learning based channel estimation in OFDM systems,”in Proc.IEEE International Conference on Communications(ICC),2019.66 E.Balevi,A.Doshi and J.G.Andrew

284、s,“Massive MIMO channel estimation with an untrained deep neural network,”preprint arXiv:1908.00144,2019.67 S.Gao,P.Dong,Z.Pan and G.Y.Li,“Deep-learning based channel estimation for massive MIMO with mixed-resolution ADCs,”preprint arXiv:1908.06245,2019.68 Q.Bai,J.Wang,Y.Zhang and J.Song,“Deep-learn

285、ing based channel estimation algorithm over time selective fading channels,”preprint arXiv:1908.11013,2019.69.T.Demir and E.Bjrnson,“Channel estimation in massive MIMO under hardware non-linearities:Bayesian methods versus deep learning,”preprint arXiv:1911.07316,2019.70 M.B.Mashhadi,and D.Gndz,“Dee

286、p learning for massive MIMO channel state acquisition and feedback,”preprint arXiv:2002.06945,2020.71 X.Ma and Z.Gao,“Data-Driven Deep Learning to Design Pilot and Channel Estimator For Massive MIMO,”IEEE Transactions on Vehicular Technology,vol.69,no.5,pp.5677-5682,May 2020.72 Foad Sohrabi,Kareem M

287、.Attiah,Wei Yu,“Deep Learning for Distributed Channel Feedback and Multiuser Precoding in FDD Massive MIMO”,arXiv:2007.06512 73 M.Soltani,V.Pourahmadi,and H.Sheikhzadeh,“Pilot Pattern Design for Deep Learning-Based Channel Estimation in OFDM Systems,”preprint arXiv:2003.08980,2020.74 Y.-S.Jeon,J.Li,

288、N.Tavangaran,and H.V.Poor,“Data-Aided Channel Estimator for MIMO Systems via Reinforcement Learning,”preprint arXiv:2003.10084,2020.75 H.He,C.Wen,S.Jin and G.Y.Li,Deep Learning-Based Channel Estimation for Beamspace mmWave Massive MIMO Systems,in IEEE Wireless Communications Letters,vol.7,no.5,pp.85

289、2-855,Oct.2018,doi:10.1109/LWC.2018.2832128.76 H.T.He,R.Wang,S.Jin,C.-K.Wen and G.Y.Li,“Beamspace channel estimation in Terahertz communications:A model-driven unsupervised learning approach,”2020,arXiv:2006.16628.77 H.He,C.-K.Wen,S.Jin and G.Y.Li,“Model-driven deep learning for joint MIMO channel e

290、stimation and signal detection,”preprint arXiv:1907.09439,2019.78 X.Ru,L.Wei,and Y.Xu,“Model-driven channel estimation for OFDM systems based on image super-resolution network,”preprint arXiv:1911.13106,2019.91 79 Dong C,Loy C C,He K,et al.Image Super-Resolution Using Deep Convolutional Networks.IEE

291、E Trans Pattern Anal Mach Intell,2016,38(2):295-307 80 Kai Z,Zuo W,Chen Y,et al.Beyond a Gaussian Denoiser:Residual Learning of Deep CNN for Image Denoising.IEEE Transactions on Image Processing,2016,26(7):3142-3155.81 W.Jiang and H.D.Schotten,“Neural Network-Based Channel Prediction and Its Perform

292、ance in Multi-Antenna Systems,”in 2018 IEEE 88th Vehicular Technology Conference(VTC-Fall),Aug.2018,pp.16,doi:10.1109/VTCFall.2018.8690590.82 W.Jiang and H.D.Schotten,“Recurrent Neural Network-Based Frequency-Domain Channel Prediction for Wideband Communications,”in 2019 IEEE 89th Vehicular Technolo

293、gy Conference(VTC2019-Spring),Apr.2019,pp.16,doi:10.1109/VTCSpring.2019.8746352.83 J.Ahrens,L.Ahrens and H.D.Schotten,“A machine learning method for prediction of multipath channels,”preprint arXiv:1909.04824,2019.84 Y.Yang,F.Gao,Z.Zhong,B.Ai,and A.Alkhateeb,“Deep transfer learning based downlink ch

294、annel prediction for FDD massive MIMO systems,”preprint arXiv:1912.12265,2019.85 Y.Wang,X.Chen,H.Yin,and W.Wang,“Learnable sparse transformation based massive MIMO CSI recovery network,”IEEE Commun.Lett.,vol.24,no.7,pp.1468-1471,Jul.2020.86 M.Safari and V.,“Deep UL2DL:Channel knowledge transfer from

295、 uplink to downlink,”preprint arXiv:1812.07518,2018.87 M.Alrabeiah and A.Alkhateeb,“Deep learning for TDD and FDD massive MIMO:Mapping channels in space and frequency,”preprint arXiv:1905.03761,2019.88 F.Gao,title to be updated by Feifei Gao 89 C.K.Wen,W.T.Shih,and S.Jin,“Deep learning for massive M

296、IMO CSI feedback,”IEEE Wireless Commun.Lett.,vol.7,no.5,pp.748-751,Oct.2018 90 T.Wang,C.Wen,S.Jin and G.Y.Li,“Deep learning-based CSI feedback approach for time-varying massive MIMO channels,”IEEE Wireless Commun.Lett.,vol.8,no.2,pp.416-419,Apr.2019.91 J.Guo,C.Wen,S.Jin,and G.Y.Li,“Convolutional neu

297、ral network-based multiple-rate compressive sensing for massive MIMO CSI feed-back:Design,simulation,and analysis,”IEEE Trans.Wireless Commun.,vol.19,no.4,pp.28272840,2020.92 J.Guo,C.Wen,S.Jin,“Deep Learning-Based CSI Feedback for Beamforming in Single-and Multi-cell Massive MIMO Systems,”IEEE Journ

298、al on Selected Areas in Communications,2021.93 Y.Jiang,H.Kim,H.Asnani,S.Kannan,S.Oh,and P.Viswanath,“Turbo autoencoder:Deep learning based channel codes for point-to-point communication channels,”arXiv preprint arXiv:1911.03038v1,2019.94 T.OShea and J.Hoydis,“An introduction to deep learning for the

299、 physical layer,”IEEE Trans.Cog.Commun.Netw.,vol.3,no.4,pp.563575,2017.95 S.Dorner,S.Cammerer,J.Hoydis,and S.T.Brink,“Deep learning based communication over the air,”IEEE J.Sel.Topics Signal Process.,vol.12,no.1,pp.132143,Feb.2018.96 F.Ait Aoudia and J.Hoydis,“Trimming the Fat from OFDM:Pilot-and CP

300、-less Communication with End-to-end Learning,”arXiv:2101.08213v3,Apr.2021.97 E.Arikan,Channel Polarization:A Method for Constructing Capacity-Achieving Codes for Symmetric Binary-Input Memoryless Channels,in IEEE Transactions on Information Theory,vol.55,no.7,pp.3051-3073,July 2009.98 E.Nachmani,Y.B

301、eery and D.Burshtein,Learning to decode linear codes using deep learning,2016 54th Annual Allerton Conference on Communication,Control,and Computing(Allerton),Monticello,IL,2016,pp.341-346.99 J.Zhang,Y.Huang,Y.Zhou,and X.You,“Beam alignment and tracking for millimeter wave communications via bandit

302、learning,”IEEE Trans.Commun.,vol.68,no.9,pp.5519-5533,2020.100 J.Zhang,Y.Huang,Q.Shi,J.Wang,and L.Yang,“Codebook design for beam alignment in millimeter wave communication systems,”IEEE Trans.Commun.,vol.65,no.11,pp.49804995,Nov 2017.101 J.Zhang,Y.Huang,J.Wang,X.You,and C.Masouros,“Intelligent inter

303、active beam training for millimeter wave communications,”IEEE Trans.Wireless Commun.,pp.1-1,2020.102 J.Zhang,Y.Huang,J.Wang,and X.You,“Intelligent beam training for millimeter-wave communications via deep reinforcement learning,”in 2019 IEEE GLOBECOM,Dec 2019,pp.17.103 J.Zhang,Y.Huang,J.Wang,X.You,a

304、nd C.Masouros,“Intelligent interactive beam training for millimeter wave communications,”IEEE Trans.Wireless Commun.,pp.11,2020.104 E.Nachmani,E.Marciano,L.Lugosch,W.J.Gross,D.Burshtein and Y.Beery,Deep Learning Methods for Improved Decoding of Linear Codes,in IEEE Journal of Selected Topics in Sign

305、al Processing,vol.12,no.1,pp.119-131,Feb.2018.105 S.Cammerer,T.Gruber,J.Hoydis and S.ten Brink,Scaling Deep Learning-Based Decoding of Polar 92 Codes via Partitioning,GLOBECOM 2017-2017 IEEE Global Communications Conference,Singapore,2017,pp.1-6.106 F.Liang,C.Shen and F.Wu,An Iterative BP-CNN Archit

306、ecture for Channel Decoding,in IEEE Journal of Selected Topics in Signal Processing,vol.12,no.1,pp.144-159,Feb.2018.107 J.Wang,Y.Ding,S.Bian,Y.Peng,M.Liu,and G.Gui,“UL-CSI datadriven deep learning for predicting DL-CSI in cellular FDD systems,”IEEE Access,vol.7,pp.9610596112,2019.108 C.Chen,C.Teng a

307、nd A.A.Wu,Low-Complexity LSTM-Assisted Bit-Flipping Algorithm For Successive Cancellation List Polar Decoder,ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Barcelona,Spain,2020,pp.1708-1712.109 H.Huang,Y.Song,J.Yang,G.Gui and F.Adachi,Deep-Learning-B

308、ased Millimeter-Wave Massive MIMO for Hybrid Precoding,in IEEE Transactions on Vehicular Technology,vol.68,no.3,pp.3027-3032,March 2019.110 T.Lin and Y.Zhu,“Beamforming design for large-scale antenna arrays using deep learning,”IEEE Wireless Commun.Lett.,vol.9,no.1,pp.103107,Jan.2020.111 A.Alkhateeb

309、,S.P.Alex,P.Varkey,Y.Li,Q.Z.Qu,and D.Tujkovic,“Deep learning coordinated beamforming for highly-mobile millimeter wave systems,”IEEE Access,vol.6,pp.3732837348,Jun.2018.112 M.Elbir,“CNN-based precoder and combiner design in mmWave MIMO systems,”IEEE Commun.Lett.,vol.23,no.7,pp.12401243,Jul.2019.113

310、M.Elbir and K.V.Mishra,“Joint antenna selection and hybrid beamformer design using unquantized and quantized deep learning networks,”arXiv:1905.03107,May 2019.114 M.Elbir and A.K.Papazafeiropoulos,Hybrid Precoding for Multiuser Millimeter Wave Massive MIMO Systems:A Deep Learning Approach,in IEEE Tr

311、ansactions on Vehicular Technology,vol.69,no.1,pp.552-563,Jan.2020.115 X.Li and A.Alkhateeb,Deep Learning for Direct Hybrid Precoding in Millimeter Wave Massive MIMO Systems,2019 53rd Asilomar Conference on Signals,Systems,and Computers,Pacific Grove,CA,USA,2019,pp.800-805.116 Chen,Wei,et al.Solving

312、 Sparse Linear Inverse Problems in Communication Systems:A Deep Learning Approach With Adaptive Depth.IEEE Journal on Selected Areas in Communications,2021.117 X.Gao,L.Dai,Y.Zhang,T.Xie,X.Dai and Z.Wang,Fast Channel Tracking for Terahertz Beamspace Massive MIMO Systems,in IEEE Transactions on Vehicu

313、lar Technology,vol.66,no.7,pp.5689-5696,July 2017.118 A.Alkhateeb,S.Alex,P.Varkey,Y.Li,Q.Qu,and D.Tujkovic,“Deep learning coordinated beamforming for highly-mobile millimeter wave systems,”IEEE Access,vol.6,pp.37 32837 348,2018.119 V.Va,J.Choi,T.Shimizu,G.Bansal,and R.W.Heath,“Inverse multipath fing

314、erprinting for millimeter wave V2I beam alignment,”IEEE Trans.Veh.Technol.,vol.67,no.5,pp.40424058,May 2018.120 J.C.Aviles and A.Kouki,“Position-aided mm-wave beam training under nlos conditions,”IEEE Access,vol.4,pp.87038714,2016.121 J.Zhang,Y.Huang,Y.Zhou,and X.You,“Beam Alignment and Tracking for

315、 Millimeter Wave Communications via Bandit Learning,”IEEE Transactions on Communications,Apr.2020.122 G.Gui,H.Huang,Y.Song and H.Sari,Deep Learning for an Effective Nonorthogonal Multiple Access Scheme,in IEEE Transactions on Vehicular Technology,vol.67,no.9,pp.8440-8450,Sept.2018,doi:10.1109/TVT.20

316、18.2848294.123 Z.Zhang,Y.Li,C.Huang,Q.Guo,C.Yuen and Y.L.Guan,DNN-Aided Block Sparse Bayesian Learning for User Activity Detection and Channel Estimation in Grant-Free Non-Orthogonal Random Access,in IEEE Transactions on Vehicular Technology,vol.68,no.12,pp.12000-12012,Dec.2019,doi:10.1109/TVT.2019.

317、2947214.124 W.Kim,Y.Ahn and B.Shim,Deep Neural Network-Based Active User Detection for Grant-Free NOMA Systems,in IEEE Transactions on Communications,vol.68,no.4,pp.2143-2155,April 2020,doi:10.1109/TCOMM.2020.2969184.125 W.Kim,G.Lim,Y.Ahn and B.Shim,Active User Detection of Machine-Type Communicatio

318、ns via Dimension Spreading Neural Network,ICC 2019-2019 IEEE International Conference on Communications(ICC),Shanghai,China,2019,pp.1-6,doi:10.1109/ICC.2019.8761407.126 G.I.Kechriotis and E.S.Manolakos,Hopfield neural network implementation of the optimal CDMA multiuser detector,in IEEE Transactions

319、 on Neural Networks,vol.7,no.1,pp.131-141,Jan.1996,doi:10.1109/72.478397.127 N.Samuel,T.Diskin and A.Wiesel,Deep MIMO detection,2017 IEEE 18th International Workshop on Signal Processing Advances in Wireless Communications(SPAWC),Sapporo,2017,pp.1-5,doi:10.1109/SPAWC.2017.8227772.128 N.Samuel,T.Disk

320、in and A.Wiesel,Learning to Detect,in IEEE Transactions on Signal Processing,vol.93 67,no.10,pp.2554-2564,15 May15,2019,doi:10.1109/TSP.2019.2899805.129 Tan,Xiaosi,et al.Improving massive MIMO belief propagation detector with deep neural network.arXiv preprint arXiv:1804.01002(2018).130 He H,Wen C K

321、,Jin S,et al.A model-driven deep learning network for MIMO detectionC/2018 IEEE Global Conference on Signal and Information Processing(GlobalSIP).IEEE,2018:584-588.131 Bai Y,Ai B,Chen W.Deep learning based fast multiuser detection for massive machine-type communicationC/2019 IEEE 90th Vehicular Tech

322、nology Conference(VTC2019-Fall).IEEE,2019:1-5.132 Khani,Mehrdad,et al.Adaptive neural signal detection for massive MIMO.IEEE Transactions on Wireless Communications(2020).133 Zhang C.Deep Learning Based Multi-user Interference Cancellation TechnologyJ.Science Discovery,2019,7(6).134 Q.Zhang,M.Lin,L.

323、T.Yang,Z.Chen and P.Li,Energy-Efficient Scheduling for Real-Time Systems Based on Deep Q-Learning Model,in IEEE Transactions on Sustainable Computing,vol.4,no.1,pp.132-141,1 Jan.-March 2019,doi:10.1109/TSUSC.2017.2743704.135 Atallah,Ribal et al.“Deep reinforcement learning-based scheduling for roads

324、ide communication networks.”2017 15th International Symposium on Modeling and Optimization in Mobile,Ad Hoc,and Wireless Networks(WiOpt)(2017):1-8.136 Haoran Sun,Xiangyi Chen,Qingjiang Shi,Mingyi Hong,Xiao Fu,and Nikos D Sidiropoulos.Learning to optimize:Training deep neural networks for wireless re

325、source management.In Proc.18th IEEE International Workshop on Signal Processing Advances in Wireless Communications(SPAWC),pages 16,2017.137 Zhiyuan Xu,Yanzhi Wang,Jian Tang,Jing Wang,and Mustafa Cenk Gursoy.A deep reinforcement learning based framework for power efficient resource allocation in clo

326、ud RANs.In Proc.2017 IEEE International Conference on Communications(ICC),pages 16.138 C.Pandana and K.J.R.Liu,Near-optimal reinforcement learning framework for energy-aware sensor communications,in IEEE Journal on Selected Areas in Communications,vol.23,no.4,pp.788-797,April 2005,doi:10.1109/JSAC.2

327、005.843547.139 G.Naddafzadeh-Shirazi,P.Kong and C.Tham,Distributed Reinforcement Learning Frameworks for Cooperative Retransmission in Wireless Networks,in IEEE Transactions on Vehicular Technology,vol.59,no.8,pp.4157-4162,Oct.2010,doi:10.1109/TVT.2010.2059055.140 N.Mastronarde and M.van der Schaar,

328、Fast Reinforcement Learning for Energy-Efficient Wireless Communication,in IEEE Transactions on Signal Processing,vol.59,no.12,pp.6262-6266,Dec.2011,doi:10.1109/TSP.2011.2165211.141 L.Liang,H.Ye and G.Y.Li,Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning,in IEEE Jou

329、rnal on Selected Areas in Communications,vol.37,no.10,pp.2282-2292,Oct.2019,doi:10.1109/JSAC.2019.2933962.142 S.Maghsudi and S.Staczak,Hybrid CentralizedDistributed Resource Allocation for Device-to-Device Communication Underlaying Cellular Networks,in IEEE Transactions on Vehicular Technology,vol.6

330、5,no.4,pp.2481-2495,April 2016,doi:10.1109/TVT.2015.2423691.143 Y.Wei,F.R.Yu,M.Song and Z.Han,User Scheduling and Resource Allocation in HetNets With Hybrid Energy Supply:An Actor-Critic Reinforcement Learning Approach,in IEEE Transactions on Wireless Communications,vol.17,no.1,pp.680-692,Jan.2018.1

331、44 L.Xiao,Y.Li,C.Dai,H.Dai and H.V.Poor,Reinforcement Learning-Based NOMA Power Allocation in the Presence of Smart Jamming,in IEEE Transactions on Vehicular Technology,vol.67,no.4,pp.3377-3389,April 2018.145 W.Cui,K.Shen and W.Yu,Spatial Deep Learning for Wireless Scheduling,2018 IEEE Global Commun

332、ications Conference(GLOBECOM),Abu Dhabi,United Arab Emirates,2018,pp.1-6,doi:10.1109/GLOCOM.2018.8647453.146 C.Fan,B.Li,C.Zhao,W.Guo and Y.Liang,Learning-Based Spectrum Sharing and Spatial Reuse in mm-Wave Ultradense Networks,in IEEE Transactions on Vehicular Technology,vol.67,no.6,pp.4954-4968,June

333、 2018.147 M.Chen,W.Saad and C.Yin,Echo State Networks for Self-Organizing Resource Allocation in LTE-U With UplinkDownlink Decoupling,in IEEE Transactions on Wireless Communications,vol.16,no.1,pp.3-16,Jan.2017.148 S.Wang,H.Liu,P.H.Gomes and B.Krishnamachari,Deep Reinforcement Learning for Dynamic Multichannel Access in Wireless Networks,in IEEE Transactions on Cognitive Communications and Network