《IMT-2030(6G)推进组:2023语义通信技术研究报告(102页).pdf》由会员分享,可在线阅读,更多相关《IMT-2030(6G)推进组:2023语义通信技术研究报告(102页).pdf(102页珍藏版)》请在三个皮匠报告上搜索。
1、北京稻壳科技有限公司Beijing Rice Hull Technology Co.,Ltd.地址:北京市朝阳区九住路 188 号IMT-2030(6G)推进组IMT-2030(6G)Promotion Group2023 年年 12 月月版权声明版权声明 Copyright Notification未经书面许可未经书面许可 禁止打印、复制及通过任何媒体传播禁止打印、复制及通过任何媒体传播2023 IMT-2030(6G)推进组版权所有2IMT-2030(6G)推进组IMT-2030(6G)Promotion Group目录图目录.5表目录.7第一章 引言.8第二章 语义通信适用场景与技术需求
2、.102.1 场景一:全息视频通话.102.2 场景二:自动驾驶.112.3 场景三:智能医疗.122.4 场景四:卫星通信.122.5 场景五:工业互联网.13第三章 语义通信网络架构.153.1 语义通信的系统框架与性能极限.153.1.1 引言.153.1.2 研究进展.163.1.3 结论.203.2 基于语义转换的通信系统.203.2.1 引言.203.2.2 研究进展.213.2.3 结论.22第四章 语义通信理论.244.1 语义感知的联合信源信道编码及其性能分析.244.1.1 引言.244.1.2 研究进展.244.1.3 结论.264.2 面向任务的信号量化理论.264.2
3、.1 引言.264.2.2 研究进展.274.2.3 结论.284.3 基于图结构的语义表征模型与压缩理论研究.294.3.1 引言.294.3.2 研究进展.294.3.3 结论.30第五章 联合信源信道编码技术.315.1 弱耦合下的信源信道联合编码技术.315.1.1 引言.315.1.2 研究进展.325.1.3 结论.345.2 面向深度联合信源信道编码的信道自适应设计.345.2.1 引言.345.2.2 研究进展.353IMT-2030(6G)推进组IMT-2030(6G)Promotion Group5.2.3 结论.375.3 面向 CSI反馈的深度联合信源信道编码设计.37
4、5.3.1 引言.375.3.2 研究进展.375.3.3 结论.395.4 面向多模态数据传输的目标语义通信技术.395.4.1 引言.395.4.2 研究进展.405.4.3 结论.415.5 多级语义信息辅助下的图像无线传输系统.425.5.1 引言.425.5.2 研究进展.425.5.3 结论.445.6 用于多任务图像传输的语义通信系统.445.6.1 引言.445.6.2 研究进展.445.6.3 结论.455.7 面向语音的高效语义通信系统.465.7.1 引言.465.7.2 研究进展.465.7.3 结论.485.8 基于 GAN 逆方法的高效图像隐私传输语义通信.485.
5、8.1 引言.485.8.2 研究进展.485.8.3 结论.505.9 面向点云分类任务的预训练鲁棒语义通信系统.505.9.1 引言.505.9.2 研究进展.515.9.3 结论.525.10 非线性变换信源信道联合编码.535.10.1 引言.535.10.2 研究进展.545.10.3 结论.605.11 生成式的联合信源信道编码模型.605.12 波束质量上报.61第六章 语义通信的物理层技术.636.1 面向语义通信的信道表征学习与自适应调制.636.1.1 引言.636.1.2 研究进展.636.1.3 结论.656.2 联合语义编码与数字调制.656.2.1 引言.654IM
6、T-2030(6G)推进组IMT-2030(6G)Promotion Group6.2.2 研究进展.666.2.3 结论.686.3 基于卡尔曼滤波的端到端空口设计.686.3.1 引言.686.3.2 研究进展.706.3.3 结论.73第七章 语义通信的链路层技术.747.1 面向语义通信的混合自动重传请求和语义相似度检测.747.1.1 引言.747.1.2 研究进展.747.1.3 结论.767.2 动态数据环境下的语义通信系统.777.2.1 引言.777.2.2 研究进展.777.2.3 结论.797.3 针对联合信源信道编码系统容量优化的资源分配算法.797.3.1 引言.79
7、7.3.2 研究进展.807.3.3 结论.827.4 深度图像语义传输系统的自适应速率控制.827.4.1 引言.827.4.2 研究进展.837.4.3 结论.84第八章 语义通信的安全机制.858.1 具备隐私保护功能的加密语义通信系统.858.1.1 引言.858.1.2 研究进展.858.1.3 结论.878.2 基于数据混淆的语义信息安全传输机制.878.2.1 引言.878.2.2 研究进展.888.2.3 结论.89第九章 总结.90参考文献.93致谢.98附录:缩略词表.995IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图目录图 3-1
8、 语义通信的通用系统模型.16图 3-2 柯尔莫哥洛夫复杂度示意图.18图 3-3 不同英文语料库的语义压缩率的编码结果.19图 3-4 经典编码传输和语义编码传输的典型序列对比.19图 3-5 基于联合训练的语义通信系统.21图 3-6 基于语义转换的语义通信系统.22图 4-1 语义感知的联合信源信道编码模型22.25图 4-2 语义感知的联合信源信道编码错误概率的上下界刻画.26图 4-3 面向任务的量化系统设计框架.28图 4-4(a)原始图像;(b)基于图结构的语义统一表征.30图 5-1 经典通信系统架构。.33图 5-2ADJSCC 网络结构.35图 5-3AF 模块结构.36图
9、 5-4 带宽利用率为 1/12 时 ADJSCC与 BDJSCC性能.36图 5-5ADJSCC-CSI 框架.38图 5-6=32 时 ADJSCC-CSINet+与基于 SSCC 的 CSINet+性能对比.39图 5-7 面向物联网边缘端的多模态目标语义通信框架.40图 5-8 面向人体动作识别的视频联合信源信道编码.40图 5-9 面向加速度数据和视频的多模态传输控制机制.41图 5-10 图像语义通信系统的整体架构.43图 5-11(a)编码器模块、解码器模块(b)图像重建模块.43图 5-12 通道注意力机制.43图 5-13 系统的总体架构.44图 5-14 注意力模块的架构.
10、45图 5-15 fine 模块和 dual features 模块.45图 5-16 基于深度学习的语音语义通信结构.46图 5-17 错误率和句子相似度对比图.47图 5-18 额外语音信息重建结果.48图 5-19 基于 GAN逆方法的高效图像隐私传输语义通信结构.49图 5-20 客观评价指标对比图.50图 5-21 主管评价指标对比图.50图 5-22 隐私保护效果图.50图 5-24 不同信道条件下的点云分类准确率图.52图 5-25 不同压缩效率下的点云分类准确率图.52图 5-27 非线性变换联合信源信道编码流程及对应的概率建模.55图 5-28 传输图像带宽分配结果.57图
11、5-29 PSNR 与 AWGN信道不同 SNR 的关系.58图 5-30 MS-SSIM 与 CBR 和 SNR 的关系.596IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图 5-31 SNR=10dB 的 AWGN信道上 LPIPS 与 CBR 的关系.59图 5-32 Generative JSCC模型.60图 5-33 图像语义通信的实际部署.61图 6-1 自适应调制与信道信息指导的语义图像传输系统结构.64图 6-2 基于语义分割的图片传输系统性能比较.64图 6-3 学习到的星座点与相似度性能比较.65图 6-4 联合编码调制系统框图.66
12、图 6-5 不同 SNR和调制方式下的系统性能.67图 6-6 端到端智能通信系统66.69图 6-7 卡尔曼滤波端到端智能空口.70图 6-8 RBF 下 10000迭代的误码率.73图 7-1 SCHARQ结构和单次传输的编解码和校验过程.75图 7-2 编码器和解码器的具体结构.75图 7-3 SCHARQ与其他方案的性能对比.76图 7-4 基于数据自适应网络的语义通信系统.78图 7-5 数据自适应网络架构.78图 7-6 数据自适应性能展示.79图 7-7 数据自适应转化的可视化效果.79图 7-8 语义通信网络示意图.80图 7-9 系统支持用户数随功率变化图.82图 7-10
13、深度图像语义传输系统自适应速率控制方案框图.83图 8-1 加密语义通信系统的结构.85图 8-2 加密器和解密器的结构.86图 8-3 对抗训练方式下的损失函数,和.87图 8-4 非对抗训练方式下的损失函数,和.87图 8-5 语义信息随机混淆方案.89图 8-6 基于数据混淆的语义信息安全传输性能验证.897IMT-2030(6G)推进组IMT-2030(6G)Promotion Group表目录表 3-2 语义信息的度量指标体系.17表 9-1 主要贡献单位.988IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第一章 引言自从 1948 年香农奠基
14、信息论以来,现代通信技术,特别是移动通信技术的发展已经逐步逼近理论极限,例如信源编码技术已经逼近信源熵率失真函数,而信道编码技如 LDPC 码、极化码等也已逼近信道容量。近来,各种新的互联网应用不断出现,例如虚拟现实、自动运输、消费机器人、环境监测和远程健康。这些应用程序的互连将产生惊人的字节数量的数据。此外,这些应用程序需要在有限的频谱资源上支持大规模连接,但需要较低的延迟,这对传统的信源信道编码提出了严峻挑战。建立在概率信息基础上的通信系统,迫切需要技术突破与变革,才能应对未来 6G 移动通信的发展需求。通信真正的目的是通过通信双方交互使接收方理解发送方的信息内容,即“达意”通信。香农早已
15、定义信息所表示的内容为“语义”。Weaver 进一步研究通信的深层含义,并提出了三个层次的通信:第一层次为技术问题,它主要解决“通信符号如何准确传输”的问题;第二层次为语义问题,它主要解决“传输的符号如何精准传达含义”的问题;第三层次为效用问题,它主要解决“收到的含义如何以期望的方式有效影响行为”的问题.自香农建立信息论以来的七十多年,学者们就如何逼近香农限做出了大量卓越贡献,这些工作主要集中在第一个层次.近几年,随着人工智能、自然语言处理等相关支撑技术的快速发展,通信设备的智能化水平和对外界的认知能力不断增强,为深入开展第二层次的语义通信问题研究提供了可能,语义通信也逐渐成为通信领域的一大研
16、究趋势1。与传统通信相比,语义通信可以通过提取数据的含义,过滤掉无用、无关和非本质的信息,从而在保留数据语义的同时进一步压缩数据,进而减少传输的信息量,降低了对信道带宽的要求2。此外,语义通信还有希望对恶劣的信道环境,即低信噪比区域具有鲁棒性,这非常适合要求高可靠性的应用。面向语义的通信系统已被公认为下一代无线通信的一个有前景的方向3。语义通信与传统通信的最大区别在于语义通信有存在于发送端和接收端的共享知识,发送端基于共享知识从信源信息中提取语义信息,接收端基于共享知识根据语义信息进行信息重建,从而减少需要传输的信息量4。在实际的通信系统设计中,编码器和译码器的模型参数就相当于共享知识5。概括
17、而言,语义通信是指通信双方具有“语义共识”前提条件下基于“语义先验”的“语义可达”意义上的通信。这些语义共识通过所谓语义字典、语义知识库等表征刻画,可在通信之前事先建立或者随通信过程逐步动态构建,并不断更新;而语义先验则提供了关于9IMT-2030(6G)推进组IMT-2030(6G)Promotion Group语义信息内涵和通信场景的层次化结构特征和相应的统计关联描述,这也是语义信息得以压缩的根源。语义可达性即语义层面的可靠性和一致性,是语义通信最基本的目标,同时也正因为语义一致性、关联性的约束而为其它底层的通信方式带来特殊的校验和纠错方式,从而降低了对底层通信能力的需求。正因为如此,语义
18、通信具有其适用的场景。语义通信当前面临的基础问题主要包括:如何利用语义知识实现数据压缩和可靠通信?语义编译码如何与现有经典编译码问题构建联系?语义编码是否存在与第一层次通信系统中与香农限相类似的上限值?应该考虑采用什么指标表征语义通信系统的有效性和可靠性?目前一部分工作从语义信息论角度探讨了语义通信压缩编码问题。Carnap6等首先提出了基于逻辑概率的语义信息理论。Bao7等定义了语义通信无损压缩编码过程中诸多概念(例如语义噪声、语义冗余等)和通用语义通信模型,并设计了度量语义信息的方法。Juba8等基于收发两方字符出现先验概率分布可能不一致的前提条件下设计了有损压缩编码方案,并通过信息论证明
19、了模糊性对于压缩的必要性。Guler9等引入第三方,利用博弈论方法从语义相似度角度设计有损压缩编码方案,其目标为最小化端对端平均语义错误。另一些工作从具体语义编译码模型设计出发,主要采用深度学习方法、自动编译码结构实现文本、图片等语义通信系统。Xie 等人10提出基于深度学习的文本传输语义通信系统DeepSC 和适用于物联网的 Lite 分布式语义通信系统 L-DeepSC 提高系统容量和减少语义错误。Bourtsoulatze 等人11提出基于深度学习的图片传输语义信源信道联合编译码设计。Weng 等人12在 DeepSC 的基础上提出语音传输语义通信系统并证明其在低信噪比下具有良好的传输性
20、能。Shi 等人13提出一个面向语义保真度的通信框架并设计了一个面向语义保真度的音频传输实例。在 IMT-2030(6G)推进组的统一安排下,无线技术工作组无线 AI 任务组就语义信息理论和语义通信具体实现及其应用开展了深入调研分析,以为下一步开展相关研究提供指导和思路。本报告在对当前国内外的主要研究状况进行调研分析的基础上,结合部分成员单位在语义通信上的一些研究工作,对语义通信的一些应用场景、若干研究方向及其关键技术进行了较为全面地分析和讨论,同时探讨了语义通信的难点、挑战和产业化前景。10IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第二章 语义通信适
21、用场景与技术需求作为未来通信技术的潜在发展方向,语义通信的主要技术特征包括:信息传递与信息理解一体化、实时语义保真的通信质量、支撑强智能体协同通信等。语义通信以节点智能为基础,赋予节点类人感知能力,实现达意传输,满足人-机-物之间的敏捷交互。6G和人工智能(AI)时代的许多应用,如智能终端、机器人、智能监控,能够理解场景并自动执行指令。因此,面向任务的语义通信的核心是深层次发语义层面的保真度,而不是浅层的比特传输的精度。语义通信框架有可能适用于工业互联网、智能交通、视频会议、在线教育、增强现实(AR)、虚拟现实(VR)等领域的一些特殊应用场景。2.1 场景一:全息视频通话全息通信传输的流媒体对
22、网络带宽的需求将达 Mbit/s 级。摄像头传感器(如微软KinectforWindowsv2)输出的 1080P 图像,每个像素有 4byte 的彩色数据,深度图像的分辨率为 512dpi424dpi,每个像素有 2byte 的深度数据,相当于每帧 70.4MB 的原始数据。并且,随着传感器和视点数量的增加,在更高的分辨率和帧速率下,需要的网络带宽会更高。对于 70 英寸显示屏,全息通信需要约 1Tbit/s 的网络带宽。与 AR/VR 等强交互沉浸式应用的要求相同,为了让用户获得身临其境的感觉,全息通信要求网络必须提供小于 1ms 的端到端时延。语义通信在发送端可以剔除与任务相关性较低的数
23、据,从而在保证服务质量(QoS)的基础上,显著降低所需的通信资源。在全息视频通话的应用场景中,信道必须传输大量的全息视频流数据,同时要确保清晰的画面和极低的延迟以保证用户的体验质量(QoE)。实际上,当网络环境不理想时,视频通话的画面通常会出现模糊,有时甚至卡顿,这极大地影响了用户的使用体验。语义通信可以通过在发送端使用预训练模型对视频数据进行特殊压缩,保留对 QoE 至关重要的特征信息,从而最大限度地减少冗余信息在整体数据中所占比例。由于全息视频通话主要传输的是人脸信息,而人脸特征在计算机视觉领域已经被广泛研究,因此,语义通信在视频通话场景的应用具有坚实的研究基础。通过进一步压缩与 QoE
24、关联度较低的数据,可以有效提高视频通话的 QoS,从而极大地提升用户的视频通话体验。在全息视频通话场景中应用语义通信,最主要的关键技术为自适应的人脸特征提取模型。11IMT-2030(6G)推进组IMT-2030(6G)Promotion Group所谓人脸特征提取,即该模型需要精准保留对 QoE 影响较大的人脸关键数据,同时压缩冗余的部分。所谓自适应,是指该模型需要根据双方用户的网络环境实时调整语义压缩率,以在网络条件允许的范围内,最大程度地提升 QoE。语义通信在全息视频通话场景的应用具有巨大的产业化应用前景。当前主流的即时通讯软件,例如微信、钉钉等,都配备了视频通话功能,而像腾讯会议、钉
25、钉会议这样的在线会议平台也能从这项技术中获益。目前,人们对视频通话的需求普遍增加,语义通信在视频通话中的产业化应用将极大地提升大众用户的 QoE。但是该技术也存在着一些局限性。首先,该技术仅在网络环境不佳时对 QoS 有显著提升,适用场景包括山区、水域、人流密集场所等。其次,当视频通话内容为人脸以外的画面时,其增益较小。2.2 场景二:自动驾驶基于车联网通信技术(V2X,Vehicle to Everything)的车联网(IoV,Internet of Vehicle)是自动驾驶领域的关键基础。但是在实际应用中,这种传统技术需要用户和设施之间进行频繁的数据交换,使计算资源紧缺,此外在自动驾驶
26、的决策过程中要求极高的感知准确性和极低的延迟。为了实现高智能的完全自动驾驶,边缘智能技术被应用在车联网中,边缘智能将AI,通信网络和移动的边缘计算无缝集成在一起15,通过均衡的资源支持和更复杂的模型,可以显著增强整个系统的计算能力和存储容量,促进基于 AI 的处理和决策,在该架构下产生了大规模数据传输的挑战,包括多模态数据传输和融合,多用户协作和连接,以及多任务训练和执行。语义通信由于其在传输效率方面的显著优势,可以解决上述问题。将用户的需求和数据的语义信息集成到数据处理和传输的过程中,只传输面向接收端任务的必要信息,可以提高传输效率和可靠性。同时,通过构建一个通用的、可理解的语义知识库,增强
27、了系统对噪声和干扰的鲁棒性,使其能够连接各种类型的设备,提高了传输的可靠性有望解决由于信息形式不一致而导致的不兼容问题,方便不同类型设备之间的连接。此外,由于其面向任务的性质,自动驾驶的效率也可以提高。语义通信在自动驾驶领域已有很多相关研究,16中提出了支持车辆自组织网络(VANET)动态更新的语义感知空间关键字搜索方案。该方案提取对象的潜在语义特征,并通过使用 LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型找到关键词。建立了加密的 R 树结构来动态更新数据,并设计了一个积极的安全方案来防止隐私泄露。该方法不仅具有较高的搜索准确率和效率,而且保证了隐
28、私性和安全性。准确定位对于自动驾驶来说12IMT-2030(6G)推进组IMT-2030(6G)Promotion Group非常重要,文献17提出了一种基于语义映射的视觉定位方法,建立多传感器定位系统,获取定位信息。通过构建语义局部映射并对其进行编码来推断特征相似性来评估相机位置,然后将视觉定位结果与其他机载传感器集成,实现高精度定位功能。2.3 场景三:智能医疗传统医疗系统效率低下,面临许多挑战。集成了人工智能和物联网技术的智能医疗的出现,通过提高医疗服务的智能化和数字化,给医疗服务带来了革命性的变化。然而,海量异构数据给物联网带来了大量的资源开销和计算负担。因此,智能医疗的迅速发展需要一
29、个更加多功能和强大的智能网络。随着 6G 时代的到来,智能设备的需求、性能的提升、医疗成本的降低都应被考虑在内,语义通信在医疗领域的应用备受关注,语义通信不仅可以改善医疗信息传递的效率,还可以促进医疗决策的准确性和患者护理的个性化。Dridi 等人提出了一种语义医疗物联网平台,为医疗设备互操作、整合海量异构数据、实现数据可视化提供了解决方案18。该平台是一个基于物联网的远程医疗监控平台。作者建立了一个语义互操作框架来标记数据并形成个性化的数据可视化,从而实现智能交互。语义医疗物联网平台平台还定义了新的基于合同的安全策略,以确保患者健康信息的保密性。此外,平台可以提供的服务包括:多类型的功能沟通
30、服务、为患者简化医疗术语表达以及社交媒体技术的有效整合。语义通信技术在医学成像应用中也发挥着重要作用。Huang 等人提出了一种基于深度语义分割特征的辐射组学框架,可准确捕捉病变区域的特征,有效支持医疗诊断19。该框架由深度语义特征提取模块和特征选择模块组成。前者用于提取病变层次的语义特征,后者采用特征相似性自适应算法选择具有代表性的特征。具体而言,从患者图像中选取病变聚集点,重建有效特征来判断病变类别,从而实现准确诊断。Deep-SC 框架是一种结合深度学习和语义通信的方法,该框架利用深度学习驱动的语义通信的力量来进一步提高医疗系统的性能。值得注意的是,语义通信在促进跨不同医疗系统的快速和安
31、全信息共享、无缝数据集成和智能医疗保健方面发挥着关键作用,有效地解决了与安全和隐私相关的问题。2.4 场景四:卫星通信全球通信网络技术的关键研究方向之一是空天地一体化信息网络,旨在通过整合天基卫星通信网络、空基通信网络和地基陆地通信网络,实现全球通信网络的普遍连接。天基卫星13IMT-2030(6G)推进组IMT-2030(6G)Promotion Group通信网络由于其广覆盖、远距离通信等优势,已经成为现代通信方式的重要组成部分。然而,随着移动通信特别是 6G 技术对通信速率和数据量的不断增长,天基卫星通信网络面临通信资源受限、频谱资源利用率低、用户请求时延大以及星际管理复杂等问题。这导致
32、了天基卫星通信网络难以满足不断增长的移动通信需求。解决这些问题的关键在于构建高效的天基通信网络架构,提高资源利用率,实现高效且高质量的通信。这包括实现天基卫星通信网络的资源合理分配与充分利用,减少用户请求时延,降低星际多跳传输,实现按需缓存和分发服务内容,以及协同管理和调配天基中继节点。应用语义通信技术可以辅助解决以上问题,提取卫星通信数据的语义信息和语义标签,将选择使用的每颗卫星用于获取语义内容数据包,并基于语义内容数据包协议通信。谢卓宸等研究者提供了一种感知计算存储一体化的空间智能网络架构20,兼容 IP(Internet Protocol)网络,实现数据传输与内容感知融合、应用与网络跨层
33、协同服务。通过提供具有内容感知能力的空间路由器,在内容存储中检测内容,可以实现网内存储传输,降低传输时延,资源与能源消耗。在语义通信赋能的背景下,卫星通信可达到的关键指标如下:地面用户速率为10100Gbps,卫星用户峰值速率可达 1Gbps,同时地面空口时延为 0.1ms,卫星空口时延大小在 10ms。除了上述所描述的场景,语义通信在数字孪生、物联网、分布式学习等场景均有广阔的应用前景。当前,语义通信的研究仍处于初级阶段,面临着许多挑战,我们提出以下几方面的技术需求。一是语义通信理论的问题,包括基于概率图的语义信息统一表征模型,语义压缩编码极限以及率失真理论。二是联合信源信道编码技术,包括语
34、义驱动的图片,音频,视频等多模态信息的高效语义编码传输机制、信源信道联合编码机制等。三是语义通信的物理层技术的问题,包括面向语义通信的信道表征学习、自适应调制与波形技术,预编码技术,多用户接入技术等。四是语义通信的链路层技术,这部分内容包括面向语义通信的自适应链路控制、资源管理与分配、自适应重传机制设计、语义容错机制等。最后是语义通信的安全机制,包括语义通信的数据安全机制、隐私保护传输机制、语义知识库安全构建与共享机制等。2.5 场景五:工业互联网工业互联网自被提出以来一直备受工业部门的关注。在工业互联网的帮助下,企业可以建立更智慧高效的生产管理模式,降低生产成本,提高资源利用率与生产效率。工
35、业互联网诸多优势的根源是人、机、物的互联互通,主要任务就是传输传感器产生的各种数据,为各14IMT-2030(6G)推进组IMT-2030(6G)Promotion Group机器、算法完成其下游任务提供数据支持。然而,传感器产生的数据量庞大,机器执行下游任务又对数据的可靠性与实时性有着较高的要求,现今的通信技术已经难以支持工业网络完成其任务,需要引进新的通信技术提升性能。语义通信由于其在传输效率和精简网络数据,减轻系统压力方面的显著优势,可以解决上述问题,是改善工业网络性能的理想技术。在工业场景中,下游任务处理的数据类型主要可以分为两类:时间序列数据与图像数据。时间序列数据指的是生产端的各种
36、传感器按时间顺序记录下的数据序列,如温度传感器记录的机器温度变化日志文件。在生产过程中,时间序列数据是持续不断产生的,数据的总量十分庞大,且语义信息密度极低,直接传输和存储这些数据会造成很大的资源浪费。语义通信技术可以帮助我们对这些时间序列数据进行精炼简化,将其转化为语义信息密变较高的表示方式,大幅减少需要传输和存储的数据总量,减轻系统负担,同时提高云端各模型的分析效率。图像类型的数据主要指的是生产线上各种产品的图像,在生产端的高清摄像头拍摄生产线上的产品,并将产品图像传送到云端完成各种下游任务,如产品缺陷检测、智能分拣等。然而,在通信资源有限的工业场景中,传输图像时往往造成云端重建出的图像出
37、现失真。图像的失真会造成下游任务的完成质量变差。语义方法可以帮助避免这种情况。机器完成各种下游任务是基于数据的各种语义特征的,且完成一个下游任务往往只需要获得数据的部分语义特征。通过语义方法,可以在压缩图像时根据下游任务的需求有选择地保留信息。这样即使在云端重建出地图像存在较大失真,将其用于完成下游任务也不会带来过大的性能损失。未来语义通信在工业互联网场景会释放更大潜力。机器对于数据的感知与理解是基于特征的,机器完成下游任务的过程本质上也是对特征的分析处理过程。因此,相比于无损的传输原数据,向机器直接发送数据相关特征是一种更高效的方式,既不会影响下游任务的完成,又方便了机器对信息的利用。而提取
38、和传输特征恰也是语义通信的工作方式。典型业务场景包括远程监测,在火灾等检测场景中,在相应的传感器仅把业务所需求的语义信息上传并忽视无关的信息和数据;故障检测,通过语义感知采样控制数据量,使用语义信源信道联合编码,可传输压缩后的语义信息并优先保障重要语义对象的质量,达到降低网络带宽需求,有效提升能量利用效率的目的。15IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第三章 语义通信网络架构传统的通信系统主要关注基本的信息传递,而语义通信要求系统能够理解更复杂的用户意图、情感和上下文。同时语义通信系统需要能够处理如文本、语音、图像等多模态数据,并从中提取跨模态的
39、语义信息,以实现更全面的交流。这需要新型的架构能够进行更深入的语义理解和推理,以满足用户更高级的交互需求。本章节将介绍工作组在语义通信网络架构方面的研究进展。3.1 语义通信的系统框架与性能极限3.1.1引言1948 年美国科学家香农(C.E.Shannon)发表了经典文献通信的数学理论21,为信息与通信奠定了理论基础。过去 70 年,经典信息论指导下的通信技术已经日臻完善,以哈夫曼编码、算术编码、矢量量化、变换编码为代表信源编码技术已经逼近了信源熵/率失真函数,以低密度奇偶校验码(LDPC Code)、极化码(Polar Code)为代表的先进信道编码技术已经逼近信道容量。但是,经典信息论在
40、研究范畴、研究层次与研究维度方面仍然存在局限。从认识论观点看,信息分为三个层次:语法、语义和语用,语法信息是最简单、最基本的层次。长期以来,经典信息论局限在语法信息传输层次。实际上,在经典信息论21奠基的次年,Shannon 和 Weaver32已经意识到了语义的重要性,指出通信的语义问题以及有效性问题。现有通信系统的工程需求,只考虑了语法层次信息的传输,但这并不意味着人们要永远忽视语义信息。70 多年来,人们一直在推进语义信息论的研究,如用逻辑概率而非经典信息论中的统计概率度量语义信息量,用 Rnyi 熵对语义信息进行度量,等等。但这些工作仍然停留在语义信息的初步探讨,语义信息的定义与度量尚
41、未形成统一观点,语义通信的理论框架与实现方法还有待深入。近些年人工智能的兴起为通信系统处理语义信息提供了技术底座,对语义通信的理论研究又注入了新的活力。北京邮电大学张平院士深入分析语义信息特征,提出语义基(Seb:Semantic Base)模型33,指出语义信息可以用高维空间的特征参量 Seb 进行表征。张平院士提出“智简(Intellicise)”理念34,进一步提出模型驱动的语义通信框架,实现通信系统由传统传输比特演进为传输“模型”,该模型即为信源信道联合语义处理得到的新特征,例如语义基等。秦志金等探讨了深度学习赋能的语义通信理论、框架和系统模型35。16IMT-2030(6G)推进组I
42、MT-2030(6G)Promotion Group3.1.2研究进展本节在现有工作基础上,提出语义通信的通用系统模型、基本概念与术语,建立语义信息的度量指标体系,最后对于语义通信的性能极限进行探讨分析。3.1.2.1 语义通信系统模型本节提出的语义通信系统模型结构如图 3-1 所示,参照 Shannon 与 Weaver 的思想32,分为 Level A 技术级通信与 Level B 语义级通信两个层级,由信源、语义知识库、语义编码器、语法编码器、信道、语法译码器、语义译码器、信宿等八个部分组成。其中,技术级通信包括了信源、语法编码器、信道、语法译码器、信宿等五个模块,这是香农在经典文献21
43、中提出的点到点通信系统模型。语义通信是叠加在经典通信模型上的系统,构成了语义级通信,引入了语义编码器、语义译码器以及语义知识库,并扩展了信道与信宿。图图3-13-1 语义通信的通用系统模型语义通信的通用系统模型主要模块的定义及功能如下:1)语义知识库。语义知识库是语义通信区别于经典通信而引入的重要模块。它从信源或信宿中提取语义背景知识,从信道传播环境中提取语义特征知识,作为先验信息,为语义编译码提供辅助指导。这种背景/特征知识具有多种表示形式,例如知识图谱、语义标签、下游任务相关知识、经过训练/优化的参数模型或非参数模型、信道模型及传播环境特征等。2)语义编码器。语义编码器在语义知识库的辅助下
44、,提取信源消息的语义相关特征以及与传输任务有关的特征,而非概率信息。此外,语义编码器根据信源语义特性和信道特性,指导语法编码器对语义特征进行适当的编码来对抗传输中的干扰和噪声。因此,语义编码器既关注信源的语义特征,也关注信道的语义特征。3)语义译码器。根据信宿的传输需求,语义译码器选择重建信源消息,即面向人类感知,或者执行下游智能任务,即面向机器或其他意识体。17IMT-2030(6G)推进组IMT-2030(6G)Promotion Group与经典通信系统相比,语义通信系统含有语义知识库、语义编码器以及语义译码器等 3个重要模块,这是两者的关键性区别。语义通信可以理解为附着在经典通信之上的
45、高层系统,既依赖但又高于经典通信系统。语义知识库为收发两端提供语义信息处理的指导,发射机和接收机共享知识库使语义通信成为可能。语义知识库不仅“感知”到信源的语义特征,还与具体的传输任务和传输条件有关,这使在“感知”信道状态信息的情况下能够实现非平衡传输,将更多资源分配到更重要的语义特征上。3.1.2.2 语义信息理论多年来,语义信息度量与语义通信极限的研究一直持续进行。学者从多个角度多个层次探讨了语义信息的内涵,富有启发意义,但现有语义通信的理论框架还不够完善与统一。参考图 3-1 的语义通信系统模型,信源集合为U,语义信息集合为S,定义知识库为KTWU,其中,T是信源语义集合,W是信道语义集
46、合。语法信息集合为X,经过物理信道接收到的语法信息序列集合为Y,等价的接收端语义信息集合为S,最终重建的信宿消息集合为V。本节总结了语义信息的度量指标体系,如表 3-1 所示,包括语义熵、语义互信息、语义失真、语义信道容量、语义率失真函数。名称含义表达式语义熵平均语义信息量H S T语义互信息一个对象包含关于另一对象的语义信息量;,I S Y T W语义失真语义通信导致的语义信息损失,sds sE语义信道容量特定语义失真下的最大传输速率ssC语义率失真函数特定语义失真下的最小编码速率函数()ssR D表 3-2 语义信息的度量指标体系3.1.2.3 语义压缩极限分析基于概率模型的香农信息熵并不
47、适合用于量化语义信息量,香农信息熵 衡量消息概率集合中的不确定性,但语义信息不能仅仅用概率行为来刻画,它还存在其他不确定度,如模糊性。复杂的结构性数据(如音频、图像、视频)不能假设为伯努利信源或者稳态遍历信源。语义传输的极限应定义在某个特殊的信源消息集合,而不是反映总体消息集合的平均性能指标。信息计算、操作和传输的范式越来越多地从面向随机变量转变为面向个体对象。信源消息的语义信息量,即语义编码传输需要的最少资源,可以由该消息个体的语义信息量来度量。一般意义上,语义信息可以用通用图灵机建模,而最简表述可以衡量该字符串的语义信息量18IMT-2030(6G)推进组IMT-2030(6G)Promo
48、tion Group下限。柯尔莫哥洛夫复杂度36是算法信息论中的一个关键指标,它建立在通用图灵机的理念上,用于描述计算机程序或算法序列的最短长度,可以刻画单个有限长序列的描述复杂度。图灵证明了一切消息或算法程序都可以在通用图灵机上进行合理计算。一个字符串的柯氏复杂度定义为这个字符串的最短描述长度。图图3-23-2 柯尔莫哥洛夫复杂度示意柯尔莫哥洛夫复杂度示意图图本节提出语义通信是以特定语义知识库为条件的通信,在有限知识库条件下的语义压缩极限,可以用归一化条件复杂度(NCC,normalized conditional complexity)作为柯氏复杂度的近似,用于对语义编码压缩极限的估计 N
49、CC 定义为在有/无知识库的情况下特定数据集各个消息编码的额外所需的复杂度,由联合复杂度和知识库本身的复杂度给出,并用信源消息序列长度归一化,其表示形式为,()NCC|()s SC s TCTl sTSE8.1.1其中,为知识库即信源语义集合,为语义信息集合,为柯尔莫哥洛夫复杂度,为信源消息序列的长度。如需计算单个数据集的归一化复杂度(即知识库由自身建立),则需对不同的数据集划分方式进行枚举并求期望。由此,NCC 可以衡量在特定先验语义知识的情况下对某个信源消息集合进行语义编码/压缩的极限,是语义压缩编码下界的估计。不同文本信源上语义压缩率的评估结果如图 3-3 所示,数据集分别取自小说集合、
50、法律文档等英文文本数据集,结果均折合为平均每单词编码比特数。由图 3-3 可见,语义编码方案的压缩性能介于香农信源熵与 NCC 界之间。NCC 界显示了文本信息有进一步压缩的潜力,但它只是对语义压缩极限的初步探索,未来还需要从多个角度继续深入研究语义编码极限。19IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图3-33-3 不同英文语料库的语义压缩率的编码结果不同英文语料库的语义压缩率的编码结果3.1.2.4 典型序列渐近分析类比经典信息论的典型序列分析方法21,语义信息论也可以采用类似方法进行渐近分析。依据渐近等分割(AEP)特性,当序列长度n足够大时
51、,一个独立同分布观察序列的概率近似等于2nH,H为单符号熵。由此将所有编码序列构成的集合划分成 2 个子集,其中,一个子集是典型集合,其样本为典型序列,样本熵接近于香农熵;另一个子集为非典型集,包含几乎不可能出现的序列。对于任意0,只要序列长度n足够大,典型序列出现的概率满足1log()()nXpH Xn8.1.2图图3-43-4 经典编码传输和语义编码传输的典型序列对比经典编码传输和语义编码传输的典型序列对比经典编码传输和语义编码传输的典型序列对比如图 3-4 所示。对于经典通信系统,每个20IMT-2030(6G)推进组IMT-2030(6G)Promotion Group编码长度为n的码
52、字nX都对应于在信源信号空间长度为m的典型序列mU。经过信道传输后,总的接收序列nY包含约()2nH Y个序列。每个典型序列nX对应接收序列nY构成的一个子集,这个子集中的序列和nX构成了联合典型序列。子集中包含约(|)2nH Y X个等概序列,其中|H Y X为条件熵。为了区分不同的典型序列nX,需要将它们映射到互不相交子集中,因此子集数量不多于()(|)(;)22n H YH Y XnI X Y,这意味着最多能发送(;)2nI X Y个长度为n的序列。对于语义编码系统,每个压缩后的语义编码序列nS和信源序列mU的子集对应,它们构成了联合典型序列。这个子集中的信源序列具有相同的语义含义,经过
53、压缩编码的码字是相同的。从经典信源编码的角度出发,这种合并的过程显然会导致有损的数据压缩。然而,因为语义通信系统中背景知识的存在,这个合并过程在语义层次上是“无损”的,语义信息能够无差错传输,或者完美执行下游任务。基于语义合并操作,语义空间中的典型序列数量将显著少于信号空间中的序列数量,另外,语义编码序列对应的接收序列子集大小也是不等的。3.1.3结论本文对语义通信的理论提出了初步的研究结论,包括语义通信概念及术语,提出了一个通用的语义通信系统模型,基于算法信息论探讨了语义压缩极限,提出了归一化条件复杂度的概念,还从典型序列分析的角度理论分析了语义编码的潜在优势。但在语义通信理论方先仍有较多的
54、研究难点与问题,包括但不限于:语义信息具有复杂的层次关系,无法用简单的统计模型表征,需要引入全新的分析方法。在多种模态信息同时存在的情况下,是否有统一的定量分析语义信息的方法。在语义压缩与传输极限方面,虽然有初步的探索,但还没有形成业界公认的理论成果。类比经典信息论,语义信息论也应当在语义无失真压缩、语义信道容量、语义限失真编码、多用户语义通信等方面建立牢固的理论基础,从而指导通信系统的优化设计。3.2 基于语义转换的通信系统3.2.1引言语义通信是这样一种通信模式,目标是接收者对发送消息语义的正确解释,而不是精准重建发送的数据,这通常要求收发端具有公共的语义知识库。通过在发送端对原始数据进行
55、语义提取,传输提取的语义信息,而不是原始的数据,可以显著降低带宽需求。本文将讨论21IMT-2030(6G)推进组IMT-2030(6G)Promotion Group语义通信问题,提出一种基于语义转换的通信系统架构。3.2.2研究进展3.2.2.1 语义信息的表达数据的语义信息可以通过事物及其关系表示,如三元组c11?1?1?c2,表示事物 c1、c2,以及他们之间具有关系 r1。复杂的语义信息可以通过多个三元组表示。语义信息的处理通常借助以深度神经网络(deep neural networks,DNN)为代表的深度学习技术。如图片中的物体分类、检测、描述,自然语言的理解、翻译等。数据的分布
56、式特性和设备的能力差异,导致大量模型的产生,而基于海量数据训练可以得到性能更好、应对多样任务的大模型。基于 DNN 的语义信息处理可以将语义关系嵌入到 DNN 的输入输出向量中,例如,先将单词等嵌入到向量中,处理得到的输出也是向量,单词嵌入的向量之间的距离可以反映单词的语义距离。3.2.2.2 基于联合训练的语义通信系统图图3-53-5 基于联合训练的语义通信系统基于联合训练的语义通信系统基于联合训练的语义通信系统59如图 3-5 所示。发送端通过神经网络从数据中提取语义信息,然后进行信道编码后发送;接收端对信道译码后的信息通过神经网络进行语义处理。收发端的语义提取和语义处理神经网络需要联合训
57、练,联合训练的语义处理模块可以认为具有相同的语义知识库。语义表示即语义提取模块的输出由联合训练得到,不同模式的信源,如图像、文本、语音等,需要分别训练,语义表示可能不同;不同节点训练的神经网络,语义表示也不同,限制了语义通信的实现。22IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图3-63-6 基于语义转换的语义通信系统基于语义转换的语义通信系统如图 3-6 所示,为了更高效地实现语义通信,我们提出在系统中增加语义转换模块。在发送端侧,不同种类的数据经过语义提取后,可能被映射到不同的空间中。通过语义转换模块,将它们统一到公共的语义空间中,再进行下一步的
58、编码(语义编码、信道编码)和传输。接收端经过语义解码得到的信息,再经过语义转换后,进行后续的语义处理,完成语义通信。3.2.3结论基于语义转换的语义通信系统运行过程包括两个阶段:1.语义校验与同步,对发送端的语义提取模型与接收端的语义处理模型进行同步,保证收发端对语义理解的一致性;2.基于语义转换的通信过程,包括语义提取、语义转换、语义编码、信道编码以及它们的逆过程。其中关键的处理语义转换,可以通过公共模型实现。大模型通过超大规模的参数和海量数据训练,可以用于构造全局语义知识,从而构造公共语义空间。将大模型作为公共模型,由通信系统提供给各个节点。各节点根据本地模型和公共模型构造语义转换函数。各
59、节点根据相同的输入,分别送入本地模型和公共模型,得到本地语义向量和公共语义向量,作为语义转换函数的输入和输出,对语义转换函数进行训练。训练完成后,传输时,各节点将提取的语义信息通过语义转换到由公共模型定义的语义空间,然后进行编码后传输。接收时,各节点将接收到的语义向量通过反向语义转换到自己的语义空间,以利用本地模型进行后续的语义处理。24IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第四章 语义通信理论相比于传统传输的语法通信,语义通信通过提取数据的含义,过滤掉无用、无关和非本质的信息,从而在保留数据语义的同时进一步压缩数据,进而减少传输的信息量。在目前的
60、研究中,基于逻辑概率模型的语义信息理论存在着信息表征不完整的问题。其他语义表征方式如自然语言模型存在着表征复杂等问题。基于深度学习的语义通信系统将神经网络的嵌入特征视作语义信息,无法进行显式的理论研究。研究语义信息的定义与度量,建立完善的语义通信的理论框架是技术实现的基石,因而本节将介绍语义信息理论方面的一些研究进展。4.1 语义感知的联合信源信道编码及其性能分析4.1.1引言语义通信首次被提出,可以追溯到 Shannon 与 Weaver 的开创性工作The Mathematicaltheory of communication21。随后语义熵、语义信道容量、语义反馈以及背景知识等概念相继引
61、入,极大推动了语义层传输的理论研究。然而信息论先贤们对语义信息以及语义度量的理解,大多基于逻辑概率测度对语义的刻画,使得这些 20 世纪前沿性的工作难以拓展到文本以外的应用场景中,并导致语义通信经典信息论视角的解读仍是一个开放性问题。随着时间推移,深度学习及其应用(如自然语言处理、语音识别和计算机视觉)的最新进展为多模态语义通信的实现提供了可能,为语音、图片、视频传输开发的一系列语义通信框架在最近引起广泛的关注。然而即使上述的语义通信方案在特定场景中已经取得较好的表现,在6G 网络中的性能迭代与实际部署仍然囿于现有物理层的制约,很难由前述基于逻辑概率的语义理论模型来指导,仍然需要基于统计概率的
62、框架来设计。因此,本小节旨在提出一个基于香农信息论的通用数学模型22,将语义信息建模为与观测信息相关的信源,并基于该模型引入语义感知的联合信源信道编码(JSCC),及其超失真概率的性能分析。4.1.2研究进展如 3-1,信源的语义特征被刻画为不可见的信源服从分布,至信源可观测外部特征的图转移概率为|。从分组编码视角出发,针对长可观测信源序列进行 JSCC编码得到码字,经过信道后得到码字并将其译码为语义恢复?与观测恢复?,与传统编码方案不同之处在于,要求整体框架可以使得语义恢复与观测恢复的失真程度同时在给定阈值与范围内23。这是由于系统多样化下游任务的本征特性决定的。25IMT-2030(6G)
63、推进组IMT-2030(6G)Promotion Group图图4-14-1 语义感知的联合信源信道编码模型语义感知的联合信源信道编码模型2222基于图 4-1 的模型,超失真事件与超失真概率分别定义为:,=:,#3.1.1 =|?,|?#3.1.2通过对超失真概率 的上下界研究,能够反映语义感知的编码方案中,编码速率,失真约束大小以及失真概率之间的权衡。下面是本工作呈现的第一个定理:定理 3.1c.f.3:假定一个可观测的无记忆信源服从分布,条件概率|以及一个转移概率为|的无记忆信道,并且两个失真约束与满足,|,|的情形下,对于最优的,的语义 JSCC 编码,其超失真概率 可表述为:limi
64、nf?1log min?,|+,|#3.1.3liminf?1log min?,|+,|#3.1.4参数如下::,|,|#3.1.5?,|minmin|:,|,(|+(|)#3.1.6,|maxmin|:;|()#3.1.7,|maxmin?:=?|,?+,?+#3.1.8 其中(|)定义为条件 K-L 散度,|是信道|同分布的输出,?之间的 Bhattacharya 距离,并且|代表信道容量且,|,为刻画语义信息的率失真函数:,|,=min?,?|;?,?,s.t.?(,?)and(,?),并且?,?,?=。超失真概率随失真约束的具体刻画如图 4-2 所示。26IMT-2030(6G)推进组
65、IMT-2030(6G)Promotion Group图图4-24-2 语义感知的联合信源信道编码错误概率的上下界刻画语义感知的联合信源信道编码错误概率的上下界刻画在探讨 JSCC 的超失真概率的同时,本小节同样分析了相同设定下的分离信源信道(SSCC)方案性能:假定=1 2,=1 2,其中下标 1,2 分别对应独立的信源与信道编码器24,则存在一组这样的编码器使得其超失真概率表述为:liminf?1log =max min?,|,|3.1.9分析式 3.1.4 与 3.1.9,可知 JSCC 的超失真概率可达界总是好于 SSCC,换言之,对于任意语义感知的 SSCC 方案,总存在 JSCC
66、方案以期获得更低的超失真概率以及更快的收敛速率。4.1.3结论本小节基于经典信息论的视角,针对语义感知的联合信源信道编码性能提出了通用的数学模型,并推导出相应超失真概率与编码速率关系的上下界。同时,本小节分析了同等设定下分离信源信道编码的性能。由结论可知,语义感知的 JSCC 相比于 SSCC 方案拥有更快的超失真概率下降速度与更短的编码块长,从理论上论证了语义通信框架中设计信源信道联合编码的必要性。4.2 面向任务的信号量化理论4.2.1引言随着 5G 网络的广泛部署与人工智能技术的大力发展,配备自主学习、感知、推断、决策等功能的先进设备的植入正在推动通信系统的智能化发展。然而,高度智能化的
67、系统也同时带来了成倍增加的数据与信息,其对于数据传输以及数据处理能力的需求也更加严苛。在有限通信资源下,如何有效地传输关键语义信息以辅助接收端的推断、决策等过程,保证系27IMT-2030(6G)推进组IMT-2030(6G)Promotion Group统性能指标的完成,是目前超 5G 时代面临的一大公开难题25。为了进一步提升通信的效率,近年来兴起的语义通信和面向任务通信通过强调信号中语义特征的传输以及探索传输过程与系统任务之间的关联性,来降低信号失真对于系统性能的干扰。由于信号本身与系统任务的关联从数学上难以被轻易地刻画,有损压缩带来的信号失真对于系统性能的负面影响从数学上也难以被显性地
68、表示,当前面向任务的信号压缩方法以及传输设计主要是通过深度学习方法来实现,但是对于面向任务压缩方法的可解释性及其背后的理论研究仍处于起步阶段。基于与有损压缩相关的理论展开研究,不仅从理论层面可以探明面向任务压缩方法的内在机理,还能从应用层面完善相应神经网络的设计。率失真理论和高分辨率量化理论是研究有损压缩问题中最常用的两种理论工具,分别对应了编码长度无限长和传输速率无限大的两种理想场景。率失真理论描述了理论上压缩方案可以达到的极限性能,然而对于如何设计对应的压缩方案以达到极限性能是一直困扰此类方法的难题。当压缩的目标从还原信号变为优化系统任务对应的性能指标之后,寻求最小化系统性能损失的压缩方案
69、就变得更加棘手。因此,本小节拟利用高分辨率量化理论作为突破口,聚焦于有损压缩中最常用的量化过程,全面开展面向任务量化理论的研究262728。4.2.2研究进展要探索语义通信中面向任务压缩问题背后的理论支撑,关键问题是要探明信号失真对于系统任务的影响。然而,信号压缩误差与系统性能损失之间的映射关系难以通过一个普适的数学公式来显性表达。针对这个难题,本小节从微分学的数学思想中得到启发,利用函数微分表征自变量的细微变化对于函数值的变化程度,将级数展开、渐进分析等数学方法与传统的量化理论相结合,推导出理想情况下信号压缩与系统任务之间的映射关系26。我们假设系统的任务可以被目标函数(;)来准确描述,其中
70、 为参数变量(不可控),为决策变量(可控)。发送端将随机变量量化成(),然后被接收端获取。与传统通信系统不同的是,信息的交互并不是通信的终点,如何利用接收到的信号来提高后续环节的完成度才是真正需要被关注的核心问题。在此框架中,此问题可以转换为如何设计量化过程使得接收端能够基于接收到的压缩信号()做出最准确的决策,从而可以最小化量化噪声给系统任务带来的负面影响(见图 4-3)。28IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图4-34-3 面向任务的量化系统设计框架面向任务的量化系统设计框架在高分辨率情况下,信号所对应的空间被分为很多个极小的胞腔/子空间
71、,因此属于同一个胞腔中的信号可以被近似地认为具有相同的概率密度。在高分辨率情况下,量化设计可以被近似地简化为寻找量化胞腔密度29。把微分学中的数学思想与高分辨率量化理论相结合,理想状况下面向任务的标量量化的最优量化胞腔密度可以表示为:=d d =;1+1d d =;1+1?#3.2.1其中,代表目标函数对于决策变量的非零偏导数的最小阶数,代表接受端基于信号的最优决策,代表信号的概率密度函数。通过此表达式可以发现,当量化的目的不再是还原信号本身而是为了提高系统最终的性能之后,量化胞腔的密度不仅与信号本身的概率分布相关,还与接收端决策对信号偏差的抗干扰程度,以及系统任务对于决策偏差的敏感度也有着密
72、切的联系。对于矢量量化,最优的量化胞腔密度也可以被证明与目标函数对应的 Jacobian 矩阵以及 Hessian 矩阵有紧密联系,基于这两个矩阵也可以推导出给定量化资源下系统性能损失的上界与下界26。4.2.3结论与传统的高分辨率量化理论相对比,当通信的最终目的不局限于信号重构时,最优的量化胞腔密度不再与信号概率密度函数的 1/3 次方成正比,而是与任务相关的加权概率密度函数的 1/3 次方成正比关系。此加权概率密度函数由三部分组成,分别为信号本身的概率密度函数、接收端的最优决策关于信号的一阶导数和目标函数关于最优决策的二次偏导数,从实际意义上来说分别体现了信号分布、信号失真对于系统决策的偏
73、差以及信号失真引起的决策偏差对于系统性能的干扰这三类因素对于压缩问题的影响。该成果对于刻画任务与信号压缩29IMT-2030(6G)推进组IMT-2030(6G)Promotion Group的映射关系起到了重要作用,此证明思想以及加权概率分布的得到也可以为构造任务相关的信息熵以及互信息提供了新思路,为面向任务的率失真理论以及语义信息论的发展做出了铺垫。4.3 基于图结构的语义表征模型与压缩理论研究4.3.1引言经典信息论专注于研究位级别信息的可靠通信问题,以熵的概念量化信息的不确定性21,取得了众多极具启发性与指导性的成果,在 5G 时代成熟商用的通讯手段已经可以逼近经典信息论指出的信道容量
74、上限30。为了进一步提高信道容量限制下的通信能力,在经典信息论中被有意忽略的语义内容激发了人们浓厚的研究兴趣,如何将信息的意义融入传输过程,建立起一套全新的语义通信框架是当前的研究热点。然而,将抽象的语义概念用数学语言表示并给语义信息建立合适的度量是十分困难的。现有的语义表征方式如自然语言模型存在着表征复杂等问题,逻辑概率模型存在着信息表征不完整的问题,同时现有的基于深度学习的语义通信系统将神经网络的嵌入特征视作语义信息,无法进行显式的理论研究。针对上述问题,本节对基于图结构的语义统一标准模型展开研究,利用简明统一且具有数学结构的图语言来描述信号中的语义信息,在语义统一表征模型的基础上,利用概
75、率图模型等数学理论,构建语义概率模型,推导语义熵和语义互信息的一般数学表达式,以度量语义信息量。同时结合面向任务,得到语义失真度量,推导语义编码速率-语义失真关系,得到语义编码理论极限。4.3.2研究进展基于图的语言比逻辑具有显著的优势,因为图结构是一个更通用的数学模型,图语言模型已被广泛用于场景图描述和知识图。图模型是通过多变量间的条件概率来表示语义成分的联合分布的一种方式,其中信号中隐含的对象和状态可以用节点来表示,对象之间的依赖关系可以用有向边表达,以传达对底层语义信息的完整描述。30IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图4-44-4(a
76、)(a)原始图像;原始图像;(b)(b)基于图结构的语义统一表征基于图结构的语义统一表征我们考虑一个有向图,其中隐含的对象、属性以及对应的关系被认为是由不同的图节点表示的随机变量,同时具有因果关系的节点通过边E连接。贝叶斯网络结构可以由专家知识构造,每个节点的条件概率矩阵(CPM)可以通过基于图像数据集的频率计数方法获得。在本文中,我们假设语义源由一组相关的语义元素组成,其联合概率分布由贝叶斯网络建模,基于图结构的语义统一表征实例如图 4-4 所示。由此我们可以利用图结构的统计信息得 到 语 义 的 熵 1,2,以 及 语 义 互 信 息 1,2,,?1,?2,.,?=1,2,1,2,|?1,
77、?2,.,?。接着,我们可以得到语义无损压缩的速率极限 1,2,。与此同时,我们可以利用网络的条件独立性对多变量语义信源进行分离编码,降低编码开销31。1,2,=1?1,1=1?#3.3.1同理,在得到基于图的语义互信息表示后,我们可以进一步研究失真约束下的语义有损压缩问题,定义一个合适的率失真函序列1,2,用以度量近似的图节点1,2,与图节点?1,?2,.,?之间的失真,限失真的语义压缩极限可以被表示为1,2,1,2,=min?1,?2,?1,2,?1,11?2,22?,?1,2,;?1,?2,.,?#3.3.24.3.3结论本节提出将多模态信号(包括文本、语音、图像和视频等模态)中隐含的语
78、义信息通过图结构进行统一表征,语义信息中的对象、属性以及对应的关系被认为是由不同的图节点表示的随机变量,同时具有因果关系的节点通过边连接,完成语义信息的完整描述。基于统一语义描述模型,利用图结构表征的联合概率信息对语义不确定性即语义信息量进行度量,并发展语义熵和语义互信息概念,推导语义编码速率-语义失真关系,给出语义源的有损压缩的极限。为下一步研究物理信道噪声对语义信道的干扰机制,推导语义传输极限奠定基础。31IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第五章 联合信源信道编码技术传统编码方案使用信源编码器对信源信息编码去除冗余得到比特流,再对比特流进行
79、信道编码,增加相应的校验位来抵抗信道噪声,再经过调制后传入信道,经过解调后,由信道译码器,信源译码器进行信息的恢复重建。与信源信道分离编码的方案相比,深度联合信源信道编码(DJSCC)不依赖明确的编码压缩或纠错,只有一个编码器,不将像素值转换为比特流,而是直接将图像的像素值映射到噪声信道中进行传输,很大程度上避免了“悬崖效应”,同时提高了图像传输的准确性。本章节将介绍工作组在信源信道联合编码方面的一些研究进展。5.1 弱耦合下的信源信道联合编码技术5.1.1引言除了按照传输数据的模态对语义通信系统进行分类外,还可以根据语义通信系统具体的人工神经网络(Artificial Neural Netw
80、ork,ANN)实现划分为两类:一类为采用一个统一的ANN 模块将信源编码与信道编码一起实现,另一类为采用两个分离的 ANN 模块,分别实现信源编码与信道编码。但是无论采用哪种实现方式,其训练总需要采用端到端联合训练。这样的训练方式本质上将网络中的参数进行了统一调整,即便是分离的 ANN 模块,在联合训练过程中,负责信源编码的 ANN 模块会与负责信道编码的 ANN 模块相互影响,因此本质上也属于联合编码。对于传统的端到端联合训练方式,可以认为是强耦合的信源信道联合编码技术,它将信源编码、信道编码、信道、信道译码、信源译码视为一体,进行训练与测试。但是,为了更好地与现有的通信框架相融合,在同一
81、协议层或者不同协议层中融入语义通信技术,需要研究针对分离模块的分开训练方式。相对于必须采用端到端联合训练的强耦合信源信道联合编码技术,弱耦合可以实现分离训练,从而不需要跨协议的梯度传播,因此更容易嵌入当前的通信系统网络框架,实现产品的落地和应用。但是,为了达到与端到端联合训练相同的通信效果,弱耦合下不同语义通信模块之间需要根据较少交互信息,对各模块相关参数进行微调(Fine-Tuning)。32IMT-2030(6G)推进组IMT-2030(6G)Promotion Group5.1.2研究进展经过研究,语义通信本质上是一种允许数据失真,但是却可以通过建立先验信息(知识库)使得语义保真的通信方
82、式37,语义通信更关注人,或者具有“智能”的机器对信息的理解与感受,而并不聚焦在数据是否无失真传输。因此,语义通信有其特定的应用场景,对于一些必须确保数据毫无差错的传输场景,需要将语义通信切换回经典通信模块,以确保达到通信目的。为此,或许可以开发保真度预测机制,专门针对语义通信模块与经典通信模块进行选择。在实际通信实现过程中,采用的往往是失真信源,而在语义通信中,由于更加关注通信的目的或信宿的感受,因此信源也一般需要经历率失真过程。在失真情况下,联合信源信道编码技术能够利用信源与信道之间的相关性,获得进一步增益,此时分离可能不再是最优传输方案。特别的,针对基于 ANN 的语义通信系统,训练与测
83、试过程可以看作是经过一个编码器函数、一个通信通道、一个译码器函数,最后产生一个输出。因此弱耦合下的信源信道联合编码技术包括两个方面,一方面为针对信源端编码器训练与针对信宿端译码器训练的弱耦合,另一方面为针对实现信源编码 ANN 模块与实现信道编码 ANN 模块训练的弱耦合。为方便描述,我们将弱耦合情况下的编码器描述为信源语义编码器与信道语义编码器,将译码器描述为信道语义译码器与信宿语义译码器。在语义通信系统编译码器参数训练过程中,有两个关键特征:首先,梯度通过信道反向流动,这意味着语义编码模块同时完成了信源编码与信道编码,并且考虑了信道状态。在迭代训练优化过程中,使得编码过程可以利用信源与信道
84、的相关性获得增益;其次,语义编码模块与语义译码模块也进行了联合训练,这说明语义编码模块参数与语义译码模块参数之间也是相关的,它们依靠相同的知识库进行编译码,而知识库则是同时考虑了信源和信道的联合语义表示。但是,如图 5-1 所示,经典通信系统架构为分离形式,在信源编码、信道编码、信道之间存在着各种协议层,如果采用强耦合方式,需要新的设计以确保梯度能够从信宿端译码器回传到信源端编码器,一方面,面对各种复杂协议,这种设计势必会增加不必要的复杂度,另一方面,添加了这样设计的系统其增益很有可能会大打折扣。因此,为了能够在经典通信框架中融入语义通信模块,需要研究分离训练的方式。更进一步的,由于语义通信考
85、虑的是信源与信道的联合语义表示,如果各模块之间没有信息交互,那么语义通信的应用潜力可能无法达到。因此,需要采用弱耦合形式下的信源信道联合编码技术。33IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图5-15-1 经典通信系统架构。经典通信系统架构。这里,我们将弱耦合下的信源信道联合编码技术分为三个方向进行研究,主要为:信道端添加信道语义编码器与信道语义译码器。信道语义编码器弱耦合体现为能够接收上层协议编码作为输入,功能为根据信道语义进行进一步压缩,此外可以对信源编码进行反馈,使其能够按照信道语义调整压缩策略。信道语义译码器弱耦合体现为可以独立训练,但是同
86、样需要来自信道语义编码器输出的弱耦合信息进行微调,以便于实现不同信道参数情况下的语义级别解码。该研究目的在于利用语义通信模块增强经典通信模块的性能。信源端添加信源语义编码器,信宿端添加信宿语义译码器。信源语义编码器弱耦合体现为能够接收经典信源编码作为输入,将其再次进行语义级别压缩。此外,能够输出一部分弱耦合信息给经典信道编译码,作为信道编译码根据语义调整的依据。信宿语义译码器弱耦合体现为可以独立训练,但是同样需要来自信源语义编码器输出的弱耦合信息进行微调,以便于实现语义级别解码37。该研究目的在于利用语义通信模块增强经典通信模块的性能。信源端添加信源语义编码器,信宿端添加信宿语义译码器,同时,
87、信道端也添加信道语义编码器与信道语义译码器。四者均可以单独训练,但是在通信过程中可以通过弱耦合方式,传递少量信息进行参数微调,从而最终实现信源与信道语义的联合与适配。该研究目的在于充分发掘语义通信潜力,完成语义通信与经典通信的完全融合。为了完成上述工作,未来还有诸多理论问题与技术问题需要进一步讨论与研究,主要包括如下三个方面问题:语义保真与数据保真之间的融合:该方向包含了衡量语义通信的性能指标定义,语义保真指标和数据保真指标之间的转换和过度以及不同的应用场景下保真度指标的选取等;语义通信模块与经典通信模块融合问题:该方向上需要研究经典通信模块的输出是否还具有一定的语义能够被进一步处理,加密交织
88、等协议处理方式对语义的影响以及不同模34IMT-2030(6G)推进组IMT-2030(6G)Promotion Group态的数据处理方式能否统一。语义通信模块的弱耦合优化:在当前研究的基础上,我们后续需要进一步研究弱耦合方式下不同模块之间信息交互内容,频次等对于性能的影响,以及与强耦合性能的差异(包括理论差异和不同场景下的实际差异)。此外,就弱耦合方式下不同语义通信模块添加所引入的实现复杂度进行系统分析。5.1.3结论为了将语义通信系统嵌入经典通信架构中,需要考虑将语义通信系统中的编码器与译码器分开训练,将信源语义编码器与信道语义编码器分开训练。但是为了获得语义通信的增益,这些模块之间很可
89、能需要传递一些弱耦合信息,其数据量要远小于传输的数据,但是这些信息可以在测试阶段起到辅助不同模块参数微调的作用,最终实现语义通信与经典通信框架的融合,推动语义通信在实际通信系统部署中的应用和落地。5.2 面向深度联合信源信道编码的信道自适应设计5.2.1引言目前,基于深度学习的联合信源信道编码(Deep Joint Source-Channel Coding)已获得广泛的研究。得益于神经网络强大的非线性表达能力以及端到端的训练方法,DJSCC 能够克服在分离信源信道编码中广泛存在的“悬崖效应”,在信道条件恶化的情况下实现通信系统性能的缓慢下降。尽管 DJSCC 在一定程度上能够实现通信系统性能
90、的平缓变化,为了保证最优的系统性能,大多数现有 DJSCC 方法都设定在特定的信噪比(SNR)下运行(测试信噪比与训练信噪比完全一致)。考虑到实际中多变的信道条件,通常需要训练一系列针对特定 SNR 的模型并在实际使用时选择与当前 SNR 匹配的模型执行相应的无线传输任务。这会导致如下缺陷:(1)在训练阶段,增加了成倍的计算资源以训练多个模型;(2)增加了实际部署时设备侧的存储负载,并产生模型加载时通信延迟及内存占用过大等问题。因此,本小节38提出一种基于注意力机制的 DJSCC 方法(Attention Based Deep JointSource-Channel Coding,ADJSCC
91、),以自适应多变的信道条件,旨在降低训练资源以及设备存储消耗。35IMT-2030(6G)推进组IMT-2030(6G)Promotion Group5.2.2研究进展所提出的 ADJSCC 网络为自编码器结构,如图 5-2 所示。ADJSCC 包含编码器()以及解码器(),信源信号 将被编码器()映射为信道输入符号 ,接收端在收到噪声信道的输出符号?后,使用解码器()恢复重构信源信号?。其中编码器 和解码器()均由交替连接的特征学习(Feature Learning,FL)模块以及轻量的注意力特征(Attention Feature,AF)模块堆叠而成。AF 模块为不同 SNR 下的特征组=
92、1,2,生成缩放序列=1,2,以对特征实现通道级重校准,从而帮助网络根据信道状态动态地缩放不同的特征。图图5-25-2 ADJSCCADJSCC网络结构网络结构AF 模块的结构如图 5-3所示。具体来说,AF 模块包含以下三部分:(1)上下文提取:平均的所有元素以获得全局特征信息并与 SNR 合并为上下文信息:=1=1?#4.2.1=,1,2,+1#4.2.2(2)因子预测:将1,2,级联构成因子预测网络()以利用上下文信息为特征组生成通道级注意力:36IMT-2030(6G)推进组IMT-2030(6G)Promotion Group=2 1#4.2.3(3)特征重校准:利用通道级注意力,将
93、特征组的每个通道重校准为:=#4.2.4图图5-35-3 AFAF模块结构模块结构我们基于 CIFAR-10 数据集,使用不含 AF 模块的 BDJSCC 与包含 AF 模块的 ADJSCC分别在不同 SNR 的 AWGN 信道中传输图像,通过 PSNR 衡量图像重构质量以体现 DJSCC通信系统性能,如图 5-4 所示。随着的下降,远离的 BDJSCC 与 ADJSCC 的差距越来越大,至多 6dB。即使在=,即训练与测试的信道条件完全匹配时,ADJSCC 的性能也优于 BDJSCC,这充分表明了所提出 AF 模块能够帮助网络自适用于不同的信道条件,从而更好地对抗时变的噪声信道。图图5-45
94、-4 带宽利用率为带宽利用率为1 1/12/12时时ADJSCCADJSCC与与BDJSCCBDJSCC性能性能37IMT-2030(6G)推进组IMT-2030(6G)Promotion Group5.2.3结论本小节提出了一种轻量的基于注意力的 AF 模块,其可以灵活地插入不同的 DJSCC网络以帮助网络自适应于不同的信道条件,在提升系统性能的同时避免了额外的训练及存储开销。实验表明,在图像重构任务上,所提出的 ADJSCC 表现出了更强的鲁棒性与有效性。5.3 面向 CSI反馈的深度联合信源信道编码设计5.3.1引言在大规模 MIMO 技术下,基站侧通常需要获知瞬时下行 CSI 以充分利
95、用大量的天线。随着 5G 到 6G 天线数量的增加,现有基于码本的反馈方法的码本空间急剧增大,进而增大了反馈开销。现有 CSI 反馈的基于分离信源信道编码方法(Separate Source-Channel Coding,SSCC),使用基于深度学习的信源编码方法将 CSI 反馈看成图像压缩任务以降低 CSI 反馈开销,同时使用适当的信道编码提供可靠的传输。然而,相比于联合信源信道编码方法(JointSource-Channel Coding,JSCC),基于深度学习 SSCC 的 CSI 压缩反馈面临因信道状态不匹配导致的“悬崖效应”以及时延问题,并需训练多个针对特定信噪比(SNR)的模型以
96、对抗时变信道,增加了设备侧的存储开销。以上缺陷导致基于深度学习的 SSCC 的实际使用受阻。本小节提出了一个通用的基于深度学习的联合信源信道编码框架(ADJSCC-CSI)39用于实现 CSI 的压缩反馈。通过将所有模块结构设计为神经网络并实现端到端的优化,所提出的框架能够自适应于时变信道,且性能显著优于 SSCC 下的 CSI压缩反馈框架。5.3.2研究进展所提出的 ADJSCC-CSI框架如图 5-5所示,主要包含了非线性变换模块(ATN&STN),深度联合信源信道编码模块(SC-CSI-E&D)以及信噪比自适应模块(AF)构成。假定用户侧(UE)天线数=1,基站侧(BS)天线数=32,上
97、下行链路子载波数=256。38IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图5-55-5 ADJSCCADJSCC-CS-CSI I框架框架CSI的压缩反馈流程如下:发射模块发射模块(1)结合 SNR 信息,UE 侧通过 ATN 模块及 AF 模块将 CSI 信息 进行特征提取与压缩:=(),)#4.3.1(2)结合 SNR 信息,UE侧使用 SC-CSI-E 模块进一步将特征映射为符号:=(,)2#4.3.2(3)UE 侧将符号两两组合构造为复数符号 并实现功率归一化。随后复数符号通过OFDM 映射到子载波上由发射机发送。接收模块接收模块(4)BS
98、侧在实现最大比合并及 OFDM 去映射后,将接收到的复数符号?的实部虚部拆分,还原为实数符号?2。(5)结合 SNR 信息,BS 侧使用 SC-CSI-D模块将重构的实数符号?映射为特征?:?=(?),)#4.3.3(6)结合 SNR 信息,BS 侧使用 STN模块从特征中重构 CSI信息?:?=(?),)#4.3.4其中,AF模块被频繁用于各个主要模块之中以强化网络对不同信道条件的自适应能力,传输过程的带宽限制为。实验中使用的上行链路 CSI 和下行链路 CSI 是由 QuaDRiGa 根据第三代合作伙伴项目(3GPP)TR 38.901生成。我们创建一个开放的室内场景,其中下行链路的中心频
99、率为 5.2GHz,上行链路的中心频率为 5.4GHz。BS 位于一个长宽分别为 20m 的矩形区域的中心。在 BS 上部署了具有半波长天线空间的均匀线性阵列(ULA)。实验设置=32。本小节的通用框架能够兼容不同的 SC-CSI 编解码器,我们以一个经典 SC-CSI40编解码器 CSINet+为例进行了实验,结果如图 5-6 所示。其中,CSINet+_Q_QAM 代表CSINet+输出维度为,符号量化位数为,信道编码的码率为,调制阶数为的 QAM 调制方案。CSINet+_32 与 CSINet+_64 使用了比特级 CSINet+方案与自适应调制编码策略的最优组合。可以发现,ADJSC
100、C-CSINet+明显优于各种 SSCC 下的 CSINet+且能够克服 SSCC 中39IMT-2030(6G)推进组IMT-2030(6G)Promotion Group的“悬崖效应”,同时略优于 CSI 压缩反馈网络 AAnalogDeepCMC41,验证了所提出框架的有效性。图图5-65-6=3232时时ADJSCCADJSCC-CSINet+-CSINet+与基于与基于SSCCSSCC的的CSICSINet+Net+性能对比性能对比5.3.3结论本小节为 CSI反馈任务提出了一个通用的 ADJSCC-CSI 方法,其中所有模块均通过参数化的神经网络实现并实现端到端的训练。实验结果表明
101、,在广泛的 SNR 条件下,在克服“悬崖效应”的同时均优于基于 SSCC 的 CSI 反馈方法。本小节的框架能够兼容多样的 SC-CSI编解码器,证明了所提出框架的通用性。5.4 面向多模态数据传输的目标语义通信技术5.4.1引言为了实现高效的智能物联网服务,既需要利用有限的通信资源下解决海量设备的联网和多模态数据传输问题,也要利用有限的计算和存储解决人工智能算法的部署和运行问题。近年来,面向图像、文本、视频和音频等单模态数据的目标语义通信系统得到了充分研究,其利用联合信源信道编码技术,在实现高效的数据传输的同时,保证了下游目标应用的性能。本技术在目标语义通信框架的基础上,引入基于多模态语义分
102、析的传输控制机制,提出面向物联网便云端的多模态目标语义通信框架。40IMT-2030(6G)推进组IMT-2030(6G)Promotion Group5.4.2研究进展图图5-75-7 面向物联网边缘端的多模态目标语义通信框架面向物联网边缘端的多模态目标语义通信框架本技术45提出的面向物联网边缘端的多模态目标语义通信框架如图 5-7 所示。发送端包含多个边缘设备,每个设备部署了数据感知模块(Data Sensing)、语义提取器(SemanticExtractor)和联合信源信道编码器(Jiont Semantic and Channel Encoder)等模块,面向具体目标任务采集、处理和
103、上传不同模态语义信息。边缘服务器作为接收端,包含联合信道和语义解码器(Jiont Semantic and Channel Decoder)和传输控制器(Transmission Controller)等模块,利用收到的语义信息执行相应的目标任务,并在联合分析多模态语义信息的基础上控制边缘设备的数据上传。考虑到物联网场景下小型传感器的硬件资源限制,规定设备仅上传原始数据,语义信息提取在边缘服务器上实现。将该框架运用在智慧家庭场景下,以人体动作识别为目标任务,利用人体加速度传感数据控制监控视频的上传。边缘设备包含安装在卧室、厨房、客厅的 3 台监控摄像头以及佩戴在用户左上臂的 1个加速度传感器,
104、边缘服务器为 1 台边缘网关。图图5-85-8 面向人体动作识别的视频联合信源信道编码面向人体动作识别的视频联合信源信道编码面向人体识别任务的视频联合信源信道编码如图 5-8 所示。当各房间内的监控摄像头收到边缘网关发送的传输请求信号(ACK)时,滑动窗口对原始视频流连续采样得到图像帧样本 161121123。在语义和信道联合编码器中,由三维卷积层和三维池化层构成的神经网络从图像帧样本提取得到人体动作语义特征 452222;整形层将高维语义特征转换41IMT-2030(6G)推进组IMT-2030(6G)Promotion Group为低维语义特征编码 48402,以适应物理信道传输。边缘网关
105、接收到带有信道噪声干扰的语义特征编码?48402。在语义和信道联合解码器中,整形层还原得到高维人体动作语义特征?452222;由三维卷积层和三维池化层构成的神经网络进一步提取得到人体行为语义特征 8155。最终由整形层和全连接层(FC)构成的分类器输出人体行为分类结果,包括在沙发上休息、在床上睡觉、在书桌前学习、在厨房就餐等 4类行为。图图5-95-9 面向加速度数据和视频的多模态传输控制机制面向加速度数据和视频的多模态传输控制机制面向加速度数据和视频的多模态传输控制机制如图 5-9 所示。边缘网关在收到来自传感器的原始加速度数据后,先利用 1 个低通滤波器和 1个滑动窗口提取包含人体动作方向
106、信息的低频信号;再使用滑动窗口进行采样得到加速度矩阵 350。在语义和信道联合编码器中,特征提取器得到表征人体动作转向的余弦特征值,再由随机森林分类器得到姿态分类结果,包括站、坐、躺和走等 3 类姿态。传输控制器通过比较连续两个姿态分类结果来判断用户的姿态是否变化。基于人体行为和人体姿态之间的语义关系,即:人体行为变化一定包含姿态转变。因此,只需要在传输控制器检测到有效的姿态变化时,生成一个传输请求信号,要求监控摄像头上传此时从原始视频流中提取的人体动作语义特征进行人体动作识别。5.4.3结论本框架以单模态联合信源与信道编码为基础,从原始冗余数据中提取与目标任务相关的语义特征信息进行传输;并引
107、入基于多模态数据语义关系的传输控制机制,利用传输量更低的数据模态控制传输需求更大的数据数据的传输,从而进一步降低系统的通信量。该框架被具体应用在智慧家庭场景下面向人体动作识别任务的视频和传感器数据的传输上。仿真实验结果表明:在 AWGN 信道中,采用通信框架达到的视频压缩量相较于传统 MPEG-4 编码提升了 90%以上;系统经过适当训练后,在保证高效数据传输的同时,人体动作识别的准确率达到了 97%以上。这表明利用基于多模态语义分析的传输控制机制,实现物联网边缘场景下多模态数据传输的合理性,以及利用目标语义通信系统开发物联网智能服务与应用的潜力。42IMT-2030(6G)推进组IMT-20
108、30(6G)Promotion Group5.5 多级语义信息辅助下的图像无线传输系统5.5.1引言基于深度学习的语义通信系统显示出巨大的潜力46,能够有效传输不同类型的信息。随着物联网设备的大量部署而衍生出的以目标为导向的通信方式,给边缘设备带来巨大的通信压力。语义通信只传输目标需要的信息,大大的减少数据的通信量,提高通信效率,语义通信将成为下一代物联网无线通信技术的重要组成部分。信道噪声干扰是影响无线通信系统性能的主要因素之一,提高通信系统应对噪声环境的鲁棒性是传统通信和语义通信的共同目标。数字通信方案通过增加信道编码量提高系统的抗噪能力,同时带来通信量的剧增。当前,基于深度学习的通信系统
109、通过 DNN 缓解噪声对系统的干扰,同时平衡系统的通信量。其中信源编码、信道编码、调制解调等传统模块由 DNN 所取代47,端到端系统可以以数据驱动的方式成功地利用各种相关性,并获得优异的结果5.5.2研究进展为提高图像无线通信的高效性和准确性,我们提出一种多级别语义通信系统48,该通信系统由两部分组成:(i)编码器,从输入图像中提取语义特征并将其编码为符号信号以实现无线信道传输;(ii)解码器,从接收到的信号中解码语义特征,以重构源图像。编码器由两部分组成:多级语义特征提取器和联合语义信道编码器。首先编码器的输入图像 I 由标准化层预处理,使得图像中的每个元素都在0,1范围内。然后通过多级语
110、义特征提取器提取输入图像不同层级的语义特征。联合语义信道编码器将这些语义特征编码为符号,并通过无线信道发送给接收器。本文提出一种基于深度学习的无线图像传输语义通信系统,如图 5-10 所示。其中,多级语义特征提取器用于提取不同级别的语义特征。其中,高级语义信息包含图像的抽象性和通用性指标,低级语义信息包含图像的局部细节语义信息。通过基于深度学习的特征提取器提取信源特征,并通过与语义信道的联合训练给不同的信息赋予不同的权重。语义信道编码器和解码器联合在接收器处成功恢复这些语义特征,并通过图像重建模块对多级语义信息进行融合并重构目标图像。43IMT-2030(6G)推进组IMT-2030(6G)P
111、romotion Group图图5-105-10 图像语义通信系统的整体架构图像语义通信系统的整体架构(a)(b)图图5-115-11(a a)编码器模块、解码器模块()编码器模块、解码器模块(b b)图像重建模块)图像重建模块图像重建模块需要融合不同形式和内容的语义特征,完成不同语义内容之间的相互补充,通过注意力机制深度挖掘融合信息,进而将融合特征重建为目标图像。首先通过双特征融合模块对两种形式的高级语义特征进行融合,该模块通过交叉结构和通道注意力机制(CA,channel attention)学习输入特征;然后通过像素上采样模块对特征信息升维,其由卷积层和像素重组层构成;最后将相同维度的高
112、级语义信息和低级细节补充信息进行级联操作,通过残差网络对融合后的信息进行提取并重建目标图像,该模块由反卷积层和 PReLU 激活函数构成(最后一层为 sigmoid 激活函数),其网络结构如图 5-11(b)所示。在图像重建模块中,不同形式特征生成的粗糙图像含有不同的成分。其中包含比较平滑的低频信息和充满边缘、纹理的高频信息。同时,卷积层的每个过滤器都包含一个局部感受野,其输出无法利用局部信息之外的上下文信息。因此,通过通道注意力机制改变特征权重,提高重要信息的权重占比,其网络结构如图 5-12 所示。图图5-125-12 通道注意力机制通道注意力机制44IMT-2030(6G)推进组IMT-
113、2030(6G)Promotion Group5.5.3结论示例中提出了一种基于深度学习的无线图像传输语义通信系统,与其他基于深度学习和基于分离的数字传输方案相比,所提出的语义通信系统的有效性和鲁棒性均优于其他方案。同时,验证了不同形式语义特征的对系统性能的提升。5.6 用于多任务图像传输的语义通信系统5.6.1引言语义通信系统提取重要的语义信息并将其传输到目的地,在目的地,系统可分为数据重建和智能任务执行49。对于数据重建,语义通信系统将全局语义特征传输到接收器。然而,智能任务通信系统只提取与任务相关的特征。受使用高级语义信息改进图像字幕的启发50,本示例使用多级语义特征提取器来提取关于文本
114、和分割语义特征的高级语义信息,以及关于图像细节的低级语义信息,从而提高了系统的性能51。5.6.2研究进展图像源信息包含面向任务的通信系统中使用的各种语义特征,如图 5-13 所示,语义编码器由三个重要网络组成,以提取不同形式的语义特征:核心网络、中间网络和补充网络。核心网络以文本形式提取高级图像特征,中间网络以图像形式提取高级语义相关特征,补充网络获得低级细节像素特征。图图5-135-13 系统的总体架构系统的总体架构我们使用两种注意机制来提取具有不同注意方法的语义特征,注意力模块的输入特征具有相同的大小和不同的内容。注意模块 1 是 ResNet 网络,随后插入卷积块注意模块(CBAM-R
115、esNet)。信道细化特征被输入到空间注意力模块,以通过平均池化和最大池化操45IMT-2030(6G)推进组IMT-2030(6G)Promotion Group作来提取组件的空间间关系,空间注意力部分也通过元素乘法运算。我们通过 CNN 层将输入特征分割成块,并通过挤压和激励 ResNet(SE-ResNet)提取输入源的语义。挤压操作通过聚集 2D 空间维度获得信道方向特征的全局分布,激励操作通过选择机制调整通道权重。图图5-145-14 注意力模块的架构注意力模块的架构解码器使用从 coarse-to-fine 的结构融合不同的图像特征,以提高图像相关任务的性能。coarse 模块通过
116、来自信道解码器的单个源信息恢复粗略图像特征,fine 模块融合各种粗略图像特征以重建目标图像。如图 5-15 所示,fine 模块接受三种类型的输入:文本嵌入到图像生成、语义分割到图像生成和低级图像特征。我们使用双重特征块来合并和提取图像语义特征的生成,其中 CA 是通道注意(channel attention)机制。Dual features module 和 attentionmodule 的输出特征通过 sub-pixel block 放大输入信息。通过 fine 模块后,我们使用 ResNet模块学习的联合语义特征。图图5-155-15 finefine模块和模块和dualdual f
117、eaturesfeatures模块模块5.6.3结论示例提出了一种新的面向任务的语义通信系统,用于实现单模态数据的多任务。该系统46IMT-2030(6G)推进组IMT-2030(6G)Promotion Group旨在传输与任务相关的语义信息,以实现不同的图像相关任务:图像到文本、图像生成、显著性检测和图像重建。实例中提出了两个注意力模块来提取跨维度和模式的语义信息。此外,该示例使用不同的语义解码器基于从信道解码器接收的不同信息实现各种任务。同时,提出一种从粗到细的结构,以集成不同的图像特征,提高了系统的图像相关任务性能。5.7 面向语音的高效语义通信系统5.7.1引言语义通信已经在多种信息
118、传输领域取得了显著的成效,特别是在图像和文本传输方面。相比于传统的无线通信方法,语义通信方法通过只发送源数据的语义相关信息来实现更高的传输效率和更好的性能。在本节中我们将介绍一种面向语音的语义传输系统,其核心思想是仅传输与语音语义相关的信息,并设计了一个额外的语音信息提取机制,以实现语音重构任务。我们将深入研究如何从原始语音信号中提取语义信息,以及如何在接收端恢复这些信息以获得准确的语音识别结果,并抵抗语音传输过程中的信道干扰,以提高系统的整体性能。5.7.2研究进展我们设计并实现了一种端到端的基于深度学习的高效语音语义通信传输系统52。如图5-16 所示,该系统由多个模块组成,包括软对齐模块
119、、冗余移除模块、语义纠正器模块以及额外语音信息模块。图图5-165-16 基于深度学习的语音语义通信结构基于深度学习的语音语义通信结构首先,软对齐模块利用注意力机制从输入的语音频谱中提取和编码语义信息。这个模块用于提取与文本相关的语义特征,使用 1000 个子词的词汇表,并使用标记来表示词的结束(EOS)和开始(BOS)。通过这样的对齐机制,可以使输入序列的长度被有效地压缩到原始长度的 10%。其次,冗余剔除模块使用全连接层移除语义无关的特征,即 EOS 标记后的所有信息。这一步骤成功地将传输长度平均减少了 63.9%。之后,语义纠正器模块在大规模文本数据集 Librispeech 上进行预训
120、练,该数据集包含了 14500本公有领域的书籍。该模块能够根据上下文进一步纠正输出的文字,从而极大提高47IMT-2030(6G)推进组IMT-2030(6G)Promotion Group了文字的准确性。在这个过程中,我们采用了束搜索(Beam Search)策略,通过选取最可能的 K 个文字序列,以提高恢复文字的准确性,同时利用了语义长时依赖性。额外的语音信息提取模块采用 Viterbi 算法基于 CTC 进行帧级对齐,从而获取每个音素的持续时间、音调和功率信息。尽管这些信息量非常小,几乎可以忽略不计,但它们在生成更自然的语音时至关重要。最后,我们采用非自回归模型 FastSpeech2
121、和预训练的 GAN 模型 HiFi GAN 进行语音重构。FastSpeech2 用于获取语音谱,而 HiFi GAN 用于生成相应的语音。这两个模块共同实现了高质量的语音生成。我们的系统采用了一个两阶段的训练方案53。在第一阶段,我们忽略了噪声信道,只训练了语义编码器、CTC 对齐和语义解码器,采用的损失函数为 CTC 损失和交叉熵损失。在第二阶段,我们包括了噪声信道,并增加了信道编码器、信道解码器、语义解码器和语音重建器的训练,此时的损失函数为交叉熵损失和均方误差损失。我们的实验结果表明,与现有的工作相比,我们的方法在错误率(WER)方面减少了10%,并且在信噪比为 0dB 时,依然能够保
122、持良好的性能。对于语音到文本的传输,我们的系统将传输的信息量减少了 50%,同时实现了 10%的 WER 降低。对于语音到语音的传输,我们的系统只需要传输现有方法 0.2%的信息量,同时实现了与现有方法相似的语音重建质量。这些结果充分证明,我们提出的方法在多个方面都优于其他方法。图图5-175-17错误率和句子相似度对比图错误率和句子相似度对比图48IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图5-185-18额外语音信息重建结果额外语音信息重建结果5.7.3结论本节的主要贡献在于设计并实现了一种全新的语音语义通信系统,该系统在语音识别和恢复任务中实现
123、了高效的语音传输。我们的系统从输入的语音频谱中仅提取与语义相关的信息并发送。为了增强接收器预测文字信息的正确性,我们使用束搜索解码器来查找最可能的子词序列,并使用语义纠正器通过利用预训练的语言模型来避免语义错误。模拟结果表明,我们的方法大大提高了传输效率,同时改善了预测转录的准确性,并保持了高质量的语音信号重建。5.8 基于 GAN 逆方法的高效图像隐私传输语义通信5.8.1引言随着信息产业的迅猛发展,图像传输和处理的重要性日益凸显。传统的图像传输需求大量带宽,导致传输数据量巨大。为提高通信效率,利用语义通信的手段来传输图像成为了研究的新趋势。现有的语义通信研究结合了深度学习技术,实现了高效的
124、图像语义传输,推动了语义通信方法的发展。不过现有的图像语义传输系统的传输目标主要是图像的像素级别还原,我们提出的方法是在保证主观视觉质量前提下,提高通信效率和保护传输图片的隐私信息。5.8.2研究进展我们提出了一种基于 GAN 逆方法的语义通信方法。现有工作中利用 GAN 的判别器模49IMT-2030(6G)推进组IMT-2030(6G)Promotion Group型提取图像的无监督潜在表示以实现图像的编码和解码,可以达到优良的压缩和重构效果。然而,这种方法存在安全性问题,提取出的潜在表示可能泄露原图像的个人信息。图图5-195-19 基于基于GANGAN逆方法的高效图像隐私传输语义通信结
125、构逆方法的高效图像隐私传输语义通信结构为解决上述问题,我们采用了基于 GAN 的生成模型进行语义通信53。提取出潜在表示后,我们引入了隐私过滤器和知识库,从潜在表示中抹去敏感个人信息,并用来自知识库的自然特征替代,以确保个人信息的安全。这种基于生成模型的语义通信方法能高效地传输图像,同时保持质量和隐私保护。利用 GAN 的逆方法,我们实现了高压缩比例,并对潜在编码的隐私部分进行特定的修改,符合人主管感知地改变图像,而不需要像传统方法那样大量使用遮罩或添加噪声以修改受保护的图像特征。GAN 能从低维向量生成高维图像,而GAN 的逆方法则可为给定的图像获取潜在向量,这样可以生成接近原始图像的图像。
126、通过GAN 逆方法,我们进一步提高了传输效率。我们用 SemanticStyleGAN 的反转方法提取输入图像的解耦潜在代码,这些代码可被修改以实现语义通信和隐私保护。在不同的通道噪声下,我们的方法表现良好,显示出其鲁棒性。与现有方法相比,即使在更高的压缩比例下,我们的方法也可以保持对人类感知的高质量图像。我们的方法通过使用标准化流来改变复杂的数据分布,通过标准化流可逆转换来简化和优化数据分布,从而简化了传输和存储。如下图所示,我们的方法提供了优于传统方法的隐私保护,通过解耦的语义隐空间实现了对受保护图像特征的无缝和真实的修改,而不是通过大量的遮罩或噪声添加。我们的隐私过滤器成功地从输入图像中
127、移除了隐私信息,同时保持了图像的整体完整性。50IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图5-205-20 客观评价指标对比图客观评价指标对比图图图5-215-21 主管评价指标对比图主管评价指标对比图图图5-225-22 隐私保护效果图隐私保护效果图5.8.3结论我们提出的基于生成模型的语义通信框架能有效应对物联网、自动驾驶和元宇宙等新兴应用场景的数据流量暴增。这一框架采用 SemanticStyleGAN 的反转方法,专注于传输与任务相关的信息,过滤无关信息,减少传输量,并提高人类的感知性。我们同时引入了隐私过滤器和知识库,以在保护隐私的同时自
128、然地重建图像。尽管像素级还原的表现不如现有方法,但在如 LPIPS 这样的主管评价分数上取得了显著的提高。在隐私保护示例中,我们发现,通过分割不同的语义部分并通过隐私过滤器和语义知识库的处理,我们的方法能有效地保护隐私信息。5.9 面向点云分类任务的预训练鲁棒语义通信系统5.9.1引言本文将介绍一种基于预训练的 Point-BERT 模型的语义通信系统,该系统主要用于点云分类的鲁棒处理。随着三维数据采集设备的广泛应用,传输三维点云的需求日益增长。点云数据的传输面临许多挑战,如数据量巨大及对噪声的高敏感性。为解决这些问题,我们提出一种全新的语义通信系统,其包含语义编码器、信道编码器、信道解码器以
129、及语义解码器四51IMT-2030(6G)推进组IMT-2030(6G)Promotion Group个主要组成部分。此系统采用了两阶段训练策略,以便适应特定的分类任务。实验证明,该系统在各种信噪比条件下均显示出优良的分类能力和对信道噪声的鲁棒性。5.9.2研究进展图图5-235-23 面向点云分类任务的的点云语义通信结构面向点云分类任务的的点云语义通信结构在处理输入的密集点云时,我们首先采用下采样模块,来减少点云中的点数,同时保留原始数据的基本结构和特性,从而降低计算复杂性和通信开销54。具体而言,我们运用最远点采样(FPS)算法对输入点云进行处理,选取 64 个关键点,然后利用 k 最近邻
130、(kNN)算法为每个关键点找到 32 个最近的点,生成 64 个子云,每个子云包含一个关键点及其 32 个最近的邻点。这个策略有助于点云数据的高效处理和表示。接下来的我们采用可学习的位置 embedding 模块对这些关键点的相对位置进行编码,以捕获点云中点之间的空间关系,也即位置 embedding。在对点云进行语义编码的过程中,我们运用了一种预训练的 Transformer 模型Point-BERT,其能有效地从点云数据中提取出高级语义信息。具体来说,首先使用一个轻量级的 PointNet 对每个子云进行特征提取,然后将生成的点嵌入作为 Point-BERT 模型的输入。通过自注意力机制及
131、大规模点云数据集上的预训练,Point-BERT模型能够捕获数据的潜在语义,从而实现更精确的分类和理解。在对语义信息编码并传输后,我们使用信道解码器对接收到的信号进行解码,随后利用语义解码器对解码后的向量进行进一步解码,以获得相应的分类结果。在训练阶段,我们实施了两阶段训练策略,包括预训练的 Point-BERT 模型和在不同信道条件下的训练。这样,我们的系统不仅能有效处理点云数据,而且在使用同等通信资源的前提下,提供了更佳的稳定性和可靠性,尤其是在极端的信道条件下。在实验部分,我们选用 ModelNet40 数据集来验证我们的方法,并与最新的基准方法进行了对比。实验结果显示,在所有信噪比条件
132、下,我们的方法均优于基准方法。当信噪比大于 10 dB 时,我们的方法实现了超过 89的分类准确率,并始终比基准方法高出至少 0.8。尤其令人鼓舞的是,即使在最恶劣的条件下,也就是信噪比只有 6 dB 时,我们的方法实现52IMT-2030(6G)推进组IMT-2030(6G)Promotion Group了 78以上的准确率,这比现有方法高出了 50%。这充分证明了我们的方法在各种信噪比条件下的优秀性能。图图5-245-24 不同信道条件下的点云分类准确率图不同信道条件下的点云分类准确率图图图5-255-25不同压缩效率下的点云分类准确率图不同压缩效率下的点云分类准确率图5.9.3结论此方法
133、实现了计算复杂性、速度和分类准确性之间的良好平衡,使其成为面向 3D 点云分类任务语义通信的可靠且高效的解决方案。在保持计算效率和速度的平衡的同时,基于预训练语义通信模型展现出了强大的鲁棒性。特别是在低信噪比范围内,我们的方法能显著提高分类准确率53IMT-2030(6G)推进组IMT-2030(6G)Promotion Group5.10 非线性变换信源信道联合编码5.10.1 引言香农信息论指导下的经典通信系统设计具有以下局限性。1)模块设计分离。依据香农信源信道分离定理21,在编码码长、时延、复杂度均不受限的条件下,信源压缩与信道传输模块可以进行分离设计,两者独立的优化等价于端到端系统全
134、局优化。过去几十年,该原理被应用于通信系统的各个模块(如信道编码、信号调制等),简化了系统设计。但实际系统的编码码长、时延、复杂度均受到限制,尤其是对于实时性要求较高的新业务通信系统,由于编码码长和编解码复杂度等限制更严格,模块化分离优化设计相比于系统联合优化设计有明显性能损失。2)处理范式受限。现有通信系统的编解码、调制解调等模块大多采用线性处理,虽然该范式简化了系统设计,且一定条件下可以推导得到模块最优处理的解析表达式,但线性处理范式限制了模块处理能力的提升,无法进一步满足系统性能提升需求。以深度学习为代表的人工智能技术正是利用了多层神经网络的非线性处理机制,显著提升了信息处理能力,为通信
135、系统各模块处理机制的创新提供了思路。3)优化准则单一。经典通信系统以香农信息论为理论基础,以准确传输数据或精确传送信号波形为目标,而其中承载的内容信息是什么以及信息被如何使用并未受到特别关注。在此背景下,通信系统大多数模块的数学推导都基于高斯噪声假设,因此模块优化设计的优化准则大多为最小均方误差(MSE),如信道估计、信号检测、信道编解码均是如此。然而,当考虑范畴更广的端到端通信系统时,简单的 MSE 准则无法准确匹配信源侧人类主观感知体验或智能机器任务表现,导致全系统优化效率降低。4)先验知识不足。经典信源压缩与信道传输模块均基于统计概率特征进行构建,没有考虑具体通信场景中的先验知识来辅助提
136、升端到端传输性能,尤其没有涉及更高层的语义先验信息,也没有考虑信息传输过程推进中先验知识的更新。以上先验知识形态、使用、更新几方面的不足在一定程度上制约了系统性能的进一步提升。语义通信试图实现从技术层到语义层的跨层升级,更注重收发端到端的传输性能,而非比特级别的传输准确率。因此,利用信源信道的联合设计,使得编解码模型能将信源特征与信道特性匹配,能有效突破现有系统模块设计分离的局限,赋能端到端通信系统的整体性能跃升。现有信源信道联合编码方法通过级联信道环境样本一同训练,将语义特征提取、信源信道编码封装为一个编码器模块,该方法称为深度联合信源信道编码(DeepJSCC)55-56。54IMT-20
137、30(6G)推进组IMT-2030(6G)Promotion Group本质上,该结构源于深度自编码器(auto-encoder)结构,采用了“定长编码”的方法,对任意符号,其编码后用于在信道中传输符号数量都是定值,且没有考虑信源数据内部在语义内容复杂性上的差异,系统编码效率还有待进一步提升。本节引入变换编码,联合信源信道的非线性处理范式和多元目标引导的端到端优化这三个新机制来提升端到端传输性能,克服传统通信系统的技术瓶颈。通过对非线性变换编码传输系统的深入研究,具体回答语义特征如何提取、如何传输、如何使用三大核心问题。5.10.2 研究进展5.10.2.1 非线性变换联合信源信道编码方法本节
138、提出非线性变换联合信源信道编码方法(NTSCC,nonlinear transform source-channelcoding)。如图 5-26 所示,在发送端,非线性解析变换ag(;)g 用于提取信源样本x的深层语义特征,构成隐空间语义特征图y。y将会继续被送入变速率联合信源信道编码e(;)ff 得到信道输入矢量s。给定信道传输函数(;)W ,则接收符号序列为(;)Wss。接收端先将 s送入变速率联合信源信道译码d(;)ff 恢复得到关于隐空间语义特征图的估计 y,再送入非线性合成变换sg(;)g 进行语义特征融合重构信源数据 x。整个 NTSCC 系统的流程为aeds()()()()()
139、gffgW xyssyx图图5-265-26两类非线性信源信道联合编码传输方案对比两类非线性信源信道联合编码传输方案对比语义隐空间表征矢量y会被送入先验熵模型py,计算得到语义表征y每个维度上取值对应的概率,从而获得原始数据x在语义隐空间y上的信息量分布。py实际是由 DNN 所定义的一个参数化分布,参数集合记为。先验熵模型(;)pyy 的计算式为55IMT-2030(6G)推进组IMT-2030(6G)Promotion Group4.11.1其中,()(;)iip y 表示由参数()i确定的关于iy的熵模型,表示卷积操作,1 1,2 2U表示1 1,2 2范围内的均匀分布,最后卷积形成的概
140、率分布()(;)iipy表示关于iy的代理熵模型。卷积均匀分布操作目的是使()(;)iipy在任何iy取值点上的概率都落在(0,1)范围内,保证后续信息量计算的数值稳定。以图像信源为例,Deep JSCC 的操作逻辑为将一张图像表示为像素点组成的一个m维矢量mxR R,通过一个基于 DNN 的编码函数映射e(;)ffsx 到一个k维的信道输入矢量ksR R,其中f 表示构成编码器的 DNN 参数集合。通常有km,km为信道带宽比(CBR,channelbandwidth ratio),表示信道输入维度与信源维度的比值。而在 NTSCC 系统中,在先验熵模型的引导下,每个信源样本x所对应的信道输
141、入矢量s的总维度是动态变化的,并且可以实现每个语义隐空间的表征矢量iy对应不同的编码码率,即iy编码得到的传输矢量is的维度不一样,可以依据iy所对应的熵大小来确定。语义隐空间的先验熵模型结合联合信源信道编码的码率分配策略,使 NTSCC 实现变换编码传输,这是其相对于 Deep JSCC 直接编码传输方案获得大幅性能提升的本质原因。图图5-275-27 非线性变换联合信源信道编码流程及对应的概率建模非线性变换联合信源信道编码流程及对应的概率建模5.10.2.2 非线性变换联合信源信道编码变分建模从端到端系统角度来看,面向数据传输任务的语义通信目标是使接收端恢复的数据分布与发送端的真实数据分布
142、尽可能一致,从而不仅实现数据元素级别的恢复,而且追求全局视野的感知体验优化,这符合深度学习“生成模型”的思想。因此,可以从变分建模的角度,推导出语义通信编码传输的率失真优化准则。从变分自编码器(VAE,variational auto-encoder)角度来看,图 5-27 所示的 NTSCC 系统对以下几个概率分布进行了建模。1)|()|qs xs x表示给定信源样本x时,关于接收符号序列 s的条件概率分布。|()|qs xs x由非线56IMT-2030(6G)推进组IMT-2030(6G)Promotion Group性解析变换a(;)gg 、非线性联合信源信道编码e(;)ff 、通信信
143、道(;)W 共同决定,因此|qs x是关于参数,gf 的概率模型。2)()pss表示关于接收符号序列 s的可学习的先验概率分布。在给定非线性解析变换(;)agg 、非线性联合信源信道编码e(;)ff 、通信信道(;)W 后,()pss是由语义隐空间熵模型(;)pyy 及信道转移概率|(|)ps ss s共同确定的,其计算式为4.11.23)|(|)px sx s表示接收端得到接收符号序列 s时,关于恢复数据x的条件概率分布。该概率分布由非线性联合信源信道译码d(;)ff 、非线性合成变换s(;)gg 及失真度量d共同确定。例如,当使用均方误差(MSE)作为失真度量d时,|(|)px sx s为
144、4.11.3其中,sd(;();)fggfss 表示高斯分布的均值,即模型推理过程中的信源的估计值)(xs,2为常数,是端到端传输的能量约束。结合变分建模理论,NTSCC 系统端到端优化目标为最小化两组联合概率分布之间的 KL(Kullback-Leibler)散度,表示为4.11.4经 过 推 导 发 现,NTSCC 系 统 优 化 目 标 本 质 上 是 寻 求 平 均 传 输 速 率与平均端到端失真之间的折中。注意到速率项中的()pss是由语义空间y的熵模型(;)pyy 确定的,据此可以推导得到语义通信编码传输系统的一般化设计准则,即最小化信道传输速率失真(RD)损失函数表示为4.11.
145、5其中,ik表示语义特征矢量iy经过信源信道编码后对应的符号矢量is的维度,可视为is通过信道传输所占用的带宽,i表示从iy的熵到信道传输符号数量ik的比例放缩系数。当无特殊兴趣区域时,全局范围i设置为相同值,ii。(),d x x表示信源样本x与重构样本 x之间的误差度量,超参数控制总传输速率iikk与失真d之间的折中。越大,优化得到的57IMT-2030(6G)推进组IMT-2030(6G)Promotion GroupNTSCC 模型信道带宽开销k越大,对应的端到端传输失真d越小;反之亦然。(),d x x一般表示客观误差度量,如图 5-28 给了不同取值下传输图像带宽分配结果,从图 3
146、-3 可以看出,带宽分配与图像内容复杂度有显著关系。图图5-285-28 传输图像带宽分配结果传输图像带宽分配结果5.10.2.3 实验及仿真结果为了验证所提语义非线性变换编码传输系统的端到端传输性能,本节将比较 NTSCC 系统与前文提到的直接编码传输 Deep JSCC系统和经典信源信道编码传输系统的性能。实验的具体配置如下。1)数据集。为了量化端到端图像传输能力,实验使用不同分辨率、内容各异的图像数据集进行测试,图像尺寸从小到大的测试集依次为:CIFAR10(50 000 张训练图像和 10 000张测试图像,32*32像素)、Kodak(24张图像,768*512像素)、CLIC202
147、1(60张图像,2048*1890像素)。2)对比方案。端到端的图像传输包括信源信道编码和无线信道传输 2 个主要模块。因此,对比方案包括所提的 Deep JSCC 方案和经典分离式信源信道编码方案。分离式信源信道编码方案采用了压缩能力依次增强的图像信源编码方案 JPEG、JPEG2000、BPG(H.265 视频编码标准的帧内图像编码方案),并结合实际应用的 5G 标准 LDPC 信道编码(分别记为 JPEG+LDPC,JPEG2000+LDPC 和 BPG+LDPC)。本文考虑 AWGN 信道和衰落信道下测试性能,在实际部署中,为了与先前工作一致,将信道输入序列中的2 个连续实符号转换为一
148、个复信道输入符号,并添加复高斯噪声。3)度量指标和损失函数。实验使用广泛应用的像素级度量指标(如 PSNR和 MS-SSIM57)和最近兴起的基于深度学习的感知度量指标(如 LPIPS58)对所提出的 NTSCC模型和其他端到端传输模型进行性能评估。PSNR 对应于像素级的欧式距离,因此在评估模型在 PSNR 上的表现时,将失真函数d设置为信源图像x和重构图像 x间的均方误差MSE。当评估 MS-SSIM 指标时,失真函数 被设置为 1MS-SSIM 以最小化。更高的58IMT-2030(6G)推进组IMT-2030(6G)Promotion GroupPSNR/MS-SSIM 指数意味着更好
149、的传输表现。然而,即便 PSNR 和 MS-SSIM 被广泛用作经典图像质量评价指标,它们仍旧是简单且固定的函数,难以反映人类感知的诸多细微差别。本节进一步采用了基于深度学习的 LPIPS 指标作为量化图像传输效果的语义感知损失。LPIPS 取值范围为 01,LPIPS 值越小表示损失越少。以下分不同指标给出非线性变换联合信源信道编码的图像编码传输性能及对比。1)PSNR 性能。图 5-29(a)和图 5-29(b)展示了 PSNR 与 AWGN 信道不同 SNR 的关系,CRB 设置为116km。对于分离式方案,通过评估 LDPC 码率和调制的不同组合的性能,得到了在每个 SNR 下最佳性能
150、配置的性能曲线的包络。由于 NTSCC 方法学习到了一种速率匹配机制,因而可以通过微调模型训练超参数,确保其最大信道带宽比低于116,以达到公平的比较。结果表明,NTSCC 系统表现出显著性能提升,相较于 Deep JSCC、JPEG+LDPC 和 JPEG2000+LDPC 至少提升 1 dB。此外,如图 5-29(c)所示,当 SNR 逐渐降低时,NTSCC 表现出和 Deep JSCC 同样平滑的性能下降,然而基于分离式的“BPG+LDPC”传输方案的性能出现陡降(被称为“悬崖效应”),这是由于信道译码出现差错导致信源译码出现明显差错传播效应。图图5-295-29 PSNRPSNR与与A
151、WGNAWGN信道信道不同不同SNRSNR的关系的关系2)MS-SSIM 性能。图 5-30(a)和图 5-30(b)展示了 SNR=10 dB 的 AWGN信道上 MS-SSIM与 CBR 的关系;图 5-30(c)和图 5-30(d)展示了 MS-SSIM 与 AWGN 信道不同 SNR 的关系,CBR 设置为116km。由于 MS-SSIM 的值介于 0(最差)和 1(最好)之间,并且绝大多数值高于 0.9,本文将 MS-SSIM 值转换为 dB 以提高易读性。结果表明,NTSCC很大程度上优于其他方案,并且在高 CBR 区域具有更高的性能增益。与 PSNR 指标下的结果相比,易发现 B
152、PG+LDPC 的结果普遍差于深度学习驱动的语义通信方案。59IMT-2030(6G)推进组IMT-2030(6G)Promotion Group3)LPIPS性能。除了上述 PSNR和 MS-SSIM 失真度量外,面向语义通信目标,本节进一步使用以人类视觉感知为导向的 LPIPIS 损失函数训练 NTSCC 模型,LPIPS 度量能对齐人的感知体验。图 5-31展示了 SNR=10 dB的 AWGN 信道上 LPIPS与 CBR的关系,LPIPS值越小表示失真越小。对于端到端语义通信传输方案(Deep JSCC和 NTSCC),图 5-31 在括号中标记了 PSNR 和 MS-SSIM 以指
153、示模型的训练目标。NTSCC(Perceptual)曲线表示以式的 RDP感知损失函数来优化模型。显然,感知优化的 NTSCC在性能上远优于其他方案。图图5-305-30 MS-SSIMMS-SSIM与与C CBRBR和和S SNRNR的关系的关系图图5-315-31 SNR=10dBSNR=10dB的的AWGNAWGN信道上信道上LPIPSLPIPS与与CBRCBR的关系的关系60IMT-2030(6G)推进组IMT-2030(6G)Promotion Group5.10.3 结论本节提出了面向语义通信的端到端非线性变换编码传输新框架。首先,基于变分理论推导出了语义通信端到端率失真优化准则。
154、据此,设计了非线性变换来提取信源数据在语义隐空间的紧致表征,并通过语义变分熵建模引导实现了可变速率的联合信源信道编码。结果表明,语义非线性变换编码能显著提升端到端数据传输性能及鲁棒性,是实现语义通信的关键技术之一。本节提出的编码技术面向高保真/优人类感知体验的端到端数据传输设计,未来可进一步扩展到机器类智能任务主导的端到端语义通信场景,具有广阔的研究前景。5.11 生成式的联合信源信道编码模型现代通信中,图像和视频数据的通信数据量呈指数性增长,越来越多的人喜欢通过图像和视频进行分享和交流。随着图像和视频通信数据的增长,现有的通信资源逐渐不足以支撑如此庞大的流量。而语义通信作为一种提高通信效率的
155、有效手段,并且语义通信能够更好的抵抗噪声,非常适用于高吞吐的图像/视频通信场景11。现有很多关于图像语义通信的研究,其中有代表性的是 Generative Joint Source ChannelCoding(Generative JSCC)模型14。Generative JSCC 具体结构如图 5-32 所示,利用神经网络提取图像特征向量进行传输,能够有效降低通信开销。实验证明,Generative JSCC的图像重建能力显著强于普通的 JSCC,更加适用于现代图像/视频的应用场景。图图5-325-32 GenerativeGenerative JSCCJSCC模型模型一个典型的应用是在偏远
156、山区等信号覆盖较小、传输带宽分配较少的场景进行图像/视频通信。由于 Generative JSCC能够显著的节省带宽,并且在 SNR较低的场景下,GenerativeJSCC 也能够保持较好的图像重建性能,这类图像语义通信能够很好地支撑偏远山区的图像/视频通话业务。由于 Generative JSCC 使用了神经网络代替了传统通信中的信源编码、信道编码和调制解调模块,因此需要使用大量的数据进行训练之后才能保证神经网络具备较好的泛化性。另外 Generative JSCC 只适用于图像/视频传输的场景,因为 generator 是一种图像生成模型。这61IMT-2030(6G)推进组IMT-20
157、30(6G)Promotion Group就导致了对于其他的业务,例如文本和语音传输需要使用其他模型,增大了语义通信落地的成本。在图像语义通信实现产业化和实际部署过程中需要考虑设备计算资源的具体情况。以无线下行图像通信为例,如图 5-33 所示,基站侧需要将图像提取出特征向量进行传输,基站作为计算资源比较丰富的设备,进行图像语义抽取较轻松。而对于移动终端或者是 IoT 设备,由于计算资源有限,往往只能支持轻量级的模型。因此,在产业化过程中,需要对模型进行压缩之后才能部署在移动终端和 IoT 设备。图图5-335-33 图像语义通信的实际部署图像语义通信的实际部署5.12 波束质量上报在 AI
158、波束管理用例中,当基站进行训练数据收集或模型监视时,需要 UE 将所有收发波束对的波束质量上报给基站。在现有的 5G 通信协议中,UE支持最大 4个质量最强波束的上报。具体方案为最强 L1-RSRP测量值采用 7bit 量化,用于表示-140,-44 dBm 范围,步长为 1dB。剩余 3 个次强波束采用差分 L1-RSRP 上报,即与最强 L1-RSRP 测量值的差值量化为 4bit,步长为 2dB,即可以表示的波束质量范围是 30dB,无法满足波束质量标签数据变化的表征需求。并且,如果将可上报的波束个数从 4个改为所有波束对个数(例如 256,512,1024),又进一步增加上报开销。为此
159、,可以考虑面向波束质量上报的语义通信方法。图 5-34 表示了收发波束对 L1-RSRP 的热力图。横坐标标识发送波束标识 132,纵坐标是接收波束标识 18。为了降低波束质量上报开销,UE 先根据共享知识库提取波束质量热力图的语义特征,再通过 Encoder。在 Encoder 时,可以根据不同 patch 的重要性,分配不同的量化步长。在基站侧将接收信号通过 Decoder,再根据共享的知识库恢复出波束质量热力图。62IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图5-345-34 收发波束对收发波束对L L1-RSRP1-RSRP的热力图的热力图在
160、 AI 波束管理用例中,当基站进行训练数据收据或模型监视时,可以利用收发端共享的知识库提取波束质量热力图的语义信息,进而降低波束管理标签数据上报时的通信开销。63IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第六章 语义通信的物理层技术语义通信通过存在于发送端和接收端的共享知识进行语义信息的提取和重建,目前的语义通信研究多基于深度学习来提取语义特征,这也使得变化的无线传输环境影响了通信质量。传统的物理层模块为了最小化比特错误,将调制、信号检测和信道估计等模块分开进行优化,使得传输难以达到最优的语义指标。因此,需要对传统物理模块进行调整,以适应语义通信的需求
161、。本章节将介绍工作组在面向语义通信的物理层技术设计的一些工作。6.1 面向语义通信的信道表征学习与自适应调制6.1.1引言语义通信通过构建传输背景知识库、感知传输内容,大大节省传输带宽,提升传输质量,在文本、图像和语音传输领域得到广泛应用。用于文本、图像传输的语义通信系统,可以有效地从文本、图像中提取语义信息,同时最大化系统容量。此外,一些用于语音传输的语义通信系统,采用注意力机制来捕捉语音信号的关键特征,提升语音中的语义的传输准确性。然而,上述研究使用深度学习来提取语义特征,导致端到端语义通信系统难以适应变化的无线环境。为了构建完整的语义传输系统60,语义通信正逐步与无线通信物理层融合61-
162、64。传统的物理层模块,如调制、信号检测和信道估计,通常是独立优化的,以最小化比特错误,难以达到语义指标的最优化。因此,需要对传统物理模块进行调整,以适应语义通信的需求。基于此,本节从修改物理层模块出发,提出两种优化方法:一是基于语义分割的图像传输系统,利用信道信息对传输内容进行保护,以适应变化的无线信道;二是考虑句子的语义相似度的自适应调制方案,以适应语义系统的需要。6.1.2研究进展基于语义分割的图像传输系统在文献61中提出,结构如图 6-1 所示。对于图像分类任务,图像中的物体部分具有更重要的作用,而背景部分对分类准确性影响较小。因此该系统在图像传输的过程中,首先通过语义分割技术将图像分
163、割为物体和背景部分,并对分割后的图像进行编码;接着考虑无线信道和信道状态信息(CSI)对网络设计的影响,根据传输系统不同子载波上的信噪比(SNR),对语义分割后的特征保护,即在低信噪比下优先传输保护影响分类准确性的物体部分,在高信噪比下进一步保护背景信息。64IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图6-16-1 自适应调制与信道信息指导的语义图像传输系统结构自适应调制与信道信息指导的语义图像传输系统结构图 6-2 展示了图片传输分类准确性和 MSE 性能,结果显示提出的基于 CSI 的图像语义分割编码(SS-CSI)在不同的信噪比上都能取得较好的
164、分类准确率和均方误差性能。(a)不同信噪比下均方误差性能比较(b)不同信噪比下物种识别准确率性能比较图图6-26-2 基于语义分割的图片传输系统性能比较基于语义分割的图片传输系统性能比较在传统调制技术中,如 QAM 和 PSK等,假设所有比特重要性相同,因此星座点均匀分布。然而,在实际传输中,不同语义特征的重要程度并不相同。因此文献60中提出了一种自适应调制技术,类似于图 6-1 描述的自适应调制技术,考虑端到端语义联合信源信道编码(JSCC)方法,将每个符号编码成 4 比特,并通过神经网络将每个比特映射为代表二维坐标的两个实数,从而形成一个具有 16 个位置的星座点集合。然后,以最大化句子相
165、似度为目标,通过端到端训练将句子调制为 80 个星座点,使相似的句子可以被映射到相近的星座点。65IMT-2030(6G)推进组IMT-2030(6G)Promotion Group(a)学习到的自适应调制星座点(b)不同信噪比下句子相似度性能比较图图6-36-3 学习到的星座点与相似度性能比较学习到的星座点与相似度性能比较图 6-3(a)展示了训练得到的星座点,点之间的距离基于句子相似度而变化。从图 6-3(b)可以观察到相比于 16-QAM,训练的调制方式在感知相似度方面具有更好的性能。而在高信噪比下,一些点由于距离太近无法正确检测,从而导致训练的调制方式性能略差于16-QAM。6.1.3
166、结论本小节介绍了语义通信物理层的研究背景与现状,分析了相关研究的局限性,然后阐述了两种物理模块语义化设计方法。其中,基于语义分割的图像传输系统,利用 CSI 信息实现了在不同的信噪比上的性能增益;自适应调制方案则根据句子相似度将相似句子映射到相邻的星座点,提升感知句子相似性的能力。因此,通过对物理层模块进行专门的语义化设计可以更好地适应相应的语义任务,有望提升语义通信在网络层、应用层等更上层结构中不同语义任务的性能。同时,目前的设计仍然存在一些问题,如网络经端到端训练后参数固定,难以适应所有的语义任务场景,且 CSI信息的准确性也会对其指导的语义传输系统造成影响,故后续研究需要聚焦于提升语义通
167、信物理层系统的鲁棒性和泛化性,以适应实际的通信场景与语义任务需求。6.2 联合语义编码与数字调制6.2.1引言语义通信系统普遍使用的模拟调制技术,将神经网络编码的实数输出直接送入信道。然而,这种方式无法与现有数字通信系统所兼容。语义通信系统之所以较少使用数字调制,是因为数字调制的内在机制使其等效为一不可导函数,无法用基于随机梯度下降的神经网络进行优化。为实现数字调制,现有的数字语义通信系统对实数输出进行量化,包括均匀量化和66IMT-2030(6G)推进组IMT-2030(6G)Promotion Group基于神经网络的量化。然而,量化过程并未考虑信道噪声,因此会造成性能损失。本节介绍一种面
168、向数字语义通信的联合语义编码与调制技术65,可有效解决数字调制不可导问题以及调制与信道不匹配问题。6.2.2研究进展图图6-46-4 联合编码调制系统框图联合编码调制系统框图本方案65用神经网络学习发送星座点的概率,而非学习一映射函数,以此来解决数字调制不可导的问题。为解决调制与信道不匹配问题,本方案使用一个神经网络联合设计编码与调制,并与接收端在信道噪声下共同训练,以此得到可以匹配信道噪声的调制策略。联合编码调制系统框图如图 6-4 所示。联合编码调制系统基于 VAE概率编解码器架构,包括一个发送端处的联合编码-调制模块与一个接收端处的解码模块。在发送端,有一个信源,此信源由语义信息通过一个
169、未知转移概率生成,在接收端处分别恢复为?和?。联合编码-调制模块由概率编码调制器和星座符号生成器组成。概率编码-调制器学习从信源到信道输入的转移概率(|,),其中,表示神经网络参数。根据该转移概率,星座符号生成器使用可导的采样方法生成一个 M 阶调制的数字序列,即信道输入。信道被建模为加性白高斯噪声(AWGN)信道,因此,接收序列可以表示为?=+,为独立同分布的高斯噪声,每一个分量的均值为 0,方差为2。在接收端,解码模块使用两个概率解码器分别解码信源信息与语义信息。给定接收序列?,两个解码器分别估计出信源信息与语义信息的后验概率,,(|?,)与,(|?,),其中,和分别为神经网络参数。信源信
170、息与语义信息通过最大似然解码进行恢复。本方案以最大化互信息为原则对联合编码调制系统进行优化,将目标函数确立为;?+;?#5.2.1其中,为平衡两项互信息重要性的超参数。由于基于互信息的目标函数难以估计,且并未考虑解码端的神经网络的优化,本方案利用变分学习的方法推导出这一目标函数的变分67IMT-2030(6G)推进组IMT-2030(6G)Promotion Group下界,并以此变分下界为损失函数对编码调制器概率(|,)以及解码器概率,(|?,)与,(|?,)进行端到端的联合优化。变分下界由下式给出:;?+;?,?,?,+?,?,+(5.2.2)其中,=()+()为一个常数。通过最大化此变分
171、下界,解码器概率,(|?,)与,(|?,)可以不断逼近真实后验概率 p(|?)与 p(|?),从而提高解码性能,编码-调制器也可以更好地最大化互信息。(a)分类准确率性能(b)PSNR性能图图6-56-5 不同不同SNRSNR和调制方式下的系统性能和调制方式下的系统性能图 6-5 展示了不同 SNR 与不同调制方式下的系统性能 channel use 为 1024,数据集为CIFAR10。其中,图 6-2(a)展示了不同信噪比下的分类准确率。可以看出,联合编码调制系统有明显的性能优势,尤其在低信噪比区域。例如,SNR=-12dB 时,联合编码调制系统在BPSK 下取得了 54.9%的正确率,比
172、其他方案至少高 20%。图 6-2(b)展示了不同信噪比下的图像恢复 PSNR 性能。在低信噪比区域,本方案的图像恢复 PSNR 远超其他方案。在高信噪比区域,虽然模拟调制方案有更高的 PSNR,但是本方案可以仍好于其他数字调制方案,并68IMT-2030(6G)推进组IMT-2030(6G)Promotion Group随着调制阶数的不断增高,逐渐接近模拟调制方案性能。6.2.3结论本节提出了一个联合编码调制数字语义通信方案。通过使用一个神经网络联合学习编码和调制,本方案可以学习到与信道状态匹配的调制策略。实验结果证明了本方案的优越性。在低信噪比区域,联合编码调制方案有优于现存的数字语义通信
173、方案以及模拟调制方案;在高信噪比区域,联合编码调制方案优于现存的数字语义通信方案,且性能接近模拟调制方案。6.3 基于卡尔曼滤波的端到端空口设计6.3.1引言70 年前,在信息论创立之初,Dr.Weaver 将通信问题分为三个层次21:通信符号能以怎样的准确程度进行传输?(技术问题)被传输的符号能以怎样的精确程度表达其中的语义?(语义问题)符号中的语义能以怎样的有效程度影响后续的操作?(效用问题)对于技术问题(第一层次),虽然随着无线通信系统的发展,无线资源使用的频谱效率逐步提高,但传统的模块化设计使通信链路难以进行全局优化。同时,面对持续增长的传输数据量,我们还需要考虑更高层次的通信(第二和
174、第三层次),即实现收发端的有效交流,而不是数据的精准复制。面对上述问题,本文提出了一种智能无线空口设计方案,结合卡尔曼滤波和自编码器,实现灵活、鲁棒的端到端空口。基于神经网络的智能无线空口技术是面向 6G 的原生智能通信系统的重要研究方向之一。如文献66中所论述,其链路模型下图 6-6 所示,发送端和接收端都基于神经网络处理收发信号并适应传输环境变化,发射机则可通过接收相应的反馈信息完成相关的优化。区别于传统模块化通信系统的设计,智能无线空口技术有希望能最大限度的挖掘收发机性能空间以及灵活适配无线空口传输环境的性能潜力。69IMT-2030(6G)推进组IMT-2030(6G)Promotio
175、n Group图图6-6 端到端智能通信系统端到端智能通信系统66当前有许多关于使用深度神经网络(DNN),特别是使用自编码器(Auto Encoder)来训练无线收发器的研究工作。在理想假设的情况下,收发端的神经网络可以通过随机梯度下降算法直接训练并优化神经网络参数。但是在无线传输过程中,由于信道响应未知,梯度无法准确反向传播到发送端,这是直接将 Auto Encoder 简单套用于无线通信链路中所存在的最大问题。随后在如文献67利用已知的统计信道模型,离线端到端训练神经网络,然后在实际部署后,在线调整接收端的译码神经网络。文献68利用扰动统计优化,计算模型在发送端的近似梯度,用于神经网络的
176、训练。文献69利用强化学习,交替训练收发机,其中接收机利用真实梯度训练,发送机利用近似梯度训练。文献70利用条件生成对抗网络代替信道,利用导频并进行编译码神经网络的端到端训练,等等都提出了一些尝试解决该问题的方法。现有通信系统中,由于真实信道和估计信道之间存在误差,因此尽管基于 DNN 的自编码器可以训练收发器以适应特定类型的已知和静态多维信道来传输相关的信息,然而,时变的、受噪声干扰的多天线无线信道会导致预先训练的收发机出现性能次优的情况。此外,当不可预测的信道条件出现(等同于训练数据集出现异常值的情况),预训练的收发机的性能将急剧下降。产生此种情况的主要原因是因为组成收发机的神经网络单元在
177、推理阶段都被冻结,且不具有适应环境变化可调整性。本小结在介绍一种新型的智能空口设计方法。在 AE 结构中的编码器之后通过级联基于卡尔曼滤波算法的控制层,提出了一种 KF-AE 级联结构。区别于现有 AE 方法对信道模型已知的依赖,该方案是一种高鲁棒性、快速收敛的端到端智能空口结构与训练方法71。70IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图6-76-7 卡尔曼滤波卡尔曼滤波端到端端到端智能空口智能空口如图 6-7 所示,将卡尔曼滤波和 AutoEncoder 结合的智能空口设计可视为更为合理的解决方案。其主要思想是在 AutoEncoder 编码器
178、的最后一层后添加相应的线性控制层。将该控制层的每个参数建模为随机游走的变量,并将其视为控制量,通过卡尔曼滤波的方法跟踪其参数变化并进行参数估计和训练。具体的训练步骤如下:(1)预设编码器控制层的参数与初始协方差,采样得到多组控制层先验参数。(2)输入一批训练数据,通过前馈计算出自编码器的损失函数值。(3)将损失函数值作为观测值反馈给编码器,通过卡尔曼滤波方法更新编码器的控制层参数和误差协方差,并更新解码器的网络参数。(4)可利用卡尔曼增益更新编码器的其他参数。上述步骤将卡尔曼滤波和编码器、解码器的训练联系在一起,且控制层的参数通过预测和观测迭代更新,因此无需获取信道模型。此外,该方法还可以保留
179、编码器网络所提取的传输信息的特征,并通过最大后验估计来更新控制层中的参数。针对信道是否可以建模为可微函数,我们提供了两种控制层设计方法:对于线性或弱非线性信道等可建模为可微函数的信道场景,可以使用扩展卡尔曼滤波方法;对于强非线性信道,可使用容积卡尔曼滤波方法。6.3.2研究进展考虑线性或弱非线性信道,如 AWGN 信道或非线性模拟信道,其信道模型可以建模为可微分函数。此时,可以利用监督学习的方法完成收发机网络的训练。在此基础上,为了应对扰动的信道环境,我们使用扩展卡尔曼滤波方法对编码器的最后一层进行优化,从而提升模型的鲁棒性。n是维度为 n的第 k步控制层网络参数,它是卡尔曼滤波的状态向量,为
180、维度为 M 的自编码器理想输出,即卡尔曼滤波的测量向量。此时,卡尔曼滤波的71IMT-2030(6G)推进组IMT-2030(6G)Promotion Group“运动方程”和“测量方程”可以写为=1+1#5.3.1=;+#5.3.2其中,1为预测噪声,为测量噪声,;为观测函数,为输入的数据样本。预测过程可以表示为?|1=11:1=?1|1|1=1|1+1其中,表示条件期望,设预测噪声协方差1=11|1随迭代逐渐减少,0,1 为遗忘系数72。同时,通过扩展卡尔曼滤波对校验过程中的观测函数;一阶泰勒展开,可以表示为;=;?|1+;?|1?|1#5.3.3其中,那么预测观测函数可以表示为?|1=;
181、?|1#5.3.4为了减少反馈的通信开销,可以通过将原来向量表示的测量方程改写为计算得到的交叉熵损失函数k=|1;?|1,将其作为反馈的标量观测量。定义=;?,则卡尔曼增益和网络参数可以分别表示为=|1|1+1#5.3.5|=|1+#5.3.6由于信道是可微分的,因此其余层的参数可以使用随机梯度下降法进行更新。考虑强非线性信道,我们采用容积卡尔曼滤波方法进行训练。此时卡尔曼滤波的预测过程和校验过程中的高斯加权积分可以近似为?,?12=12+?#5.3.7其中令协方差=,为正交点,表示为=1;1 1;+1 2#5.3.8其中 R表示第个基本列向量。那么,利用容积卡尔曼滤波法更新编码器控制层的参数
182、方法如下72IMT-2030(6G)推进组IMT-2030(6G)Promotion Group=?1|1+1,=1,2,2#5.3.9此时,估计预测值=(,;)。进而可以得到=12=12?+#5.3.10=12=12?#5.3.11其中?和?分别为和的均值。卡尔曼增益=1。除控制层外,编码器的其余层参数的梯度可以通过卡尔曼增益来进行估计。控制层的参数更新过程可以表示为+1=1#5.3.12其中为控制层的输出值,1为编码器第 1 层的输出值。用卡尔曼增益更新方式近似神经网络参数更新方式,有?|1=1#5.3.13那么,第 1 层的参数更新过程可以表示为1+1=1 1=1 111=1+?|11+
183、2#5.3.14其余层的训练过程类似1+表示层的伪逆。该方法可以保留容积卡尔曼滤波的稳定性和高效性,且可以保留 DNN 提取的特征信息。仿真测试考虑如下的编解码器设置:编码器网络拥有 2 层隐藏层,每个隐藏层包含 32个单元和 Tanh 激活函数,控制层的参数为 32 2+2=66 个;解码器网络拥有 1层隐藏层,包含 32 个单元和 Tanh 激活函数。在每个迭代过程中,batch 值=256,且 AWGN 信道的信噪比服从均匀分布0 10,25 dB,调制阶数为 4 阶。73IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图6-86-8 RBFRBF下
184、下1000010000迭代的迭代的误码率误码率图 6-8 刻画了在 Rayleigh block fading(RBF)信道下经过 10000 迭代训练后基于容积卡尔曼滤波和基于强化学习策略梯度的误码率变化。从图中可以看到,相比于基于强化学习策略梯度(PG)的训练方法,基于容积卡尔曼滤波(CKF)的训练方法拥有更快的收敛速度。6.3.3结论本部分讨论了无线智能空口技术及其面临的技术挑战,讨论了现有研究工作直接将自编码器套用在无线通信链路中的局限性,介绍了将卡尔曼滤波和自编码器相结合的智能空口解决方案。74IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第七章
185、 语义通信的链路层技术语义通信中不同节点的能力存在不均衡性,实际应用场景存在动态变化。如何依据应用场景的实际情况以及不同节点的需求和能力灵活地部署相应的模型,设计传输机制,并进行合理的资源分配,以提升语义恢复准确度和降低服务响应时延,是语义通信的一个关键挑战。本章节将介绍工作组在面向语义通信的链路层技术上的一些工作。7.1 面向语义通信的混合自动重传请求和语义相似度检测7.1.1引言深度学习的巨大成功使许多语义任务成为可能,因此语义通信正在成为热点研究方向之一。传统的通信系统专注于比特或符号级性能,而语义通信则以传递语义信息为目的。现阶段关于语义通信的研究在语义提取方法、语义度量方法和语义通信
186、架构等方向有了一系列进展,如利用长短时记忆(LSTM)结构实现擦除信道下的句子传输,基于 Transformer 的语义收发器 DeepSC 等,但现有研究存在无法根据信道动态改变编码长度,灵活性有限,且无法确保语义信息的可靠传输等问题。在传统通信中,混合自动重传请求(HARQ)可以保证传输的数据包根据确认反馈被正确接收,是实现可靠传输的重要组成部分,被广泛应用于现代移动通信系统中。因此考虑将语义通信和 HARQ 结合,从解决语义通信的可靠传输和灵活性入手,提出一种基于语义通信的增量混合重传请求 SCHARQ73。7.1.2研究进展SCHARQ结构如图 7-1 所示,其中红色虚线左侧是省略 C
187、RC 校验和 Sim32 相似度检测的 SCHARQ整体结构,右侧是单次传输的编解码和校验过程。75IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图7-17-1 SCHARQSCHARQ结构和单次传输的编解码和校验过程结构和单次传输的编解码和校验过程有对编码器和解码器用于次传输。句子在第次传输时经过编码器编码得到第次传输的增量位,经过信道被接收端接收得到?,?经过解码器解码得到?。接收端用 CRC 校验?,如果通过 CRC 错误检测,则获得最终结果,不需要后续传输。如果无法通过 CRC 错误检测,表示本次传输不能获得正确的句子。接收端将错误信息反馈至发送
188、端,发送端再次传输增量位+1,直至通过 CRC错误检测。接收端联合接收到的全部?,解码得到最终结果?。的长度作为超参数决定了每个编码器的输出维数,这些超参数根据 HARQ 的传输目标设置。在第一次传输中,传输位长用于良好的信道环境,需使得多数信源内容可以被编码而没有任何信息损失。然后设置接下来的传输位长,以恢复较差信道下的长句子。编解码器分别由语义编码器、量化器和语义解码器、解量化器组成,具体结构如图 7-2所示。其中,语义编解码器和主要由 Transformer、全连接网络等组成,实现对信源的语义编解码、语义信息压缩和解压。量化器和解量化器1主要由全连接网络组成,将高维向量量化为待传比特并根
189、据句子长度和信道信息控制量化后的比特数。图图7-27-2 编码器和解码器的具体结构编码器和解码器的具体结构两个句子的语义相似度可以用预训练模型 BERT 编码这两个句子,并使用编码后高维向量间的余弦距离衡量它们的语义相似度。为了在面向语义通信的 HARQ 系统中进行重传判断,需要接收端获取原始句子和重建句子的语义相似度。但原始句子的语义信息在接收端不可获得,因此提出 Sim32 相似度检测网络替代 CRC 校验,如图 7-1 绿色虚线框中的内容。76IMT-2030(6G)推进组IMT-2030(6G)Promotion Group其中 Sim32 Encoder,Decoder 结构与 SC
190、HARQ 的编码器、编码器类似,Sim32 Encoder 输出32 位比特替代用于 CRC 校验的 32 位比特。当 Sim32 Decoder 的输出结果大于设定阈值时,表示接收句子的语义信息损失在可接受范围内,认为传输成功,否则传输失败。为了提高检测结果的可靠性,进一步结合 CRC 和 Sim32 提出 CRC-Sim32 校验方案,即在接收端先进行CRC校验,在不满足 CRC校验前提下再进行 Sim32 相似度检测。SCHARQ 对比不同方案的性能结果如图 7-3 所示。在低 BER 情况下 SCHARQ 性能略低于 SC-RS-HARQ 和传统 Huffman-RS-HARQ,在高
191、BER 情况下相反,但 SCHARQ 整体待传比特数远小于其他方案。CRC-Sim32 错误检测方案整体性能优于 CRC和 Sim32。图图7-37-3 SCHARQSCHARQ与其他方案的性能对比与其他方案的性能对比7.1.3结论本方案将 HARQ 技术引入语义通信提出端到端的 SCHARQ,该架构具有较高的灵活性和效率,可以通过传输增量比特来解决不同句子长度和不同信道条件的问题,同时提高语义信息传输的可靠性。为了充分发挥语义编码器的潜力,本方案介绍了一种名为 Sim32的相似度检测方法来检测估计句子中的语义错误,并将其与 CRC 相结合,得到的方案称为 CRC-Sim32。所提出的错误检测
192、方法允许接收相似的句子,从而可以传输更多句子,特别是在误77IMT-2030(6G)推进组IMT-2030(6G)Promotion Group码率较高的情况下。上述面向语义通信的混合自动重传请求和语义相似度检测在一定程度上解决了语义通信中语义信源编码灵活性差、传输可靠性低等问题,使语义通信系统能够利用无线信道环境并具备新的语义错误检测机制,从而进一步提升通信可靠性。但是语义通信与物理层融合仍然处于探索初期,还面临着比如多模态信源、不同的语义指标和高效语义编码等问题和挑战,亟待未来展开进一步讨论与研究74-75。7.2 动态数据环境下的语义通信系统7.2.1引言现有研究多集中于理想环境下的语义
193、通信研究,即经验数据的分布与实际应用时观测到的数据分布一致。而在现实场景中,因采集数据的环境可能发生变化,故经验数据和实际数据的分布也往往并不一致,仅依靠神经网络泛化性不足以保证通信的质量。以无人机采集图像数据并回传为例,随着无人机地理位置的变化,如在公路、草地、雪地等不同环境中,图像数据的分布会有巨大的差别。本节介绍一种由上海交通大学团队提出的基于数据适应网络的语义通信系统框架,能有效应对动态数据环境,提高语义编译码在不同数据环境下的泛化性76。7.2.2研究进展所考虑的语义通信系统框架如图 7-4 所示,它包含数字适应网络和语义编码网络两个主要部分,其中数据适应网络采用了迁移学习中的域适应
194、(Domain Adaptation,DA)技术,可以解决动态数据环境的问题并且不会产生额外通信开销。系统先使用经验数据集对语义编码网络进行训练。语义通信与传统编码相比的本质区别在于语义通信不仅需要保证数据恢复的性能,还需要保证语用性能。因此损失函数由语义信息失真和可观测信息失真组成,定义如下1,2,?,?=ob,?+1 pr,?#6.2.1其中ob和pr分别为可观测信息和语用输出的失真度量函数,超参数随着语义编码码率变化,被用来平衡可观测信息和语用输出的失真度量函数;当两种失真函数的定义不同时,超参数用于缩放失真ob的值,以便与失真pr的动态范围对齐。78IMT-2030(6G)推进组IMT
195、-2030(6G)Promotion Group图图7-47-4 基于数据自适应网络的语义通信系统基于数据自适应网络的语义通信系统在系统工作阶段,当实际观测数据集与经验数据集的分布不同时,数据适应网络对实际数据进行处理,尽可能将可观测数据转换为与经验数据分布类似的数据,同时保证转化前后的语义信息不变。具体来说,本节使用 Cycle-GAN 实现了数据自适应功能。如图 7-5 所示,该网络包括两对生成器和判别器,并且包含一对对称的循环生成组,其中一个循环(红色线)是将观测到的数据转化到经验数据再转化到观测到的数据,再将其转化回与实际观测数据分布相同的数据。判别器用以对观测到的实际数据和最终生成的
196、数据进行判别,当无法区分两者时代表生成器可以成功转化。另一个循环(黑色线)则将经验数据转化到观测到的数据,再将其转化回与经验数据分布相同的数据。判别器同样用以对观测到的实际数据和最终生成的数据进行判别,当无法区分两者时代表生成器可以成功转化。该数据自适应网络具有以下优点:1)不需要太多被标记的训练样本;2)可以继续使用原始的语义编码器而不需要重新训练;3)使语义通信系统更具可扩展性。图图7-57-5 数据自适应网络架构数据自适应网络架构在该语义通信系统的仿真中,使用经验数据集为 MNIST 数据集进行语义编码器的训练,而实际观测到的数据集是 SVHN 数据集,考虑的语用任务是数字识别。本文采用
197、重新训练编译码器的方案作为性能理论上界,与依靠神经网络泛化性直接传输的方案作对比。如图 7-6 所示,团队提出的采用 DA 的方案能基本达到性能上界,并且相对于原始系统能带来大量的语义信息准确度增益。图 7-7 展示了 DA对图片的转化效果,针对的语用任务是数字识别。可以看出 DA 转化后,图片的风格发生了很大的改变,但是语义信息(数字)保持不变。79IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图7-67-6 数据自适应性能展示数据自适应性能展示(a)原始 SVHN(b)DA转化 SVHN图图7-77-7 数据自适应转化的可视化效果数据自适应转化的可视
198、化效果7.2.3结论本节介绍了一种应对动态数据环境的语义通信系统,该系统引入了一种基于域自适应的方法,以节省再训练语义编码网络的通信成本。结果表明,数据适应网络的性能接近重新训练的上界。相关研究可以加速语义通信在实际场景中的部署,比如语义通信在物联网设备或无人机上的实际应用。7.3 针对联合信源信道编码系统容量优化的资源分配算法7.3.1引言语义通信是一种新型通信范式,不同于现有通信系统中不考虑任务语义的信源信道编解码,语义通信系统提取任务相关的语义信息进行编码传输,可以有效降低通信量,并且可以在窄带宽、高噪声的情况下进行通信。目前大部分与语义通信相关的工作都集中在语义信息的提取,对其在资源分
199、配相关的研究比较少。而有效的资源分配对通信系统性能的提升有着重要的影响,因此,关于语义通信系统的资源分配的研究很有必要。本文提出了一种语义通信场景下的下行资源分配算法。在该场景中,每个用户都有一个时延的约束和一个通信性能的约束。我们提出一种联合语义压缩和资源分配算法,在满足用户时延和性能需求的情况下,最大化系统所能服务的用户数。80IMT-2030(6G)推进组IMT-2030(6G)Promotion Group7.3.2研究进展如图 7-8 所示,我们考虑一个语义传输的网络,一共有 K 个用户,基站会向每个用户传递语义信息,以支撑用户完成某种任务,在这里,我们以图像传输任务为例,需要说明的
200、是,这并非针对于图像传输任务,对于其他语义传输任务也是一样的。由于每个用户对时延和性能的要求不同,用户会向基站端传递其时延和性能的要求,并且同时反馈其与基站之间的信道状态信息(CSI)。基站在接收到每个用户的传递信息之后,会根据接收到的信息进行一个资源分配。对于基站来说,不同的性能需求意味着不同的传输数据量,如果用户对任务的需求比较高,那么我们需要传递更多的数据量,反之,如果用户对任务的需求比较低,那么所需的数据量比较少。因此,我们可以根据用户的性能要求和时延要求,自适应地决定语义压缩的比例,根据不同的压缩比例,选取对应的语义压缩的网络,以 JSCC 为例,不同的压缩比对应着不同的网络。在选取
201、对应的压缩网络将数据编码之后,基站将压缩得到的数据进行发送,并且将对应的网络编号发送给接收端,接收端用户根据对应的编号,选取对应的解码网络77。图图7-87-8 语义通信网络示意图语义通信网络示意图我们先定义一个效用函数。对于用户 k 来说,假设其时延要求为,其性能要求为,在这里,由于是考虑图像传输任务,因此我们把图像传输任务中常用的性能指标 PSNR 作为性能指标,这个性能指标是关于压缩比和信噪比的函数,并且其函数表达式由语义通信的网络模型所决定。在这里,我们假设一个用户如果它的时延要求和性能要求都得到了满足,那么这个网络的效用函数则为 1,否则为 0。=1,if ,0,otherwise.
202、#6.3.1我们的目标是联合语义压缩,功率分配,用户资源块配对,最大化系统的支持的用户数,即81IMT-2030(6G)推进组IMT-2030(6G)Promotion Group1:max,=1?,s.t.,0,1,?,1,?,1,=1?=1?,1,2,.其中,,表示用户-资源块配对情况,即,=1 表示第 m 个资源块分配给了第 k个用户,否则,=0,是关于第 k 个用户传输图片的压缩比,,是基站在第 m 个资源块上分配给用户 k的功率。前三个约束保证了一个资源块最多分配个一个用户,一个用户最多占用一个资源块;第四个约束是关于功率的约束,第五个约束保证了压缩比是在给定的范围内选取。这是一个混
203、合整数非线性优化问题,比较难以解决,为了求解,我们将其分解为两个子问题,分别对子问题进行解决,并且,我们证明了两个子问题的最优解就是原问题的最优解。首先,我们先求解在每种可能的用户-资源块配对情况下,满足用户时延和性能所需要的最小的功率。其次,我们在得到各种用户-资源块配对所需的最小功率的情况下,进行最优用户-资源块配对。两个子问题分别对应于2 和3。2:min,s.t.,1,2,.3:max,=1,s.t.,0,1,1,1,=1=1,其中,,表示在将资源块 m 分配给用户 k 之后,满足用户时延和性能所需的最小功率。之后,我们又通过一系列转换的方法求出了问题3 的解。仿真结果如下所示,从图
204、7-9 中可以看出,所提出的算法在相同功率的情况下,能够支82IMT-2030(6G)推进组IMT-2030(6G)Promotion Group持更多的用户数,其中,Hungarian 代表将问题 3 用匈牙利算法求解,得到每个用户所需的功率,然后根据贪婪算法选择用户的结果;Random 表示由2 求得不同用户-资源块配对情况下所需的最小功率,资源块随机配对;Uniform 表示功率平均分配,资源块随机配对。图图7-97-9 系统支持用户数随功率变化图系统支持用户数随功率变化图7.3.3结论由于语义通信与传统的通信系统有所区别,针对这个通信系统,我们需要设计新的资源分配的方案。本文所提出的语
205、义通信场景下的资源分配方案,考虑了语义通信系统的特点,可以有效地利用有限的资源。7.4 深度图像语义传输系统的自适应速率控制7.4.1引言在深度图像语义传输系统中,通常使用基于深度学习的联合信源信道编码技术(DeepJSCC)来提取输入图像的语义信息。传统的 Deep JSCC 方案仍存在一些问题。一方面,Deep JSCC 将输入图像的像素值映射到复值信道输入符号,用相同的信道资源平等地对待每个符号。但对于不同的传输目的,传输的信道符号可能具有不同的重要性。另一方面,DeepJSCC 的传输速率是固定的,在通信资源有限的场景下,限制了图像内容的传输。为了解决这样的限制,可以通过速率自适应控制
206、,只对部分重要的语义信息进行传输。已经对自适应速率控制的语义通信进行了一些研究。Kurka 等人78使用多个模型支持多个通信速率,但无法适应不同的信道条件,模型在部署时可能遭受性能损失。Yang等人79使用单个模型支持多个速率,并且可以根据信道信噪比(SNR)和源图像的特征图调整通信速率。他们只考虑了传输部分重要的特征图,然而这些特征图的像素在空间上可能具有不同的重要性,因此可以只传输一部分像素。我们希望研究出一种深度图像语义传输系统的自适应速率控制方案,以解决现存的问题。83IMT-2030(6G)推进组IMT-2030(6G)Promotion Group7.4.2研究进展我们针对深度图像
207、语义传输系统,提出了一种自适应速率控制方案80,使用单个深度神经网络适应不同信道条件,根据源图像的特征图及其熵、信道信噪比自动调整通信速率,实现更好的图像重构性能。首先,经典的Deep JSCC用相同的信道资源平等地对待每个复值信道输入符号。在我们提出的方案中,认为具有更高的熵的语义信息(特征图)中的符号对于图像重构任务更重要,因为它们平均携带了更多的信息。其次,我们的方案可以选择性地传输每个语义信息中的一部分像素,剪枝掉那些重要性低的像素。由于这些语义信息的空间结构也是重要的信息,我们保留每个语义信息中被剪枝像素的位置,并对其进行调制,与复值信道输入符号一同输入到无线信道中。在接收端可以恢复
208、它们的空间结构。这样的设计进一步提高了提出的方案的灵活性,因为我们在传输重要的语义信息时对它们进行了稀疏化。我们提出的深度图像语义传输系统自适应速率控制方案的框图如图 7-10 所示。图图7-107-10 深度图像语义传输系统自适应速率控制方案框图深度图像语义传输系统自适应速率控制方案框图为传输源图像,将其输入到语义编码器中,提取其语义信息。随后,我们将提取的语义信息输入到语义信息选择模块中。该模块主要由一个策略网络构成,可以生成掩码,选择重要的语义信息进行传输。接着,通过语义信息剪枝模块,剪枝每个语义信息中不重要的像素,记录它们的位置信息。该模块由另一个策略网络构成,实现了语义信息的稀疏化。
209、在信道编码器中,对这些语义信息进行功率归一化,然后送入无线信道。在接收端,信道解码器对语义信息进行零填充。接着,语义解码器对这些语义信息进行恢复,输出重构图像。信道的信噪比被送入语义编码器、语义信息选择模块、语义信息剪枝模块和语义解码器,使得整个系统能够适应不同的信道条件。模型被端到端训练,损失函数由MSE失真、信道利用率和语义84IMT-2030(6G)推进组IMT-2030(6G)Promotion Group信息的熵构成。在训练过程中,我们最小化MSE失真和信道利用率,最大化语义信息的熵,实现了自适应速率控制。相较于现有方案,我们的方法的重构图像的PSNR提升了 0.11-0.57dB。
210、7.4.3结论实验结果表明,在提取语义信息时最大化其熵,并根据语义信息及其熵、信道条件选择重要的语义信息,可以提升深度图像语义传输系统的性能。同时,语义信息可以被稀疏化,以进一步减少信道资源的消耗。我们使用深度神经网络对语义信息编解码、语义信息选择与剪枝、信道编解码等模块进行联合设计,并端到端优化整个系统。我们在语义信息提取、选择、剪枝、解码时考虑信道信噪比,实现了在不同信道条件下优秀的自适应速率控制。这样的速率控制方案可以在各种通信资源有限的场景中很好地应用。85IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第八章 语义通信的安全机制在本报告中,我们在结
211、合现有的一些研究工作的基础上,对语义通信这个研究领域上涉及到的研究内容进行了讨论。主要讨论总结了现有的基于 AI/ML 的物理层技术,链路层技术以及网络上层技术,并探讨了无线 AI 的一个关键性问题,即研究数据集的获取和共享问题。本章将总结全文内容,概述语义通信的潜能和优势,分析其产业化前景、现有的技术成熟度及其对标准化和产业化应用的影响。8.1 具备隐私保护功能的加密语义通信系统8.1.1引言本章介绍了一种加密语义通信系统来保护用户隐私81,该系统兼顾了语义系统的通用性和隐私保护性。通用性体现在所有网络模块结构是公有的,且都基于共享背景数据库进行训练,适合在实际场景中大规模部署。同时,通过对
212、称加密机制实现了隐私保护性。实验结果表明,所提出的加密语义通信系统,无论传输的语义信息在发送端是否加密,接收端都能很好的解码出准确的语义消息,而攻击者很难从窃听到的消息中重建原始语义信息。8.1.2研究进展图图8-18-1 加密语义通信系统的结构加密语义通信系统的结构考虑安全通信经典场景,涉及三个用户(Alice,Bob 和 Eve)。Alice 和 Bob 需要实现安全语义通信,而 Eve 试图窃听他们的通信信息。Alice 希望向 Bob 发送一条私密的语义消息,并通过语义和信道编码器处理输入,Alice 不仅对消息进行语义编码,而且还对消息进行加密。86IMT-2030(6G)推进组IM
213、T-2030(6G)Promotion Group图图8-28-2 加密器和解密器加密器和解密器的结构的结构发送端输入句子记作为 S,将 S 分解为多个令牌(token)的顺序组合,令牌指背景知识库中的储存单位,每个令牌都是一个 One-hot 向量。输入的句子通过词嵌入层,可以将每个令牌映射到固定维的浮点数向量,输出记为?。然后,如果需要加密,则将语义消息 S 与密钥一起输入到加密器 Ke()中进行加密,然后将加密的消息输入到语义编码器 E()进行语义编码,反之则不加密,分别输出语义向量 Xk和 X。最后,进行信道编码,得到输出 Yk或 Y。语义编解码器用 Transformer 进行设计,
214、信道编解码器使用自动编解码器。编码信息通过AWGN 信道传输后,Eve 试图通过一个语义攻击器 A()重建原始语义消息。同时,Bob 直接通过语义解码器 D()解码未加密的消息,而加密的消息需要首先使用解密器 Kd()解密,然后通过语义解码器 D()解码。无需加密的语义通信链路的损失函数由下式给出,=,#7.1.1其中 E(E,)和 D(D,)分别表示语义编码器和语义解码器的输出,通过最小化这种损失来获得最佳的语义编码器和解码器。加密的语义通信链路的损失函数的定义为:,=,#7.1.2其中 Ke(Ke,)和 Kd(Kd,)分别是加密器和解密器的输出。通过最小化该损失来获得接收机的最佳解密器。窃
215、听者将使用语义攻击者直接重建语义信息,其损失函数为:,=,#7.1.3其中 A(A,)是窃听者接收机的输出。通过最小化损失可以获得最强的语义攻击器。组合和来给出加密器和解密器的损失函数可以由下式给出,通过最小化这种损失来获得最佳加密器:=,#7.1.4超参数 调整效用性和隐私保护性对加密方法的影响程度。87IMT-2030(6G)推进组IMT-2030(6G)Promotion Group加密语义通信网络的训练分为两个步骤。第一步是训练具有对称结构的信道编码器和信道解码器。我们使用随机生成的向量对该网络模块进行训练,类似于编码的语义向量。训练过程中将信道 SNR 的参数设置为在一定范围内动态变
216、化,这样可以增强网络的鲁棒性。并利用 MSE 作为损失函数来降低向量的失真度。第二步是利用发射机与接收机和窃听者的语义攻击器之间的重构误差交替更新各网络模块的参数。8.1.3结论图图8-38-3 对抗训练方式下的损失函数对抗训练方式下的损失函数,和和图图8-48-4 非对抗训练方式下的损失函数非对抗训练方式下的损失函数,和和在对抗训练时,通过使用提出的加密语义通信系统方案,两个损失函数可以收敛到 0。但是,不能收敛到 0,代表窃听者解码器将无法正确重建原始消息,验证了系统的隐私保护性。另一方面,使用非对抗训练方案时,即当 不参与训 练更新时,和 三个损失函数的值都可以收敛到 0。这意味着尽管该
217、语义通信系统具有很高的效用性,但隐私保护性较差。总而言之,本章提出了一种对抗性加密训练方案,该方案可以有效保证加密和未加密模式下语义通信的准确性,并抵御攻击者窃听语义信息,解决了语义通信系统中窃听的安全问题,显著提高了通用结构的语义通信系统的隐私保护能力。8.2 基于数据混淆的语义信息安全传输机制8.2.1引言相比于传统通信,语义通信中所传输的语义信息更容易泄漏隐私。在传统通信系统中,所传输的比特序列包含冗余比特位,能够提供一定程度的隐私保护。然而,语义通信中所传88IMT-2030(6G)推进组IMT-2030(6G)Promotion Group输的语义信息包含更加紧凑和语义相关的符号,更
218、容易泄漏隐私。另外,基于深度学习的语义通信也容易受到面向深度学习模型的攻击。假如在传输的语义信息被恶意攻击者所窃取,攻击者可以使用模型反演攻击,从语义信息中重构原数据。攻击者也可以向语义信息添加扰动,使语义通信系统在下游任务中做出错误的决策。因此,语义信息的安全传输是语义通信至关重要的一环。目前,国内外有许多学者提出了抵御模型反演攻击的方法,如加密82、差分隐私83和攻击者感知的训练84等。然而,加密算法会带来较大的计算开销。尽管差分隐私和攻击者感知的训练能够一定程度防御攻击,但是在语义通信的场景中,攻击者和接收者的目标都是从语义信息中重构原信息,如果在这些防御方法下接收者能够重构原信息,那么
219、攻击者在理论上也能够重构原信息。因此,这些防御方法在语义通信的场景下并不合适。为了实现语义信息的安全传输,本小节提出一种基于数据混淆的语义信息安全传输机制。在通信开始之前,通信双方通过密钥交换机制确认数据混淆方案。在发送方传输语义信息之前,根据所确认的数据混淆方案对语义信息进行随机置换和替换。接收方接收到语义信息后先根据数据混淆方案对语义信息进行还原,再从语义信息中重构出原信息。8.2.2研究进展本小节所提出的基于数据混淆的语义信息安全传输机制包含两步,分别是混淆方案选择与语义信息混淆。在混淆方案选择中,通信双方需要确认本次通信所使用的数据混淆方案。假设通信双方共享一个数据置换方案集合和一个数
220、据替换方案集合。在每次通信开始前,发送方随机生成一个数据对=,,该数据对能够从和中选出相应的置换方案和替换方案。接着,发送方通过密钥交换算法,将该数据对共享给接收方。在接收到混淆后的语义信息后,接收方可以基于对语义信息进行还原。在每次发送方传输语义信息前,发送方利用,从和中获取相应的置换方案和替换方案。假设语义信息是一个高维张量,在进行信道编码前,沿着其第一维度对张量进行行置换,接着与下一个要传输的语义信息的部分行进行交换,实现随机替换。如果只有一个语义信息要进行传输,则发送方多传输一个由随机噪声组成的张量。经过随机置换和替换后的语义信息通过信道编码后传输到接收方。接收方对语义信息进行信道解码
221、后,利用,从和中获取相应的置换方案和替换方案,对进行数据混淆后的语义信息进行还原。由于每次通信所使用的数据混淆方案都不同,即使攻击者多次截取到语义信息,也无法从其中确认所使用的和,从而也无法还原出原始数据。另外,由于数据混淆由替换和置换构成,因此具有较低的计算开销。图 8-5 给出了所提出的语义信息安全传输的数据混淆示意图。89IMT-2030(6G)推进组IMT-2030(6G)Promotion Group图图8-58-5 语义信息随机混淆方案语义信息随机混淆方案8.2.3结论我们对所提出的基于数据混淆的语义信息安全传输机制进行仿真验证,探究不同信噪比条件下攻击者从语义信息中重构原数据的效
222、果。从仿真结果中可以看出,在不同信噪比条件下,攻击者都无法重构出质量较好的图像,具有较低的 PSNR 和 SSIM 指标,从而验证了所提出的机制的有效性。13.61dB/0.1315.00dB/0.2210.61dB/-0.0612.72dB/0.0713.38dB/0.1811.22dB/-0.0111.83dB/-0.08Eavesdropper Channel SNR10.99dB/0.0111.20dB/0.0211.31dB/0.0411.24dB/0.0212.05dB/0.2010.62dB/0.029.95dB/-0.0114.68dB/0.078.99dB/-0.0111.2
223、7dB/0.0511.01dB/0.010dB10dB20dB0dB10dB20dBMain Channel SNR图图8-68-6 基于数据混淆的语义信息安全传输性能验证基于数据混淆的语义信息安全传输性能验证90IMT-2030(6G)推进组IMT-2030(6G)Promotion Group第九章 总结在本报告中,我们在结合现有的一些研究工作的基础上,对语义通信这个研究领域上涉及到的研究内容进行了讨论。主要讨论总结了现有的语义通信理论,联合信源信道编码技术,面向语义通信的物理层技术、链路层技术以及安全机制,同时展望了语义通信的网络架构。本章将总结全文内容,概述语义通信的潜能和优势以及未来
224、的发展方向。在语义信息理论方面,本报告的第三章节首先基于经典信息论视角,通过通用数学模型和上下界推导,论证了语义感知的联合信源信道编码相对于分离方案的性能优势,强调了在语义通信中设计信源信道联合编码的重要性。此外探索了面向任务的信号量化理论,推导了当通信目标不仅是信号重构时,最优的量化胞腔密度与任务相关的加权概率密度函数的1/3 次方成正比,这加权概率密度函数由信号分布、失真对决策影响以及决策偏差对系统性能影响三部分组成,为压缩问题中任务与信号压缩的映射关系提供了新思路,为任务相关信息熵和互信息的构造提供了潜在方法,为面向任务的率失真理论和语义信息论的发展奠定基础。最后提出通过图结构统一表征多
225、模态信号中的隐含语义信息,将对象、属性和关系表示为图节点,建立因果关系的边连接,实现完整的语义信息描述。基于这一统一语义描述模型,利用图结构联合概率信息度量语义不确定性,引入语义熵和语义互信息概念,推导语义编码速率与失真关系,探索语义源的有损压缩极限,为进一步研究物理信道对语义信道的影响提供了基础。在联合信源信道编码技术方面,本报告的第四章节首先提出基于弱耦合的信源语义编码器与信道语义编码器分离训练技术,在模块之间传递少量弱耦合信息以获得增益,在测试阶段可用于微调不同模块参数。此外讨论了面向 CSI 反馈、文本、语音、图像、点云、多模态数据的联合信源信道编码方案,相较于传统方案,在传输效率和任
226、务完成质量上都有了质的提升。针对变化的信道,此章节也提出了一种注意力模块,其可以灵活地插入不同的DJSCC 网络以帮助网络自适应于不同的信道条件,在提升系统性能的同时避免了额外的训练及存储开销。这些成果显示基于深度学习的联合信源信道编码技术由于端到端优化的能力,高效提取任务相关语义信息的能力,相较于传统方案可带来显著的性能提升,同时对变化的环境具有较强的适应性和鲁棒性。在面向语义通信的物理层技术方面,本报告的第五章节介绍了面向语义通信的信道表征学习与自适应调制技术,通过对调制等物理层模块进行专门的语义化设计以更好地适应相应的语义任务;联合编码调制数字语义通信方案,通过使用一个神经网络联合学习编
227、码和调制,91IMT-2030(6G)推进组IMT-2030(6G)Promotion Group可以学习到与信道状态匹配的调制策略;基于卡尔曼滤波的端到端空口设计,实现高鲁棒性、快速收敛的端到端智能空口结构与训练方法。这些成果显示,通过对物理层模块进行专门的语义化设计,有望提升语义通信在网络层、应用层等更上层结构中不同语义任务的性能。在面向语义通信的链路层技术方面,本报告的第六章节介绍了面向语义通信的混合自动重传请求和语义相似度检测,使语义通信系统能够利用无线信道环境并具备新的语义错误检测机制,从而进一步提升通信可靠性;应对动态数据环境的域自适应方案,使得数据适应网络的性能接近重新训练的上界
228、;语义通信场景下的资源分配方案,考虑了语义通信系统的特点,可以有效地利用有限的资源;深度图像语义传输系统的自适应速率控制方案,根据语义信息、信道信噪比,实现了在不同信道条件下优秀的自适应速率控制。这些方案在一定程度上解决了语义通信中语义信源编码灵活性差、传输可靠性低等问题,可以优化网络中的资源分配,使其更好地适应动态环境以及目标任务。在语义通信的安全机制方面,本报告的第七章节介绍了一种对抗性加密训练方案,该方案可以有效保证加密和未加密模式下语义通信的准确性,并抵御攻击者窃听语义信息;一种基于数据混淆的语义信息安全传输机制,使得攻击者在各种信噪比的条件下都无法重构出质量较好的图像。这些方案一定程
229、度上解决了语义通信系统中窃听的安全问题,显著提高了通用结构的语义通信系统的隐私保护能力。本报告的第八章节还介绍了语义通信的网络架构,介绍了语义通信概念及术语,提出了一个通用的语义通信系统模型,基于算法信息论探讨了语义压缩极限,提出了归一化条件复杂度的概念,还从典型序列分析的角度理论分析了语义编码的潜在优势。此外,第八章节还介绍了基于语义转换的语义通信系统,提出可利用大模型得到语义公共模型,在结合本地模型构造语义转换函数,将各节点的语义信息转换到公共语义空间,实现语义传输。综上所述,语义通信相较于传统通信在多个方面具有显著的优势。随着物联网、智能家居、无人驾驶等新技术的兴起,未来通信不再仅仅是数
230、据的传输,更多的是设备、人和系统之间的语义理解与交互。语义通信具有更强的信息表达力,相较于传统通信更加注重传输的信息的含义,以确保双方能够正确理解信息的真实意图,实现任务目标。同时,结合深度学习技术,语义通信能够自动适应各种通信环境,并优化编码与传输策略,采用自适应调制、自动重传请求等技术,从而提高通信的鲁棒性和适应性。通过知识库安全共享并结合对抗性加密等技术,语义通信能够提高对数据的隐私性保护,防止潜在的攻击者窃取信息。尽管语义通信在许多方面都显示出了巨大的潜力,但仍存在许多未解决的问题,需要学界和工业界的持续投入和合作来推动解决。比如语义通信涉及到深度学习、图结构、编码等92IMT-203
231、0(6G)推进组IMT-2030(6G)Promotion Group复杂的技术,这些技术的计算开销较大。未来需要寻找更加高效的算法和硬件实现,以降低计算复杂性,提高实时性。随着通信中涉及的数据类型越来越多样,如何在多种数据模态之间实现一致的语义解释和传输也是一个挑战。需要深入研究如何将不同模态的信息融合,并确保在传输过程中保持一致性。虽然此报告已经介绍了一些对抗性加密和数据混淆的方法来保护语义信息的安全性,但随着攻击技术的不断进步,仍需要更加健壮和创新的安全机制来应对各种潜在的威胁。语义通信涉及多种技术和应用场景,需要建立通用的标准和协议,以确保不同系统之间的互操作性,从而实现更加开放和普适
232、的语义通信生态。同时需要针对不同应用场景,如医疗、智能交通等,深入研究并开发适用的语义通信技术。随着语义通信的发展,还需要关注与之相关的社会和伦理问题,如隐私权、数据使用等,以确保技术的合理和负责的应用。综上所述,语义通信的发展还需学界和工业界在技术创新、标准制定和应用推广等方面共同合作,推动语义通信走向更加成熟和广泛应用的阶段。93IMT-2030(6G)推进组IMT-2030(6G)Promotion Group参考文献1 张亦驰,张平,熊急波.面向智能体的语义通信:架构与范例.J 中国科学:信息科学,2022,52(5):9079212 涂勇峰,陈文.基于联邦学习的多用户语义通信系统部署
233、方法J.信号处理,2022,38(12):10-143 Strinati E C,S.Barbarossa.6G networks:Beyond Shannon towards semantic and goalorientedcommunicationsJ.Computer Networks,2021,190:107930.4 涂勇峰,陈文.基于深度学习的语义通信系统J.移动通信,2021,45(4):91-94.5 石光明,李莹玉,谢雪梅.语义通讯:智能时代的产物J.模式识别与人工智能,2018,31(1):91-99.6 Carnap R,Bar-Hillel Y,et al.An Ou
234、tline of A Theory of Semantic Information.RLE TechnicalReports 247,19527 Bao J,Basu P,Dean M,et al.Towards a theory of semantic communication.In:Proceedings ofthe 1st International Workshop on Network Science,West Point,2011.1101178 Juba B,Sudan M.Universal semantic communication I.In:Proceedings of
235、 ACM InternationalSymposium on Theory of Computing,Victoria,2008.1231329 Guler B,Yener A,Swami A.The semantic communication game.IEEE Trans Cogn CommunNetw,2018,4:78780210Xie H Q,Qin Z J.A lite distributed semantic communication system for Internet of Things.IEEE J SelAreas Commun,2021,39:14215311Bo
236、urtsoulatze E,Burth Kurka D,Gunduz D.Deep joint source-channel coding for wirelessimage transmission.IEEE Trans Cogn Commun Netw,2019,5:56757912Weng Z Z,Qin Z J.Semantic communication systems for speech transmission.2021.ArXiv:2102.1260513Shi G M,Gao D H,Song X D,et al.A new communication paradigm:f
237、rom bit accuracy tosemantic fidelity.2021.ArXiv:2101.1264914J.Wang,S.Wang,J.Dai,Z.Si,D.Zhou,and K.Niu,Perceptual learned source-channelcoding for high-fidelity image semantic transmission,in GLOBECOM 2022-2022 IEEEGlobal Communications Conference.IEEE,2022,pp.39593964.15Y.Xiao,G.Shi,Y.Li,W.Saad,and
238、H.V.Poor,“Towards Self-learning Edge Intelligence in6G,”IEEE Communications Magazine,vol.58,no.12,pp.3440,Dec.2020.16J.Li,J.Ma,Y.Miao,F.Yang,X.Liu,K.-K.R.Choo,Secure semantic-aware search overdynamic spatial data in VANETs,IEEE Transactions on Vehicular Technology 70(9)(2021)89128925.17Z.Zhang,J.Zha
239、o,C.Huang,L.Li,Learning visual semantic map-matching for loosely multi-sensor fusion localization of autonomous vehicles,IEEE Transactions on Intelligent Vehicles 8(1)(2023)358367.18A.Dridi,S.Sassi,S.Faiz,Towards a semantic medical Internet of things,in:2017 IEEE/ACS14th International Conference on
240、Computer Systems and Applications(AICCSA),2017,pp.14211428.19B.Huang,J.Tian,H.Zhang,Z.Luo,J.Qin,C.Huang,X.He,Y.Luo,Y.Zhou,G.Dan,H.Chen,S.-T.Feng,C.Yuan,Deep semantic segmentation feature-based radiomics for theclassification tasks in medical image analysis,IEEE Journal of Biomedical and Health94IMT-
241、2030(6G)推进组IMT-2030(6G)Promotion GroupInformatics 25(7)(2021)26552664.20谢卓辰,周豪,吴妍君等.一种基于语义内容的卫星通信网络架构P.上海市:CN116073889B,2023-09-01.21C.E.Shannon,W.Weaver,“The mathematical theory of communication“.Urbana:Universityof Illinois Press,194922Y.Shi,S.Shao,Y.Wu,W.Zhang,X-G.Xia,C.Xiao,Excess distortion exp
242、onent analysis forsemantic-aware MIMO communication system,IEEE Transactions on WirelessCommunications,2023(early excess).23J.Liu,S.Shao,W.Zhang,and H.V.Poor,An indirect rate-distortion characterization forsemantic sources:General model and the case of Gaussian observation,IEEE Transactions onCommun
243、ications,vol.70,no.9,pp.59465959,Jun.2022.24I.Csiszar,“On the error exponent of source-channel transmission with a distortion threshold,”IEEE Transactions on Information Theory,vol.28,no.6,pp.823828,Nov.1982.25 C.Zhang,H.Zou,S.Lasaulce,W.Saad,and M.Kountouris,Goal-oriented communicationsfor the IoT
244、and application to data compression,vol.5,no.4,pp.58-63,IEEE Internet ofThings Magazine,2022.26H.Zou,C.Zhang,S.Lasaulce,L.Saludjian and H.V.Poor,Goal-Oriented Quantization:Analysis,Design,and Application to Resource Allocation,in IEEE Journal on Selected Areasin Communications,vol.41,no.1,pp.42-54,2
245、023.27C.Zhang,S.Lasaulce,M.Hennebel,L.Saludjian,P.Panciatici,and H.V.Poor,Decision-making oriented clustering:Application to pricing and power consumption scheduling,Applied Energy,297:117106,2021.28C.Zhang,N.Khalfet,S.Lasaulce,V.Varma,and S.Tarbouriech,Payoff-oriented quantizationand application to
246、 power control,15th IEEE International Symposium on Modeling andOptimization in Mobile,Ad Hoc,and Wireless Networks(WiOpt),Paris,France,2017.29R.M.Gray and D.L.Neuhoff,“Quantization,”IEEE Trans.Inf.Theory,vol.44,no.6,pp.23252383,Oct.1998.30F.Rusek et al.,Scaling Up MIMO:Opportunities and Challenges
247、with Very Large Arrays,IEEE Signal Processing Magazine,vol.30,no.1,pp.40-60,Jan.2013.31J.Tang,Q.Yang,et al.,Information-Theoretic Limits on Compression of SemanticInformation,arXiv preprint arXiv:2306.02305,2023.32Shannon C E,Weaver W.The Mathematical Theory of CommunicationM.The University ofIllino
248、is Press,1971.33Zhang P,Xu W,Gao H,et al.Toward Wisdom-Evolutionary and Primitive-Concise 6G:A NewParadigm of Semantic Communication NetworksJ.Engineering,2022,8(1):60-73.34Zhang P,Xu X,Dong C,et al.Intellicise communication system:model-driven semanticcommunicationsJ.The Journal of China Universiti
249、es of Posts and Telecommunications,2022,29(1):2-12.35Qin Z,Tao X,Lu J,et al.Semantic communications:Principles and challengesJ.arXivpreprint arXiv:2201.01389,2021.36Li M,VITNYI P.An introduction to Kolmogorov complexity and its applicationsM.NewYork:Springer,2008.37Y.Feng,J.Xu,C.Liang,G Yu,L Hu,T Yu
250、an.Decoupling Source and Semantic Encoding:AnImplementation Study,Electronics,vol.13,no,13,pp.2755,Jun.202395IMT-2030(6G)推进组IMT-2030(6G)Promotion Group38Jialong Xu,Bo Ai,Wei Chen,Ang Yang,Peng Sun,Miguel Rodrigues,“Wireless ImageTransmissionUsingDeepSourceChannelCodingWithAttentionModules,”IEEETrans
251、actions on Circuits and Systems for Video Technology(TCSVT),32(4):2315-2328,2022.39Jialong Xu,Bo Ai,Ning Wang,Wei Chen,“Deep Joint Source-Channel Coding for CSIFeedback:An End-to-End Approach,”IEEE Journal on Selected Areas in Communications(JSAC),41(1):260-273,2023.40Jiajia Guo,Chao-Kai Wen,Shi Jin
252、,Geoffrey Ye Li,“Convolutional neural network-basedmultiple-rate compressive sensing for massive MIMO CSI feedback:Design,simulation,andanalysis,”IEEE Transactions on Wireless Communications,19(4):28272840,2020.41Mahdi Boloursaz Mashhadi,Qianqian Yang,Gunduz Deniz,“CNN-based analog CSI feedbackin FD
253、D MIMOOFDM systems”,IEEE International Conference on Acoustics,Speech andSignal Processing(ICASSP),85798583,2020.42Z.Yang,M.Chen,Z.Zhang and C.Huang,Energy Efficient Semantic Communication OverWireless Networks With Rate Splitting,in IEEE Journal on Selected Areas in Communications,vol.41,no.5,pp.14
254、84-1495,May 2023.43Devlin,Jacob,et al.Bert:Pre-training of deep bidirectional transformers for languageunderstanding.arXiv preprint arXiv:1810.04805(2018).44OpenAI.GPT-4 Technical Report,arXiv preprint arXiv:2303.08774,2023.45Wang,Shiqi et al.“Cooperative Task-Oriented Communication for Multi-Modal
255、Data withTransmission Control.”ArXiv abs/2302.02608(2023):n.pag.46 Ye H,Li G Y,Juang B H.Deep learning based end-to-end wireless communication systemswithout pilotsJ.IEEE Transactions on Cognitive Communications and Networking,2021,7(3):702-714.47 Bourtsoulatze E,Kurka D B,Gunduz D.Deep joint source
256、-channel coding for wireless imagetransmissionJ.IEEE Transactions on Cognitive Communications and Networking,2019,5(3):567-579.48 Zhang Z,Yang Q,He S,et al.Wireless transmission of images with the assistance of multi-level semantic informationC/2022 International Symposium on Wireless CommunicationS
257、ystems(ISWCS).IEEE,2022:1-6.49 Xie H,Qin Z,Tao X,et al.Task-oriented multi-user semantic communicationsJ.IEEEJournal on Selected Areas in Communications,2022,40(9):2584-2597.50 Liu X,Xu Q.Adaptive attention-based high-level semantic introduction for image captionJ.ACM Transactions on Multimedia Comp
258、uting,Communications,and Applications(TOMM),2020,16(4):1-22.51 Zhang Z,Yang Q,He S,et al.Semantic communication approach for multi-task imagetransmissionC/2022 IEEE 96th Vehicular Technology Conference(VTC2022-Fall).IEEE,2022:1-2.52T.Han,Q.Yang,Z.Shi,S.He and Z.Zhang,Semantic-Preserved Communication
259、 System forHighly Efficient Speech Transmission,IEEE Journal on Selected Areas in Communications,vol.41,no.1,pp.245-259,Jan.2023.53T.Han,J.Tang,Q.Yang,Y.Duan,Z.Zhang and Z.Shi,Semantic-aware Speech to TextTransmission with Redundancy Removal,IEEE International Conference on Acoustics,Speechand Signa
260、l Processing(ICASSP),2023.96IMT-2030(6G)推进组IMT-2030(6G)Promotion Group54T.Han,K.Chi,Q.Yang,Y.Duan,Z.Shi and Z.Zhang,Semantic-aware Transmission forRobust Point Cloud Classification,IEEE Global Communications Conference(Globecom),2023.55Farsad N,Rao M,Goldsmith A.Deep learning for joint source-channe
261、l coding oftextC/Proceedings of 2018 IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).Piscataway:IEEEPress,2018:2326-2330.http:/dx.doi.org/10.1109/ICASSP.2018.846198356Choi K,Tatwawadi K,Grover A,et al.Neural joint source-channel codingC/InternationalConference on Machi
262、ne Learning.New York:PMLR,2019:1182-1192.57Wang Z,Simoncelli E P,Bovik A C.Multiscale structural similarity for image qualityassessmentC/Proceedings of Thrity-Seventh Asilomar Conference on Signals,Systems&Computers.Piscataway:IEEE Press,2004:1398-1402.58Zhang R,Isola P,Efros A A,et al.The unreasona
263、ble effec-tiveness of deep features as aperceptual metricC/Proceedings of 2018 IEEE/CVF Conference on Computer Vision andPattern Recognition.Piscataway:IEEE Press,2018:586-595.59Xie H,Qin Z,Li G Y,et al.Deep learning enabled semantic communication systemsJ.IEEETransactions on Signal Processing,2021,
264、69:2663-2675.60P.Jiang,C.-K.Wen,S.Jin,and G.Y.Li,Wireless semantic transmission via revising modulesin conventional communications.,to appear in IEEE Wireless Communications,June 2023.61姜培文,韩瑜,金石,李潇.基于 CSI反馈的语义图像传输J.中兴通讯技术,2023,29(02):24-28.62S.Guo and Y.Wang,“Signal Shaping for Semantic Communicati
265、ons,”arXiv preprintarXiv:2202.02072,2022.63Q.Zhou,R.Li,Z.Zhao,Y.Xiao,and H.Zhang,“Adaptive Bit Rate Control in SemanticCommunication With Incremental Knowledge-Based HARQ,”arXiv preprint arXiv:2203.06634,2022.64Y.Shao and D.Gunduz,“Semantic Communications With Discrete-TimeAnalog Transmission:APAPR
266、Perspective,”arXiv preprint arXiv:2208.08342,2022.65Y.Bo,Y.Duan,S.Shao and M.Tao,Learning Based Joint Coding-Modulation for DigitalSemanticCommunicationSystems,202214thInternationalConferenceonWirelessCommunications and Signal Processing(WCSP),Nanjing,China,2022,pp.1-6.66W.Tong,P.Zhu,et al,6G:The Ne
267、xt Horizon:From Connected People and Things toConnected Intelligence.Cambridge:Cambridge University Press,2021.67Sebastian Dorner,et al,“Deep learning based communications over the air,”IEEE Journal ofSelected Topics in Signal Processing,vol.12,no.1,pp.132-143,Feb.2018.68Vishnu Raj and Sheetal Kalya
268、ni,“Backpropagation through the air:Deep learning at physicallayer without channel models,”IEEE Communications Letters,vol.22,no.11,pp.2278-2281,Nov.2018.69Faycal Ait Aoudia and Jakob Hoydis,“Model-free training of end-to-end communicationsystems,”IEEE Journal of Selected Areas in Communications,vol
269、.37,no.11,pp.2503-2516,Nov.2019.70H.Ye,L.Liang,G.Y.Li,and B.-H.Juang,“Deep learning-based end-to-end wirelesscommunication systems with conditional GANs as unknown channels,”IEEE Transactions on97IMT-2030(6G)推进组IMT-2030(6G)Promotion GroupWireless Communications,vol.19,no.5,pp.31333143,May 2020.71B.H
270、u,J.Wang,C.Xu,G.Zhang and R.Li,“A Kalman-Based Autoencoder Framework forEnd-To-End Communication Systems,”PIMRC wks.2021.72Geist M,Pietquin O.Kalman temporal differencesJ.Journal of artificial intelligence research,2010,39:483-532.73P.Jiang,C.K.Wen,S.Jin,and G.Y.Li.Deep source-channel coding for sen
271、tence semantictransmission with HARQ.IEEE Transactions on Communications,2022,70(8):5225-5240.74Tong W,Li G Y.Nine challenges in artificial intelligence and wireless communications for 6G.IEEE Wireless Communications,2022,29(4):140-145.75Zhou Q,Li R,Zhao Z,et al.Adaptive bit rate control in semantic
272、 communication withincremental knowledge-based HARQ.IEEE Open Journal of the Communications Society,2022,3:1076-1089.76Zhang H,Shao S,Tao M,et al.Deep learning-enabled semantic communication systems withtask-unawaretransmitteranddynamicdataJ.IEEEJournalonSelectedAreasinCommunications,2022,41(1):170-
273、185.77K.Chi,Q.Yang,Z.Yang,Y,Duan and Z.Zhang Resource Allocation for CapacityOptimization in Joint Source-Channel Coding Systems,IEEE International Conference onCommunications,Rome,Italy,May 2023.78Kurka,David Burth,and Deniz Gunduz.Bandwidth-agile image transmission with deep jointsource-channel co
274、ding.IEEE Transactions on Wireless Communications 20,no.12(2021):8081-8095.79Yang,Mingyu,and Hun-Seok Kim.Deep joint source-channel coding for wireless imagetransmission with adaptive rate control.In ICASSP 2022-2022 IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP),pp.5
275、193-5197.IEEE,2022.80Chen,Weixuan,Yuhao Chen,Qianqian Yang,Chongwen Huang,Qian Wang,and ZhaoyangZhang.Deep Joint Source-Channel Coding for Wireless Image Transmission with Entropy-AwareAdaptive Rate Control.arXiv preprint arXiv:2306.02825(2023).81X.Luo,Z.Chen,M.Tao,F.Yang,“Encrypted semantic communi
276、cation using adversarialtraining for privacy preserving.”IEEE Communications Letters,vol.27,no.6,June 2023.82T.-Y.Tung and D.Gunduz,“Deep joint source-channel and en-cryption coding:Securesemantic communications,”arXiv preprint arXiv:2208.09245,2022.83Z.He,T.Zhang,and R.B.Lee,“Attacking and protecti
277、ng data privacy in edgecloudcollaborative inference systems,”IEEE Internet of Things Journal,vol.8,no.12,pp.97069716,2020.84J.Li,A.S.Rakin,X.Chen,Z.He,D.Fan,and C.Chakrabarti,“Ressfl:A resistance transferframework for defending model inversion attack in split federated learning,”in Proceedings ofthe
278、 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2022,pp.10 19410202.98IMT-2030(6G)推进组IMT-2030(6G)Promotion Group致谢本报告得到 IMT-2030(6G)推进组各位领导、专家的大力支持和指导、IMT-2030(6G)无线 AI 任务组各成员单位的大力支持以及多位学术界、产业界同仁的关心和支持,在此深表感谢!表9-1 主要贡献单位序号序号主要贡献单位主要贡献单位贡献内容贡献内容1浙江大学1.2浙江大学2.13浙江大学2.2、2.3、2.44中国电信研究院2
279、.55北京邮电大学3.16上海交通大学4.17中南大学4.28浙江大学4.39ZTE5.110北京交通大学5.2、5.311浙江大学5.412浙江大学5.5、5.613浙江大学5.7、5.8、5.914北京邮电大学5.1015东南大学6.1、7.116上海交通大学6.2、7.217上海交通大学8.118浙江大学7.319浙江大学7.420浙江大学8.221华为6.3、3.222vivo5.1223中山大学5.1124浙江大学报告总体规划构思、全文架构和内容梳理、编排校对99IMT-2030(6G)推进组IMT-2030(6G)Promotion Group附录:缩略词表缩略词缩略词英文全称英文
280、全称中文全称中文全称AIartificial intelligence人工智能MLmachine learning机器学习DNNdeep neural network深度神经网络LDPClow-density parity-check低密度奇偶校验SCsemantic communication语义通信ARaugmented reality增强现实VRvirtual reality虚拟现实XRextended reality拓展现实IoTInternet of things物联网QoSquality of service服务质量QoEquality of experience体验质量V2Xve
281、hicle to everything车联网通信技术IoVInternet of vehicle车联网LDAlatent dirichlet allocation潜在狄利克雷分配VANETvehicular ad-hoc network车辆自组织网络JSCCjoint source-channel coding联合信源信道编码DJSCCdeep joint source-channel coding深度联合信源信道编码ADJSCCattention based deep joint source-channel coding基于注意力机制的深度联合信源信道编码SSCCseparate sour
282、ce-channel coding分离信源信道编码ANNartificial neural network人工神经网络CNNconvolutional neural networks卷积神经网络SNRsignal to noise ratio信噪比FLfeature learning特征学习AFattention feature注意力特征AWGNadditive white Gaussian noise加性高斯白噪声MIMOmultiple-input multiple-output多进多出技术CSIchannel state information信道状态信息OFDMorthogonal f
283、requency-division正交频分复用100IMT-2030(6G)推进组IMT-2030(6G)Promotion GroupmultiplexingACKacknowledge character传输请求信号FCfully connected layer全连接层MPEGmoving picture experts group运动图像专家组DNNdeep neural networks深度神经网络ResNetdeep residual network深度残差网络CAchannel attention通道注意GANgenerative adversarial network生成对抗网络
284、CTCconnectionist temporal classification连接主义时间分类WERword error rate词错率LPIPSlearned perceptual image patchsimilarity学习感知图像块相似度KNNK-nearest neighborK最近邻算法FPSfarthest point sampling最远采样点算法NTSCCnonlinear transform source-channelcoding非线性变换联合信源信道编码CBRchannel bandwidth ratio信道带宽比VAEvariational auto-encoder
285、变分自编码器KLkullback-leibler散度JPEGjoint photographic experts group图像信源编码方案BPGbetter portable graphicsH.265 视频编码标准的帧内图像编码PSNRpeak signal-to-noise ratio峰值信噪比MSEmean square error均方差SSIMstructural similarity index measure结构相似性MS-SSIMmulti-scale structural similarity indexmeasure多尺度结构相似性DeCNNde-convolutional
286、 neural network反卷积神经网络SS-CSIsemantic segmentation coding basedon CSI基于 CSI 的图像语义分割编码QAMquadrature amplitude modulation正交幅度调制PSKphase shift keying相移键控BPSKbinary phase shift keying二相相移键控PSNRpeak signal-to-noise ratio峰值信噪比101IMT-2030(6G)推进组IMT-2030(6G)Promotion GroupAEauto encoder自编码器KFKalman filtering
287、卡尔曼滤波LSTMlong short-term memory长短时记忆HARQhybrid automatic repeat request混合自动重传请求CRCcyclic redundancy check循环冗余校验BERTbidirectional encoder representationfrom transformer基于变换器的双向编码器表示技术DAdomain adaptation域适应Cycle-GANcycle-consistent generativeadversarial networks循环一致性生成对抗网络Sebsemantic base语义基NCCnormalized conditional complexity归一化条件复杂度AEPasymptotic equipartition property渐近等分割联系方式邮箱:COPYRIGHT2023 IMT-2030(6G)PROMOTION GROUP.ALL RIGHTS RESERVED.