首次！GPT-2赋能无线通信物理层，北大团队提出基于预训练LLM的信道预测方案

在无线通信中，信号经由无线信道传递通常会受到能量衰减、噪声干扰等影响，导致用户侧接收到的信号与基站发出的信号存在一定程度的变化，就如同人们出行时受到实况道路影响，到达目的地的时间会与预期存在一定程度的差异。要想预期与实际情况相符，出行时就必须了解精确的道路状态信息，而在无线通信中，为保证信号传输的准确性和有效性，就需要了解精确的信道状态信息 (channel state information, CSI)，并根据接收侧信号复原始发信号。

信道预测是实现 CSI 高效获取的一项核心技术， 其根据历史时刻 CSI 序列预测未来 CSI，可以极大减少信道估计与反馈开销。尤其是面向 5G /6G MIMO 无线通信系统，信道预测展现出前所未有的重要性。然而，现有的基于参数化模型和深度学习的信道预测方法尚存预测精度低和泛化性差等问题，难以应用到实际复杂信道环境。

近年来，随着大语言模型 (LLM) 在自然语言处理等领域取得的巨大成功，越来越多的研究团队将目光聚焦于此。但当前大语言模型在通信任务上的应用仍局限于语言形式的协议理解等任务，对于其能否赋能非语言形式的无线通信物理层任务尚存质疑。

首先， 信道状态信息是具有复杂的「空-时-频」三维关系的高维结构化数据，这增加了处理的复杂度；其次， 信道域和自然语言域的知识存在域差异 (domain gap)，进一步增大了知识迁移的难度。

为克服以上挑战，北京大学电子学院程翔团队提出了一种基于预训练大语言模型的 MIMO-OFDM 信道预测方案 LLM4CP， 可应用于 TDD（时分双工）和 FDD（频分双工）通信系统。

相关成果以「LLM4CP: Adapting Large Language Models for Channel Prediction」为题，发表于期刊「Journal of Communications and Information Networks」上。

具体来说，研究团队构建了一个基于预训练 GPT-2 的信道预测神经网络，包含预处理模块、嵌入模块、预训练 LLM 模块和输出模块，从而提高了大语言模型在信道预测中的预测能力和泛化能力，为部署在实际应用场景中创造了更多的可能性。

研究亮点：

首次将预训练大语言模型应用于信道预测任务，证明了预训练大语言模型可以突破自然语言形式，赋能无线通信物理层设计 * 设计的信道特征增强神经网络，对齐信道空间与大模型特征空间，实现预训练大模型通用知识在信道预测任务上的良好迁移
仿真结果显示，所提方案在 TDD 和 FDD 信道预测任务上取得了最先进的全样本和少样本预测性能，频点泛化性能大幅领先于现有方案，同时具有和深度学习小模型相当的训练和推理时间成本

论文地址：
https://ieeexplore.ieee.org/document/10582829
数据集下载：

https://go.hyper.ai/G0plJ

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

数据集：完全符合 3GPP 标准

在研究的实验阶段，团队使用 QuaDRiGa 仿真器生成了符合 3GPP 标准的时变信道数据集用于性能验证。

团队设置了一个 MISO-OFDM 系统，其中基站侧配备了双极化 UPA (uniform planar array)，用户侧配备了单个全向天线，天线间距为中心频率处波长的一半。上行和下行信道的带宽均为 8.64 MHz，导频频率间隔为 180 kHz。对于 TDD 和 FDD 模式，上下行通道的中心频率均设置为 2.4 GHz。对于 FDD 模式，上行和下行通道相邻。研究团队在预测实验中将导频频率间隔时间设置为 0.5 ms。

TDD：是一种通信系统的双工方式，在移动通信系统中用于分离接收和传送信道。
FDD：指上行链路（移动台到基站）和下行链路（基站到移动台）采用两个分开的频率（有一定频率间隔要求）工作。

研究考虑了 3GPP 城市宏观信道模型和非视距场景。集群数量为 21 个，每个集群的路径数为 20 条。用户的初始位置是随机化的，运动轨迹设置为线性型。

训练数据集和验证数据集分别包含 8,000 个和 1,000 个样本， 用户速度均匀分布在 10~100 km/h 之间。测试数据集包含 10 个速度，范围从 10 km/h 到 100 km/h 不等，每个速度有 1,000 个样本。

模型架构：基于大语言模型的信道预测

现有下行链路 CSI 捕获方法存在两大缺点：首先，CSI 估计和反馈过程会产生额外的计算和传输时间成本，导致高动态场景中的「信道老化」；其次，额外的下行链路导频占用了部分时频资源，尤其会降低 FDD 系统的频谱效率。

本文提出的 LLM4CP 是一种基于 LLM 的 MISO-OFDM 信道预测方法，基于历史上行链路 CSI 序列预测未来的下行链路 CSI 序列，可以有效避免了下行链路导频的开销和反馈延迟， 为上述两个缺点的解决提供了一种更务实的思路。

为了使基于文本的预训练 LLM 适应 CSI 数据的复杂矩阵格式，研究团队针对 LLM4CP 设计了特定的模块进行格式转换和特征提取，包括预处理模块 (Preprocessor)、嵌入模块 (Embedding)、预训练 LLM 模块 (Pre-trained LLM) 和输出模块 (Output)，如下图所示：

LLM4CP 网络架构示意图

预处理模块主要解决了 CSI 复杂的「空-时-频」三维关系的高维结构化数据。 为解决空域高维问题，团队将天线维并行化处理，即分别预测每对发射天线和接收天线的 CSI，从而在降低网络开销的同时提升任务的可扩展性；为全面捕获频域特征，团队充分考虑了信道结构化特征，引入时延域 (Delay domain) 以直接刻画多径时延特征；为有效提取时域特征，团队采用分块处理，捕获局部时域变化特征，并降低计算复杂度。

嵌入模块的设计主要用于 LLM 之前的初步特征提取， 包括 CSI attention 和位置嵌入 (Positional Embeddings)。由于文本信息和 CSI 信息之间显著的差异，预训练的 LLM 不能直接处理非语言数据，因而研究团队尝试利用 LLM 的通用建模能力来完成信道预测任务。设计嵌入模块将预处理后的特征进一步处理，以对齐预训练 LLM 的特征空间，克服了域差异。

在本研究中，团队选择了 GPT-2 作为 LLM 主干网络。 GPT-2 的主干由可学习的位置嵌入层和堆叠的变压器解码器组成，堆叠的数量和特征尺寸可以根据需要灵活调整。在训练过程中，预训练 LLM 的多头注意力层 (Multi-head attention) 和前馈层 (Feed forward) 保持冻结（如上图蓝色框所示），以保留预训练 LLM 中的通用知识，同时对加法、层归一化 (Addition & layer normalization) 和位置嵌入进行微调，使 LLM 适应信道预测任务。

值得注意的是，团队指出本文提出的方法中，GPT-2 骨干网也可以灵活地替换为其他大语言模型。

最后，输出模块旨在将 LLM 的输出特征转换为最终预测结果。

研究结果：LLM4CP 的预测精度、可达速率和误码率优于现有方案

为了验证所提方法的优越性，研究团队将 LLM4CP 与包括 PAD、RNN、LSTM、 GRU、CNN、Transformer 以及无预测在内的，几种基于模型或深度学习以及无干扰情况的信道预测方法进行了比较，设置 3 个性能指标，分别是 NMSE （归一化均方根误差）、SE （频谱效率）和 BER （误码率）。结果显示，LLM4CP 的信道预测精度、可达速率和误码率均优于现有信道预测方案。

研究团队分别在 TDD 系统和 FDD 系统中，比较了 LLM4CP 与其他方法的 3 个性能指标。

在 TDD 系统下， LLM4CP 的 SE 和 BER 性能指数分别为 7.036 bit·(s·Hz)⁻¹ 和 0.0039；在 FDD 系统下， 分别为 6.303 bit·(s·Hz)⁻¹ 和 0.0347，如下图：

TDD 系统 LLM4CP 和其他方法的 SE 和 BER 性能

FDD 系统 LLM4CP 和其他方法的 SE 和 BER 性能

TDD 和 FDD 系统下，LLM4CP 都实现了最先进的 SE 和 BER 性能。

在抗噪声鲁棒性测试中，LLM4CP 表现出最低的 NMSE 的信噪比最高，表明其对 CSI 噪声具有很高的鲁棒性。如下图所示：

TDD 系统历史 CSI 的 NMSE 性能与信噪比

FDD 系统历史 CSI 的 NMSE 性能与信噪比

少量样本训练对模型的快速部署起到至关重要的作用。团队针对所提方法少量样本学习能力进行了测试，只将 10% 的数据集用于网络训练。与全样本训练相比，LLM4CP 相比其他方法的优势在少数样本预测场景中表现出明显优势。

在频点泛化性测试中，团队将 TDD 系统中在 2.4 GHz 频点上训练的模型，应用于具有较少训练和零样本的 4.9 GHz 频点上进行测试，结果显示，LLM4CP 仅需少量的 30 个样本就能达到参数化模型的预测性能， 证明了其优秀的泛化能力。如下图所示：

TDD 系统的跨频泛化性能与样本数量的关系

高性能、低成本的可行方案

成本投入是模型在实际场景中落地的关键一环，研究评估了所提方法在实际场景中部署的难度，相关比较如下图所示：

训练参数及成本

由于 PAD 是一种基于模型的方法，故其模型参数数量相对较少，不需要训练过程，但由于处理复杂度高，它的推理时间最长。而 LLM 的推理时间相比 Transformer 大幅缩减，因此 LLM4CP 也具有服务于实时信道预测的潜力。

此外，团队还评估了选择不同数量的 GPT-2 层对信道预测性能、参数成本以及推理时间的影响。如下图所示：

不同 GPT-2 层数 LLM4CP 的 NMSE 性能、网络参数和干扰时间

在使用 10% 的训练数据集于 TDD 系统设置进行测试发现，网络参数和推理时间都随着 GPT-2 层数的增加而增加，在具有 6 个 GPT-2 层的模型测试范围内表现最佳。这意味着，更多层并不一定有利于预测，在实际部署中， LLM 骨干网的类型和大小选择需要考虑预测精度的要求，以及设备存储和计算资源的约束。

AI 让无限通信充满想象

随着无线通信飞速发展，尤其是当下的 5G 时代以及未来的 6G 时代，AI 与通信结合的重要性已经是不言而喻了。而在相关技术领域，AI 技术的应用也早已经得到了业界广泛的关注和研究。

例如，此前由南京邮电大学杨丽花团队发表的题为「A novel deep learning based time-varying channel prediction method」的研究，提出了一种适用于高速移动场景的基于深度学习的时变信道预测方法， 该方法基于反向传播 (back propagation, BP) 神经网络，进行线下训练与线上预测。论文指出，通过此方法可以显著地提高时变信道预测精度，且具有较低的计算复杂度。
论文地址：

https://www.infocomm-journal.com/dxkx/CN/10.11959/j.issn.1000-0801.2021011

而不同以往的是，本次研究首次将大语言模型应用在无线通信物理层设计当中，无疑是为 AI 与通信技术结合又开启了一条先河。

如论文所提到，在过去经验中，还未曾有过将预训练的大语言模型应用于非自然语言的任务当中，这是史无前例的一次成功尝试，证明了预训练大语言模型也可以突破语言形式赋能无线通信。

更值得一提的是，通过这次实验和尝试，大语言模型必将开启赋能的新篇章，同时借助大语言模型所特有的推理能力，也能使我们更加坚信一点，其势必会加快 AI 和垂直行业相关技术的融合，从而走出 AI 与千行百业结合的捷径。