**题目:**From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications
作者:江沸菠,潘存华,王可之,Pietro Michiardi,Octavia A. Dobre,Merouane Debbah
来源: IEEE Journal on Selected Areas in Communications
论文地址 :https://ieeexplore.ieee.org/document/11370176(查看全文请点击原文链接)
代码仓库: https://github.com/jiangfeibo/ComAgent (包含综述论文中所有开源大模型和Agentic AI框架和组件的源码)
欢迎阅读我们另一篇关于通信大模型的综述:
摘要:随着6G通信的到来,智能通信系统面临着多重挑战,包括感知和响应能力受限、可扩展性不足以及在动态环境中的适应性差。本教程系统地介绍了大规模人工智能模型(LAMs)和智能体人工智能(Agentic AI)技术在智能通信系统中的原理、设计和应用,旨在为研究人员提供前沿技术的全面概述和实践指导。首先,本教程概述了6G通信的背景,并回顾了从LAM到Agentic AI的技术演变。接着,系统地检查了构建LAM所需的关键组件,分类了各种类型的LAM,并分析了它们在通信中的适用性。随后,提出了一个面向通信系统的LAM中心设计范式,涵盖了数据集构建、内部学习和外部学习方法。在此基础上,本教程开发了一个基于LAM的智能通信Agentic AI系统,详细阐述了其核心组件,包括智能体、世界模型、规划器、知识库、工具和记忆模块,以及它们的交互机制。最后,提供了LAM和Agentic AI在通信场景中的代表性应用的深入回顾,总结了当前的研究挑战和未来方向,旨在促进高效、安全和可持续的下一代智能通信系统的发展。
1. 引言
随着6G通信的持续发展,智能化已成为未来无线网络发展的核心方向。传统通信系统依赖静态规则和预定义算法,难以应对快速变化的网络拓扑和动态环境。在此背景下,大规模人工智能模型(LAMs)因其在认知决策和数据生成方面的优势,在通信领域取得了显著成功。然而,LAMs 的智能仍主要是被动的,其决策依赖于预训练知识,缺乏实时适应性和自主决策能力。在此基础上,Agentic AI 代表了 LAMs 的技术演进,将感知、推理、规划和记忆整合到一个闭环系统中。这实现了主动决策、持续自我优化和与动态环境的自适应交互。通过这些能力,Agentic AI 为6G网络中的智能资源管理与优化引入了一种新范式。因此,从LAMs 到 Agentic AI 的技术转变对于支持智能通信系统从模型驱动向代理驱动的范式演进具有重要意义。
1.1 背景
6G的目标是构建一个智能的、普遍连接的世界,为人类社会提供前所未有的信息体验。在国际电信联盟(ITU-R)提出的2030年国际移动通信(IMT-2030)框架中,定义了六个关键能力模块,以支持未来无线通信生态系统的全面发展。这些能力模块包括:集成感知与通信(ISAC),它深度融合了环境感知与通信功能,使网络具备类似人类的感知能力,支持智能交通和智能电网等应用;大规模通信,支持密集分布设备的并发接入,以满足智能城市和工业物联网(IIoT)中大量终端的实时通信需求;集成AI与通信,它将LAMs嵌入通信系统,实现网络自适应、自优化和智能决策,显著增强资源分配和服务质量(QoS);沉浸式通信,提供低延迟、高带宽的体验,如全息影像和虚拟现实融合,推动包括元宇宙和增强现实/虚拟现实(AR/VR)在内的新型交互方式;普适连接,构建一个融合了太空、空中、海洋和陆地的全域通信网络,消除地理和空间限制;以及超高可靠和低延迟通信,满足远程医疗和自动驾驶等关键应用对超低延迟和高可靠性的严格要求。6G将依赖这六大核心能力,构建一个智能、普遍且高效的未来无线通信生态系统。在6G中,通信、感知、计算、AI和安全深度融合,为用户提供先进的通信服务。
1.2 历史发展
人工智能的发展经历了从早期简单的判别模型到生成模型,再到LAMs和高度智能的Agentic AI的逐步演进。这个过程不仅展示了模型架构和学习算法的持续创新,也反映了人工智能在多个领域的能力显著提升,包括理解、生成、推理和决策。LAMs的兴起为Agentic AI的发展奠定了坚实基础,而Agentic AI的出现标志着自主决策和复杂任务处理的重大突破。从LAMs到Agentic AI的进展可以分为以下几个阶段
1**)萌芽****阶段:**LAMs的开发始于2018年,标志性工作包括谷歌的双向编码器表示(BERT)。BERT是一个双向变换器模型,通过预训练和微调在多种自然语言处理(NLP)任务中取得了显著成果。其双向特性使得BERT在句子理解和文本分类等任务中表现出色。同时,OpenAI推出了GPT-1,这是一个面向生成任务的单向变换器模型。GPT-1创新性地引入了预训练和微调范式,并展示了大规模预训练语言模型在NLP任务中的潜力。随后,2019年,GPT-2进一步扩大了语言模型的规模和能力,展示了其在生成文本方面的强大潜力,拥有约15亿个参数。同时,Salesforce Research推出了条件变换器语言模型(CTRL),这是一个拥有1.63亿参数的条件变换器,结合控制码实现引导文本生成,代表了早期的指令调优,为可控和指令遵循的LAMs奠定了基础。
2**)****初始阶段:**2020年,OpenAI发布了庞大的语言模型GPT-3,该模型拥有1750亿个参数,标志着大规模语言模型(LLMs)进入初始阶段。GPT-3凭借其巨大的参数规模和复杂的训练方法,在文本生成、翻译、问答和代码生成等多个自然语言处理(NLP)任务中表现出色。GPT-3展示了大规模预训练模型在多任务学习和零样本学习中的潜力。同时,谷歌发布了T5模型。该模型提出了统一的文本到文本转换框架,使得各种NLP任务可以转化为文本到文本的格式,从而简化了任务处理流程。此外,T5可以在统一的模型架构下处理翻译、摘要、问答和文本分类等NLP任务。
3**)****成熟阶段:**2022年,GPT-3.5发布,在GPT-3的基础上进行了进一步优化,提升了模型的性能和效率,同时改善了实际应用中的响应速度和准确性。同年,Anthropic发布了Claude,一个聚焦于提高模型安全性和透明度的LLM,旨在减少偏见和误导信息。此外,Facebook AI研究院推出了Segment Anything Model(SAM),一个专注于图像分割任务的大规模视觉模型(LVM),在图像处理方面通过广泛的数据预训练取得了显著进展。
4**)****多模态阶段:**2023年,OpenAI发布了大规模多模态模型(LMM)GPT-4,该模型能够处理文本和图像数据,进一步扩展了LMM的应用范围。GPT-4将视觉和语言理解相结合,实现了更丰富、更复杂的交互能力。同时,谷歌DeepMind发布了Gemini,一个能够同时识别文本、图像、视频和代码的LMM。Gemini通过生成主流编程语言的高质量代码并提供全面的安全评估,在各种任务和应用场景中表现出了卓越的性能。
5**)****推理阶段:**2024年,OpenAI发布了OpenAI-01,这是一款具有增强推理能力的模型。该模型结合了强大的认知处理和复杂的环境建模与预测,推动了人工智能在决策和问题解决中的应用,同时提升了LAM的逻辑推理性能。2025年,DeepSeek推出了DeepSeek R1,该模型引入了先进的逻辑推理算法,在复杂任务和动态环境中展现了卓越的表现,标志着LAM正式进入复杂推理时代。
6**)****智能体阶段:**随着LAM技术的不断成熟,基于LAM的智能体系统框架开始涌现。早期的智能体框架,如AutoGPT和HuggingGPT,展示了语言理解在任务规划和执行中的潜力。同时,微软的OpenAgents等框架推动了多智能体协作、角色专业化和环境感知,赋予智能体系统更强的适应性和泛化能力。到2025年,LRMs(如DeepSeek R1)的出现大幅提升了智能体系统的推理性能,使得多任务、多工具和多智能体协作的复杂工作流成为可能------正式开启了Agentic AI时代。Agentic AI 的一个关键特征是智能体具备记忆、工具使用能力以及持续反思和学习的能力。这些能力使得智能体不仅能够更高效地执行任务,还能够从先前的互动中保留知识,从而提高其在未来任务中的适应性和有效性。总体而言,智能体阶段推动了LAMs从信息理解到任务执行和行为控制,奠定了具身智能和更高层次通用智能的关键基础。
1.3 相关调查研究
表1呈现了本教程与现有相关调查研究之间的比较分析。当前的研究主要集中在LAMs在通信系统中的作用,并部分探讨了它们在特定通信任务中的应用潜力,但在LAMs详细分类进和学习机制,以及Agentic AI系统的构建和应用方法方面仍存在不足。尽管这些调查研究在探索LAMs和Agentic AI在通信中的应用方面做出了宝贵贡献,但以下几个方面仍然有待改进:
1**)缺乏LAMs****及其训练范式的详细分类:**尽管现有研究部分探讨了LAMs在通信中的应用,但仍缺乏对模型类型和训练范式的详细分类。在模型类型方面,大多数研究集中在大语言模型(LLMs),而大视觉模型(LVMs)、多模态大模型(LMMs)、大推理模型(LRMs)以及轻量化LAMs在通信中的应用尚未得到充分研究,且尚未建立全面的分类或应用适配框架。在训练方法方面,尽管一些研究讨论了内部学习机制(如预训练、微调和对齐),但很少涉及外部学习机制,如检索增强生成(RAG)和结构化知识学习(如知识图谱(KG))。这些学习策略在通信中的适用性、差异性和协同关系仍缺乏系统的比较和分析。
2**)缺乏对Agentic AI****在通信中应用的系统性回顾:**当前研究主要集中在LAMs在通信场景中的感知和生成能力,而对具备长期规划、自主决策和工具调用的Agentic AI的系统性讨论仍然不足。在通信系统中,Agentic AI具有广泛的应用潜力,尤其是在语义通信、联邦学习、网络管理与优化、无人机(UAV)通信等复杂交互场景中。然而,大多数现有研究未能清晰定义其系统架构、核心模块(如规划器、工具、记忆模块)或与通信知识的整合路径。此外,缺乏针对通信任务定制的多智能体协作机制建模,阻碍了对Agentic AI在推动智能通信演化方面潜力和价值的全面理解。
表1不仅比较了现有综述的范围和深度,还突出了本研究旨在解决的关键研究空白。具体来说,大多数现有研究主要集中在基于LLM的通信应用,缺乏对模型分类法、训练范式以及Agentic AI 的架构和应用的系统性讨论。这些空白凸显了开发一个统一框架的必要性,该框架整合了LAM的内部和外部学习机制,同时为智能通信建立一个全面的Agentic AI 架构。因此,表1的意义不仅在于提供横向比较,更在于作为一张路线图,概述了LAM和Agentic AI 在6G通信中集成的未来研究方向。
表 1:本教程与之前研究的对比

1.4 动机
随着无线通信系统向6G迈进,它们在所需智能水平、动态适应性和系统效率方面面临前所未有的挑战。凭借其巨大的参数规模(通常达到数千亿甚至数万亿参数)、涌现能力和强大的认知推理能力,LAMs正在逐步改变人工智能在通信中的应用格局。这些模型为复杂的通信任务提供了有效支持,包括语义通信、资源调度和网络自优化。在6G网络中,LAMs可以履行以下功能角色:
1**)****数据生成器:**作为具有强大泛化和表示能力的生成式人工智能模型,LAMs能够基于领域知识高效生成各种类型的通信数据。例如,通过结合先进的生成架构(如自回归解码器、扩散模型),LAMs可以合成高质量的信道状态信息(CSI)数据,支持诸如定位估计、带宽分配和网络架构设计等关键任务。这类合成数据在保持用户匿名性的同时,展示了数据的真实性,为6G网络建模、优化和部署提供了成本效益高且可靠的数据支持,而且不侵犯用户隐私。
2**)****知识组织者:**凭借强大的跨模态语义推理和知识整合能力,LAMs能够结构化处理和深度挖掘原始通信数据,实现自动化的知识提取和重组。在语义通信系统中,LAMs可以作为知识库,协助语义编码过程。借助其广泛的世界知识和通信专业知识,它们能够有效减少歧义,提升语义对齐质量,并增强信息传输的准确性和上下文适应性,从而支持智能语义表示和理解框架的发展。
**3)资源管理器:**通过实时感知和建模网络环境状态、用户行为模式和资源利用效率,LAMs促进了通信资源的智能调度和优化分配。结合强化学习(RL)或长链推理框架,LAMs可以动态制定管理决策,如在多用户、多服务场景中的频谱分配、功率控制和接入策略,从而提高整体系统效率和公平性。此外,LAMs还可以预测未来资源需求趋势,支持主动的网络规划和服务质量保障。
LAMs和Agentic AI之间的关键区别在于它们的工作方式和智能决策能力。LAMs通常在固定的输入模式下响应,并通过已知的知识生成输出,但缺乏自主性和适应性。相比之下,Agentic AI具备主动决策和自我优化的能力,使其能够在复杂和动态的环境中做出独立决策,并在任务执行过程中主动学习和调整。这使得Agentic AI能够处理更复杂的通信任务,特别是在动态环境中,能够实时响应并持续优化其行为。在6G通信中,Agentic AI可以发挥以下作用:
1**)****任务调度器:**Agentic AI具备理解复杂指令、分配子任务和协调多模块执行的能力,使其能够在复杂通信场景中担任核心任务调度器。它可以动态部署不同的算法模块,并协同生成满足任务目标的解决方案。例如,在多无人机协作通信场景中,Agentic AI可以自主规划服务区域和飞行路径,避开障碍物,并分配通信资源以建立稳定的链路,在紧急情况下提供计算支持,显著提高系统的自主性和响应效率。
2**)****系统设计师:**凭借其强大的任务理解和复杂系统逻辑建模能力,Agentic AI能够根据通信系统的功能需求自动设计系统架构并配置模块。在AI集成通信任务中,Agentic AI可以结合联邦学习、资源调度、协议栈等领域的知识,理解算法(例如FedAvg)的设计意图和操作机制,自主完成系统级设计和结构优化。通过快速调优和策略反馈,它能够迭代优化通信系统的性能,展现出高度智能的系统设计潜力。
**3)决策执行者:**Agentic AI不仅生成决策,还通过与算法、工具和网络环境的互动直接执行这些决策。在网络故障检测和自愈场景中,Agentic AI 持续监控网络状态,识别节点故障或拥塞等异常,并自主地实时执行恢复操作,如流量重新路由或拓扑重构。通过整合多维输入(如延迟、服务质量(QoS)下降和链路可靠性),并利用强化学习(RL)、因果推理和元学习,它在恢复速度、可靠性和能效之间实现最佳权衡。强化学习不仅作为决策的关键机制,还作为增强智能体自身的关键手段,通过互动和反馈实现持续优化。此外,Agentic AI 可以与网络仿真平台(如NS-3、Mininet)互动,在实际部署之前验证决策的有效性。
表2总结了LAM、AI Agents和Agentic AI 之间的关键差异,突出了Agentic AI 如何通过自主决策、记忆和实时适应性扩展LAM的能力,这些能力对于应对6G网络中复杂、动态的通信任务至关重要。
表2:LAM、AI Agents和Agentic AI 的比较

1.5 贡献
本教程以通信系统向6G时代智能进化为背景,系统回顾并深入探讨了LAMs和Agentic AI在未来智能通信系统中的关键作用。从多个视角,包括模型分类、训练方法、Agentic AI系统设计、应用场景和研究挑战,本教程提供了全面的概述。本文的主要贡献总结如下五个方面:
1**)LAMs核心组件和模型分类的系统回顾:**提供了包括变换器(Transformer)、视觉变换器(ViT)、变分自编码器(VAE)、扩散模型、扩散变换器(DiT)和混合专家模型(MoE)等核心组件的综合分析,并对主流模型类型如LLMs、LVMs、LMMs、LRMs和轻量化LAMs进行了分类和比较分析。这一分析明确了每种模型类别在通信系统中的应用性和技术潜力。
2**)通信领域LAMs****的数据集设计与学习机制:**针对通信领域中领域知识匮乏、任务复杂度高和应用需求多样等挑战,提出了一个通信领域特定LAMs的设计框架。该框架包括构建与通信相关的数据集方法、涵盖预训练、微调和对齐的内部学习机制,以及包括RAG和KG在内的外部学习机制。这些组件共同确保了LAMs在通信场景中的有效性和可用性。
3**)基于LAM****的Agentic AI框架的构建(从通信视角):**系统集成LAMs与智能体人工智能技术,建立面向通信的Agentic AI架构。首先,核心核心系统组件,包括LAMs、规划器、知识库、工具和记忆模块。然后,探讨单智能体和多智能体系统的交互模式。最后,提出一个集成框架,包含多智能体数据检索、多智能体协作规划和多智能体评估反思,以支持复杂通信任务的智能处理。
4**)LAM和Agentic AI在通信场景中的应用探索:**对LAM在语义通信、物联网(IoT)、边缘智能、网络设计与管理、安全与隐私、资源分配等关键领域的应用进行了系统性审查。同时,探索Agentic AI在无线通信、语义通信、网络管理与优化、网络安全和UAV通信中的潜力,旨在提升整体系统智能性和工作效率。
5**)LAM和智能体人工智能在通信中的挑战与未来发展方向:**针对LAMs,讨论了数据匮乏、推理不足、可解释性差和部署困难等问题,并提出通过自主持续学习、基于RL的推理训练、模型可视化和模型压缩/蒸馏等解决方案。对于Agentic AI,分析了通信知识缺乏、可扩展性限制、控制机制复杂和评估困难的挑战,建议未来的研究集中于动态知识引导的Agentic RAG、分布式控制架构、统一控制协议和面向过程的评估框架,从而推动从"LAM驱动"到"Agentic AI驱动"智能通信系统的演进 。
2.关键概念
2.1 组件
**1)Transformer:**Transformer是一种由谷歌于2017年提出的全新神经网络架构。其核心创新完全依赖自注意力机制来捕捉输入序列中的依赖关系,并通过交叉注意力机制将编码器和解码器连接起来。自注意力是Transformer架构中的关键技术。它使得模型在处理特定词语时能够考虑序列中的所有其他词语(或符号),并根据相关性计算加权表示。此外,谷歌还引入了多头自注意力机制,以并行计算注意力,使得模型能够从不同的表示子空间中学习信息。注意力机制的计算过程如下:首先,查询矩阵(Q)与键矩阵(K)进行点积,并将结果除以键向量维度的平方根。然后,应用softmax函数对结果进行归一化,得到归一化的权重。最后,将这些权重与值矩阵(V)相乘,生成最终的注意力输出
此外,Transformer的编码器-解码器架构中的每一层包括前馈网络(Feed-Forward Network,FFN)、层归一化(LayerNorm)和残差连接。这些设计选择显著提高了Transformer在建模长程依赖、促进梯度传播以及实现高效并行训练方面的性能,在这些方面优于传统神经网络架构。Transformer在建模长程依赖方面具有强大的能力,并支持高度并行化的计算。然而,一个关键的限制是自注意力机制的计算复杂度是序列长度n的二次方,即O(n^2)。
Transformer是LLM的基石。其卓越的并行计算能力和捕捉长程依赖的能力,使得模型可以扩展到数十亿甚至数百亿个参数,正如GPT和LLaMA系列模型所展示的那样。在通信领域,Transformer器被广泛应用于多种任务,包括语义通信、信号处理、多模态感知和资源管理,显著提升了通信系统的智能化水平。
2)ViT**:**ViT在2020年首次展示了纯变换器架构可以直接应用于图像识别,且在大规模数据集上的表现达到了甚至超过了最新卷积神经网络(CNN)的水平。在ViT中,输入图像首先通过切分操作被划分成多个固定大小的图块,并将这些图块展平。然后,展平后的图块与CLS标记和位置编码拼接在一起,最后这些拼接后的数据通过变换器编码器进行处理。该过程通过一系列的操作,包括切分、展平、拼接和编码,来处理图像数据。
ViT的优势在于其强大的全局信息建模能力和可扩展性,这与Transformer架构的扩展性非常契合。然而,ViT缺乏传统模型中固有的视觉归纳偏置,例如局部性和平移不变性,这通常需要在大规模数据集上进行预训练,以实现具有竞争力的性能。此外,当处理高分辨率图像时,序列长度的增加会导致巨大的计算开销
ViT已成为LVMs(如SAM、DINO)的基础架构之一,并且在许多LMMs中发挥着关键作用。在通信中,ViT已广泛应用于语义通信、视距阻塞预测和自动调制识别等任务。凭借其强大的建模能力,ViT提高了系统对空间结构数据的感知准确性,并改善了通信效率。
3**)VAE:**VAE是一种深度生成模型,它结合了自编码器架构和变分贝叶斯方法的原理。VAE学习将输入数据编码到低维潜在空间,并能够从该空间中采样生成新数据。与传统的自编码器不同,VAE在潜在空间上学习一个概率分布,这使得生成的输出更加多样化。
具体来说,VAE将输入编码为潜在空间中的一个概率分布,通常假设该分布为多元高斯分布。从该分布中采样得到潜在变量,再通过模型重构输入的近似值。VAE的训练目标是最大化证据下界(ELBO),其中包括两个部分:一个是确保生成输出质量的重构项,另一个是通过KL散度引导潜在空间与先验分布对齐,通常假设先验分布为标准正态分布。
VAE提供了一个具有坚实理论基础的生成框架。其学习到的潜在空间通常是平滑的,这使得它适合于插值和解释。然而,一个常见的限制是,生成的样本可能看起来模糊,而且ELBO仅代表真实数据似然的下界。VAE通常用于离散图像编码和数据压缩,构成了像DALL-E和Stable Diffusion等大规模视觉模型(LVMs)的核心概念基础。作为一种强大的生成模型,VAE已广泛应用于通信任务,如CSI反馈、语义通信和多输入多输出(MIMO)检测。通过利用其潜在变量建模能力,VAE有效提升了通信系统的操作效率。
4**)****扩散模型(Diffusion):**扩散模型是一种基于马尔可夫过程的概率生成模型,提出于2020年。其核心思想是通过"噪声添加--去噪"过程来建模数据分布。扩散模型通过两个关键过程操作:正向扩散过程,即逐渐向数据(如图像、视频)中添加高斯噪声,直到数据变成纯噪声;反向去噪过程,则从纯噪声开始,利用神经网络逐步去除噪声,生成清晰的数据样本。
**正向扩散过程:**噪声逐步添加到原始样本 x0中,经过多次步骤后,直到它变成接近高斯白噪声。在第 t 步,当前的噪声样本 x_t 在给定前一步的噪声样本 x_t−1 的条件下,可以表示为一个条件概率分布。噪声的方差由一个参数 βt 控制,该参数初始化为一个小值。这里,x_t和 x_t−1分别表示在第 t步和第 t−1步的图像。
**反向去噪过程:**一个神经网络 ϵθ(xt,t)被训练用来估计噪声成分,然后通过使用固定方差和学习到的均值来更新第 t−1步的图像:在这个过程中,噪声的方差由βt控制,同时通过神经网络估算噪声成分并调整图像。为了保持生成样本的多样性和随机性,噪声 σtz被引入,其中 σt是噪声的标准差,z是从标准正态分布中采样的噪声。
扩散模型的优点在于能够生成高质量且多样化的样本,并且训练过程相对稳定。然而,它们的主要缺点包括生成速度较慢,因为需要多步迭代采样,并且理论推导相对复杂。扩散模型已成为高质量图像和视频生成的主流技术。像Stable Diffusion 、DALL-E 2/3 和 Imagen 等LVMs都基于扩散模型的原理。在通信领域,扩散模型被广泛应用于如信道估计、语义通信、信道增强和信号增强等任务,在复杂信道条件下展现出高保真生成和强大的鲁棒性。
5**)DiT:**DiT于2022年提出,是一种专门设计,旨在将Transformer架构应用于扩散模型。它通常在扩散模型的反向去噪过程中,用变换器替代之前常见的U-Net结构来预测噪声。
DiT将潜在图像表示 zt、时间步编码 t和可选条件 y 映射为一系列嵌入,然后将这些嵌入输入到标准的变换器中进行全局自注意力和前馈处理。最终的输出可以是预测的噪声 ϵθ(xt,t,y),或者是去噪后的图像样本的直接预测,具体过程如下所示:首先,将潜在表示、时间步编码和条件进行嵌入,然后通过ViT进行处理,输出预测噪声或者去噪后的图像。DiT提供了出色的可扩展性,通过增加模型规模显著提升了生成质量。然而,它仍然受到扩散模型固有的慢速采样速度的限制,并且在处理高维输入时,ViT的计算开销仍然较大。DiT的引入标志着扩散模型发展的一个重要里程碑,展示了变换器架构在生成任务中的强大潜力。它激发了许多后续大规模生成模型的设计,特别是像OpenAI的Sora 这样的世界模型,这些模型也在核心部分采用了DiT架构,用于处理时空潜在表示块。DiT证明了变换器可以作为广泛复杂生成建模任务的通用且可扩展的骨干架构。
6**)MoE:**MoE是一种模型架构范式,旨在通过条件计算增强模型容量,同时保持可控的计算成本。它不是一个独立的模型,而是通常集成在特定的LAMs中。
在标准的变换器模块中,原始的前馈网络(FFN)子层通常由两个线性变换和一个非线性激活函数组成,独立应用于自注意力层输出中每个位置(或符号)的表示。要将其替换为MoE层,首先需要实例化N个独立的"专家"网络,每个专家网络都是一个具有与原始FFN相同架构的FFN,但具有自己的参数集。此外,引入了一个门控网络,用于计算每个专家的概率得分。基于这些得分,通常采用稀疏路由策略,选择得分最高的K个专家(K通常较小,如1或2)来处理当前的符号。最后,选中的K个专家的输出通过加权求和结合,产生该符号的最终MoE输出
MoE的主要优势在于它能够有效地将参数规模与计算成本解耦,使得在相同的计算预算下,可以训练和部署比密集模型大得多的LAMs。然而,其主要缺点是对内存的巨大需求:尽管计算是稀疏的,但所有专家的参数在推理过程中仍必须加载到内存中。因此,MoE模型通常比具有相同计算复杂度的密集模型消耗更多的内存。
MoE是推动先进LLM发展的关键技术之一。像谷歌的GLaM 、Mistral AI的Mixtral 8x7B 和GPT-4 等架构都采用了MoE框架。通过利用MoE,这些模型能够扩展到更大的参数规模,同时保持可接受的训练和推理成本。在通信领域,MoE已广泛应用于通信安全、卫星通信和信号处理等任务,其中专家激活和并行处理机制有助于提高系统智能性、改善推理效率并增强鲁棒性。
2.2 分类
1**)LLM:**LLMs是深度学习领域的重要分支,专指在海量文本语料库上进行预训练,并且包含极大数量参数的神经网络模型,通常达到数十亿甚至数百亿个参数。它们的核心能力在于理解和生成类人自然语言,使其能够执行广泛的语言相关任务,展现出显著的泛化能力和适应性。通过从大规模语料库中学习语法、语义和常识知识,LLMs已获得了类人级的认知和推理能力,成为推动NLP及通用人工智能(AGI)领域发展的基础技术。
从结构上看,大多数最先进的语言模型基于仅解码器的Transformer架构,利用其强大的自注意力机制有效捕捉长范围依赖关系,并学习多层次的语言特征和语义表示。
OpenAI开发的GPT系列(如GPT-3 、ChatGPT )、谷歌的Gemma系列、Meta AI的LLaMA系列以及Anthropic的Claude,都是LLMs的代表。在通信领域,LLMs被广泛应用于语义通信、网络管理、多智能体系统和通信安全等任务。凭借其强大的语言理解和生成能力,LLMs显著提升了通信系统的智能性、适应性和交互效率。
2**)LVM:**LVMs是指在包含数十亿张图像和视频的庞大视觉数据集上训练的深度神经网络模型,具有极大的参数数量。这些模型旨在学习通用且强大的视觉表示,使其能够理解复杂的图像和视频内容,并在广泛的下游视觉任务中进行泛化。LVM显著扩展了计算机视觉系统的性能上限和应用范围。
LVMs通常采用CNNs或ViTs作为其主干架构。这些架构通过堆叠多个处理层,以分层的方式提取视觉特征,逐步捕捉从低级特征(如边缘和纹理)到高级语义(如物体部分和完整物体)的表示。除了纯ViT设计外,结合CNN和ViT的混合架构在LVM开发中也很常见,旨在利用CNN的局部特征提取能力和变换器的长程依赖建模能力。
代表性的LVMs包括Masked Autoencoders(MAE)、DINO 和SAM 。它们在通信中的应用主要集中在语义通信。通过结合SAM和MAE等LVMs,构建轻量级的知识库和高效的语义编码器/解码器,从而实现图像语义信息的压缩和共享。这显著提高了通信效率和图像重建质量。
3**)LMM:**LMMs旨在联合处理和理解来自多个不同模态的数据,如文本、图像、音频、视频,甚至可能包括代码、点云和传感器数据。LMM的目标是实现全面的模态融合与交互,从而更有效地模拟人类如何通过多种输入感知和理解世界。这些模型能够执行复杂的跨模态推理、内容生成和无缝交互。LMM被广泛认为是实现更通用形式的人工智能的关键步骤。
在架构设计方面,LMM通常建立在强大的单模态基础架构上,并结合更复杂的跨模态融合和对齐机制。其核心架构通常包括:针对不同输入类型的模态特定编码器;一个或多个投影模块,用于将模态特定信息映射到共享的表示空间,并执行深度对齐,可能使用多层交叉注意力、模态门控机制或专门的融合网络;以及一个中央处理单元,通常基于LLMs,负责语义理解、推理和任务执行。为了支持多模态输出生成,LMM可能还会集成相应的解码器。
OpenAI的GPT-4是LMM的一个重要代表,原生支持灵活的文本和图像模态组合,适用于输入和输出。它显著降低了交互延迟,并提升了跨模态任务的性能,展现了真正的实时多模态对话能力。同样,谷歌的Gemini系列和Meta的LLaVA系列也是强大的LMM。通过整合更多类型的感知输入,这些模型实现了前所未有的复杂跨模态理解与生成,进一步模糊了数字智能与物理世界感知之间的边界。
LMM广泛应用于语义通信、无线网络意图管理和多模态任务导向对话系统等通信场景。通过集成图像、文本和传感器数据等多模态信息,这些模型显著增强了通信系统在理解、适应性和智能交互方面的能力。
4**)LRM:**LRMs是专注于增强复杂任务中系统推理能力的人工智能模型。它们的主要目标是通过明确的多步逻辑推理解决复杂的逻辑问题,如数学、编程和科学领域的问题。与传统的LLMs相比,LRMs通过结合RL、监督微调(SFT)和思维链(CoT)等技术,显著提升了在规划、问题分解和动态知识整合方面的性能。
从结构上看,LRMs通常采用多阶段训练框架。它们从一个基础的预训练模型开始,通过强化学习或混合训练策略(如SFT + RL)优化推理链的生成,并通过RAG机制动态增强外部知识。例如,DeepSeek R1采用了群体相对策略优化(GRPO)算法,通过奖励函数平衡答案准确性和推理格式一致性。此外,它还结合了冷启动数据和语言一致性约束,使得模型能够在减少冗余计算和优化资源消耗的同时,保持高质量的推理。
代表性的LRMs包括OpenAI-o1、DeepSeek R1和Qwen-QwQ等模型。作为早期的基准,OpenAI-o1通过蒙特卡洛树搜索(MCTS)和过程奖励建模(PRM)展现了复杂的推理能力。然而,由于其闭源特性和高计算成本,限制了它的广泛应用。相比之下,DeepSeek R1因其开源性质而脱颖而出,提供了与o1相当的推理性能,但成本大幅降低,从而大大促进了开源社区的发展。此外,像Qwen-QwQ这样的LRM也在代码生成等特定领域任务中展示了与o1类似的推理能力,进一步丰富了LRM生态系统。在通信领域,LRMs主要通过其强大的多步推理和抽象能力来增强系统智能、适应性和安全性。
5**)轻量化LAM****(Lightweight LAM):**轻量化LAM是专门设计和优化以减少模型复杂性、最小化存储大小、降低计算资源消耗和加速推理速度的LAM。这类模型的核心价值在于能够在资源受限的环境中高效运行,如移动设备、嵌入式系统、物联网设备和边缘计算节点。此外,它们有助于降低大规模云部署的成本和延迟,从而使LAM能够在各种实时或功率敏感的场景中更广泛和经济地应用。
轻量化LAM需要精心优化的架构设计和权衡,以在受限资源"预算"内最大化性能。结构上的轻量化通常体现在几个方面:首先,通过直接减少模型的深度(层数)和宽度(隐藏维度、注意力头数);其次,通过采用更高效的组件变体,如将标准的多头注意力(MHA)替换为分组查询注意力(GQA)或多查询注意力(MQA),这可以显著减少推理过程中的缓存大小并提高效率。
一系列代表性的轻量化LAM已展示其潜力和价值。例如,TinyLLaMA项目旨在复制LLaMA 2的架构和训练流程,包含约11亿个参数,并采用GQA等优化,为极度资源受限的研究和开发提供了基础模型。LiteLLaMA通常指的是LLaMA系列的官方或社区优化版本,参数较少,强调性能与资源消耗之间的平衡。MiniCPM是一个专为边缘部署设计的多模态模型,具有约20亿个参数,是专为移动设备和边缘设备量身定制的代表模型。此外,微软的Phi系列(如Phi-2、Phi-3-mini/small/medium)以"小尺寸、高性能"特点而闻名,通过在高质量数据集上进行训练,取得了超过同规模模型的结果。这些轻量化LAM的不断发展正在使强大的AI能力能够应用于更广泛的终端设备和应用场景。在通信领域,轻量化LAM在语义通信中发挥着关键作用,其低计算开销和强大的推理能力使得它们能够直接在边缘设备上高效地提取、压缩和重建语义信息,显著提升通信效率和鲁棒性。LAM的分类及其在通信中的应用场景见表3。
表3:LAMs的分类及其在通信中的应用

2.3 总结和经验教训
1**)****总结:**本章对通信中的LAMs的核心组件和模型类型进行了系统总结。我们详细介绍了典型模块(如变换器、ViT、VAE、扩散模型、DiT和MoE的基本原理、架构特点和在通信中的应用场景。同时,我们回顾了不同类别LAMs(包括LLM、LVM、LMM、LRM和轻量化LAM)的定义、结构特征以及代表性工作。这为读者理解当前LAM技术体系奠定了全面的基础。
2**)****经验教训:**尽管在LAMs的模型架构、分类机制和通信应用方面取得了显著进展,但仍然存在多个挑战。一方面,像Transformer、ViT和扩散模型在处理长序列和高维数据时需要大量计算,扩散模型的生成速度较慢,MoE结构消耗大量内存,这些都影响了LAMs在通信场景中的实时性能和部署效率。另一方面,LAMs在多模态融合和复杂推理任务中的稳定性和一致性仍需改进。未来的研究应聚焦于优化模型计算结构、提高采样和推理效率、构建统一且可扩展的多模态模型架构,并推动轻量化LAM在边缘环境中的高效部署。
3.如何设计用于通信的LAMs
在学习通信知识的背景下,LAMs主要采用两种方法。第一种方法通过预训练、微调和对齐将通信知识直接嵌入到模型参数中。然而,这种方法费时且不适用于需要频繁更新的知识。第二种方法结合了RAG和KG,利用外部向量数据库和图数据库为LAMs提供上下文化的知识,而无需修改其参数。这种方法更适应于快速更新和发展的知识需求。接下来的部分将首先介绍构建通信数据集的方法论,随后详细讨论这两种学习范式。
3.1通信数据集****
通信数据集的构建是训练LAMs用于通信的基础。它包括三个关键组件:预训练、微调和对齐数据集。主要目标是支持模型能力从通用智能到任务特定能力的转变和增强,尤其是在通信任务中的应用。
1**)****通信内容过滤:**目前,训练LAMs所使用的通用数据集中包含了大量与通信相关的内容。代表性的数据集包括Common Crawl、Pile、Dolma和RedPajamaData等。因此,可以通过从这些数据源中提取相关内容来构建特定领域的通信数据集。这个过程包括识别一组常用的通信相关关键词,根据这些关键词过滤数据集,以保留与通信相关的内容,并应用去重技术去除冗余或重复的条目。通过这些步骤,可以提高LAMs训练效率,同时保持数据的多样性。在内容过滤过程中,可以根据以下标准精确选择通信特定的关键词:
- **技术相关性:**关键词应与核心通信理论紧密相关。例如,"6G"代表最新一代的移动通信技术,"VoIP"指的是基于IP网络的语音通信,这些都表明了明确的通信特定语境。
- **高频使用:**关键词应是专业通信文献中常用的术语。例如,"宽带"描述了高速互联网接入技术,"LTE"是长期演进的缩写,常出现在移动通信场景中。
- **独特性:**关键词应在通信领域具有独特性和特异性。像"频谱分配"是无线通信中的关键概念,而"光纤通信"是现代高速传输的基础,这些词语展示了独特性。
- **权威性:**关键词应来源于核心通信标准,具有权威意义。例如,"3GPP"定义了全球移动通信标准,"IEEE 802.11"规定了无线局域网标准,这些准确引用了正式的通信技术。
- **时效性:**关键词应反映通信领域的前沿趋势。"网络切片"允许灵活分配网络资源,"量子加密"基于量子力学实现安全通信,都是代表先进和新兴概念的词语。
- **清晰性:**应优先选择那些能够准确描述前沿通信技术的关键词,避免模糊或过于通用的词语。例如,"VoLTE"表示基于LTE网络的高清语音服务,"非地面网络"指的是卫星通信和其他非地面网络技术。
2**)****通信预训练数据集:**LAM的预训练需要大量且多样的与通信相关的数据,这些数据跨越多个技术领域和数据源,以全面获取特定领域的知识,并增强模型的泛化能力和准确性。以下是可以用于通信领域LAM预训练的代表性数据集:
-
TSpec-LLM是一个开源数据集,专门针对3GPP文档,涵盖了1999年到2023年的超过30,000份文档,总大小为13.5GB。该数据集采用markdown格式,保留了原始的结构层次,有助于LLM理解和处理。
-
OpenTelecom Dataset 是为电信领域LAMs设计的预训练语料库。它涵盖了广泛的来源,包括通信标准、研究论文、书籍和专利,特别强调来自3GPP和IEEE的权威文档。该数据集确保模型能够获取全面且可信的电信知识,为与通信相关的NLP任务提供丰富且高质量的文本资源。
-
CommData-PT是一个专门为通信领域的LAMs构建的高质量预训练语料库。它包括来自3GPP标准、IEEE协议、与通信相关的专利、学术论文、源代码和维基百科条目的全面内容,涵盖了通信系统各个层次的知识。这些数据通过LAM辅助识别、基于关键词的过滤、清洗和标准化处理,最终得到一个具有垂直领域特异性和结构一致性的语料库。该数据集为通信导向LAMs的预训练和下游任务表现提供了强有力的支持。
3**)****通信领域微调数据集:**在通信领域,微调使LAMs能够学习和理解特定领域的指令,并执行相应的任务。指令微调数据集在这一过程中起着至关重要的作用,它通过提供成对的指令-响应样本,帮助模型学习如何理解指令,并根据给定的指令执行任务。这显著提高了模型在特定通信任务中的适应性和准确性。以下是一些代表性的指令微调数据集:
-
TelecomInstruct Dataset是一个专为电信任务设计的指令微调数据集。它涵盖了广泛的任务类型,包括问答、文档分类、代码生成和协议解释。该数据集旨在增强模型理解和执行电信特定指令的能力,从而提高其在复杂通信场景中的有效性和泛化能力。
-
CommData-FT是一个专门为通信领域LAMs微调设计的高质量指令微调数据集。基于CommData-PT语料库,它包含了结构良好的指令-响应对,涵盖了如协议相关问答、文档分类和文本摘要等任务。该数据集遵循标准化格式,并经过人工筛选,以确保数据质量,为模型在通信任务中的微调和专业化提供了强有力的支持。
任务微调是另一种微调方法,使得面向通信的LAM能够直接执行特定的通信任务。通过利用领域特定的通信数据集,LAM学习通信系统中的任务相关特征、约束和决策逻辑,从而获得在实际网络环境中执行具体通信任务的能力。以下是几个代表性的任务微调数据集:
-
WSS24是一个真实的2.4 GHz ISM频段数据集,通过Ellisys BV1设备收集。它记录了来自79个子带的RSSI值,每100微秒一次,涵盖Wi-Fi、蓝牙和Zigbee信号。数据被转换为13个Wi-Fi频道,用于训练和测试基于深度学习的MAC协议,如DL-MAC。
-
MetaCC是一个用于信道编码的元学习基准,包括五种信道类型------AWGN、突发、记忆、 multipath和真实无线电信道。每个任务在不同噪声条件下解码率为1/2的卷积码。它有助于研究任务多样性和分布转移,表明元学习解码器可以将误码率降低最多58%。
-
DeepMIMO是一个可定制的数据集,用于毫米波和大规模MIMO系统中的机器学习。它基于Wireless InSite射线追踪,捕捉环境和用户位置的现实效果。"O1"场景包括18个基站和超过一百万个用户,在60 GHz频段。它提供了用于波束预测和信道估计的真实信道数据,广泛用于基于AI的5G/6G研究。
**4)通信领域对齐数据集:**对齐数据集为LAMs提供高质量的反馈,以优化其行为和决策过程,使模型能够更好地与人类的偏好和价值观在复杂环境中对齐。例如,TelecomAlign 数据集专为电信领域的对齐微调设计。它旨在训练LLMs生成更符合通信特定需求和人类偏好的响应,同时减少冗余、啰嗦和无关内容。通过优先生成简洁和准确的答案,该数据集有助于减少系统延迟,并与语义通信的原则对齐,从而增强模型在通信场景中的实用性和人机协作能力。
3.2 内部学习
在通信领域,内部学习通常包括三个阶段:预训练、微调和对齐。预训练使模型能够从大规模数据中获取通用的语义和知识能力;微调使模型适应通信任务的特定需求;对齐进一步优化模型的输出行为,确保其更好地与通信系统的实际标准和目标对齐。
1**)****预训练:**在通信中对LAMs进行预训练是构建具备领域特定知识和语言理解能力的基础模型的关键步骤。它旨在解决通用LAMs在专门的通信任务中适应性不足的问题。预训练涉及在大规模通信数据上进行无监督学习,使模型能够获取与通信领域相关的基本概念和结构知识,从而为下游任务打下坚实的基础。在通信场景中,通常采用持续预训练策略,将领域特定的数据引入,进一步对开源LAMs(如LLaMA、Gemma)进行预训练。这些数据源包括3GPP标准、IEEE标准、通信专利、源代码和维基百科条目,形成了高质量的语料库,如OpenTelecom和CommData-PT。训练目标是预测下一个符号,使模型能够学习通信上下文中的语义和逻辑。完成预训练后,模型保留了其通用的语言能力,同时显著增强了对通信协议、术语和系统结构的理解,从而为后续的指令微调和对齐提供了强有力的基础。
具体的预训练方法包括在领域特定的通信数据集上进行持续预训练。与LAMs的初始预训练阶段不同,这一过程提供了一种成本效益较高的方法,将通用LAM转变为通信专业化模型。在持续预训练过程中,学习目标基于因果语言建模,即模型在给定前一个单词序列的情况下预测下一个单词。形式上,输入文本表示为一个单词序列,模型的目标是通过最小化负对数似然损失来进行训练,从而增强其对通信知识的理解。损失函数的计算方式是:对于每个位置的单词,计算该单词在给定其前面的单词序列时的预测概率,并对所有位置的损失进行求和。
2**)****微调:**微调是通信导向LAMs在预训练后的一个关键阶段,旨在增强模型对特定通信任务(如协议解析、问答和代码生成)的理解和执行能力。这个过程包括在高质量、任务特定的数据集上进行监督训练,使得模型能够根据给定的指令生成专业且准确的输出。微调通常使用像CommData-FT或Telecom-Instruct这样的指令数据集,并通过交叉熵损失函数优化模型。为了提高训练效率,常采用参数高效微调(PEFT)技术,如LoRA。因此,经过微调的通信模型在任务特定性和适应性方面表现更强,在电信问答和代码生成等任务中,比通用LAMs具有更优的性能。
指令微调通过使用指令微调数据集对通信导向的LAMs进行监督微调。数据集由多个指令-响应对组成,其中每个指令与一个对应的响应配对。数据集可以正式表示为多个指令-响应对的集合。通过这些指令-响应对,LAM通过最小化给定指令下响应的条件负对数似然损失进行训练,从而提高其在零样本或少样本场景中的表现,并减少在响应用户请求时的拒绝行为。在这个过程中,损失函数的计算是:对于每个指令-响应对,计算该响应序列中每个符号的预测概率,并对所有符号的损失进行求和,最终得到该指令-响应对的整体损失。
**3)对齐:**在通信中,对齐是提升LAMs实际效用的关键步骤,旨在确保生成的输出更好地反映通信任务的偏好和要求。虽然经过微调的模型能够处理这些任务,但仍可能生成冗余、不准确或与任务无关的响应,因此需要进一步优化。对齐通过构建带有偏好标签的数据集,并应用诸如直接偏好优化(DPO)等方法,鼓励模型生成简洁、准确且高度相关的输出。与传统的强化学习方法相比,DPO省去了复杂的奖励模型,从而实现了更高效、更稳定的训练。最终,经过对齐的模型在电信特定问题解答和协议解释等任务中的表现更符合实际需求,使其更适应未来智能通信系统的应用。
具体来说,DPO的损失函数通过优化模型在给定输入的条件下生成首选响应和非首选响应之间的比值,来调整模型输出与人类反馈的偏差。模型通过这种方式可以学习如何生成更符合人类偏好的答案,同时抑制不符合偏好的答案,从而优化任务执行效果。这种方法使得LAMs能够在生成任务输出时更加贴合实际应用需求和用户期望,从而提升其在智能通信领域的实际应用价值。
3.3 外部学习
在通信领域,LAMs的外部学习范式主要遵循两种方法:基于向量化数据的RAG和基于结构化图数据的KG。RAG通过整合外部语义向量数据库,增强了模型的信息检索和生成能力;而KG通过结构化表示,增强了模型的知识推理和上下文理解能力。
1**)****基于向量数据的RAG:**RAG是一种新兴的外部知识集成范式,在LAM中显示出了显著的潜力,能够显著提高事实准确性和领域适应性。在通信领域尤为关键,因为通信领域的知识发展迅速,且技术术语的使用既广泛又专业化。通过将知识检索与生成建模过程解耦,RAG有效解决了内部学习的LAM的关键局限性,如知识过时和通信特定内容的覆盖不足。
RAG框架通过两个主要阶段进行操作:检索和生成。在检索阶段,通信相关的文档,如协议、标准和技术白皮书,经过预处理、分段并使用嵌入模型编码成高维向量表示。这些向量然后存储在可搜索和索引的向量数据库中,如Milvus 。当接收到用户查询时,查询被编码成向量,并基于向量相似度检索最语义相关的文档片段。在生成阶段,检索到的内容与原始查询连接并一起传递给LAM,LAM生成包含上下文和领域特定知识的响应。在通信应用中,RAG通过使得在不需要重新训练基础模型的情况下整合更新的知识,提供了显著的好处。
2**)****基于图数据的KG:**知识图谱(KG)在为LAM提供结构化和领域特定的通信知识中发挥着至关重要的作用。与非结构化文本或平面向量嵌入不同,KG使用图结构表示领域知识,其中通信实体被建模为节点,它们的语义关系则作为边。这样的结构化表示增强了模型在复杂技术概念上的逻辑推理能力,并提高了它在多跳语义路径中检索相关信息的有效性。
构建面向通信的知识图谱通常包括三个主要阶段。首先,从领域特定的文档中提取相关实体,如通信协议、技术和系统参数,以及它们的属性和关系。其次,构建语义图来捕捉这些实体之间的显性和隐性关联。最后,生成的图被存储在图数据库中,如Neo4j,这使得LAM能够执行结构化查询并进行基于图的推理。在通信场景中,知识图谱帮助系统地组织快速发展的和层次化的领域知识,包括协议标准和架构框架。此外,它们支持松散相关或跨领域概念的语义整合,从而提高模型的上下文理解和推理能力。
**3)Graph RAG:**为了增强通信知识的获取和应用,CommGPT系统提出了一个多尺度知识学习框架,将知识图谱(KG)与RAG集成。通过结合结构化和非结构化的知识源,这个框架使LAM在推理过程中能够访问全球语义表示和细粒度的上下文信息。具体而言,LAM首先从用户查询中识别出关键通信实体,并在预先构建的知识图谱中定位相应的节点。然后,它扩展相关关系,构建一个子图,捕捉查询的语义意图。这个子图作为RAG模块的指导信号,促进与目标实体及其相关概念相关的文档内容的检索。检索到的文本内容随后与序列化的子图融合,形成统一的输入,随后传递给LAM进行推理和生成。
基于上述的学习过程,我们提出了一个通信领域的基础大模型CommGPT。在生成阶段,CommGPT有效利用丰富的上下文信息来减少幻觉现象,并显著提高技术响应的准确性。例如,当回答涉及多个实体和技术关系的问题时,CommGPT能够清晰地展示实体之间的连接,并提供准确的技术解释。表4展示了内部学习和外部学习的比较。如图1所示,建立了一个结构化设计流程,通过各种学习方法开发专门优化的通信LAM。
表4:内部学习与外部学习的比较


图1:通过多种学习方法为通信领域设计专业LAM的结构化设计流程
3.4 总结与经验教训
1**)****总结:**本章系统总结了构建通信领域LAMs的关键组件和技术路径。从通信数据集的构建入手,我们概述了通信特定数据的过滤策略、预训练数据集、指令微调数据集和偏好对齐数据集的构建方法,形成了一个涵盖整个数据生命周期的综合设计方案。关于模型训练,我们分别介绍了内部学习和外部学习,明确了每个阶段的目标函数和技术方法。内部学习包括预训练、指令微调和偏好对齐等关键技术,而外部学习则包括基于向量的RAG和基于图的KG和图RAG。通过这些内容,我们为通信领域LAMs的系统化设计提供了完整的技术参考和方法总结。
**2)经验教训:**尽管在数据集构建、预训练、微调和LAM对齐方面取得了初步成果,但内部学习仍面临知识更新延迟和高训练成本等挑战,而外部学习则遇到包括复杂的知识组织和系统集成等困难。未来的工作应集中在构建高质量、多层次的通信数据集,提升模型对通信知识的适应性和更新能力,并优化RAG和KG等外部增强机制,从而推动通信场景中高效且可扩展的结构设计与开发。
4.如何为通信设计Agentic AI系统
基于LAM的Agentic AI系统指的是一个由LAM驱动的智能体框架,集成了知识库、规划器、工具和记忆模块等关键模块。该系统旨在自主理解、规划和执行复杂的通信任务。它不仅具备自然语言理解和推理能力,还支持多智能体协作,能够对通信任务进行迭代优化。与传统的智能体系统相比,基于LAM的智能体人工智能系统展现出更强的通用性、可扩展性和适应性,从而释放出AI在6G网络中的全部潜力。接下来的部分,我们将详细概述该系统的核心组件、智能体交互机制以及多智能体系统架构。
4.1 Agentic AI系统架构
Agentic AI系统由LAMs、知识库、规划器、工具和记忆模块组成,这些模块共同实现了自然语言理解、知识推理和任务执行。智能体利用知识库获取通信领域的特定知识,借助规划器进行任务推理和分解,调用外部工具执行操作步骤,并通过记忆模块存储和检索历史信息以便反思和持续优化任务。基于LAM的智能体人工智能系统架构如图2所示。

图2:基于LAM的Agentic AI系统架构
1**)LAMs:**在Agentic AI系统中,LAMs充当核心推理引擎和中央协调枢纽,负责任务理解、上下文建模、工具调用和反思评估。通常采用LMMs(如GPT-4或Gemini)来实现多模态感知和对外部指令及环境的解释,从而协调系统的整体操作。LAMs利用提示模板来构建任务处理工作流,调用规划器动态生成子任务指令,并将其分发给其他模块,同时主动监控执行状态并协调输出,确保语义一致性和逻辑连贯性。此外,LAMs可以与外部工具(如搜索引擎、代码执行器和文件系统)以及针对通信任务的内部工具进行接口对接,实现从推理到执行的闭环周期。作为一个连接用户、智能体、工具和知识库的统一决策引擎,LAMs显著增强了系统在处理复杂通信任务中的适应性和可扩展性。
**2)世界模型:**在自主AI系统的背景下,LAM和世界模型之间的关系是互补的。虽然像LLM这样的LAM在基于语言的推理和任务特定学习方面表现出色,但它们在捕捉复杂的物理动态和时空关系方面存在局限性。世界模型通过提供一个内部模拟器来解决这一问题,该模拟器根据智能体的行动预测未来状态,使AI系统能够以更具前瞻性和主动的方式推理环境。通过将世界模型与LAM集成,智能体AI可以将语言理解的能力与物理和时间推理相结合,使其能够在复杂动态的环境中做出更明智的决策并优化策略。
**3)****规划器(Planner):**规划器模块是Agentic AI系统中的核心组件,负责理解任务、分解目标和组织执行。它通常采用具有强大语言理解和推理能力的LRM,如OpenAI-o1 和DeepSeek R1 ,这些模型利用慢思考和思维链(CoT)推理将复杂任务分解为可执行的子任务序列。规划器生成可行的任务链,明确地定义了子任务之间的顺序和依赖关系,以指导下游执行。该系统采用先进的推理策略,如思维链(CoT)、思维树(ToT)、思维图(GoT)和计划-求解框架,在执行反馈的基础上,逐步将任务细化为可操作的步骤,并迭代改进计划。该模块通常集成了多智能体协作、结构化任务建模和基于反馈的重新规划等关键技术,显著提升了系统在处理复杂通信任务中的效率和适应性。
**4)****知识库(Knowledge Base):**在Agentic AI系统中,知识库模块是支持任务理解和推理的基础支柱,为智能体提供结构化、可检索且高度相关的外部知识。该模块整合了与通信相关的文档(如研究论文、标准、协议)和人工智能领域的知识。它通过语义编码和知识嵌入构建,使其能够高效地与LAMs的知识检索需求对接。知识库可能由向量化数据和图结构数据组成:向量数据通过RAG查询进行检索,而图数据通过KG查询进行访问。当任务执行需要外部知识时,用户的查询会被转换为检索式提示,搜索知识库中的相关段落。根据语义相似性排名返回相关内容,然后由智能体进行过滤和重新表述,以提供任务上下文相关的知识支持。该模块支持结构化知识获取和动态演化,并能够进行自适应更新。
**5)****工具:**工具模块作为语言理解和任务执行之间的关键桥梁,使智能体能够在Agentic AI系统中执行"感知--推理--行动"的操作。该模块集成了各种类型的外部工具,包括通用工具(如搜索引擎、文件访问、API调用、数据分析器)、通信特定工具(如信道模型、波束赋形算法、资源分配算法)和人工智能特定工具(如聚类算法、特征提取方法、深度学习算法),形成了一个全面的执行工具库。智能体通过自然语言描述理解这些工具的功能,并发出工具调用命令,将数据传输到适当的工具进行处理。执行后,输出结果将返回并指导任务链中的后续步骤。在这个过程中,工具模块可以被多个智能体反复调用,以支持代码生成、数据处理和系统建模等任务,作为连接推理和行动的核心推动力。该模块融合了提示工程、智能体通信协议(ACP)和工具选择机制等关键技术,增强了工具利用的智能性和灵活性,提升了系统在多回合交互和复杂任务场景中的适应性。
**6)****记忆:**在Agentic AI系统中,记忆模块是支持自我反思、任务优化和持续学习的核心组件。它负责记录和管理任务执行过程中间状态和结果,从而建立短期和长期记忆机制。短期记忆捕捉语义相似的任务经验,以便进行比较分析和局部优化,而长期记忆则保留语义上不同的经验,以支持系统级战略更新和全局优化。在每个任务完成后,智能体评估其执行计划和结果,对其进行分类并存储,然后利用短期记忆提出局部的工作流调整,利用长期记忆执行全局的工作流修正。该模块模拟了人类认知过程中的"短期回忆和长期积累",通过记忆驱动的自我优化,支持多回合交互中的任务泛化,并成为自主学习和任务泛化的关键基础。记忆模块集成了短期和长期记忆建模、向量数据库、语义嵌入和自我反思机制等关键技术,显著增强了系统在复杂通信任务中的信息组织和知识演化能力。
4.2 面向通信的工具设计
在LAM和Agentic AI的集成框架中,面向通信的工具设计可以通过三条互补路径进行推进。
**1)现有通信算法的工具化:**经典算法,如信道模型、波束形成和资源分配,可以被模块化并封装成标准化的可调用接口(例如,功能API或基于MCP的工具)。这使得智能体能够灵活地在"推理--验证--执行"循环中调用和协同这些工具,实现感知驱动的在线优化和自适应策略部署
**2)将LAM蒸馏为轻量级工具:**代表性模型,如WirelessGPT 和SpectrumLLM ,首先在大规模通信数据集上进行预训练,以获得优秀的任务表示。然后通过知识蒸馏和模型压缩技术,如剪枝和量化,将这些模型转化为适合边缘部署的"微型工具",用于包括信道预测、鲁棒波束形成和快速跨场景适应等任务。
**3)直接生成通信工具:**受到WirelessAgent 和CommLLM 的启发,可以构建集成感知、记忆、规划和行动能力的通信智能体。这些智能体支持生成特定任务的工具,并实现多个工具之间的协调,使其能够在网络切片、频谱管理和语义通信等任务中实现自主决策和持续优化。
4.3 多智能体交互
作为决策和执行的核心单元,智能体依赖于LAM的理解和生成能力,围绕任务目标和外部环境进行自主或协作互动。在多智能体系统中,每个智能体作为一个独立的决策单元,与其他智能体协作解决复杂问题。常见的优化策略包括无序互补协作、有序互补协作和对抗性协作。
**1)无序互补协作:**无序互补协作强调智能体之间的灵活互动,没有预定的顺序或规则。每个智能体根据自身的经验提供信息和策略,增强了系统的多样性,并使得从多个角度分析复杂和不确定的问题成为可能。这种方法减轻了单一智能体视角的局限性,提升了整体推理能力,并增加了系统在动态环境中的适应性。
**2)有序互补协作:**有序互补协作遵循多个智能体之间的明确顺序和结构化过程。信息沿着预定路径传递,任务以协调的方式执行,形成一个连续的知识链。一个智能体的输出作为下一个智能体的输入,从而提高了协作效率,减少了信息冗余和干扰,优化了推理过程,并在复杂场景中提高了任务执行效率和决策准确性。
**3)对抗性协作:**对抗性协作涉及智能体之间的竞争性互动,它们不断挑战和批评彼此的推理策略。这种动态促进了自我反思和策略优化,因为智能体从对方的优缺点中学习。这种博弈论式的学习不仅增强了个体的推理能力,还加强了系统在复杂环境中的整体鲁棒性和问题解决深度。
4.4 多智能体架构
CommLLM框架建立了一个以LAM为核心的多智能体协作系统架构,专为6G通信设计。CommLLM架构的示意图如图3所示。该架构集成了知识库、规划器、工具和记忆模块,以支持智能决策和任务执行。通过自然语言输入驱动,系统通过智能体之间的分布式协作,精心设计了全程的知识检索、任务规划、结果评估和自我优化。每个智能体被分配到特定的子任务,通过协调工作形成"输入--推理--反馈--优化"的闭环工作流。这使得系统能够处理复杂的通信任务,适应动态环境,并持续学习,代表了6G通信系统智能演化的关键技术路径。该架构包括以下三个组件:
1**)****多智能体数据检索:**多智能体数据检索(MDR)模块负责从外部知识库获取与任务相关的信息,并作为系统中语义建模和知识支持的基础入口。该模块由多个功能特定的智能体组成,包括安全智能体、压缩智能体和推理智能体,形成一个从输入过滤到信息重构的多阶段数据检索管道。具体而言,当用户提交自然语言任务请求时,安全智能体首先筛选输入,去除可能的恶意指令或违反系统约束的请求,确保任务链的鲁棒性和合规性。接下来,系统利用嵌入的向量检索机制,基于处理后的查询语义从预构建的知识库中识别最相关的知识段落。这些检索到的段落随后由压缩智能体进行压缩和清理,去除冗余并保留核心内容。最后,推理智能体利用LAM的语言理解和生成能力,对压缩后的文本进行语义抽象、逻辑整合和知识重构,形成结构化的、任务就绪的知识表示。该模块不仅确保了下游推理中使用的知识的上下文准确性和相关性,而且通过与多智能体协作规划(MCP)模块的协作,显著增强了系统在复杂通信任务中的领域适应性、响应效率和可解释性。
2**)****多智能体协作规划:MCP模块在分解复杂通信任务和生成高质量执行路径方面发挥着核心作用。它通过协调多个配置有不同角色和推理策略的规划智能体,支持并行的多角度任务分析。在接收到用户请求和来自知识库的领域相关信息后,每个规划智能体应用推理框架(如思维链(CoT)或计划-求解策略)对任务进行语义建模,并将其分解为子任务。这些子任务按执行顺序和依赖关系进行组织,确保逻辑一致性和语义连贯性,并可以顺序执行或并行执行。系统随后调用LAM的内在工具能力或外部集成工具模块,逐一解决每个子任务并生成初步执行结果。MCP的多智能体规划策略显著增强了系统在多目标、约束丰富的场景中的响应性、推理鲁棒性和生成质量。它还为多智能体评估和反思(MER)模块的评估和优化过程奠定了基础。MCP有效地解决了传统单智能体系统中的"路径限制"和"单一模式偏见"问题,成为Agentic AI**中处理复杂通信任务执行的核心规划引擎。
3**)****多智能体评估与反思:**MER模块是评估解决方案质量、生成自我反馈和实现迭代优化的核心机制。它旨在弥补单次推理过程中可能出现的偏差、低效或不合逻辑的推理。该模块由多个功能智能体组成,负责评估、反思和优化。在操作工作流中,MER接收由MCP模块生成的多个候选任务计划链,每个候选链代表不同规划智能体提出的推理路径和执行策略。评估智能体根据预定义的任务目标、上下文约束和先前经验,对这些候选方案在准确性、效率和可解释性等维度进行评估和排序。反思智能体随后访问短期记忆,追踪上下文轨迹和中间变量,识别推理过程中存在的弱点或逻辑问题,并利用LAM的推理能力提出细化的改进建议。优化智能体进一步利用长期记忆中存储的高质量历史解决方案和范式,进行结构化战略重建和路径重写,将优化后的计划反馈给MCP模块进行下一轮迭代。值得注意的是,MER不仅仅是一个结果评分机制,它与记忆系统和智能体行为配置紧密集成,在智能体工作流中形成反思和可学习的反馈环路。这大大增强了系统在处理复杂且开放性任务时的稳定性、适应性和鲁棒性。

图3:CommLLM的示意图
4.5 新兴的智能体AI技术
随着Agentic AI范式的不断成熟,相关技术也在迅速发展,催生了一系列支持性创新,这些创新共同构成了一个更加互联互通和自适应的AI生态系统。关键的使能技术如下:
**1)智能体网络:**智能体网络是一种去中心化的网络架构,被设想为未来互联网的形态,其中自主智能体代表用户进行互动和协作。为了确保高效的互动,引入了模型上下文协议(MCP),该协议标准化了智能体之间的信息交换和任务协调。MCP使得即使没有全球环境视图,智能体之间也能进行稳定、低延迟的通信和动态决策。智能体网络的出现标志着互联网范式的转变------从以用户为中心转向以智能体为中心,其中自主智能体成为驱动智能在线生态系统的主要实体。
**2)智能体互联网:**智能体互联网(IoA)代表了多智能体互联和协作的更广泛框架。与专注于网络和服务层交互的智能体网络不同,IoA更侧重于系统级的智能体组织、通信和协作任务执行。其目标是建立一个分布式网络,其中智能体作为节点,能够进行跨系统和跨领域的协作。与连接物理设备的物联网(IoT)不同,IoA连接能够自主感知、推理、通信和行动的智能实体,从而实现网络间的大规模协调和智能自动化。
**3)上下文工程:**上下文工程是利用上下文信息增强智能体决策和感知的过程。它包括构建使智能体能够实时理解和响应环境的模型。通过考虑相关的上下文因素,如环境、情境和时间,上下文工程使得智能体能够做出更优且更具适应性的决策,从而提高其在动态和不确定环境中的表现和有效性。
4.6 总结与经验教训
1**)****总结:**本章总结了基于LAM的Agentic AI系统的核心概念和系统架构,系统地概述了其组成模块、交互机制和工作流程。我们重点介绍了以LAM为核心的推理引擎的设计,围绕知识库检索、任务规划、工具调用和记忆优化等关键模块,构建了一个用于复杂通信任务的智能体系统框架。通过分析智能体的交互方式和优化机制,我们展示了该系统在任务建模、推理执行和自我进化方面的能力,为推进面向6G通信的Agentic AI系统的研究和实现提供了技术基础和方法参考。
2**)****经验教训:**尽管基于LAM的Agentic AI系统在各类通信任务中表现出了良好的通用性和可扩展性,但仍然面临一些挑战,如复杂的多智能体协作、任务规划中的不稳定性、知识库检索效率低、工具集成与调用灵活性有限等。未来的研究应着重于增强多智能体间的协作策略和一致性建模,构建更高效的知识管理机制,加强工具调用的智能性和泛化能力,并推动Agentic AI系统在复杂通信场景中的自主适应和多回合优化能力的持续发展。
5.如何利用LAMs和Agentic AI优化通信系统
5.1 LAMs的应用场景****
1**)LAMs在语义通信中的应用:**凭借LAMs在自然语言理解和跨模态推理任务中的卓越能力,语义通信正逐步从传统的比特传输范式向以智能为驱动、以语义为中心的通信范式发展。
在语义建模和优化中,引入LLM使得语义信息能够直接建模和高效解码。通过预训练获得的通用知识支持端到端语义通信,即使没有微调,端到端LLM-语义通信系统也能模拟AWGN和Rayleigh衰落信道,使用Vicuna-7B v1.5与8-QAM/16-QAM调制进行基于令牌级的联合源--信道编码,无需重新训练;它在高SNR下实现了无误差传输,并在BER = 10−3时获得约8 dB的编码增益。通过集成SC-GPT方法,LLM进一步改善了信道适应性和传输效率,从而显著提高了语义通信的准确性和鲁棒性。此外,将KG与LLM结合,通过启用结构化语义提取和上下文感知压缩编码,显著提高了传输效率和语义重构质量。端到端KG-LLM模型模拟了带AWGN的Rayleigh衰落信道,使用LLM编码和BERT精化解码,实现了约30%的数据压缩和84%的语义相似度,优于基于深度学习的语义通信模型(DeepSC)和GPT-2。在对话式视频语义通信中,LLM构建私人知识库,以实现语义错误修正和歧义消解,并参与联合语义--信道编码,从而提高了传输的准确性和鲁棒性。同时,它们还促进了语音和视频的高质量重构,使得在低带宽条件下实现更高效和准确的语义传输和恢复。
在图像语义通信系统中,集成LLM设计的语义编码器和上下文感知的语义解码器,使得能够从原始图像中提取高密度的语义信息,并在接收端重构出上下文一致的表示。在生成性视频语义通信中,大型生成模型(如Open-Sora、Stable Diffusion)将文本和结构化语义(第一帧或草图)融合进行跨模态视频重构。该系统使用联合源--信道编码与DJSCC和Turbo编码,并通过扩散生成进行去噪和重构。引入一个配备VAE基础压缩的扩散模型,使得信道噪声和前向扩散过程的统一建模成为可能,同时反向扩散阶段执行去噪和语义重构。此架构通过集成基于下采样的压缩、VAE驱动的高斯特征重构,增强了噪声鲁棒性、语义保真度和带宽效率。
在多用户图像语义通信中,系统使用轻量级视觉模型(Fast SAM)和Masked AutoEncoder(MAE)进行高效的语义提取和压缩。轻量知识库(LKB)识别关键语义对象,而多用户语义共享(MSS)机制减少冗余传输。结果显示,在AWGN和Rayleigh信道下,该系统在图像重构和分类准确性方面优于JSCC和WITT,实现了更高的语义压缩效率和带宽利用率。在跨模态语义通信系统中,基于视觉--语言模型的跨模态语义通信(VLMCSC)框架是基于BLIP和Stable Diffusion模型构建的。该系统从图像到文本执行高语义密度提取,并实现可控的图像重构。在动态信道条件下,它集成了增强记忆的持续学习和噪声感知的注意力调制模块,显著提高了语义表示的完整性和语义通信传输的鲁棒性。在3D语义通信系统中,集成SAM、NeRF和扩散模型的生成性AI模型辅助3D语义通信(GAM-3DSC)框架,执行面向任务的3D语义提取、自适应语义压缩和信道估计,并辅以条件生成对抗网络(GAN)与扩散模型的结合。
在多模态语义通信系统中,提出的基于LAM的多模态语义通信(LAM-MSC)框架集成了CoDi模型进行模态转换,并利用基于GPT-4构建的个性化知识库进行语义提取和重构。此外,采用条件GAN(CGAN)进行信道估计,显著提高了在复杂信道条件和多模态数据场景下语义通信系统的传输效率。CGAN通过使用接收到的信号和导频序列作为条件输入,传递给卷积--解卷积生成器,生成器学习将它们映射到无线信道增益,而判别器则通过对抗训练精炼生成器以提高估计准确性。此外,在6G语义通信系统中,基于多模态LLM的隐私保护语义通信方案(MLLM-PSC)基于GPT-4V架构,集成了用户个人资料驱动的少样本提示学习和敏感语义加密机制。M4SC系统整合了LLM的推理和泛化能力,通过核对齐网络(KAN)构建统一的语义空间,用于多模态对齐。它通过自然语言指令模板优化多任务表示和传输,并在多用户场景中区分共享和私有语义传输,显著提高了语义通信系统的压缩比、带宽利用率和适应性。在带宽受限的环境中,LLM通过识别图像中的关键信息并执行语义压缩,提高了水下图像语义通信的效率和鲁棒性。通过集成扩散模型和ControlNet,实现了高质量的图像重构,同时基于语言的LLM被用来恢复文本信息。同时,LLM被用于边缘IoT网络中的语义通信系统,使其能够在边缘进行用户意图识别、语义提取和重构。
总之,赋能语义通信的LAM从根本上重塑了信息传输的基础单元,转变为从符号和比特的传输到意义的准确传递。这一范式的转变为下一代无处不在、智能且高效的通信系统提供了强有力的支持,具有更高的可靠性。
2**)LAMs在物联网中的应用:**随着物联网的广泛部署以及其应用场景的持续扩展,传统物联网系统在任务复杂性、语义理解、设备协作和实时交互等方面面临着显著的瓶颈。LAM的引入为开发更加智能和自适应的物联网系统提供了新的视角。
在任务协调和控制自动化方面,LLMind框架提出了一种以LLM为核心的协调机制,支持设备和功能模块之间的协作控制。通过多阶段的转换过程------从自然语言到有限状态机,再到最终的可执行代码------它支持跨多个设备的动态协调和基于反馈的执行,从而为物联网系统提供持续学习和自适应进化的能力。此外,AutoIoT系统将LLMs集成到人工智能与物联网(AIoT)应用的开发中,通过自然语言编程将用户意图转化为本地可执行的代码。此方法提供了强大的可解释性和灵活的交互,同时避免了与远程模型调用常相关的隐私和延迟问题,为低门槛、高效的AIoT应用开发提供了新的范式。LLMs还可以通过边缘推理和PEFT机制增强设备上的智能。在协作推理和分布式学习的基础上,可以建立一个资源适应性优化框架,显著提升物联网系统在智能医疗、智能城市和家居自动化等应用中的响应能力、隐私保护和跨设备的泛化能力。
在隐私和安全保护方面,LLMs结合本地部署与提示工程,使得系统能够理解、分析任务并从物联网设备上传输的复杂数据中生成代码。在不需要微调的情况下,LLMs能够进行推理和自我修正,从而显著增强系统在隐私敏感、资源受限和任务多样化场景中的数据处理能力和智能响应。这展示了LLMs在优化物联网系统智能服务中的关键作用。LLMs还被应用于物联网网络的实时威胁检测和预防系统的开发中。通过结合微调的轻量级模型和物联网特定的数据集,这些系统能够快速响应未知攻击,并在受限资源条件下高效防御,凸显了LLMs在智能安全系统中的巨大潜力。此外,LLMs在增强物联网系统的安全性、可管理性和智能数据处理能力方面也展现了显著的潜力,例如通过在分布式拒绝服务(DDoS)攻击检测中的高精度少样本识别、在宏编程框架中自动生成多场景控制脚本,以及为大规模传感器数据处理任务提供高质量、可解释的响应。
在语义推理和多模态建模方面,LLMs能够将多源传感器数据进行抽象和融合,自动从原始日志中识别并生成高层次的活动事件,无需依赖广泛的人工规则或领域特定的知识。这显著提高了物联网数据处理和智能分析的效率,特别适用于智能医疗和长期监控等应用。它突出了LLMs在优化事件理解和统一日志生成中的关键作用。为了增强LLMs在现实物理世界中的推理能力,IoT-LLM框架将物联网感知数据与思维链(CoT)提示结合,集成了物联网知识增强和检索机制。这使得在多个任务中实现统一建模和推理,例如人体活动识别和工业异常检测,大大提高了LLMs对物理法则和传感器语义的理解深度。对于更复杂的物联网感知场景,IOT-LM框架采用多模态、多任务感知编码器和指令微调机制,将多源异构传感器数据映射到LLMs的输入空间。这实现了跨模态的知识融合和共享任务建模,显著提升了物联网系统在多任务识别、交互式问答和实时推理中的智能和泛化能力。
总之,LAM与物联网的深度融合不仅显著增强了语义理解和推理能力,还推动了物联网系统在智能性、可扩展性和安全性方面的全面升级。这为构建具有认知能力、自主任务执行和自然人机交互特征的新一代物联网生态系统奠定了坚实的基础。
3**)LAMs在边缘智能中的应用:**随着LAM的不断进步,将其部署到边缘以支持实时、低功耗和隐私保护的智能服务正成为边缘智能发展中的关键方向。
在边缘训练和推理优化方面,为了解决在边缘训练LAM时联邦学习效率低下的问题,LLMs结合前向梯度训练和PEFT被用来支持低内存的设备上推理和训练,支持神经处理单元(NPU)加速,并允许多设备并行处理。因此,联邦学习的效率和模型的收敛速度得到了显著提高,突显了LLMs在资源受限条件下提升边缘智能的关键作用。为了解决边缘设备的资源限制,Edge-LLM框架采用了分层统一压缩(LUC)和自适应层调优机制,使LLMs能够在边缘设备上高效微调和推理。这大大减少了内存使用和计算复杂性,同时保持了性能,进而提高了部署的可行性。此外,EdgeShard系统将LLM推理任务划分到多个边缘设备和云端,支持计算密集型工作负载的碎片化处理。它引入了联合设备选择和模型分区优化算法,显著提高了推理吞吐量,降低了延迟,为协作边缘环境中的LLM推理提供了新范式。在部署层面,边缘设备协作的LLM系统将生成过程分配给设备上的串行组件和边缘上的并行组件共同执行,从而优化推理延迟和能耗。此外,采用整数规划算法分配计算和传输资源,体现了设备-边缘协作优化的系统化设计方法。
在边缘架构设计中,LLMs通过MEI4LLM框架被集成到移动边缘智能(MEI)中,该框架结合了PEFT、分布式训练和推理等技术。此框架提高了边缘的计算效率和资源利用率,有效解决了设备能力有限和隐私保护相关的挑战,展示了LLMs在优化边缘智能服务中的关键作用。此外,在去中心化部署场景中,LLMs使得能量采集边缘设备之间的分布式推理成为可能。通过结合调度优化和动态功率控制,它们显著提高了边缘的能效和任务吞吐量,同时降低了设备故障的风险,突出LLMs在增强可持续边缘智能方面的关键作用。从6G网络演进的角度来看,LLMs通过PEFT、量化和模型分区等技术支持6G边缘设备上的低延迟、设备上推理和训练。这些方法有效减少了资源消耗,同时提高了系统响应能力和智能服务能力,进一步突显了LLMs在推动边缘智能方面的重要性。此外,一项全面的调查强调,LLM驱动的边缘智能架构应涵盖高效部署、安全保护和可信开发机制,并概述了包括模型压缩、自主优化和跨领域场景适应等关键技术路径,从而提供了LLM驱动的边缘智能发展的系统全景。
总之,LAMs正在迅速推进与边缘智能的深度融合,逐步克服计算瓶颈、能量限制和通信开销。这为构建低延迟、隐私保护且具有高度泛化能力的边缘智能系统提供了强有力的支持。
4**)LAMs在网络设计与管理中的应用:**随着6G网络向更高的智能化和自主性发展,传统的基于规则的网络设计与管理方法在灵活性和泛化能力方面面临局限性。凭借在语义理解、意图识别、任务规划和程序生成方面的强大能力,LLMs正被越来越多地集成到网络管理架构的关键组件中,促进了更加高效、智能和多功能未来网络的发展。
在网络智能设计与管理中,LLMs发挥着关键作用,通过支持ChatNet框架,它实现了自然语言到网络特定语言的自动转换。这支持了网络规划、配置和安全政策制定等任务,从而提高了设计效率和自动化水平,展示了LLMs在增强智能网络操作和管理中的关键作用。在此基础上,NetLM框架利用LLMs将自然语言意图转化为可执行的政策。通过集成多模态表示学习和知识空间构建,它为资源调度、政策生成和网络配置提供了智能支持,提升了6G网络设计效率和自动化水平,同时改善了多任务网络管理中的自主性和灵活性。此外,LLMs还支持对多源异构数据的统一访问和建模,用于智能操作、资源调度和配置策略。通过结合自然语言理解、指令生成和知识增强技术,LLMs支持意图解析、故障诊断和政策生成,从而提高了6G网络管理的自动化和泛化能力。LLMs还支持从自然语言描述中自动生成配置命令和网络拓扑图,使文本输入到可执行网络配置的过渡无缝进行。通过结合文本和视觉模态的提示工程技术,这种方法显著提高了响应准确性和设计可视性,从而增强了LLMs在网络架构设计、生成和配置自动化中的可靠性和实用性。
在网络管理的自适应优化中,LLMs展现了针对图结构任务的程序合成能力。它们可以直接从自然语言描述中生成高质量的图操作代码,为网络生命周期管理和通信图分析提供更高效的接口。与传统依赖场景建模和参数调优的方法相比,LLMs在无知识网络管理中表现出了思维链(CoT)推理和上下文学习(ICL)。通过集成多模型协作机制,它们支持资源调度和功率控制等任务的自适应策略生成,即使在没有先前场景知识的情况下也能进行处理。通过NetLLM框架,LLMs通过多模态编码器处理非文本输入(如时间序列数据和图结构),并通过任务特定的输出头直接响应如比特率选择和调度策略等配置任务。这显著增强了网络任务管理的效率和泛化能力。此外,LLMs通过解析用户意图并生成功能到服务的映射,协同执行跨领域的网络切片资源配置和任务部署。这使得从设计到执行的智能端到端管理成为可能,大大推动了网络管理自动化水平的提升。此外,在通过LLMs实现的网络算法设计自动化(NADA)框架下,LLMs通过自动设计状态模型和神经网络结构来生成和优化自适应比特率(ABR)算法。结合提示工程和过滤机制,这种方法能够在4G、5G和卫星网络等不同网络环境中高效地定制算法和提升性能。它显著简化了网络算法开发过程,并增强了网络管理的智能化和自动化能力。
总之,LAMs正在深刻赋能网络设计与管理任务,推动智能网络系统朝着更高的自主性、更强的泛化能力和更好的任务适应性发展,涉及网络架构、资源调度、配置部署和算法生成等关键维度
5**)LAMs在安全与隐私保护中的应用:**随着LAMs在通信系统中的广泛部署,网络安全和用户隐私保护面临前所未有的挑战。外包训练、用户数据暴露和模型滥用等问题,要求智能通信系统不仅提供高效服务,还需具备强大的安全性和隐私保护能力。近年来,LAMs在输入加密、对抗攻击防御、差分隐私机制设计和可信执行路径构建等领域展示了显著优势,逐渐成为下一代安全通信系统的基础支柱。
在后门攻击和隐私泄露风险分析中,LLMs在通信网络中的应用使其成为进行此类攻击的新载体。代表性方法如输入干扰、提示操控、指令注入和示范污染,基于攻击介质、触发机制和目标进行分类。通过结合通信场景的独特特点,研究进一步探讨了这些攻击的隐蔽性和防御难度,为提升通信网络安全性提供了宝贵的见解。在零接触网络与服务管理(ZSM)环境中部署LLMs引发了隐私泄露的紧迫关注。重点研究了成员推断攻击,系统评估了主流预训练模型的泄露风险和攻击效果。进一步提出了一种集成信任评估模块、少样本微调和对抗训练的机制,为确保基于LLM的服务在通信网络中的可信性提供了具体的实现路径。此外,LLMs在网络系统中的应用展现了攻防特点。从积极的一面,它们有助于数据完整性验证、异常检测和多层次隐私保护。然而,它们也面临着如幻觉输出、训练数据泄露和对抗样本脆弱性等挑战。这些问题突显了研究可信智能通信智能体的关键方向。
在隐私保护和安全部署的背景下,基于区块链的LLM(BC4LLM)框架通过集成基于区块链的数据所有权验证、身份认证和隐私保护计算,增强了LLMs在分布式训练中的抗攻击能力和可信性。该框架为训练数据、学习过程和生成内容提供了端到端的隐私保护和安全增强。LLMs还可以通过采用加密词汇重排序、嵌入空间中的几何变换和客户端预加密机制,实现从输入到推理的不可逆端到端数据保护。这些技术有效防止了输入泄露和模型参数重构风险,从而增强了跨任务推理场景中的安全性和隐私保护。在客户端-服务器通信框架中,LLMs利用激活引导的隐私恢复机制和dX隐私保护元向量构建,去除并重构用户输入中的敏感片段。此设计防止了数据传输过程中的隐私泄露,同时保持推理准确性和计算效率。在异构边缘-云协作通信场景中,LLMs通过引入低秩残差转换机制和分布式参数微调策略,利用PrivateLoRA实现隐私保护的信息流,只传输不可逆激活值和梯度,确保数据本地化,同时显著减少通信开销。这促进了在移动设备上高效部署隐私增强的生成服务。在处理敏感数据时,LLMs集成了用户信任建模、信息敏感性检测和自适应输出控制机制。通过应用基于角色的访问控制(RBAC)、基于属性的访问控制(ABAC)、差分隐私训练和语义级过滤,它们实现了基于用户信任级别的输出调节,强化了隐私保护。这支持了在智能推理系统中平衡可用性和安全性,特别是在智能医疗和金融等通信密集型领域。
在安全任务协作和智能防御系统中,LLMs展现了强大的任务泛化、安全知识建模和增强代码生成能力。这些能力使其能够在威胁情报、漏洞检测、程序修复和恶意行为识别等关键安全任务中提供有效的态势感知和协调响应。这种集成为智能防御和隐私保护提供了统一的模型支持和参考框架。此外,LLMs通过对抗训练、异常检测和安全模型更新机制增强了系统对后门攻击、数据中毒和对抗攻击的抗性。通过集成差分隐私、联邦学习和安全多方计算等隐私保护技术,它们支持在推理过程和模型生命周期中构建端到端的安全防御系统,为高可信度的智能系统奠定了基础。
总之,LAMs正在持续推动通信网络从传统的安全架构向智能感知、安全决策和自主防御转变。这一转变通过输入重构保护、差分隐私、语义过滤、安全模型更新和访问控制策略等多种机制得以实现。
6**)LAMs在资源分配中的应用:**随着无线通信、边缘计算和多智能体系统的广泛部署,资源分配问题变得越来越复杂。高维非凸性、动态环境变化和多目标协调等挑战暴露了传统优化方法的局限性。借助强大的语义建模和推理能力,LAMs在资源分配场景中展示了显著的优势,成为智能资源调度的关键推动力。
在信道感知和功率控制优化中,构建了一种基于少样本学习的LLM推理框架,通过信道增益提示生成功率分配策略。结合二进制功率控制机制以增强鲁棒性,这种方法能够联合优化频谱效率和能效目标。在智能网络资源调度中,结合GPT系列LLMs的MoE架构替代了传统的门控网络。通过从自然语言输入中解释用户目标并选择最优专家组合,这种方法有效地支持了功率控制、服务选择和负载均衡等资源分配任务的自适应优化,显著提高了多任务环境下的决策效率和系统灵活性。通过LLM-OptiRA框架,LLMs对非凸资源分配问题进行建模、转换和求解。通过引入误差修正和可行域验证机制,该框架实现了无线通信系统中高效且鲁棒的资源调度。
在边缘侧协作资源调度中,提出了一个RAG优化框架,通过将LLMs的生成能力与实时信息检索相结合。在MEC系统中,该框架联合调度任务卸载比例、计算资源和传输功率分配,显著提高了动态资源分配决策的适应性和可解释性。在集成空间-空中-地面网络中,LLMs作为可缓存资源被利用。通过引入认知年龄的概念和基于强化学习的拍卖机制,系统协调模型存储、通信带宽和计算能力的分配,从而提高推理服务的时效性和整体资源利用率。在边缘-云协作架构中,LLMs通过多臂老虎机算法进行调度,该算法由约束满足目标驱动。此方法使多种基于LLM的服务能够动态分配资源,显著提高推理吞吐量和能效,同时维持延迟约束。在MEC场景中,LLM训练任务通过分层协调策略在用户和边缘服务器之间分配。通过结合PEFT和稳定性感知优化目标,系统实现了多目标联合资源分配,平衡了训练能耗、延迟和模型可靠性。
在任务感知和自适应计算资源分配中,LLMs引入动态决策模块和KV缓存修剪策略,根据任务复杂度和标记重要性自适应跳过Transformer层。这使得能够按需分配并大幅压缩计算和内存资源。在多智能体系统中,LLMs通过将任务规划机制与智能体能力感知策略结合,自动执行任务分配和资源协调。这种方法改善了协作多模型环境中的资源利用和推理效率。
总之,LAMs正在推动资源分配机制从静态、基于规则的方法向动态、语义驱动的策略转变。这些模型有效解决了一系列关键场景,包括训练调度、推理压缩、模型缓存和多智能体协调。因此,它们在复杂条件下显著提升了资源分配效率和泛化能力,为下一代智能且高度自适应的网络系统的发展奠定了坚实的基础。

图4:LAMs的应用场景
5.2 Agentic AI的应用场景****
在LAM的基础上,Agentic AI扩展了它们在感知、记忆和执行方面的能力,从而实现了自主操作和动态互动,同时克服了传统基于LAM的系统在被动推理方面的局限性。
**1)Agentic AI在无线通信中的应用:**随着无线通信技术,尤其是在6G时代的快速发展,网络架构的智能化和自动化已成为提升通信效率、优化网络资源和实现有效管理的关键因素。通过将智能体引入无线通信,可以实现更复杂的任务协作、决策优化和网络性能提升,从而满足6G网络对高效、智能和个性化服务的需求。
在网络优化方面,利用LAMs作为智能体可以显著提高网络的智能性和优化性能。在6G网络中,利用LLMs作为智能体协同完成任务并优化网络性能,使多智能体系统具备集体智能,从而推动任务分解和决策执行,特别是在边缘环境中的应用。此外,将LLMs应用于网络运营优化和健康评估,有助于实现更高效的故障诊断、资源调度和负载均衡,从而提高6G网络的智能水平。在无线感知系统中,将LLMs作为智能体,与模型上下文协议(MCP)和专家系统结合,增强了LLMs在复杂无线通信环境中的感知和推理能力,使得无线网络中的动态问题能够得到更准确的解决。
在任务协作方面,使用LAMs作为智能体可以有效实现面向任务的协作和自动化工作流,推动任务执行。在6G网络中,基于LLMs的AI智能体架构利用多模态协作、动态资源管理和边缘计算等关键技术,实现网络自动化、个性化服务和智能多设备协作。此外,使用LLMs作为智能体来实现面向任务的物理层自动化,提出了一种两阶段的预训练和微调方案,构建适应不同通信任务的专门LLM智能体,并采用基于检索的推理框架来有效调用现有的通信功能。在6G网络中,通过利用具有感知、推理和对齐模块的LLMs作为智能体,设计了一种分割学习系统来解决设备资源限制,协同完成复杂任务,通过边缘计算确保低延迟和高效任务执行。
总之,使用LAMs作为智能体可以显著提升无线通信系统的智能化水平和任务协作能力。这些技术为6G通信系统提供了更高效、更灵活的解决方案,推动通信网络向更高的智能性和更高的效率发展。
2**)Agentic AI在语义通信中的应用:**随着智能体技术在通信领域的快速发展,语义通信正逐步从传统的比特流传输模型向以"语义"为核心的智能通信范式过渡。引入智能体为语义通信提供了适应性能力和高效的数据处理方法,使得系统不仅能够处理传统的比特流数据,还能够提取、传输和重构语义信息,从而提高通信系统的效率和准确性。
在语义提取和传输方面,智能体可以根据通信环境、用户需求和信息内容动态调整编码、传输和解码方法,实现信息传输的最优化。在基于智能体的生成语义通信(A-GSC)框架中,智能体使用RL来适应性地调整语义采样和提取,从而根据任务需求动态优化数据传输。在多用户系统中,利用LLMs作为智能体支持复杂任务的分解、语义表示的标准化和语义翻译映射,从而提高多用户场景中的通信效率,优化计算资源管理,并解决传统语义通信框架在6G网络中的局限性。此外,在多用户语义通信中,采用LLMs作为智能体来建立共享知识库(SKB),提升通信效率,提出的多用户生成语义通信(M-GSC)框架扩展了LLMs处理复杂多用户任务的能力,优化了网络资源的使用,并克服了语义编码和解码中的挑战。
在资源分配方面,智能体可以协作优化资源和通信策略,提高网络资源利用率和任务传输效率。在多小区语义通信系统中,智能体通过深度强化学习(DRL)动态优化资源分配,提升整体网络性能。此外,在面向任务的语义通信中,基于DRL的双层智能体框架联合优化功率、时隙和语义压缩率,在能量采集和认知无线电环境下实现智能资源分配,从而提升用户体验和频谱利用效率。
总之,基于智能体的语义通信通过动态调整信息的编码、传输和解码,实现高效的信息传输。同时,在强化学习技术的帮助下,智能体可以优化资源分配和通信策略,提高网络资源的利用率和任务传输效率,从而推动语义通信系统向更高的智能化和效率发展。
3**)Agentic AI在网络管理和优化中的应用:**随着智能体在网络管理和优化中的应用,管理模型正逐渐从传统的基于规则的方法向更智能和自动化的范式发展。智能体具有自主学习、适应动态环境和协同完成复杂任务的能力,显著提升了网络管理的效率和适应性。
在网络管理方面,通过将LAMs作为智能体应用于自主决策和协作,显著提高了网络资源管理的自动化水平。在无线网络中,将LLMs作为智能体并集成到多智能体生成式AI中,使多个智能体能够协同规划和解决任务,从而实现网络目标。通过任务规划、推理和协同问题解决,这些智能体能够高效地在边缘网络中操作,显著提升网络管理的智能化水平。在6G网络中,LLMs作为核心智能体,与其他网络组件协同工作,提供强大的语言理解和生成能力,用于网络健康评估和故障诊断,支持自动化和智能化的网络运营。同时,在6G启用的数字孪生(DT)网络中,LLMs通过智能推理和自主学习优化数据检索和无线资源管理(RRM),实现更加自动化和高效的网络管理。
在网络优化方面,使用具备协作和自学习能力的LAM智能体能够实现网络资源分配的实时优化,从而提升网络性能。WirelessAgent框架利用LLMs创建自主的Agentic AI,集成了感知、记忆、规划和行动四个核心模块,模拟人类的认知过程来管理复杂的无线任务。这使得LLMs能够在动态网络环境中优化资源,提升网络的弹性和性能。此外,智能体还可以通过RL等方法自主调整网络资源配置,提升优化效率和可靠性。在开放无线接入网络(O-RAN)系统中,LLMs作为智能体动态优化资源分配,以确保网络性能的稳定性和适应性。通过实时分析网络负载和用户需求,LLMs自动调整资源分配策略,以优化资源利用和提高可靠性。
总之,智能体在网络管理和优化中的应用极大地增强了网络的适应性和智能化。通过自主学习、协作和任务分解,智能体使得网络管理更加高效,网络优化更加精准,推动了下一代网络系统的智能化发展。
4**)Agentic AI在网络安全中的应用:**随着智能体技术在网络安全中的持续发展,基于智能体的安全防御系统正逐渐取代传统的保护措施。通过自主学习、协作和适应,智能体能够有效应对复杂的安全威胁,提供实时的网络保护和防御策略。
利用LAMs作为智能体,能够通过实时分析和协作有效识别和应对网络威胁,从而提升系统的安全能力。在网络防御(如蓝队操作)中,采用LLMs作为智能体可以进行实时威胁分析、自动生成防御策略,并根据网络状态和潜在威胁动态调整安全措施,从而显著提升整体系统的安全性和防御能力。特别是在6G网络环境中,LLMs能够有效识别复杂的安全威胁并通过生成相应的防御策略加强网络安全。在自主防御车辆互联网(IoADV)场景中,LLMs作为核心智能体,结合强大的语言理解和生成能力,以及多模态数据处理和预测分析,显著增强了智能体的感知、决策和实时导航能力。它们在通信优化和决策制定中也发挥着关键作用,提高了防御车辆在复杂环境下的智能化水平。
在防御方面,利用LAMs作为智能体能够根据网络状况和潜在威胁动态调整安全措施,从而加强整体系统安全。在零信任架构下的空间-空中-地面一体化网络(SAGIN)中,采用LLMs作为智能体,通过LLM基的情境感知(LLM-SA)方法实现多LLM智能体之间的协作,进行安全评估和防御策略生成。这一方法有效处理大量异构的威胁信息,通过自适应学习和协同分析,增强了网络安全防御能力,确保系统能够快速响应并优化防御措施,应对复杂且不断变化的攻击。
总之,利用LAMs作为智能体为现代网络安全提供了新颖的解决方案。智能体不仅能够在复杂的安全环境中实时响应,还能通过协作优化防御策略,从而为网络的长期稳定性和安全性提供强有力的保障。
5**)Agentic AI在无人机通信中的应用:**随着无人机通信技术的持续发展,无人机网络的架构正逐步从传统的集中式控制向以"分布式智能体协作"为核心的新型结构转变。智能体系统通过RL、状态感知和行为建模等先进机制,使得无人机具备更强的任务驱动能力、自主决策能力和高效协作能力,为复杂且动态的通信环境中的资源调度和系统控制提供智能支持。
在多无人机系统的任务执行中,智能体通过LAMs提升无人机的推理和决策能力,使其能够更好地适应复杂环境并执行任务。在城市空中出行(UAM)中,AirVista框架利用多模态LLMs(MLLMs)作为智能体,通过结合人工系统、计算实验和并行执行(ACP)方法,增强了无人机的三维空间推理和任务执行效率。该框架特别帮助无人机在城市环境中完成基础设施监控、城市物流配送和安保巡逻等复杂任务。在无人机任务可靠性评估中,提出了一种结合LLMs和RAG技术的新型决策模型。该模型使得无人机能够实时适应复杂动态环境,提高决策准确性和响应速度,增强多无人机网络的系统可靠性。
在多智能体协作和任务规划优化方面,智能体利用LAMs优化多个无人机之间的协作和任务规划,提高任务完成率和系统效率。在无人机辅助的边缘计算环境中,通过结合LLMs和多智能体深度强化学习(MADRL)框架,并引入QTRAN算法,优化了任务卸载和轨迹规划。该方法有效解决了多无人机系统中局部观察与全局状态之间的关联,从而提高了任务完成率和收敛速度。在无人机任务生成和规划中,UAV-CodeAgents框架结合LLMs和视觉-语言模型(VLMs),并与ReAct(推理+行动)范式结合,基于卫星图像和自然语言指令进行任务规划、目标定位和任务目标动态调整,从而提高了任务执行效率和适应性。
总之,LAMs辅助的智能体技术显著增强了无人机在任务执行、决策制定、多智能体协作和任务规划中的能力。这些进展不仅推动了无人机技术的发展,还为未来通信系统在动态环境中的高效运营提供了智能支持。

图5:Agentic AI的应用场景
5.3 总结与经验教训
1**)****总结:**本章总结了LAMs和Agentic AI在通信系统中的典型应用场景。LAMs主要应用于语义通信、物联网(IoT)、边缘智能、网络设计与管理、安全与隐私保护,以及资源分配等领域;而Agentic AI广泛应用于无线通信、语义通信、网络管理与优化、网络安全及无人机通信等领域。它们的集成加速了通信系统智能化和自主化的发展。
2**)****经验教训:**尽管LAMs和Agentic AI在语义通信、物联网、边缘智能、网络管理以及安全保护等方面展现了巨大的潜力,但当前研究仍面临诸如复杂模型部署、高资源消耗、缺乏多模态理解能力以及安全风险等挑战。未来的研究应集中于轻量级模型设计、跨模态语义融合、系统协同优化以及隐私保护机制的构建,以推动通信系统向高效、安全、适应性强的智能架构持续演进。
6.研究挑战与未来方向
6.1 LAMs****的研究挑战与方向
1**)****通信数据更新与学习的滞后性:**缺乏高质量的通信数据是制约LAMs在通信领域发展的一个关键挑战。由于通信技术的快速发展以及领域特定知识的庞大和复杂,LAMs需要不断学习和适应。然而,及时获取可靠的通信数据仍然是一个极其困难的问题。一方面,相关知识分散在研究论文、标准和专利中,数据的收集与处理成本高昂。另一方面,现实中的通信数据高度动态,且通常涉及隐私敏感或保密信息,限制了其在公开训练中的可用性。此外,6G系统中的数据常常受到噪声、不完整性和错误的影响,要求模型具备较强的鲁棒性和容错能力。数据获取难度和学习更新滞后已成为制约LAMs在通信领域性能提升和实际部署的主要瓶颈。
为了解决LAMs在通信领域面临的数据稀缺问题,持续学习提供了有效的开发路径。通过引入自主持续学习策略,LAMs能够在动态环境中独立获取和更新通信知识。多模态持续学习进一步增强了LAMs处理跨文本、图像和音频等不同通信数据的能力,扩大了知识获取的范围。鲁棒持续学习则提高了模型在复杂通信场景中的稳定性和适应性。结合前向迁移、后向迁移和遗忘度量等评估指标,学习过程可以得到有效监控和优化。持续学习的集成显著增强了LAMs在知识获取、适应和推理方面的能力,从而缓解了通信数据更新滞后带来的挑战。
2**)****推理能力不足:**LAMs的有限逻辑推理能力已成为其在6G系统应用中的一个重要挑战。随着6G通信环境对模型处理复杂任务(如信号处理和资源分配)的需求增加,进行准确的逻辑和因果推理变得至关重要。然而,当前的LAMs主要是数据驱动的,缺乏对因果关系的深刻理解,导致它们在处理多跳推理和反事实推理时往往不够准确。这通常会导致在复杂的通信场景中生成不准确或不合逻辑的解决方案,从而影响系统的稳定性和用户体验。例如,LAM可能无法识别网络拥堵是由于用户激增引起的,或者信号衰减是由于信道衰落造成的。此外,自然语言的固有歧义性和形式逻辑的局限性进一步制约了LAMs的推理能力。在通信特定背景下,增强逻辑理解和推理能力是未来研究的关键方向。
为了解决LAMs推理能力不足的问题,未来的研究可能集中在三个关键方向:基于过程的奖励模型、长链推理机制和RL驱动的推理训练。基于过程的奖励模型在推理过程的每一步提供反馈,引导模型优先考虑推理路径的连贯性和有效性。长链推理机制有助于保持多步骤任务中的逻辑一致性,从而增强复杂问题设置中的推理深度。RL驱动的推理训练利用环境反馈,使模型通过反复试验和错误迭代优化推理策略,从经验中学习更有效的推理轨迹,提升模型对新任务的泛化能力。这三种方法的集成预计将显著增强LAMs在通信中的逻辑推理和因果推断能力。
3**)****解释能力不足:**当前的LAMs在可解释性方面存在显著的局限性,这已成为其应用和进一步发展的关键障碍。作为复杂的黑箱系统,LAMs缺乏有效的机制来揭示其决策背后的基本逻辑,导致在通信任务中的透明度和可控性有限。无论是处理信号、资源分配,还是管理多样化的通信协议和网络场景,LAMs通常未能清楚地阐明其输出背后的原因,从而限制了用户的理解和系统级优化。缺乏局部和全局的可解释性不仅削弱了模型的可信度,还可能对通信系统的安全性和稳定性构成风险。因此,增强可解释性和开发系统化的解释框架是使LAMs在通信中可靠部署的重要方向。
为了解决LAMs在可解释性方面的局限,未来的研究可能会采用诸如因果学习、神经符号集成、特征归因和模型可视化等技术来增强模型的透明度。因果学习有助于识别模型决策背后的因果关系,改善逻辑清晰度;神经符号集成结合了神经网络和符号推理的优势,使推理过程更加可追溯;特征归因强调了影响模型预测的关键输入特征,帮助用户理解输出的依据;模型可视化则提供了直观的模型内部机制视图,增强了用户的理解和信任。通过这些方法,LAMs在通信任务中的可解释性和可控性可以得到显著提升。
4**)LAMs部署困难:**LAMs在实际部署中面临重大挑战,主要是由于硬件和通信资源的限制。目前的通信设备,特别是边缘设备,如移动终端和物联网节点,通常具有有限的计算和存储能力,这使得满足LAMs高计算需求变得具有挑战性。这导致了性能下降和部署成本增加。此外,LAMs的集成增加了通信数据量,尤其是在语义通信场景中,模型参数和知识库的同步对网络带宽和延迟提出了更高要求。频谱资源的匮乏进一步加剧了数据压缩和重构的复杂性。
为了解决LAMs部署中遇到的资源限制,未来的研究应着重于开发高效的模型压缩和加速技术,以减少计算复杂度和通信开销。剪枝方法可以消除冗余结构,从而减少模型大小和计算需求。量化技术将高精度参数压缩为低位表示,最小化内存使用和推理延迟,特别是在结合激活感知机制的情况下,有助于保持高精度。知识蒸馏技术将知识从大模型转移到小模型,使得轻量级部署同时保留核心能力,尤其适用于边缘环境。整合这些技术为LAMs在6G通信中的高效部署提供了一条实际的路径。
6**.2 Agentic AI的研究挑战与方向**
1**)****通信知识的缺乏:**在Agentic AI的开发中,通信知识的缺乏是其在6G系统中应用的一个重大挑战。由于通信技术的复杂性和快速发展,智能体系统在任务理解和基于推理的决策过程中,极度依赖高质量的通信知识库。然而,目前的知识库在核心概念、协议和标准方面覆盖不足,导致在信道估计和资源分配等任务中产生误解和不准确的推理。此外,通信知识分散在研究论文、标准和专利中,使得其收集和整合既具有挑战性又需要大量劳动,并且需要领域专业知识来确保质量。虽然扩展知识库可以增强模型能力,但也会带来更高的存储和计算成本,从而可能降低系统效率。
为了应对Agentic AI系统在6G通信中缺乏通信知识的问题,引入Agentic RAG机制提供了一种有前景的解决方案。该方法将智能体协作与语义检索技术相结合,使系统能够根据任务上下文实时从通信文献、标准和专利中动态提取相关知识。然后,智能体将提取的信息综合起来,生成上下文感知的输出,有效克服了静态知识库覆盖的局限性。Agentic RAG不仅增强了系统对复杂通信协议和动态环境的理解与推理能力,而且支持持续的知识更新和迁移学习,从而提高了系统在通信场景中的适应性和智能决策能力。
2**)Agentic AI的扩展性限制:**在大规模、多任务或多智能体协作的通信环境中部署Agentic AI时,面临着显著的扩展性挑战。大多数现有系统仍依赖集中控制架构,在这种架构中,中心模型负责任务调度和资源分配。在小规模场景中,这种架构是有效的,但在高并发或多系统协作的情况下,容易出现资源瓶颈、延迟甚至死锁,从而限制了整体系统的性能。此外,当前的多智能体协调机制缺乏分布式调度和自主能力,智能体之间的通信和任务分配通常依赖于静态配置,这些配置不足以灵活应对异构任务和动态环境。例如,在复杂的任务链中,单个智能体的失败可能导致系统范围内的级联故障,而传统系统缺乏快速恢复或自适应重构的机制。这些限制暴露了在动态环境下扩展性和鲁棒性方面的关键弱点。
为了解决Agentic AI的扩展性限制,未来的研究应集中于开发分布式和分层架构,增强多智能体协作机制,并优化运行时资源调度。在架构方面,分布式控制与分层结构的结合允许不同级别的智能体承担决策、协调和执行角色,从而提高系统的并行处理能力和响应效率。在协调机制方面,结合联邦学习能够实现智能体之间的知识共享,而群体智能技术则基于局部观察促进自组织协作,增强系统的灵活性和适应性。在操作层面,使用自优化算法和负载均衡策略使系统能够动态调整资源分配和任务路由,有效缓解瓶颈并提高整体稳定性和效率。这些方法的协同作用为构建高效、稳定和可扩展的Agentic AI系统提供了坚实的基础。
3**)智能体****控制机制的复杂性:**在Agentic AI系统中,智能体之间的协调和智能体与其他系统组件之间的控制交互的复杂性是一个主要的研究挑战。随着智能体数量的增加和任务环境的动态演变,系统在任务分解、信息交换和行为协调等方面面临显著压力。这些挑战常常导致诸如组件调度冲突和通信不一致等问题,从而导致协作效率低、任务执行延迟高,并且难以满足复杂场景下的实时性、可靠性和适应性需求。此外,现有系统往往缺乏标准化的协作协议和结构化的控制工作流,这使得在大规模异构智能体之间支持高效组织和动态适应变得困难。当前控制机制的不成熟已成为限制Agentic AI在通信系统中广泛应用的核心瓶颈。
为了解决Agentic AI系统中智能体控制机制的复杂性,三种核心协议,分别是MCP(模型上下文协议)、A2A(智能体间协议)和ACP(智能体通信协议),提供了分层和互补的技术路径。MCP标准化了模型与外部资源之间的交互,增强了系统的可控性和模块化。A2A通过智能体卡和任务-工件框架等机制,使智能体能够动态发现并协作完成任务,从而简化了跨系统的协调。ACP基于REST原生架构,支持多模态异步通信和任务跟踪,增强了局部环境中智能体之间的协作能力。这些协议共同构建了一个安全、灵活、可扩展的智能体控制基础设施。
**4)评估Agentic AI的难度:**当前的Agentic AI系统在评估方面面临重大挑战,主要是因为缺乏统一和系统的评估框架,难以全面反映智能体在动态任务设置中的能力。现有方法通常依赖静态数据集和以结果为导向的单一度量,忽略了智能体在多步推理、工具调用和策略规划过程中的表现,从而未能识别潜在问题。此外,智能体行为的固有多样性和不确定性使得基于固定参考答案的传统评估方法不足以评估智能体的灵活性和泛化能力。
为了解决Agentic AI的评估挑战,未来的研究应集中于开发一个统一且可扩展的评估框架,能够在任务规划、工具调用和推理过程中细粒度地评估智能体的表现。评估范式应从基于结果的度量转向过程导向的评估,以增强对智能体行为轨迹的理解。此外,应该引入基于LAM的自动化评估方法,以减少人工工作量并提高评估效率。同时,必须开发能够适应智能体行为多样性和不确定性的通用评估工具,为系统优化和可靠部署提供坚实支持。
6.3 章节总结
本章节全面总结了未来智能通信系统中LAMs和Agentic AI的关键研究挑战和未来发展方向。系统地回顾了限制其性能和部署的核心问题,并提出了潜在的解决方案。对于LAMs,我们强调了主要挑战,如通信数据更新和学习的滞后、不足的推理能力、有限的可解释性以及部署困难。我们提出,通过采用持续学习、长链推理、可解释AI以及模型压缩和蒸馏等技术,可以解决这些问题,从而增强模型在动态通信环境中知识获取、逻辑推理、可解释性和边缘部署的能力。对于Agentic AI,我们总结了与通信知识覆盖不足、系统可扩展性较弱、复杂的智能体控制机制以及缺乏健全评估方法相关的挑战。我们强调,未来的发展将需要推动由动态知识引导的Agentic RAG机制、分布式控制架构、统一控制协议(如MCP、A2A、ACP)以及面向过程的评估框架的进展。总体而言,这些见解提供了系统的分析和前瞻性的指导,推动智能通信系统朝着更大自主性、可解释性和实用性发展。
7.结论
本教程系统地回顾了未来智能通信系统中从LAMs到Agentic AI的发展轨迹和关键技术路径。首先,我们提供了LAMs核心组件和分类方法的全面概述,涵盖了Transformer、ViT、VAE、Diffusion、DiT和MoE等模型,并区分了LLMs、LVMs、LMMs、LRMs和轻量级LAMs在通信任务中的适用性。接着,我们提出了针对通信系统的LAM构建范式,涉及三个关键方面:数据集构建、内部训练机制(如预训练、微调和对齐)以及外部学习机制(如RAG和KG),从而指导通信场景中的有效模型学习。在此基础上,我们构建了一个基于LAM的Agentic AI系统框架,定义了其核心模块,包括规划器、知识库、工具和记忆模块,并概述了多智能体环境中的交互机制。我们进一步提出了一个面向6G的多智能体系统,用于数据检索、协作规划和反思评估。在应用层面,我们系统地总结了LAMs和Agentic AI在关键通信任务中的实际价值和潜力,包括语义通信、物联网、边缘智能、网络管理、网络安全、无人机通信及其他新兴应用。最后,我们总结了LAMs和Agentic AI在通信中面临的核心挑战,并概述了未来的研究方向。本工作为支持智能通信系统从"模型驱动"到"智能体驱动"范式的演进提供了系统参考和理论基础。
我们收集了论文中所有开源大模型和Agentic AI框架和组件的源码,欢迎访问论文的代码仓库:****https://github.com/jiangfeibo/ComAgent