大模型GUI系列论文阅读 DAY1:《基于大型语言模型的图形用户界面智能体:综述》图形用户界面(Graphical User Interfaces, GUIs)长期以来一直是人机交互的核心,为用户提供了直观且以视觉为驱动的方式来访问和操作数字系统。传统上,GUI交互的自动化依赖于基于脚本或规则的方法,这些方法在固定工作流中虽行之有效,但缺乏动态和实际应用场景中所需的灵活性和适应性。大型语言模型(Large Language Models, LLMs),尤其是多模态模型的出现,开启了GUI自动化的新纪元。这些模型在自然语言理解、代码生成、任务泛化以及视觉处理方面展现出卓越能力,为新一代“