第49期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

从自然语言生成PowerShell攻击

简介：由于Windows操作系统是最常遭受攻击的系统之一，PowerShell已成为恶意行为者和网络安全专业人员（如用于渗透测试者）的关键工具。本研究在AI代码生成领域探索了一个新方向，即利用神经机器翻译（NMT）自动从自然语言描述中生成攻击性PowerShell代码。研究者提出了两个新的数据集以供训练和评估：一个包含自然语言描述与PowerShell代码样本的数据集，另一个则仅包含代码样本以强化训练效果。研究者对领先的NMT模型进行了全面评估，并对生成的代码进行了静态和动态分析。研究结果表明，使用这些数据集微调后的NMT能够有效生成攻击性PowerShell代码。与广泛使用的LLM服务ChatGPT的比较分析显示了研究者微调模型的明显优势。

链接：

https://arxiv.org/pdf/2404.12893.pdf

大语言模型在网络领域的应用：工作流程、进展与挑战

简介：网络领域的复杂性和快速变化对任务的完成提出了高要求，而传统机器学习方法在自动化和泛化这些任务上有其局限性。大语言模型（LLMs）的出现为应对这些挑战开辟了新的可能性。LLMs在自然语言处理的出色表现对网络领域亦有所助益，目前的研究已在将LLMs应用于网络问题上取得了初步成果。本文综述了在网络领域应用LLMs的基本工作流程，总结了相关工作的核心要点，并详细阐述了它们在各个阶段的作用。同时，本文还讨论了当前所面临的挑战，提出了潜在的解决方案，并探讨了未来的研究方向，以促进这一跨学科领域的研究进展。

链接：

https://arxiv.org/pdf/2404.12901.pdf

DB-GPT的演示：由大语言模型赋能的下一代数据交互系统

简介：DB-GPT是一个创新的Python库，它将大语言模型（LLMs）整合到数据交互任务中，旨在提升用户体验和便捷性。该库能够理解自然语言描述的数据处理任务，并提供基于上下文的智能响应，适合各级别用户使用。DB-GPT支持在多种环境下部署，不仅能处理基础的数据交互，还能通过多代理框架和代理工作流表达语言（AWEL）进行复杂的数据分析。此外，它还采用了面向服务的多模型管理框架（SMMF）来保障数据的隐私和安全。DB-GPT还提供了一系列特性，便于用户将其集成到产品中。该库的代码已在GitHub上开源，并有详细的安装和使用教程。

链接：

https://arxiv.org/pdf/2404.10209.pdf

大语言模型在移动图形用户界面文本输入生成中的应用

简介：本研究调查了大语言模型（LLMs）在移动图形用户界面（GUI）测试中的应用，尤其是在自动生成文本输入以增强UI探索完整性方面。研究人员对九种先进的LLMs在Android环境下进行文本输入生成的实证研究表明，通过从62个开源Android应用的114个UI页面提取上下文信息并构建提示生成文本输入后，某些LLMs能够有效地生成高质量文本输入，页面通过率介于50.58%至66.67%之间，并且能够揭示一些开源应用的实际缺陷。此外，研究表明，利用更全面的UI上下文信息能显著提高LLMs生成文本输入的质量和效率。研究还总结了六个关键洞见，关于LLMs在Android测试中的应用，这些洞见旨在推动Android测试社区的进一步发展。

链接：

https://arxiv.org/pdf/2404.08948.pdf

在大语言模型中的木马检测：来自木马检测挑战的洞见

简介：尽管大语言模型（LLMs）在众多领域展现出卓越性能，其对木马攻击的脆弱性却引起了广泛的安全关注。在2023年的木马检测挑战赛（TDC2023）中，专家们对LLMs面临的木马攻击进行了详细探讨。研究发现，提升检测方法的召回率异常困难，即使是最佳方法的召回率也仅与随机抽样持平，这进一步加剧了关于木马攻击检测可行性的疑虑。此外，竞赛揭示了非预期触发器的存在问题，并突显了加强LLMs在鲁棒性和可解释性方面研究的重要性。TDC2023的成果为增强LLMs的安全性和可靠性提供了未来研究的基础。

链接：

https://arxiv.org/pdf/2404.13660

大语言模型以惊人的准确性识别钓鱼邮件：性能的比较分析

简介：钓鱼是一种利用社会工程学和现代技术手段的长期存在的网络犯罪形式，它对个人、企业和组织构成了严重的威胁。攻击者通常伪装成可信来源，并利用紧迫感和恐惧等心理策略诱使受害者泄露敏感信息。本研究评估了15种大语言模型（LLMs）在检测"419诈骗"电子邮件的能力，以此来衡量它们识别钓鱼邮件的性能。研究基于预设的标准，并通过分析含有邮件元数据的文本文件来进行。实验结果表明，ChatGPT 3.5、GPT-3.5-Turbo-Instruct和ChatGPT模型在钓鱼邮件检测方面表现尤为突出。

链接：

https://arxiv.org/pdf/2404.15485

编辑：小椰风