利用大型语言模型从需求生成类模型

大型语言模型(LLMs)的出现为自动化软件工程活动开辟了新的可能性,这些活动传统上需要大量的人工投入。其中,类图生成是软件设计中一个关键但资源密集的环节。本文研究了包括GPT-5、Claude Sonnet 4.0、Gemini 2.5 Flash Thinking和Llama-3.1-8B-Instruct在内的最先进LLMs,从自然语言需求自动生成UML类图的能力。

为了评估基于LLM的模型生成的有效性和可靠性,我们提出了一种综合性的双验证框架,该框架将"LLM作为评判者"的方法与人机协同评估相结合。利用八个异构数据集,我们应用思维链提示来提取领域实体、属性和关联,并生成相应的PlantUML表示。

从五个质量维度对生成的模型进行评估:完整性、正确性、标准符合性、可理解性和术语一致性。两个独立的LLM评判者(Grok和Mistral)执行结构化的成对比较,并且它们的判断会进一步与专家评估进行对照验证。我们的结果表明,LLMs能够生成结构连贯且语义有意义的UML图,并与人类评估者达成高度一致。基于LLM的评估与人类评估之间观察到的一致性凸显了LLMs不仅在作为建模助手方面的潜力,而且在自动化需求工程工作流中作为可靠评估者的潜力,为LLM驱动的UML类图自动化的能力和局限性提供了实践洞察。

相关推荐
禹凕15 分钟前
PyTorch——安装(有无 NVIDIA 显卡的完整配置方案)
人工智能·pytorch·python
大龄程序员狗哥6 小时前
第25篇:Q-Learning算法解析——强化学习中的经典“价值”学习(原理解析)
人工智能·学习·算法
陶陶然Yay6 小时前
神经网络常见层Numpy封装参考(5):其他层
人工智能·神经网络·numpy
极客老王说Agent7 小时前
2026实战指南:如何用智能体实现药品不良反应报告的自动录入?
人工智能·ai·chatgpt
imbackneverdie7 小时前
本科毕业论文怎么写?需要用到什么工具?
人工智能·考研·aigc·ai写作·学术·毕业论文·ai工具
lulu12165440787 小时前
Claude Code项目大了响应慢怎么办?Subagents、Agent Teams、Git Worktree、工作流编排四种方案深度解析
java·人工智能·python·ai编程
大橙子打游戏7 小时前
talkcozy像聊微信一样多项目同时开发
人工智能·vibecoding
deephub7 小时前
LangChain 还是 LangGraph?一个是编排一个是工具包
人工智能·langchain·大语言模型·langgraph
OidEncoder8 小时前
编码器分辨率与机械精度的关系
人工智能·算法·机器人·自动化
Championship.23.248 小时前
Harness工程深度解析:从理论到实践的完整指南
人工智能·harness