利用大型语言模型从需求生成类模型

大型语言模型(LLMs)的出现为自动化软件工程活动开辟了新的可能性,这些活动传统上需要大量的人工投入。其中,类图生成是软件设计中一个关键但资源密集的环节。本文研究了包括GPT-5、Claude Sonnet 4.0、Gemini 2.5 Flash Thinking和Llama-3.1-8B-Instruct在内的最先进LLMs,从自然语言需求自动生成UML类图的能力。

为了评估基于LLM的模型生成的有效性和可靠性,我们提出了一种综合性的双验证框架,该框架将"LLM作为评判者"的方法与人机协同评估相结合。利用八个异构数据集,我们应用思维链提示来提取领域实体、属性和关联,并生成相应的PlantUML表示。

从五个质量维度对生成的模型进行评估:完整性、正确性、标准符合性、可理解性和术语一致性。两个独立的LLM评判者(Grok和Mistral)执行结构化的成对比较,并且它们的判断会进一步与专家评估进行对照验证。我们的结果表明,LLMs能够生成结构连贯且语义有意义的UML图,并与人类评估者达成高度一致。基于LLM的评估与人类评估之间观察到的一致性凸显了LLMs不仅在作为建模助手方面的潜力,而且在自动化需求工程工作流中作为可靠评估者的潜力,为LLM驱动的UML类图自动化的能力和局限性提供了实践洞察。

相关推荐
HySpark2 小时前
解决语音角色识别中的误识别与长会漂移问题(陌生人机制 + 稳定性规则)
人工智能·语音识别
盼小辉丶2 小时前
PyTorch实战(35)——使用PyTorch Profiler分析模型推理性能
人工智能·pytorch·深度学习
喵不拉几2 小时前
大语言模型(LLM)理论导论
人工智能·语言模型·自然语言处理
珠海西格2 小时前
红区之困:分布式光伏爆发背后的“逆流危机”
大数据·运维·服务器·数据库·人工智能·分布式
工业甲酰苯胺2 小时前
低代码+AI办公自动化实战:JNPF落地报表生成+文档处理+跨系统同步
人工智能·低代码·openclaw
MoRanzhi12032 小时前
Pillow 图像分割、切片与拼接处理
图像处理·人工智能·python·计算机视觉·pillow·图像拼接·网格分块
NewCarRen2 小时前
理想智驾宣传夸大成投诉焦点,重庆首发智能网联汽车专属职称,北斗升级赋能无人驾驶等新兴产业
人工智能·汽车
AAD555888992 小时前
AAttn区域注意力机制改进YOLOv26特征感知与表达能力提升
人工智能·yolo·目标跟踪