GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 挑战控制工程的新领域

介绍

论文地址:https://arxiv.org/abs/2404.03647

近年来,GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 等大规模语言模型(LLM)迅速发展,展示了它们解决复杂问题的能力。LLM 的这些发展在多个领域都有潜在的应用前景。

最显著的应用之一是控制工程。控制工程是一个涉及数学理论和设计的领域,有可能利用 LLM 的高级推理能力。然而,人们对 LLM 解决控制问题的能力还不完全了解。

因此,本研究旨在确定最先进的 LLM 在多大程度上可以解决大学级别的控制问题。作者开发了一个涵盖基础和应用控制工程的基准数据集 ControlBench,并全面评估了 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 这三个模型的性能。

这一举措有望凸显 LLM 在控制工程领域的潜力和局限性,并为人工智能与控制工程的未来融合提供重要见解。

相关研究

开发 ControlBench 数据集

作者构建了一个 ControlBench 数据集,涵盖了大学级别的控制问题。该数据集涵盖控制工程的多个领域,包括稳定性、瞬态响应、方框图、控制系统设计、波特图和奈奎斯特图。该数据集还包括需要可视化信息的问题,旨在全面评估 LLM 的分析能力。

ControlBench 数据收集自教科书和在线资料,并以 LaTeX 格式整理。每个问题还提供了详细的答案和解释,可用于评估 LLM 的性能。

评估 LLM 解决控制问题的能力

上图显示了 GPT-4 和 Claude 3 Opus 的错误类型和百分比;定义了七种错误模式,并对其百分比进行了比较。

首先,可以看出 GPT-4 的主要挑战在于其 "有限的推理能力"。换句话说,从逻辑上解释控制问题并推导出正确的解决方案被认为是 GPT-4 的弱点。

另一方面,Claude 3 Opus 面临的最大挑战是 "计算错误"。它似乎很容易在数学处理方面出错,如公式的转换和数字计算的准确性。

然而,两者之间的比较表明,Claude 3 Opus 因 "推理能力有限 "而出现的错误较少。这说明,在对控制理论的理解和推理能力方面,Claude 3 Opus 更胜一筹。

因此,利用图 1 对每种 LLM 的优势和挑战进行定量比较和分析,可以清楚地表明 LLM 解决控制问题能力的特点。这一分析结果是将 LLM 应用于控制工程的重要发现。

关于 ControlBench-C 的建议

使用 ControlBench 进行的详细评估很有意义,但对于非控制工程专家来说,难度偏高。因此,作者提出了一个更简单的版本,即 ControlBench-C。

ControlBench-C 以单选题取代了 100 道 ControlBench 题目。通过这种形式,无需控制工程方面的专业知识,就能快速自动地评估 LLM 的反应。

ControlBench-C 要求用户输入 LLM 选项的答案及其推理,并计算正确答案百分比(ACC)和自我修正后的正确答案百分比(ACC-s)。通过这种方法,非控制专家可以了解 LLM 解决控制问题的基本能力。

ControlBench-C 的定位是 ControlBench 的补充:ControlBench 提供详细的见解,而 ControlBench-C 的特点是能够进行简单的自动评估。预计在未来的研究中,两者将分别使用。

结论

本文开创性地研究了大规模语言模型(LLM)在控制工程中的适用性。作者开发了一个名为 ControlBench 的基准数据集,并用三种 LLM(GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra)对其进行了评估。

结果表明,Claude 3 Opus 在解决控制问题方面表现最佳。另一方面,也证实了 LLMs 仍存在一些问题,如处理需要视觉信息的问题和计算错误的问题。

相关推荐
NAGNIP7 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab8 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab8 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP12 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年12 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼12 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS12 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区13 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈13 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang14 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx