提示工程夭折?MIT斯坦福让大模型主动提问,自己搞懂你想要什么

我就说嘛,提示工程正在消失,这篇新研究即可解释原因。

AI 圈百万粉丝大 V 的一条推特,可把大家给惊到了。

要知道,提示工程可是 ChatGPT 趋势中的大热词。由它衍生出的新岗位提示工程师年薪可高达几十万美元,"未来人人都要学会提示工程" 的观点更是引发热议......

结果现在,提示工程就开始消失了???

而且有理有据。

博主伊森 · 莫利克提到的这篇论文,由 MIT、斯坦福和 Anthropic(Claude2 打造者)共同提出。

论文提出了一种新型的机器学习框架,能让大模型学会主动向人类提问,自己搞明白用户的偏好。

他们使用 GPT-4 进行实验,结果发现和提示工程、监督学习等方法比,在这个框架的辅助下 GPT-4 在多个任务上更懂人类了。

如果大模型能更容易揣度出人类想啥,也就意味着人类自己不用绞尽脑汁表达自己的想法了。

所以伊森 · 莫利克觉得,这不就不用每个人都去学习提示工程了么?

有网友补充说,这是不是说某种程度上,我们未来是不是可以不用语言和 LLM 进行交流。让大模型通过提问来弄清楚我们在想什么,这真是一个巨大的进步。

具体来看,这项研究提出了一种新型学习框架 GATE(Generative active task elicitation)。

它能基于大模型本身的能力,来引出推理人类用户的喜好。

研究团队将这称为一种更主动的方式,具体表现形式就是让大模型来对用户提问,以让人类的偏好想法能更加明确地被表达出来。

对应来看,监督学习和提示工程都属于被动的方式,监督学习和少量主动学习还要基于示例。

为什么要 "反客为主" 提示人类?

因为人类给出的提示存在局限性,不一定能准确完整表达出自己的喜好。

比如很多人都不懂提示工程;或者在提示过程中提供了存在误导性的资料...... 这些都会导致大模型表现变差。

论文中列举了一个例子。假如一个用户说自己很喜欢读网球相关的文章,对网球巡回赛、发球技术感兴趣。但是从他提供的文章参考里,无法判断他是否对网球方面的其他话题感兴趣。

所以,如果大模型能学会一些提问技巧,就能将用户的偏好锁定在更小范围内

本项研究让大模型尝试了多种提问方式,比如主动生成用户标注的样本、是非类提问、开放式提问等。

主要测试的任务为内容推荐、道德推理和邮箱验证。

结果显示,在三项任务中,GATE 包含的办法效果都优于其他方法

使用这一框架的大模型,使用起来也不那么 "烧脑" 了(如下左图)。

以及这种方法的引入也不会影响人类用户本来的偏好(如下右图)。

作者认为更大的模型可能是更好的引导者,实验中他们使用的是 GPT-4。

如医疗、法律等需要做出复杂决策的领域,会是 GATE 框架未来拓展的方向。

本项工作由 MIT、Anthropic 和斯坦福学者联合推出。

而以这篇研究为核心,也引发了一波关于提示工程的讨论。

并不是所有人都赞同 "提示工程正在消失" 这一观点

另一位 AI 圈大 V elvis 就表示,这篇研究和之前那些研究人类偏好的工作没有太大不同,我们现在还是要依赖提示工程。

我不认为 "理解人类意图 / 喜好" 会导致提示工程消失,除非 LLM 训练和工作的方式发生系统性变化。

也有人觉得提示工程只是会从前端消失,形式上发生改变。

还有人提问,要是提示工程消失了,那花重金雇佣提示工程师的人可咋办?

不过回到研究本身,的确提示工程对于很多人来说还是有难度,有网友觉得,这是阻碍很多人拥抱 ChatGPT 的一大原因。

你觉得呢?

论文地址:
arxiv.org/abs/2310.11...

参考链接:

1\][twitter.com/emollick/st...](https://link.juejin.cn?target=https%3A%2F%2Ftwitter.com%2Femollick%2Fstatus%2F1715022305925984296%3Fs%3D20 "https://twitter.com/emollick/status/1715022305925984296?s=20") \[2\][twitter.com/iScienceLuv...](https://link.juejin.cn?target=https%3A%2F%2Ftwitter.com%2FiScienceLuvr%2Fstatus%2F1714947314375372999%3Fs%3D20 "https://twitter.com/iScienceLuvr/status/1714947314375372999?s=20") *版权所有,未经授权不得以任何形式转载及使用,违者必究。*

相关推荐
不摸鱼16 小时前
创业找不到方向?不妨从行业卧底开始 | 不摸鱼的独立开发者日报(第66期)
人工智能·开源·资讯
redreamSo20 小时前
AI Daily | AI日报:Meta百亿抢人,AI数据标注产业升级; 百度全栈自研,AI应用大放异彩; Hinton访华:多模态大模型已有「意识」
程序员·aigc·资讯
redreamSo2 天前
AI Daily | AI日报:Altman:GPT - 5将引发就业与欺诈变革; OpenAI 新模型多场竞赛‘翻车’,谷歌躺赢!; 黄仁勋:报废50亿显卡,员工薪酬全加薪
程序员·aigc·资讯
不摸鱼3 天前
Meta大佬:AI能写代码后,程序员最重要的是“品味” | 不摸鱼的独立开发者日报(第64期)
人工智能·开源·资讯
redreamSo3 天前
AI Daily | AI日报:Meta出走团队获融资,打造AI视觉记忆大脑; OpenAI急募300亿,星际之门危机四伏; Altman:GPT - 5将引发就业与经济变革
程序员·aigc·资讯
great9834 天前
AI 及开发领域动态与资源汇总(2025年7月23日)
资讯
算家计算5 天前
阿里开源最强编程模型Qwen3-Coder!超越GPT-4.1,登顶开源榜首
人工智能·ai编程·资讯
NocoBase5 天前
6 款支持角色权限控制(RBAC)的开发工具对比与应用场景解析
低代码·开源·资讯
redreamSo5 天前
AI Daily | AI日报:小鹏机器人招兵,陈杰加入加码布局; 谷歌前 CEO:数字超智能十年内降临; Altman 秀新模型“翻车”,前员工赢老东家
程序员·aigc·资讯