思考 AI 将优先自动化哪些任务,有一个独特的视角,那就是 "描述-执行鸿沟":描述一个任务的难度,与亲手完成该任务的难度相比,差距究竟有多大?

那些"描述-执行鸿沟"巨大的任务,将是自动化的沃土。因为给这类任务创造训练数据相对容易,而且即便执行过程本身并不简单,自动化它们所带来的价值也极为可观。例如:
-
• 修正长文中的语法错误:描述"请修正语法"非常简单,但手动检查并修改一篇长文则相当耗时。
-
• 提交发票进行报销:描述"把这些发票报销了"很简单,但手动填写表格、上传、提交等一系列流程很繁琐。
-
• 训练一个在标准评估基准上达到特定性能的模型:描述"训练一个模型,在某个数据集上达到 95% 的准确率"这个目标很明确,但实现它的过程涉及大量工作。
-
• 构建一个应用程序:检查一个 App 的用户界面(UI)是否符合设计稿很容易,但要实现其背后复杂的后端功能则需要大量代码和调试。
反之,当任务的背景信息极其复杂(high-context),而技术挑战性又不高时,"描述-执行鸿沟"往往很小。自动化这类任务的价值本身就有限,而且为其创建训练数据也更加困难。例如:
-
• 编写数据处理脚本:在很多情况下,直接用代码来处理数据,比用自然语言去描述处理规则更简洁、更精确。
-
• 在高度定制化的代码库中进行消融研究:要在一个为特定模型、需要大量背景知识的代码库里进行实验,口头或书面描述你想要做的修改,可能比直接自己动手改代码更费劲。
-
• 以特定风格剪辑视频:很多时候,与其费尽口舌描述每一个镜头的切换、调色、配乐的具体要求,还不如自己动手剪辑来得更快、更直接。
-
• 帮我妈妈买中式杂货:她对要买的品牌、规格、数量都有非常具体的要求,而且还要懂得如何挑选最新鲜的蔬果。对她来说,亲自跑一趟比对我详细描述所有细节要容易得多。
这个概念与"判别器-生成器鸿沟"(discriminator-generator gap)有些相似,但又不完全一样。有些任务,比如上面提到的"以特定风格剪辑视频",可能评价一个视频剪辑得好不好很容易(判别器-生成器鸿沟大),但描述清楚如何剪辑却很难(描述-执行鸿沟小)。