Claude 3.5学习使用电脑，就像给人装上翅膀练习飞翔

长山的随笔2024-10-23 19:07

凌晨醒来，AI圈终于有大事发生。否则沉寂太久，大家都不知道写什么了。今天早上，"革命"、"大事"、"颠覆"，又要刷屏了。

简单谈下这次更新。

首先，最让我兴奋的是Claude 3.5 Sonnet的更新，据说更新后的 Claude 3.5 Sonnet 编码方面，它将 SWE-bench Verified 的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型，包括 OpenAI o1-preview 。

我一直在使用cursor，我现在95%以上的代码都是AI写的，Claude 3.5、gpt-4o、o1都会使用，对他们的水平是有直接体感的。对于Claude宣传的进步，我还是充满期待的，早上看了下，cursor果然已经更新，迫不及待想写代码了。

之前的o1除了贵和慢，写代码是真的强，不知道新的Sonnet能否真正的超越o1。

另外一个令行业兴奋的大更新，是Claude开发了一个API，通过这个API，Claude 能够感知计算机界面并操作电脑。

这个功能确实比较新颖，而且也有一定的实用性，能够将人解放出来，但是我不是很看好这个功能，单纯从产品看（先抛开技术进步），我认为它短期没有什么价值，长期没有大价值，中期可能会有些价值。

短期看，现在的操作成功率还是非常低，根据官网的数据，Claude 3.5 Sonnet 在屏幕截图类别任务中得分最高，也才是 14.9%。可能在非常垂直的小场景中能发挥价值，很难大规模使用。

长期看，AI和数字世界交互的方式，肯定不是像人一样使用电脑去交互。这就是我认为的，Claude 3.5学习使用电脑，就像是给人装上翅膀来练习飞翔 。现在我们都知道飞翔的底层原理是空气动力学，AI和数字世界交互的"空气动力学"，是AI直接通过协议和数字世界交互，而不是UI。这才是最高效，也是AI最擅长的方式。

中期看，数字世界的改造还需要很长时间，如果AI操作电脑的准确率提高到一个可以解决人们问题的水平，这个功能还是有一定的价值的。问题这是在于适用范围，以及能够发挥价值的时间有多长。

最后，对整个AI行业比较好的一件事情是，参与者在交替领先，现在可以等待OpenAI的产品发布了。