【人工智能】Anthropic发布强大的Claude3对齐GPT-4，大模型杂谈个人感想

北京时间3月5日，人工智能创业公司Anthropic宣布，推出其突破性的Claude 3系列模型。Claude 3系列包含三个子模型，分别为Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus，它们提供不同程度的智能、速度和成本选择，以满足各种人工智能应用需求。复杂的推理任务上，Claude3可以说是全面吊打GPT-4。定价上，Claude 3比GPT-4 Turbo更高：GPT-4 Turbo每百万token输入/输出分别收费为10美元/30美元；而Claude 3 Opus的价格分别为15/75 美元。

看完国内铺天盖地的这类资讯，打开官网https://www.anthropic.com/ ，看了一会介绍默默关闭了窗口。

先细数下国内外相对出名的大模型吧，

语言类大模型或工具大致有：

国外openai的chatGPT ，还google的gemini、开源Gemma , meta开源Llama, 再加上Anthropic的Claude

国内 baidu的文心一言 ，aliyun的开源通义千问 ，腾讯的混元大模型，华为的盘古大模型， 智谱AI的开源ChatGLM ，百川智能的百川大模型， 月之暗面的kimiChat ，再算上抖音的coze平台。

标粗的是不是大家比较熟知常用的，开源的程序员可能用的多些，其他普通人用的多一些。大家会发现，其实我们选择哪款AI大模型或工具, 其实看中的是它解决问题的能力。比如国内的chatGPT套壳软件为啥很流行，因为一般人使用不了魔法，但chatGPT这个大家都在推啊，肯定要尝尝鲜啥的。比如kimiChat，写AI爆文啥的不少博主会推荐它,为啥, 因为它能解决长文的问题，能解决chatGPT token数限制的问题。

生图类，大家是不是知道最多的是midjourny（入门简单，生成图片下限高），开源Stable Diffusion （入门复杂，生成图片上限高）, openai的DALL-E , 其他国内的是不是很少见有人推，可能大家听到最多的是midjourny国内套壳，推SD的云部署版本。国内生图大模型，我不得不吐槽。抛开技术层面，生成的图片还有AI生成水印，还需要让大家P图去水印，不知道产品经理是如何设计产品的，让大家使用带水印的图片么，或者增加工作量再P一次么。

视频类，国外的Runway、 pika ，以及openai 即将推出的 Sora , aliyun即将推出的EMO，其他公司也有类似的，大家是不是很少听到。为啥很少看到大家推这个，直接使用价格贵啊。制作视频大家为了节省成本，可能常规使用Stable Diffusion +Control Net + Lora 固定形象图片，使用剪影合成了。

上面只是我的个人理解，不一定完全对。下面是我自己的一些感想。

1、先发优势。不管哪个大模型，先发就是优势。就像跑步，大家很容易知道第一名，可能第二名第三名也有人知道的，后面做的除非特别好，基本很少人知道的。

2、特色优势。弯道超车，一定有一项特别NB的优势。比如上面举例的kimiChat，大家都知道他的长文厉害啊。为啥很多大模型大家不熟知，自己在huggingface上看的眼花缭乱，因为大家都不知道他的特色是什么，和其他大模型比优势是什么。

3、用户诉求。不管做什么产品，必须考虑用户诉求。还是上面的例子，大家生成图片，是不是想用在某个地方，突然来个水印说AI生成，大家立马反感了。会员我不清楚是否有水印，但一般人有白嫖使用的心理。看到试用这样的效果，基本很少有下一步了。

4、产品定位。做好产品定位，了解产品的用户群体，掌握消费者的预期。比如视频生成要出来大模型肯定烧钱呢，但定价可能就面向高级客户（大企业，视频制作等专业公司，高阶玩家），普通客户非刚需场景可能消费不起。这几年消费降级，大家PDD买东西也是这个道理。但香奈儿还是很火爆，说明富人群体还是多。

5、投入性价比。学习或研究大模型一定要投入产出比，想明白自己的最终目的是什么。我之前吭哧吭哧闷头苦学了pytorch、TensorFlow等框架皮毛，后面我发现会一些损失函数、梯度下降、CNN、RNN、transformer等hello world用法貌似独立解决不了工作生活中的问题，自己一个非计算机本科生，当初不知道考研读博的香，年龄大了也去不了大公司卷。作为程序员，老老实实学习LangChain , AI agent看看应用场景吧，后续看有没有机会从JAVA、python WEB搬运工再扩展多一个大模型应用搬运工身份。

写的比较乱, Claude3暂时先不学了（大模型框架日新月异变化太快），看他后续的潜力如何，现阶段chatGPT4、 DALL-E、 SD等大模型暂时能满足个人需求了，重心放在大模型应用开发 + AI应用上。