【人工智能】Anthropic发布强大的Claude3对齐GPT-4,大模型杂谈个人感想

北京时间3月5日,人工智能创业公司Anthropic宣布,推出其突破性的Claude 3系列模型。Claude 3系列包含三个子模型,分别为Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们提供不同程度的智能、速度和成本选择,以满足各种人工智能应用需求。复杂的推理任务上,Claude3可以说是全面吊打GPT-4。定价上,Claude 3比GPT-4 Turbo更高:GPT-4 Turbo每百万token输入/输出分别收费为10美元/30美元;而Claude 3 Opus的价格分别为15/75 美元。

看完国内铺天盖地的这类资讯,打开官网https://www.anthropic.com/ , 看了一会介绍默默关闭了窗口。

先细数下国内外相对出名的大模型吧,

语言类大模型或工具大致有:

国外openai的chatGPT ,还google的gemini、开源Gemma , meta开源Llama, 再加上Anthropic的Claude

国内 baidu的文心一言aliyun的开源通义千问 , 腾讯的混元大模型, 华为的盘古大模型, 智谱AI的开源ChatGLM , 百川智能的百川大模型, 月之暗面的kimiChat ,再算上抖音的coze平台

标粗的是不是大家比较熟知常用的,开源的程序员可能用的多些,其他普通人用的多一些。大家会发现,其实我们选择哪款AI大模型或工具, 其实看中的是它解决问题的能力。 比如国内的chatGPT套壳软件为啥很流行,因为一般人使用不了魔法,但chatGPT这个大家都在推啊,肯定要尝尝鲜啥的。比如kimiChat, 写AI爆文啥的不少博主会推荐它,为啥, 因为它能解决长文的问题,能解决chatGPT token数限制的问题。

生图类,大家是不是知道最多的是midjourny(入门简单,生成图片下限高), 开源Stable Diffusion (入门复杂,生成图片上限高), openai的DALL-E , 其他国内的是不是很少见有人推,可能大家听到最多的是midjourny国内套壳,推SD的云部署版本。 国内生图大模型,我不得不吐槽。 抛开技术层面,生成的图片还有AI生成水印,还需要让大家P图去水印, 不知道产品经理是如何设计产品的,让大家使用带水印的图片么,或者增加工作量再P一次么。

视频类, 国外的Runway、 pika , 以及openai 即将推出的 Sora , aliyun即将推出的EMO, 其他公司也有类似的,大家是不是很少听到。 为啥很少看到大家推这个,直接使用价格贵啊。 制作视频大家为了节省成本,可能常规使用Stable Diffusion +Control Net + Lora 固定形象图片 ,使用剪影合成了。

上面只是我的个人理解,不一定完全对。下面是我自己的一些感想。

1、先发优势。不管哪个大模型,先发就是优势。 就像跑步,大家很容易知道第一名,可能第二名第三名也有人知道的,后面做的除非特别好,基本很少人知道的。

2、特色优势。弯道超车,一定有一项特别NB的优势。比如上面举例的kimiChat, 大家都知道他的长文厉害啊。为啥很多大模型大家不熟知,自己在huggingface上看的眼花缭乱,因为大家都不知道他的特色是什么,和其他大模型比优势是什么。

3、用户诉求。不管做什么产品,必须考虑用户诉求。还是上面的例子, 大家生成图片,是不是想用在某个地方, 突然来个水印说AI生成,大家立马反感了。会员我不清楚是否有水印,但一般人有白嫖使用的心理。看到试用这样的效果,基本很少有下一步了。

4、产品定位。做好产品定位,了解产品的用户群体,掌握消费者的预期。比如视频生成要出来大模型肯定烧钱呢,但定价可能就面向高级客户(大企业,视频制作等专业公司,高阶玩家),普通客户非刚需场景可能消费不起。这几年消费降级, 大家PDD买东西也是这个道理。但香奈儿还是很火爆,说明富人群体还是多。

5、投入性价比。学习或研究大模型一定要投入产出比,想明白自己的最终目的是什么。 我之前吭哧吭哧闷头苦学了pytorch、TensorFlow等框架皮毛,后面我发现会一些 损失函数、梯度下降、CNN、RNN、transformer等hello world用法貌似独立解决不了工作生活中的问题,自己一个非计算机本科生,当初不知道考研读博的香,年龄大了也去不了大公司卷。 作为程序员,老老实实学习LangChain , AI agent看看应用场景吧,后续看有没有机会从JAVA、python WEB搬运工再扩展多一个大模型应用搬运工身份。

写的比较乱, Claude3暂时先不学了(大模型框架日新月异变化太快),看他后续的潜力如何, 现阶段chatGPT4、 DALL-E、 SD等大模型暂时能满足个人需求了, 重心放在大模型应用开发 + AI应用上。

相关推荐
北京搜维尔科技有限公司29 分钟前
搜维尔科技:【应用】Xsens在荷兰车辆管理局人体工程学评估中的应用
人工智能·安全
说私域32 分钟前
基于开源 AI 智能名片 S2B2C 商城小程序的视频号交易小程序优化研究
人工智能·小程序·零售
YRr YRr32 分钟前
深度学习:Transformer Decoder详解
人工智能·深度学习·transformer
知来者逆37 分钟前
研究大语言模型在心理保健智能顾问的有效性和挑战
人工智能·神经网络·机器学习·语言模型·自然语言处理
云起无垠1 小时前
技术分享 | 大语言模型赋能软件测试:开启智能软件安全新时代
人工智能·安全·语言模型
老艾的AI世界1 小时前
新一代AI换脸更自然,DeepLiveCam下载介绍(可直播)
图像处理·人工智能·深度学习·神经网络·目标检测·机器学习·ai换脸·视频换脸·直播换脸·图片换脸
翔云API1 小时前
PHP静默活体识别API接口应用场景与集成方案
人工智能
浊酒南街2 小时前
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)4.9-4.10
人工智能·深度学习·神经网络·cnn
Tony聊跨境2 小时前
独立站SEO类型及优化:来检查这些方面你有没有落下
网络·人工智能·tcp/ip·ip
懒惰才能让科技进步2 小时前
从零学习大模型(十二)-----基于梯度的重要性剪枝(Gradient-based Pruning)
人工智能·深度学习·学习·算法·chatgpt·transformer·剪枝