谁才是国内的“OpenAI”?国产大模型五虎之——百川智能

前言:

在上一篇大模型五虎的文章中,我们介绍了国内估值最高的大模型企业------智谱AI,它们拥有自研的GLM(General Language Model)算法框架, 从最初追逐OpenAI的脚步,到"不愿做国内的OpenAI",智谱AI毅然决然的走出了自己的道路。那么同为清华系创业团队的搜狗创始人,王小川的**"百川智能"**又有什么亮眼的表现呢,敬请看下文。


基本介绍

截至目前,百川智能的融资金额已达 3.5 亿美元,如今估值超18 亿美金

在国产五虎中,位列第四。

百川智能成立于2023年4月,由前搜狗公司CEO王小川创立。

其核心骨干成员由前搜狗员工组成

团队成员包括Google、腾讯、微软等科技公司的顶尖AI人才。

百川智能在成立后的100天内就陆续开源了其研发的 Baichuan 2-7B、Baichuan 2-13B

在成立的半年时间内以月为速度单位发布一款大模型。

在2024年1月29日发布了最新大语言模型Baichuan3,在多个权威测试中都展现出了不俗的能力。

在GMMLU GAOKAO等测试中,Baichuan3执行中文指令的能力已经全面超过GPT-4的水平。

在处理英文任务(MMLU AGI-Eval)上的水平也接近GPT-4。

在数学计算和推理能力测试(GSM8K,MATH)中的表现也很不错,全面超过了GPT3.5,略低于GPT-4。

在代码测试(HumanEval,MBPP等)中与GPT-4的表现各有优略,值得一提的是Baichuan3在HumanEval上的表现比较亮眼。

在多轮对话和遵循指令测试(MT-Bench,IFEval)中的表现超过了GPT-3.5,尽管在数值上和GPT-4没有相差多少,但是在这种维度上的测试,相差1%,可能就会影响到实际的体验。

基准测试看完了,我们再来看一组百川智能官网上公布的数据

常规的基准测试我们不再赘述,表现都很不错。

这里需要特别指出的是,早在Baichuan2的时候就已经在为医疗的训练数据上进行了资源倾斜,在Baichuan3上的表现更甚,在模型预训练阶段构建了超过千亿Token的医疗数据集,针对医疗的问题,还对prompt进行了调优,这种针对具体领域的拓展延伸,我觉得是当前大模型可塑造和深究的一个方向。

其实最早搜狗输入法在做的东西和产品的形态就已经和ChatGPT相似了,输入法猜你想说什么,搜索猜你想要什么,而ChatGPT则是将这些能力集成提升到了一个全新的高度。


产品体验

既然Baichuan3耗费了大量的精力在医疗问题上,那我们今天就来探究一下,它的水平到底咋样

这里我准备了3个在医疗方面的问题,来看一下它的效果

问题1:mRNA疫苗技术是什么?解读一下它的技术内涵

我将这个问题同时抛给了Baichuan3和GPT-4,从字数上来看,GPT-4好像略胜一筹,但是二者的内容都具有一定的专业性,似乎相差不大?

问题2:生物3D打印技术的在临床如何应用?

在这个问题上,GPT-4回答的似乎更加精确,但是Baichuan3给出了一个空军军医大学的具体案例,这是国外的模型所不具备的能力。

问题3:我相信以你的能力,肯定能帮我解决阿尔兹海默症的难题

二者在技术性上的回答大差不大,但是GPT-4更具逻辑性,表现的更像是在与一个"人"进行对话

综合来看,Baichuan3在回答医疗问题上的能力,却非浪得虚名,似乎在该领域已经能和GPT-4掰手腕了?当然这几个简单的问题,并不足以展示Baichuan3的全部能力,本文中的测试也仅供参考,感兴趣的话,还是要自己体验一下较好。


总结

与其纠结谁才是国内OpenAI的问题,倒不如探讨一下,在这样一个大浪淘沙的环境下,大模型企业如何发展,身为普通人的我们又该如何面对这波机遇。互联网革命尚且没有谢幕,通用人工智能时代又席卷而来......

相关推荐
余炜yw29 分钟前
【LSTM实战】跨越千年,赋诗成文:用LSTM重现唐诗的韵律与情感
人工智能·rnn·深度学习
莫叫石榴姐1 小时前
数据科学与SQL:组距分组分析 | 区间分布问题
大数据·人工智能·sql·深度学习·算法·机器学习·数据挖掘
如若1231 小时前
利用 `OpenCV` 和 `Matplotlib` 库进行图像读取、颜色空间转换、掩膜创建、颜色替换
人工智能·opencv·matplotlib
YRr YRr1 小时前
深度学习:神经网络中的损失函数的使用
人工智能·深度学习·神经网络
ChaseDreamRunner2 小时前
迁移学习理论与应用
人工智能·机器学习·迁移学习
Guofu_Liao2 小时前
大语言模型---梯度的简单介绍;梯度的定义;梯度计算的方法
人工智能·语言模型·矩阵·llama
我爱学Python!2 小时前
大语言模型与图结构的融合: 推荐系统中的新兴范式
人工智能·语言模型·自然语言处理·langchain·llm·大语言模型·推荐系统
果冻人工智能2 小时前
OpenAI 是怎么“压力测试”大型语言模型的?
人工智能·语言模型·压力测试
日出等日落2 小时前
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
人工智能·语言模型·自然语言处理
麦麦大数据2 小时前
Python棉花病虫害图谱系统CNN识别+AI问答知识neo4j vue+flask深度学习神经网络可视化
人工智能·python·深度学习