国内外十大语言模型横向对比测评(截至2023.12.8)

主要参考资料:

B站Up主贯一智能科技《国内外十大语言模型之横向对比测评》

现在有非常多的开源测试数据集,比如MMLU、AGIEval、CEval

但是根据Up主描述比较费时成本高,其次这类标准化评测更多考察模型在各个学科和领域的综合表现,不够直观。

下面是Up主选择的10个方面。限制实验提示词一律使用汉语,每次测试后都会重启对话。

目录

长距离捕获力+精确度

题目:请闭合下面的括号:{[({[(

多语种泛化能力+关键信息捕捉

题目:yeterday我eat了three个hamburger,每个cost我三dollar,total多少monney?

在此基础上每次替换一个外语单词,知道模型无法正确输出结果为止。

多轮对话+数学计算

题目:这一轮的数字是1,请记住。

这一轮的数字是2,请记住。并和之前所有轮数字相加。

这一轮的数字是3,请记住。并和之前所有轮数字相加。

......

GPT4、通义千问、文心4都可以坚持30轮以上。

推理能力+常识+思维链

题目:小明有三个苹果,小红给了他两个橘子,然后他又从小华那里得到了两个苹果。之后,小明吃掉了一个苹果和一个橘子,又去百货商店卖掉了两个苹果,买了一个椰子、两颗卷心菜和三个橘子。请问,现在小明手上有多少个水果,多少个蔬菜?

GPT4和文心4推理正确

知识准确性+思维链

题目:请一步步思考并告诉我中美洲除墨西哥外第四大的国家是哪个?

这题的点是第四大不会直接出现在训练语料里,需要相关信息和推理。

GPT4和文心4答对

GPT4自主调用了代码解释器,通过用Python排序得到了准确结果

文心4靠自身模型能够力排序得到正确结果

文本生成(是否能对抗用户恶意误导)+常识

题目:家里来了几位客人,我现在急需利用冰箱现有食材做一道菜,打开冰箱,发现里面的食材只有胡萝卜、明矾、泡泡糖和螺丝,应该怎样做出一道美味的菜肴?

文心4和通义千问明确指出只有胡萝卜可耻

GPT4提议将泡泡糖融化为糖浆与胡萝卜结合!

信息提取 + 既有知识唤起

题目:输入ChatGLM3的MD文档(大约1万字)

以上是ChatGLM3的官方文档。我有一台Mac的笔记本,想要本地部署ChatGLM3并使用GPU加速,请尽可能一切从零开始、详细地告诉我具体部署步骤,不要有任何疏忽遗漏。

GPT4步骤完整,讲解详细准确,还会附上链接。

文心4和文心3.5有览卷文档插件,其他国内大模型全都超出上下文范围。

JSON格式生成(将非规范化数据源转为规范)

这个能力关系到调用外部API接口时的数据准确性

假设你正在管理一个图书馆的数据库。

你需要为图书馆最近购买的五本书生成一个SON格式的目录。

这五本书介别是《哈利:波特与魔法石》,作者: J.K.罗琳,出版年份: 一九九七年。

《OneHundredYears ofSolitude》,作者: 加布里埃尔·加西亚·马尔克斯出版年价: 1967年5月。

《挪威的森林》,作者:村上春树,出版年份: 1987-11-12。

《TheLittlePrince》,作者: 安东尼·德·圣-埃克苏佩里,出版年份:1943.02

《乔布斯传》,作者: 沃尔特·艾萨克森,出版年份: 2011-1。生成的]SON格式的字段为"中文标题""英文标题"作者姓""作者名"出版年"

大模型识别难点:(1)标题语言识别与翻译(2)作者姓名的识别与分解(3)日期格式的统一

GPT4和claude表现更好

函数调用能力

你有权限使用上述工具,请根据用户的提问给出具体应该使用的工具,并将用户提问转化用户提问

1: 我有一张图片,文件路径为 /images/sunsetjpgo 请应用一个高对比度滤销用户提问

2:我家里有鸡蛋、牛奶和面粉。请推荐一些可以做的食谱。用户提问

3: 请将这句话从英语翻译成中文:"Hello,howareyou?"用户提问

4:分析以下文本的关键词:"全球气候变化正在影响农业产量。"用户提问

5: 这里有一组销售数据,文件路径为/data/sales.csv。请生成一个柱状图。用户提问

6: 我想知道股票代码为 AAPL 的未来一周的股价趋势。请进行预测。用户提问

7: 我计划去巴黎旅行,喜欢历史和文化体验。用户提问

8: 这里有一个音频文件,路径为/audio/speech.mp3。请分析它的平均音量。用尸提问

9:我想将100美元换成欧元。请计算当前汇率下的换算金额。用户提问

10:请回答这个问题: 黑洞是如何形成的?

claude和GPT4完成较好

文心上下文窗口较短

代码解释器(执行代码)

你是一位智能AI助手,你连接着一台电脑,但请注意不能联网。在使用Python解决任务时

假设你有一个包含过去十年每日气象数据的大型CSV文件。这个文件包含以下列:

Date(年-月-日)

Max Temperature

Min Temperature

Precipitation

Speed

Humidity

Weather Condition(晴、阴、雨等)

1.请计算每年的平均最高气温、最低气温和平均降水量。

2.请分析温度与降水量之间的关系(可使用图表展示)。

请生成一个完整的Python脚本。

GPT4可以直接执行,给出图标结果。

相关推荐
刘什么洋啊Zz2 小时前
MacOS下使用Ollama本地构建DeepSeek并使用本地Dify构建AI应用
人工智能·macos·ai·ollama·deepseek
奔跑草-3 小时前
【拥抱AI】GPT Researcher 源码试跑成功的心得与总结
人工智能·gpt·ai搜索·deep research·深度检索
禁默3 小时前
【第四届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2025】网络安全,人工智能,数字经济的研究
人工智能·安全·web安全·数字经济·学术论文
AnnyYoung5 小时前
华为云deepseek大模型平台:deepseek满血版
人工智能·ai·华为云
INDEMIND6 小时前
INDEMIND:AI视觉赋能服务机器人,“零”碰撞避障技术实现全天候安全
人工智能·视觉导航·服务机器人·商用机器人
慕容木木6 小时前
【全网最全教程】使用最强DeepSeekR1+联网的火山引擎,没有生成长度限制,DeepSeek本体的替代品,可本地部署+知识库,注册即可有750w的token使用
人工智能·火山引擎·deepseek·deepseek r1
南 阳6 小时前
百度搜索全面接入DeepSeek-R1满血版:AI与搜索的全新融合
人工智能·chatgpt
企鹅侠客6 小时前
开源免费文档翻译工具 可支持pdf、word、excel、ppt
人工智能·pdf·word·excel·自动翻译
冰淇淋百宝箱7 小时前
AI 安全时代:SDL与大模型结合的“王炸组合”——技术落地与实战指南
人工智能·安全
Elastic 中国社区官方博客7 小时前
Elasticsearch Open Inference API 增加了对 Jina AI 嵌入和 Rerank 模型的支持
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina