十四款大型语言模型在《街头霸王III》中一决雌雄

上周在旧金山举办的Mistral AI黑客马拉松上,开发出了一款基于经典街机游戏《街头霸王III》的人工智能(AI)基准测试。这款名为"AI Street Fighter III"的开源基准测试由Stan Girard和Quivr Brain开发,游戏在模拟器中运行,让大型语言模型(LLM)以非传统却壮观的方式展开对决。

AI爱好者Matthew Berman在上面嵌入的视频中介绍了这款基于打斗游戏的新大型语言模型(LLM)竞赛。除了展示街头格斗的激烈场面,Berman的视频还手把手教你如何在个人电脑或Mac上安装这个开源项目,让你亲自试一试。

这并不是一款典型的LLM基准测试。通常情况下,较小的模型在延迟和速度上具有优势,这在本游戏中转化为更多的胜利。人类玩家在打斗游戏中得益于对对手动作的快速反应,而在AI对抗AI的战斗中也是如此。

作为基于文本的模型,LLM在战斗中实时作出决策。它们首先分析游戏状态以获取上下文,然后考虑自己的行动选项,如靠近、远离、发射火球、超级拳击、旋风腿、超级火球等。

视频中可以看到,战斗流畅,玩家似乎在计策性地反击、防守和使用特殊招式。不过,目前该项目仅支持使用角色Ken------这提供了完美的平衡性,但可能观感略显单调。

那么,哪款《街头霸王III》AI最强呢?根据Girard进行的测试,OpenAI的GPT 3.5 Turbo在他们对抗的八款LLM中以适当的优势(ELO评分1776)胜出。在亚马逊高管Banjo Obayomi进行的另一系列测试中,14款LLM进行了314场单独较量,最终Anthropic的claude_3_haiku以ELO评分1613的成绩脱颖而出。

有趣的是,Banjo还注意到,LLM的一些bug或特性(如AI幻觉和AI安全边界)有时会影响特定模型的打斗表现。

相关推荐
ezl1fe几秒前
RAG 每日一技(十九):当文本遇上表格,如何拿下“半结构化”PDF
人工智能·后端·算法
乌萨奇也要立志学C++10 分钟前
【Linux】进程控制(二) 深入理解进程程序替换与 exec 系列函数
linux·运维·服务器
ShareBeHappy_Qin13 分钟前
Linux 命令 —— 常用命令总结
linux·运维·服务器
YangYang9YangYan13 分钟前
理财经理的职业进阶:核心技能与成长路径解析
大数据·金融·数据分析
shinelord明13 分钟前
【大数据开发实践】Kafka REST Proxy~无缝集成 Kafka
大数据·分布式·架构·kafka
后端小肥肠26 分钟前
公众号对标账号文章总错过?用 WeWe-RSS+ n8n,对标文章定时到你的邮箱(上篇教程)
人工智能·agent
说私域41 分钟前
开源AI智能名片赋能下微商商业模式的创新路径研究——以链动2+1模式与S2B2C商城小程序融合为例
人工智能·小程序·开源
2401_841495641 小时前
【自然语言处理】“bert-base-chinese”的基本用法及实战案例
人工智能·python·自然语言处理·bert·文本预处理·特征提取·训练验证
凝新科技1 小时前
如何用营销自动化提升开信率与转化率
人工智能
猫头虎1 小时前
AI_NovelGenerator:自动化长篇小说AI生成工具
运维·人工智能·python·自动化·aigc·gpu算力·ai-native