大模型评测

司南OpenCompass6 小时前
人工智能·大模型评测·司南评测·司南评测集社区
司南评测集社区 3 月上新一览!司南评测集社区 CompassHub 作为司南评测体系的重要组成部分,旨在打创新性的基准测试资源导航社区,提供丰富、及时、专业的评测集信息,帮助研究人员和行业人士快速搜索和使用评测集。
司南OpenCompass3 个月前
人工智能·pytorch·大模型评测
司南OpenCompass评测工具正式加入PyTorch Ecosystem日前,司南 OpenCompass 评测工具正式加入 PyTorch Ecosystem 体系,这一进展不仅彰显了司南 OpenCompass 评测工具的技术实力,还为开发者与研究人员带来了更加便捷的模型评测体验。
司南OpenCompass3 个月前
人工智能·语言模型·大模型·大模型评测·opencompass
CompassArena新升级:Judge Copilot提升竞技体验,新一代Bradley-Terry模型还原模型真实能力2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队携手魔搭 ModelScope,联合推出了大模型评测平台——CompassArena(大模型竞技场),为大模型领域引入了一种全新的竞技模式。
司南OpenCompass3 个月前
人工智能·语言模型·自然语言处理·大模型评测
顶会评测集解读-AlignBench: 大语言模型中文对齐基准评测集社区 CompssHub 作为司南 OpenCompass大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等12个方向的评测集,欢迎大家探索。