技术栈

模型评测

澳鹏Appen
8 天前
hugging face·模型评测·模型测试
澳鹏携手Hugging Face,为开放ASR榜单引入非公开音频评测数据集近日,澳鹏与全球知名AI开源平台Hugging Face达成合作,为开放ASR(自动语音识别)榜单引入了一套非公开、高质量的英语音频数据集。此次合作旨在提升语音识别模型评估的真实性与公信力,帮助开发者在更贴近实际应用的条件下衡量模型性能。
阿杰学AI
3 个月前
人工智能·ai·语言模型·自然语言处理·aigc·模型评测·lm arena
AI核心知识100——大语言模型之 LM Arena(简洁且通俗易懂版)LM Arena(全称 LMSYS Chatbot Arena)是目前大语言模型(LLM)领域公认最权威、最真实的排行榜。
破烂pan
4 个月前
语言模型·模型评测
大语言模型核心评测基准详解:从认知到实践——研究测试专家学习总结文档(2026年更新版)大模型能力如“冰山”——表面流畅,水下能力需专业探针。单一指标(如BLEU)已失效,多维度、场景化、抗欺骗性的基准组合成为行业共识。本文精选9个经工业界/学术界验证的核心基准,按“定义→价值→实操→升华”四层逻辑拆解,助你: ✅ 精准定位模型能力短板 ✅ 避免评测陷阱与误读 ✅ 设计专业、可信的评测方案
我是有底线的