ai评测

司南OpenCompass22 天前
人工智能·大模型·多模态模型·大模型评测·司南评测·ai评测
司南“六位一体”评测体系的一年演进过去一年,通用人工智能在模型规模、能力边界与应用深度上持续突破。大模型正从通用问答走向科研发现、产业应用与真实世界交互,系统复杂性与潜在风险同步上升。在这一背景下,如何构建科学、公正、可复现的评测体系,持续刻画 AI 能力边界、引导技术健康演进,成为支撑人工智能高质量发展的关键基础设施问题。
非晓为骁4 个月前
人工智能·prompt·提示词工程·ai评测
【AI】AI 评测入门(二):Prompt 迭代实战从“能跑通”到“能落地”“Prompt 不是写出来的,是测出来的。”——这是我迭代 5 个版本后,最深的体悟。上一篇《AI 评测入门(一):先搞懂你的数据集)》,我们讲了标签体系、自测集、评测集、Langfuse 数据结构化——那是 AI 评测的地基。
摘星编程5 个月前
多模态融合·视频理解·音视频ai·语音转录·ai评测
音视频处理新纪元:12款AI模型的语音转录和视频理解能力横评🌟 Hello,我是摘星! 🌈 在彩虹般绚烂的技术栈中,我是那个永不停歇的色彩收集者。 🦋 每一个优化都是我培育的花朵,每一个特性都是我放飞的蝴蝶。 🔬 每一次代码审查都是我的显微镜观察,每一次重构都是我的化学实验。 🎵 在编程的交响乐中,我既是指挥家也是演奏者。让我们一起,在技术的音乐厅里,奏响属于程序员的华美乐章。
我是有底线的