ai评测

司南OpenCompass

司南“六位一体”评测体系的一年演进过去一年，通用人工智能在模型规模、能力边界与应用深度上持续突破。大模型正从通用问答走向科研发现、产业应用与真实世界交互，系统复杂性与潜在风险同步上升。在这一背景下，如何构建科学、公正、可复现的评测体系，持续刻画 AI 能力边界、引导技术健康演进，成为支撑人工智能高质量发展的关键基础设施问题。

【AI】AI 评测入门（二）：Prompt 迭代实战从“能跑通”到“能落地”“Prompt 不是写出来的，是测出来的。”——这是我迭代 5 个版本后，最深的体悟。上一篇《AI 评测入门（一）：先搞懂你的数据集)》，我们讲了标签体系、自测集、评测集、Langfuse 数据结构化——那是 AI 评测的地基。

音视频处理新纪元：12款AI模型的语音转录和视频理解能力横评🌟 Hello，我是摘星！ 🌈 在彩虹般绚烂的技术栈中，我是那个永不停歇的色彩收集者。 🦋 每一个优化都是我培育的花朵，每一个特性都是我放飞的蝴蝶。 🔬 每一次代码审查都是我的显微镜观察，每一次重构都是我的化学实验。 🎵 在编程的交响乐中，我既是指挥家也是演奏者。让我们一起，在技术的音乐厅里，奏响属于程序员的华美乐章。

我是有底线的