技术栈

动态评估

司南OpenCompass
2 天前
人工智能·多模态模型·大模型评测·司南评测·大模型测评·大模型安全评估·动态评估
AAAI 2026|SDEval:首个面向多模态模型的安全动态评估框架随着多模态大语言模型(MLLMs)能力不断增强,其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系,但可靠评估仍面临三大挑战:
我是有底线的