技术栈

行为评估

deephub
4 小时前
人工智能·python·自动化·大语言模型·行为评估
Anthropic 开源 Bloom:基于 LLM 的自动化行为评估框架Anthropic 最近放出了一个叫 Bloom 的开源框架,专门用来测试大语言模型会不会出现某些特定行为。比如模型是不是会阿谀奉承用户、有没有政治倾向、会不会为了自保撒谎或者试图绕过监督机制这类问题。
我是有底线的