行为评估 - 行为评估技术,学习,经验文章

deephub

7 个月前

Anthropic 开源 Bloom：基于 LLM 的自动化行为评估框架Anthropic 最近放出了一个叫 Bloom 的开源框架，专门用来测试大语言模型会不会出现某些特定行为。比如模型是不是会阿谀奉承用户、有没有政治倾向、会不会为了自保撒谎或者试图绕过监督机制这类问题。