今晚 20：00，直播《LawBench：评测大语言模型的司法知识》

OpenMMLab2023-11-30 16:10

大语言模型在各个方面都展现出了其强大的能力。然而，当将它们应用于高度专业化、安全关键的司法领域时，它们究竟掌握了多少法律知识以及它们是否能可靠地执行法律相关任务我们却不得而知。

今晚 20：00点，OpenMMlab 视频号《社区开放麦》，我们邀请到宁波东方理工大学（暂名）信息学部助理教授、博士生导师，德国马克斯普朗克计算机研究所博士沈晓宇老师为大家介绍司法知识的综合评估基准 LawBench 。LawBench 包含三个关键维度，涵盖 20 个子测评项，横跨单选、多选、回归、抽取和生成等五大类司法任务。与目前一些数据集仅测试模型在数据集上的选择能力不同，这一评测数据集更全面地反映了大型语言模型在真实法律任务中的表现能力。