今晚 20:00,直播《LawBench:评测大语言模型的司法知识》

大语言模型在各个方面都展现出了其强大的能力。然而,当将它们应用于高度专业化、安全关键的司法领域时,它们究竟掌握了多少法律知识以及它们是否能可靠地执行法律相关任务我们却不得而知。

今晚 20:00点,OpenMMlab 视频号《社区开放麦》,我们邀请到宁波东方理工大学(暂名)信息学部助理教授、博士生导师,德国马克斯普朗克计算机研究所博士沈晓宇老师为大家介绍司法知识的综合评估基准 LawBench 。LawBench 包含三个关键维度,涵盖 20 个子测评项,横跨单选、多选、回归、抽取和生成等五大类司法任务。与目前一些数据集仅测试模型在数据集上的选择能力不同,这一评测数据集更全面地反映了大型语言模型在真实法律任务中的表现能力

快去 B 站预约吧 OpenMMLab的动态 - 哔哩哔哩 (bilibili.com)

为了方便大家交流沟通,我们建立了语言大模型相关的交流群,大佬也在群里哦,提供与大佬 1v1 的机会,扫码即可入群~

相关推荐
wggmrlee5 分钟前
模型训练流程
人工智能
逆境不可逃10 分钟前
【用AI学Agent】Agent入门前置:大模型基础(开发向)
人工智能·深度学习·机器学习
热爱生活的猴子11 分钟前
PyTorch导出ONNX报错(ShapeInferenceError)问题笔记(含dynamo=False作用解析)
人工智能·pytorch·笔记
新缸中之脑13 分钟前
用Kreuzberg提取文档结构
人工智能
Gauss松鼠会14 分钟前
【GaussDB】GaussDB技术解读之AI大模型在智能运维场景的应用
运维·人工智能·gaussdb
财经汇报17 分钟前
Unloq发布SC+平台 包括智能合约解决清算难题
大数据·人工智能·智能合约
2401_8322981018 分钟前
模型军备竞赛白热化:OpenClaw 3 月模型生态爆发,GPT-5.4 / 国产模型双轮驱动
网络·人工智能
Coder个人博客18 分钟前
11_apollo_docker_setup_host子模块软件架构分析
人工智能·架构
roman_日积跬步-终至千里18 分钟前
【系统架构设计师-案例题(5)】人工智能 · 参考答案与解析(按分类)
人工智能·分类·系统架构
打工人何苦为难打工人19 分钟前
AI模型合规+常识+三观测试全能世界书
人工智能