今晚 20:00,直播《LawBench:评测大语言模型的司法知识》

大语言模型在各个方面都展现出了其强大的能力。然而,当将它们应用于高度专业化、安全关键的司法领域时,它们究竟掌握了多少法律知识以及它们是否能可靠地执行法律相关任务我们却不得而知。

今晚 20:00点,OpenMMlab 视频号《社区开放麦》,我们邀请到宁波东方理工大学(暂名)信息学部助理教授、博士生导师,德国马克斯普朗克计算机研究所博士沈晓宇老师为大家介绍司法知识的综合评估基准 LawBench 。LawBench 包含三个关键维度,涵盖 20 个子测评项,横跨单选、多选、回归、抽取和生成等五大类司法任务。与目前一些数据集仅测试模型在数据集上的选择能力不同,这一评测数据集更全面地反映了大型语言模型在真实法律任务中的表现能力

快去 B 站预约吧 OpenMMLab的动态 - 哔哩哔哩 (bilibili.com)

为了方便大家交流沟通,我们建立了语言大模型相关的交流群,大佬也在群里哦,提供与大佬 1v1 的机会,扫码即可入群~

相关推荐
山烛3 小时前
矿物分类系统开发笔记(一):数据预处理
人工智能·python·机器学习·矿物分类
拾零吖3 小时前
吴恩达 Machine Learning(Class 3)
人工智能·机器学习
admiraldeworm4 小时前
Spring Boot + Spring AI 最小可运行 Demo
java·人工智能·ai
算法_小学生4 小时前
长短期记忆网络(LSTM)
人工智能·rnn·lstm
Virgil1394 小时前
【TrOCR】模型预训练权重各个文件解读
人工智能·pytorch·计算机视觉·自然语言处理·ocr·transformer
MaxCode-15 小时前
【机器学习 / 深度学习】基础教程
人工智能·深度学习·机器学习
先做个垃圾出来………5 小时前
神经网络(Neural Network, NN)
人工智能·深度学习·神经网络
我希望的一路生花5 小时前
Nik Collection 6.2全新版Nik降噪锐化调色PS/LR插件
人工智能·计算机视觉·设计模式·stable diffusion·aigc
.银河系.6 小时前
819 机器学习-决策树2
人工智能·决策树·机器学习
AI大模型8 小时前
SwanLab入门深度学习:Qwen3大模型指令微调
程序员·llm·agent