今晚 20:00,直播《LawBench:评测大语言模型的司法知识》

大语言模型在各个方面都展现出了其强大的能力。然而,当将它们应用于高度专业化、安全关键的司法领域时,它们究竟掌握了多少法律知识以及它们是否能可靠地执行法律相关任务我们却不得而知。

今晚 20:00点,OpenMMlab 视频号《社区开放麦》,我们邀请到宁波东方理工大学(暂名)信息学部助理教授、博士生导师,德国马克斯普朗克计算机研究所博士沈晓宇老师为大家介绍司法知识的综合评估基准 LawBench 。LawBench 包含三个关键维度,涵盖 20 个子测评项,横跨单选、多选、回归、抽取和生成等五大类司法任务。与目前一些数据集仅测试模型在数据集上的选择能力不同,这一评测数据集更全面地反映了大型语言模型在真实法律任务中的表现能力

快去 B 站预约吧 OpenMMLab的动态 - 哔哩哔哩 (bilibili.com)

为了方便大家交流沟通,我们建立了语言大模型相关的交流群,大佬也在群里哦,提供与大佬 1v1 的机会,扫码即可入群~

相关推荐
罗西的思考19 分钟前
[Agent] ACE(Agentic Context Engineering)和Dynamic Cheatsheet学习笔记
人工智能·机器学习
fantasy_arch25 分钟前
transformer-注意力评分函数
人工智能·深度学习·transformer
逐云者12325 分钟前
自动驾驶强化学习的价值对齐:奖励函数设计的艺术与科学
人工智能·机器学习·自动驾驶·自动驾驶奖励函数·奖励函数黑客防范·智能驾驶价值对齐
BreezeJuvenile38 分钟前
深度学习实验一之图像特征提取和深度学习训练数据标注
人工智能·深度学习
Dev7z1 小时前
舌苔舌象分类图像数据集
人工智能·分类·数据挖掘
万俟淋曦1 小时前
【论文速递】2025年第30周(Jul-20-26)(Robotics/Embodied AI/LLM)
人工智能·深度学习·ai·机器人·论文·robotics·具身智能
高洁011 小时前
大模型-高效优化技术全景解析:微调 量化 剪枝 梯度裁剪与蒸馏 下
人工智能·python·深度学习·神经网络·知识图谱
CoookeCola1 小时前
MovieNet(A holistic dataset for movie understanding) :面向电影理解的多模态综合数据集与工具链
数据仓库·人工智能·目标检测·计算机视觉·数据挖掘
张艾拉 Fun AI Everyday1 小时前
Gartner 2025年新兴技术成熟度曲线
人工智能
菜鸟‍1 小时前
【论文学习】大语言模型(LLM)论文
论文阅读·人工智能·学习