今晚 20:00,直播《LawBench:评测大语言模型的司法知识》

大语言模型在各个方面都展现出了其强大的能力。然而,当将它们应用于高度专业化、安全关键的司法领域时,它们究竟掌握了多少法律知识以及它们是否能可靠地执行法律相关任务我们却不得而知。

今晚 20:00点,OpenMMlab 视频号《社区开放麦》,我们邀请到宁波东方理工大学(暂名)信息学部助理教授、博士生导师,德国马克斯普朗克计算机研究所博士沈晓宇老师为大家介绍司法知识的综合评估基准 LawBench 。LawBench 包含三个关键维度,涵盖 20 个子测评项,横跨单选、多选、回归、抽取和生成等五大类司法任务。与目前一些数据集仅测试模型在数据集上的选择能力不同,这一评测数据集更全面地反映了大型语言模型在真实法律任务中的表现能力

快去 B 站预约吧 OpenMMLab的动态 - 哔哩哔哩 (bilibili.com)

为了方便大家交流沟通,我们建立了语言大模型相关的交流群,大佬也在群里哦,提供与大佬 1v1 的机会,扫码即可入群~

相关推荐
yiyu071625 分钟前
3分钟搞懂深度学习AI:自我进化的最简五步法
人工智能·深度学习
浪浪山_大橙子2 小时前
OpenClaw 十分钟快速,安装与接入完全指南 - 推荐使用trae 官方 skills 安装
前端·人工智能
数据智能老司机2 小时前
构建自然语言与大语言模型(LLM)流水线——将组件整合起来:面向不同使用场景的 Haystack Pipeline
llm·agent
火山引擎开发者社区2 小时前
OpenClaw 快速上手:把云手机变成你的 7×24 小时 AI 手机助手
人工智能
Qlly2 小时前
DDD 架构为什么适合 MCP Server 开发?
人工智能·后端·架构
数据智能老司机2 小时前
构建自然语言与大语言模型(LLM)流水线——使用自定义组件进行 Haystack Pipeline 开发
llm·agent
gustt2 小时前
探索MCP协议:构建高效的LLM工具集成系统
llm·agent·mcp
Lee川3 小时前
从零构建智能对话系统:AI Agent 实战指南
人工智能
冬奇Lab3 小时前
一天一个开源项目(第43篇):Star-Office-UI - 像素风格的 AI 办公室看板,让 AI 助手的工作状态可视化
人工智能·开源·资讯
神秘的猪头3 小时前
🚀 React 开发者进阶:RAG 核心——手把手带你玩转 Milvus 向量数据库
数据库·后端·llm