RoD-TAL:罗马尼亚驾照考试问答基准

RoD-TAL:罗马尼亚驾照考试问答基准

人工智能与法律系统的交叉领域对支持法律教育的工具需求日益增长,特别是在罗马尼亚等资源不足的语言环境中。本研究旨在通过文本和视觉问答任务,评估大语言模型(LLMs)和视觉语言模型(VLMs)对罗马尼亚驾驶法律的理解与推理能力。

为此,我们提出了RoD-TAL------一个新颖的多模态数据集,包含罗马尼亚驾驶考试中的文本和图像类试题,并附带法律条款标注和人工解释。我们实现并评估了以下技术方案:

  1. 检索增强生成(RAG)流水线
  2. 稠密检索器
  3. 针对推理任务优化的模型

实验覆盖四大任务场景:

  • 信息检索(IR)
  • 问答系统(QA)
  • 视觉信息检索(Visual IR)
  • 视觉问答(Visual QA)

关键发现:

  • 领域特定微调显著提升检索性能
  • 思维链提示(chain-of-thought)和专用推理模型可将QA准确率提升至超过驾照考试及格线
  • 视觉推理仍存在明显挑战

本研究揭示了LLMs/VLMs在法律教育应用中的潜力与局限性。技术实现包含49页详细说明和52组实验图示。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)

公众号二维码

相关推荐
懷淰メ7 小时前
python3GUI--【AI加持】基于PyQt5+YOLOv8+DeepSeek的智能球体检测系统:(详细介绍)
yolo·目标检测·计算机视觉·pyqt·检测系统·deepseek·球体检测
0***147 小时前
React计算机视觉应用
前端·react.js·计算机视觉
阿龙AI日记8 小时前
详解Transformer04:Decoder的结构
人工智能·深度学习·自然语言处理
ModestCoder_13 小时前
ROS Bag与导航数据集技术指南
开发语言·人工智能·自然语言处理·机器人·具身智能
CV实验室14 小时前
CV论文速递:覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向 (11.17-11.21)
人工智能·计算机视觉·3d·论文·音视频·视频生成
7***A44315 小时前
Vue自然语言处理应用
前端·vue.js·自然语言处理
CoovallyAIHub1 天前
超越YOLOv8/v11!自研RKM-YOLO为输电线路巡检精度、速度双提升
深度学习·算法·计算机视觉
BagMM1 天前
FC-CLIP 论文阅读 开放词汇的检测与分割的统一
人工智能·深度学习·计算机视觉
Dev7z1 天前
面向公共场所的吸烟行为视觉检测系统研究
人工智能·计算机视觉·视觉检测
橙露1 天前
视觉检测硬件分析
人工智能·计算机视觉·视觉检测