RoD-TAL:罗马尼亚驾照考试问答基准

RoD-TAL:罗马尼亚驾照考试问答基准

人工智能与法律系统的交叉领域对支持法律教育的工具需求日益增长,特别是在罗马尼亚等资源不足的语言环境中。本研究旨在通过文本和视觉问答任务,评估大语言模型(LLMs)和视觉语言模型(VLMs)对罗马尼亚驾驶法律的理解与推理能力。

为此,我们提出了RoD-TAL------一个新颖的多模态数据集,包含罗马尼亚驾驶考试中的文本和图像类试题,并附带法律条款标注和人工解释。我们实现并评估了以下技术方案:

  1. 检索增强生成(RAG)流水线
  2. 稠密检索器
  3. 针对推理任务优化的模型

实验覆盖四大任务场景:

  • 信息检索(IR)
  • 问答系统(QA)
  • 视觉信息检索(Visual IR)
  • 视觉问答(Visual QA)

关键发现:

  • 领域特定微调显著提升检索性能
  • 思维链提示(chain-of-thought)和专用推理模型可将QA准确率提升至超过驾照考试及格线
  • 视觉推理仍存在明显挑战

本研究揭示了LLMs/VLMs在法律教育应用中的潜力与局限性。技术实现包含49页详细说明和52组实验图示。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)

公众号二维码

相关推荐
Lun3866buzha6 小时前
篮球场景目标检测与定位_YOLO11-RFPN实现详解
人工智能·目标检测·计算机视觉
Coding茶水间9 小时前
基于深度学习的非机动车头盔检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
2401_8414956412 小时前
【自然语言处理】中文 n-gram 词模型
人工智能·python·算法·自然语言处理·n-gram·中文文本生成模型·kneser-ney平滑
roman_日积跬步-终至千里12 小时前
【计算机视觉(16)】语义理解-训练神经网络1_激活_预处理_初始化_BN
人工智能·神经网络·计算机视觉
一个没有感情的程序猿13 小时前
前端实现人体骨架检测与姿态对比:基于 MediaPipe 的完整方案
机器学习·计算机视觉·前端框架·开源
ccLianLian14 小时前
计算机视觉·LaVG
人工智能·计算机视觉
AI浩14 小时前
【Block总结】门控注意力机制,最新注意力机制|即插即用|最佳论文奖
人工智能·语言模型·自然语言处理
CoovallyAIHub15 小时前
从“模仿”到“进化”!华科&小米开源MindDrive:在线强化学习重塑「语言-动作」闭环驾驶
深度学习·算法·计算机视觉
梦梦c15 小时前
检查数据集信息
人工智能·计算机视觉
CoovallyAIHub16 小时前
SAM 真的开始「分割一切」,从图像到声音,Meta 开源 SAM Audio
深度学习·算法·计算机视觉