RoD-TAL:罗马尼亚驾照考试问答基准

RoD-TAL:罗马尼亚驾照考试问答基准

人工智能与法律系统的交叉领域对支持法律教育的工具需求日益增长,特别是在罗马尼亚等资源不足的语言环境中。本研究旨在通过文本和视觉问答任务,评估大语言模型(LLMs)和视觉语言模型(VLMs)对罗马尼亚驾驶法律的理解与推理能力。

为此,我们提出了RoD-TAL------一个新颖的多模态数据集,包含罗马尼亚驾驶考试中的文本和图像类试题,并附带法律条款标注和人工解释。我们实现并评估了以下技术方案:

  1. 检索增强生成(RAG)流水线
  2. 稠密检索器
  3. 针对推理任务优化的模型

实验覆盖四大任务场景:

  • 信息检索(IR)
  • 问答系统(QA)
  • 视觉信息检索(Visual IR)
  • 视觉问答(Visual QA)

关键发现:

  • 领域特定微调显著提升检索性能
  • 思维链提示(chain-of-thought)和专用推理模型可将QA准确率提升至超过驾照考试及格线
  • 视觉推理仍存在明显挑战

本研究揭示了LLMs/VLMs在法律教育应用中的潜力与局限性。技术实现包含49页详细说明和52组实验图示。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)

公众号二维码

相关推荐
枫叶林FYL5 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理
AI人工智能+5 小时前
基于高精度身份证OCR识别、炫彩活体检测及人脸比对技术的人脸核身系统,为通信行业数字化转型提供了坚实的安全底座
人工智能·计算机视觉·人脸识别·ocr·人脸核身
AI人工智能+5 小时前
一种以深度学习与计算机视觉技术为核心的表格识别系统,实现了结构化、半结构化表格的精准文字提取、布局解析与版面完整还原
深度学习·计算机视觉·ocr·表格识别
数据堂官方账号6 小时前
数据竞赛 | 第二届多语种对话语音语言模型(MLC-SLM)挑战赛正式开启
人工智能·语言模型·自然语言处理·语音语言模型
minglie16 小时前
zynq环境用opencv测摄像头
人工智能·opencv·计算机视觉
Fleshy数模7 小时前
基于MediaPipe实现人体姿态与脸部关键点检测
python·opencv·计算机视觉
輕華7 小时前
OpenCV答题卡识别:从图像预处理到自动评分
人工智能·opencv·计算机视觉
Dfreedom.9 小时前
【实战篇】图像分割-计算图中不同颜色区域的面积比
图像处理·人工智能·深度学习·计算机视觉·图像分割·otsu
zcg19429 小时前
raw域噪声到底怎么建模
计算机视觉
Byron Loong9 小时前
【机器视觉】标注软件 labelMe和lableImg对比
yolo·计算机视觉