RoD-TAL:罗马尼亚驾照考试问答基准

RoD-TAL:罗马尼亚驾照考试问答基准

人工智能与法律系统的交叉领域对支持法律教育的工具需求日益增长,特别是在罗马尼亚等资源不足的语言环境中。本研究旨在通过文本和视觉问答任务,评估大语言模型(LLMs)和视觉语言模型(VLMs)对罗马尼亚驾驶法律的理解与推理能力。

为此,我们提出了RoD-TAL------一个新颖的多模态数据集,包含罗马尼亚驾驶考试中的文本和图像类试题,并附带法律条款标注和人工解释。我们实现并评估了以下技术方案:

  1. 检索增强生成(RAG)流水线
  2. 稠密检索器
  3. 针对推理任务优化的模型

实验覆盖四大任务场景:

  • 信息检索(IR)
  • 问答系统(QA)
  • 视觉信息检索(Visual IR)
  • 视觉问答(Visual QA)

关键发现:

  • 领域特定微调显著提升检索性能
  • 思维链提示(chain-of-thought)和专用推理模型可将QA准确率提升至超过驾照考试及格线
  • 视觉推理仍存在明显挑战

本研究揭示了LLMs/VLMs在法律教育应用中的潜力与局限性。技术实现包含49页详细说明和52组实验图示。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)

公众号二维码

相关推荐
Allen_LVyingbo几秒前
智能AI医疗物资/耗材管理系统升级改造方案分析
人工智能·自然语言处理·开源·健康医疗·扩展屏应用开发
图灵学术计算机期刊速推3 分钟前
AAAI‘26 | 聚焦人工智能前沿:西工大李学龙教授荣任赞助主席,论文取号逼近三万,精彩不容错过!
人工智能·机器学习·计算机视觉
CoovallyAIHub18 分钟前
数据集分享 | PCB缺陷检测与玻璃缺陷实例分割数据集分享
深度学习·算法·计算机视觉
wa的一声哭了18 分钟前
Python多进程并行multiprocess基础
开发语言·jvm·人工智能·python·机器学习·语言模型·自然语言处理
双翌视觉6 小时前
智能制造的空间度量:机器视觉标定技术解析
数码相机·计算机视觉·视觉标定
cwn_9 小时前
自然语言处理NLP (1)
人工智能·深度学习·机器学习·自然语言处理
点云SLAM10 小时前
PyTorch中flatten()函数详解以及与view()和 reshape()的对比和实战代码示例
人工智能·pytorch·python·计算机视觉·3d深度学习·张量flatten操作·张量数据结构
哈密瓜Q11 小时前
计算机视觉-图像基础处理
人工智能·计算机视觉
CodeShare14 小时前
计算机视觉的未来方向:无监督学习与生成模型
计算机视觉·生成模型·无监督学习
CoovallyAIHub15 小时前
YotoR模型:Transformer与YOLO新结合,打造“又快又准”的目标检测模型
深度学习·算法·计算机视觉