RoD-TAL:罗马尼亚驾照考试问答基准

RoD-TAL:罗马尼亚驾照考试问答基准

人工智能与法律系统的交叉领域对支持法律教育的工具需求日益增长,特别是在罗马尼亚等资源不足的语言环境中。本研究旨在通过文本和视觉问答任务,评估大语言模型(LLMs)和视觉语言模型(VLMs)对罗马尼亚驾驶法律的理解与推理能力。

为此,我们提出了RoD-TAL------一个新颖的多模态数据集,包含罗马尼亚驾驶考试中的文本和图像类试题,并附带法律条款标注和人工解释。我们实现并评估了以下技术方案:

  1. 检索增强生成(RAG)流水线
  2. 稠密检索器
  3. 针对推理任务优化的模型

实验覆盖四大任务场景:

  • 信息检索(IR)
  • 问答系统(QA)
  • 视觉信息检索(Visual IR)
  • 视觉问答(Visual QA)

关键发现:

  • 领域特定微调显著提升检索性能
  • 思维链提示(chain-of-thought)和专用推理模型可将QA准确率提升至超过驾照考试及格线
  • 视觉推理仍存在明显挑战

本研究揭示了LLMs/VLMs在法律教育应用中的潜力与局限性。技术实现包含49页详细说明和52组实验图示。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)

公众号二维码

相关推荐
爱打代码的小林1 小时前
OpenCV 实现实时人脸检测
人工智能·opencv·计算机视觉
YOLO视觉与编程1 小时前
yolo26目标检测可视化界面系统源码
人工智能·目标检测·计算机视觉
Pyeako2 小时前
opencv计算机视觉--DNN模块实现风格迁移
python·opencv·计算机视觉·pycharm·dnn·预处理·风格迁移
渡我白衣2 小时前
【MySQL基础】(2):数据库基础概念
数据库·人工智能·深度学习·神经网络·mysql·机器学习·自然语言处理
Faker66363aaa2 小时前
鲶鱼目标检测与识别:基于fovea_r50_fpn_gn-head-align模型的COCO数据集训练_1
人工智能·目标检测·计算机视觉
李昊哲小课2 小时前
基于NLP的检索式聊天机器人
人工智能·自然语言处理·机器人
大山同学11 小时前
图片补全-Context Encoder
人工智能·机器学习·计算机视觉
jay神15 小时前
基于YOLOv8的木材表面缺陷检测系统
人工智能·深度学习·yolo·计算机视觉·毕业设计
2501_9481201515 小时前
基于量化感知训练的大语言模型压缩方法
人工智能·语言模型·自然语言处理
MARS_AI_15 小时前
大模型赋能客户沟通,云蝠大模型呼叫实现问题解决全链路闭环
人工智能·自然语言处理·信息与通信·agi