RoD-TAL:罗马尼亚驾照考试问答基准
人工智能与法律系统的交叉领域对支持法律教育的工具需求日益增长,特别是在罗马尼亚等资源不足的语言环境中。本研究旨在通过文本和视觉问答任务,评估大语言模型(LLMs)和视觉语言模型(VLMs)对罗马尼亚驾驶法律的理解与推理能力。
为此,我们提出了RoD-TAL------一个新颖的多模态数据集,包含罗马尼亚驾驶考试中的文本和图像类试题,并附带法律条款标注和人工解释。我们实现并评估了以下技术方案:
- 检索增强生成(RAG)流水线
- 稠密检索器
- 针对推理任务优化的模型
实验覆盖四大任务场景:
- 信息检索(IR)
- 问答系统(QA)
- 视觉信息检索(Visual IR)
- 视觉问答(Visual QA)
关键发现:
- 领域特定微调显著提升检索性能
- 思维链提示(chain-of-thought)和专用推理模型可将QA准确率提升至超过驾照考试及格线
- 视觉推理仍存在明显挑战
本研究揭示了LLMs/VLMs在法律教育应用中的潜力与局限性。技术实现包含49页详细说明和52组实验图示。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码