RoD-TAL：罗马尼亚驾照考试问答基准

CodeShare2025-07-30 14:19

RoD-TAL：罗马尼亚驾照考试问答基准

人工智能与法律系统的交叉领域对支持法律教育的工具需求日益增长，特别是在罗马尼亚等资源不足的语言环境中。本研究旨在通过文本和视觉问答任务，评估大语言模型（LLMs）和视觉语言模型（VLMs）对罗马尼亚驾驶法律的理解与推理能力。

为此，我们提出了RoD-TAL------一个新颖的多模态数据集，包含罗马尼亚驾驶考试中的文本和图像类试题，并附带法律条款标注和人工解释。我们实现并评估了以下技术方案：

检索增强生成（RAG）流水线
稠密检索器
针对推理任务优化的模型

实验覆盖四大任务场景：

信息检索（IR）
问答系统（QA）
视觉信息检索（Visual IR）
视觉问答（Visual QA）

关键发现：

领域特定微调显著提升检索性能
思维链提示（chain-of-thought）和专用推理模型可将QA准确率提升至超过驾照考试及格线
视觉推理仍存在明显挑战

本研究揭示了LLMs/VLMs在法律教育应用中的潜力与局限性。技术实现包含49页详细说明和52组实验图示。

更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）

公众号二维码

上一篇：SZU大学物理实验报告|光敏电阻

下一篇：hive专题面试总结

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新