深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训

地理参照文本文件通常采用两种方法:一是基于地名录的方法,通过地名分配地理坐标;二是通过语言建模方法,将文本术语与地理位置相关联。然而,许多位置描述通过空间关系来相对地指定方位,这使得仅依赖地名或地理指示词进行地理编码往往不够精确。这一问题在生物标本采集记录中尤为常见------在使用全球定位系统(GPS)之前的记录,其位置常以叙述性文字而非坐标形式记载。尽管准确的地理参照对生物多样性研究至关重要,但该过程仍依赖大量人工操作,因此迫切需要自动化地理参照解决方案。
本文探讨了大型语言模型(LLMs)在自动化处理复杂位置描述的地理参照方面的潜力,重点关注生物多样性标本收藏领域。我们首先确定了有效的提示模式,随后采用量化低秩自适应方法(QLoRA),基于多地区、多语言的生物多样性数据集对大型语言模型进行了微调。在训练数据量固定的条件下,我们的方法优于现有基准模型,在不同数据集中平均有65%的记录定位在10公里半径范围内。其中最佳结果(纽约州数据集)达到85%记录在10公里范围内,67%在1公里范围内。实验表明,所选大型语言模型在处理冗长复杂描述时表现优异,凸显了其在精细位置描述地理参照应用中的巨大潜力。

本文提出的基于大型语言模型的复杂相对局部描述地理定位方法,为解决开放环境下依赖自然语言的空间定位难题提供了创新思路。该方法通过大模型对非结构化文本中多层次、多参照物的复杂空间关系(如"路口东北角红色建筑后的街心公园")进行深度语义解析与空间推理,将其转化为机器可理解的结构化地理查询,并与多源地理信息数据进行动态关联与验证。实验表明,该方法在开放场景中显著提升了基于模糊描述的定位成功率与精度,为下一代智能地理信息系统、无障碍导航及沉浸式数字孪生应用提供了关键技术支持,推动了人机自然交互与空间智能计算的深度融合。