使用NVIDIA NIM微服务加速科学文献综述

使用NVIDIA NIM微服务加速科学文献综述

引言

系统文献综述是研究者探索科学领域的重要起点。对于刚接触该领域的科学家而言,它提供了结构化的领域概览;对于专家来说,它能够完善他们的理解并激发新的想法。仅在2024年,Web of Science数据库就索引了218,650篇综述文章,这凸显了这些资源在研究中的重要性。

完成一篇系统综述能够显著提升研究者的知识基础和学术影响力。然而,传统的综述撰写需要收集、阅读和总结特定主题上大量的学术文章。由于这种手动工作的耗时性质,处理的文献范围通常被限制在几十到几百篇文章之内。跨学科内容------通常超出研究者专业领域------又增加了另一层复杂性。

这些挑战使得创建全面、可靠且有影响力的系统综述变得越来越困难。

大型语言模型(LLMs)的出现提供了一个突破性的解决方案,使从大量文献中快速提取和综合信息成为可能。参加澳大利亚生成式AI编程节(Generative AI Codefest Australia)提供了一个独特的机会,在NVIDIA AI专家的支持下探索这一想法,利用NVIDIA NIM微服务加速文献综述。这使我们能够快速测试和微调多个最先进的LLM,用于我们的文献分析过程。

测试LLM处理科学论文的潜力

作为南极环境未来保障特别研究计划(ARC Special Research Initiative Securing Antarctica's Environmental Future, SAEF)中专注于生理生态学的研究小组,我们着手撰写一篇关于非血管植物(如苔藓或地衣)对风的全球响应的文献综述。

然而,我们很快面临了一个挑战:许多关于风-植物相互作用的相关文章在标题或摘要中并未明确提及这些关键词,而这些通常是文献筛选过程中的主要过滤条件。对该主题的全面分析需要手动阅读每篇文章的全文------这是一个极其耗时的过程。

我们决定探索使用LLM从文章中提取特定与风-植物相互作用相关的内容的潜力。为实现这一目标,我们基于LlaMa 3.1 8B Instruct NIM微服务实现了一个简单的问答应用(图1)。这使我们能够快速获得初始原型。

这个首个原型按顺序处理论文,对于优化提取每篇文章关键信息的提示词非常有用。

为验证提取信息的准确性,我们最初手动验证了结果。当在测试数据集中没有发现明显错误时,我们确定了使用LLM进一步提高关键信息提取效率的机会(图2)。这些包括将论文从PDF格式转换为结构化JSON;提取图像、表格和图表;以及使用并行处理加速论文处理。

增强LLM性能以提高信息提取效率

通过使用NVIDIA NIM微服务和nv-ingest,我们在本地环境中部署了LLM和数据摄取流程,配备了八个NVIDIA A100 80-GB GPU。我们还使用低秩适应(LoRA)微调模型,以提高从论文中提取信息的准确性。

我们从Web of Science和Scopus数据库收集了超过2K篇与目标研究领域相关的科学文章。在生成式AI编程节的一周时间里,我们专注于实验各种策略,以优化从这些文章中提取关键信息的效率和准确性。

最佳模型选择

为确定性能最佳的模型,我们在一组随机选择的文章上测试了NVIDIA API目录中的一系列指令型和通用LLM。每个模型都根据其在信息提取方面的准确性和全面性进行评估。

最终,我们确定Llama-3.1-8B-instruct最适合我们的需求。

处理速度

我们使用streamlit开发了一个问答模块,用于回答用户定义的特定研究问题。

为进一步提高处理速度,我们实现了发送到LLM引擎的提示的并行处理,并使用KV缓存,这在使用16个线程时显著将计算时间加速了6倍。

提取内容类型

我们使用nv-ingest从原始PDF中提取内容,包括文本、图像、表格和图表,转换为结构化JSON文件。这使得信息提取超越了文本内容,为回答问题提供了更全面的上下文。

在推理过程中使用JSON文件而非原始PDF文件也对降低处理时间产生了显著影响,额外提高了4.25倍的速度。

成果与性能提升

得益于这些改进,我们显著减少了从数据库中提取信息所需的时间,与初始实现相比,总体速度提升了25.25倍。

使用两台A100 80-GB GPU和16个线程,处理整个数据库现在只需不到30分钟。

与传统方法相比,即手动阅读和分析整篇文章(通常需要约一小时),这种优化的工作流程实现了超过99%的时间节省(图3)。

除了信息提取外,我们还研究了自动文章分类。通过在手动注释的论文样本上使用LoRA适配器微调Llama-3.1-8b-Instruct,我们成功实现了分类过程的自动化,展示了其在组织复杂科学论文数据集方面的有效性。

结果表明,每篇文章的分类仅需2秒,而经验丰富的读者进行手动分类平均需要300多秒(图3)。

未来发展方向

我们目前正在完善工作流程以进一步加速处理。我们还在改进用户界面,以提供更多本地部署的LLM访问,并增强其他研究人员的可访问性(图4)。

我们计划实施NVIDIA AI Blueprint用于多模态PDF数据提取,以识别与每个研究问题最相关的文章,并与这些论文进行交互。

除了技术改进外,我们的目标是为每个问题组织提取的关键信息,并生成可视化内容(如显示论文中提到的实验位置的地图),以进一步加速系统综述的撰写。

总结

我们在生成式AI编程节的工作展示了AI在加速系统文献综述方面的变革潜力。借助NVIDIA NIM,我们快速从想法转变为工作解决方案,显著改进了从科学论文中提取信息的过程。

这一经验突显了AI如何能够简化研究工作流程,实现更快速、更全面的洞察。LLM有潜力促进跨学科研究,使科学家能够更有效地探索复杂的多领域研究领域。

展望未来,我们的目标是完善这些方法和工具,确保它们对未来跨各种主题的研究具有可访问性和可扩展性。

相关推荐
红衣小蛇妖23 分钟前
神经网络-Day44
人工智能·深度学习·神经网络
忠于明白23 分钟前
Spring AI 核心工作流
人工智能·spring·大模型应用开发·spring ai·ai 应用商业化
黑客老李32 分钟前
JavaSec | SpringAOP 链学习分析
java·运维·服务器·开发语言·学习·apache·memcached
开开心心就好40 分钟前
高效Excel合并拆分软件
开发语言·javascript·c#·ocr·排序算法·excel·最小二乘法
且慢.58941 分钟前
Python_day47
python·深度学习·计算机视觉
特立独行的猫a1 小时前
Nuxt.js 中的路由配置详解
开发语言·前端·javascript·路由·nuxt·nuxtjs
勤奋的知更鸟1 小时前
Java编程之原型模式
java·开发语言·原型模式
大写-凌祁1 小时前
论文阅读:HySCDG生成式数据处理流程
论文阅读·人工智能·笔记·python·机器学习
柯南二号1 小时前
深入理解 Agent 与 LLM 的区别:从智能体到语言模型
人工智能·机器学习·llm·agent
珂朵莉MM1 小时前
2021 RoboCom 世界机器人开发者大赛-高职组(初赛)解题报告 | 珂学家
java·开发语言·人工智能·算法·职场和发展·机器人