使用NVIDIA NIM微服务加速科学文献综述

引言

系统文献综述是研究者探索科学领域的重要起点。对于刚接触该领域的科学家而言，它提供了结构化的领域概览；对于专家来说，它能够完善他们的理解并激发新的想法。仅在2024年，Web of Science数据库就索引了218,650篇综述文章，这凸显了这些资源在研究中的重要性。

完成一篇系统综述能够显著提升研究者的知识基础和学术影响力。然而，传统的综述撰写需要收集、阅读和总结特定主题上大量的学术文章。由于这种手动工作的耗时性质，处理的文献范围通常被限制在几十到几百篇文章之内。跨学科内容------通常超出研究者专业领域------又增加了另一层复杂性。

这些挑战使得创建全面、可靠且有影响力的系统综述变得越来越困难。

大型语言模型(LLMs)的出现提供了一个突破性的解决方案，使从大量文献中快速提取和综合信息成为可能。参加澳大利亚生成式AI编程节(Generative AI Codefest Australia)提供了一个独特的机会，在NVIDIA AI专家的支持下探索这一想法，利用NVIDIA NIM微服务加速文献综述。这使我们能够快速测试和微调多个最先进的LLM，用于我们的文献分析过程。

测试LLM处理科学论文的潜力

作为南极环境未来保障特别研究计划(ARC Special Research Initiative Securing Antarctica's Environmental Future, SAEF)中专注于生理生态学的研究小组，我们着手撰写一篇关于非血管植物（如苔藓或地衣）对风的全球响应的文献综述。

然而，我们很快面临了一个挑战：许多关于风-植物相互作用的相关文章在标题或摘要中并未明确提及这些关键词，而这些通常是文献筛选过程中的主要过滤条件。对该主题的全面分析需要手动阅读每篇文章的全文------这是一个极其耗时的过程。

我们决定探索使用LLM从文章中提取特定与风-植物相互作用相关的内容的潜力。为实现这一目标，我们基于LlaMa 3.1 8B Instruct NIM微服务实现了一个简单的问答应用（图1）。这使我们能够快速获得初始原型。

这个首个原型按顺序处理论文，对于优化提取每篇文章关键信息的提示词非常有用。

为验证提取信息的准确性，我们最初手动验证了结果。当在测试数据集中没有发现明显错误时，我们确定了使用LLM进一步提高关键信息提取效率的机会（图2）。这些包括将论文从PDF格式转换为结构化JSON；提取图像、表格和图表；以及使用并行处理加速论文处理。

增强LLM性能以提高信息提取效率

通过使用NVIDIA NIM微服务和nv-ingest，我们在本地环境中部署了LLM和数据摄取流程，配备了八个NVIDIA A100 80-GB GPU。我们还使用低秩适应(LoRA)微调模型，以提高从论文中提取信息的准确性。

我们从Web of Science和Scopus数据库收集了超过2K篇与目标研究领域相关的科学文章。在生成式AI编程节的一周时间里，我们专注于实验各种策略，以优化从这些文章中提取关键信息的效率和准确性。

最佳模型选择

为确定性能最佳的模型，我们在一组随机选择的文章上测试了NVIDIA API目录中的一系列指令型和通用LLM。每个模型都根据其在信息提取方面的准确性和全面性进行评估。

最终，我们确定Llama-3.1-8B-instruct最适合我们的需求。

处理速度

我们使用streamlit开发了一个问答模块，用于回答用户定义的特定研究问题。

为进一步提高处理速度，我们实现了发送到LLM引擎的提示的并行处理，并使用KV缓存，这在使用16个线程时显著将计算时间加速了6倍。

提取内容类型

我们使用nv-ingest从原始PDF中提取内容，包括文本、图像、表格和图表，转换为结构化JSON文件。这使得信息提取超越了文本内容，为回答问题提供了更全面的上下文。

在推理过程中使用JSON文件而非原始PDF文件也对降低处理时间产生了显著影响，额外提高了4.25倍的速度。

成果与性能提升

得益于这些改进，我们显著减少了从数据库中提取信息所需的时间，与初始实现相比，总体速度提升了25.25倍。

使用两台A100 80-GB GPU和16个线程，处理整个数据库现在只需不到30分钟。

与传统方法相比，即手动阅读和分析整篇文章（通常需要约一小时），这种优化的工作流程实现了超过99%的时间节省（图3）。

除了信息提取外，我们还研究了自动文章分类。通过在手动注释的论文样本上使用LoRA适配器微调Llama-3.1-8b-Instruct，我们成功实现了分类过程的自动化，展示了其在组织复杂科学论文数据集方面的有效性。

结果表明，每篇文章的分类仅需2秒，而经验丰富的读者进行手动分类平均需要300多秒（图3）。

未来发展方向

我们目前正在完善工作流程以进一步加速处理。我们还在改进用户界面，以提供更多本地部署的LLM访问，并增强其他研究人员的可访问性（图4）。

我们计划实施NVIDIA AI Blueprint用于多模态PDF数据提取，以识别与每个研究问题最相关的文章，并与这些论文进行交互。

除了技术改进外，我们的目标是为每个问题组织提取的关键信息，并生成可视化内容（如显示论文中提到的实验位置的地图），以进一步加速系统综述的撰写。

总结

我们在生成式AI编程节的工作展示了AI在加速系统文献综述方面的变革潜力。借助NVIDIA NIM，我们快速从想法转变为工作解决方案，显著改进了从科学论文中提取信息的过程。

这一经验突显了AI如何能够简化研究工作流程，实现更快速、更全面的洞察。LLM有潜力促进跨学科研究，使科学家能够更有效地探索复杂的多领域研究领域。

展望未来，我们的目标是完善这些方法和工具，确保它们对未来跨各种主题的研究具有可访问性和可扩展性。