RAG 在企业应用中落地的难点与创新分享

在2024稀土开发者大会-AI Agent与应用创新分会上，我有幸分享了我们团队在企业应用中实施RAG（检索增强生成）的难点与创新。希望通过这篇文章，与大家探讨我们在实践中遇到的问题和解决方案，为从事相关工作的朋友提供一些新的思路。

在企业环境中，文件解析是实施RAG的第一步，也是关键的一步。如果文件解析做不好，后续的检索、向量化等工作都无从谈起。

老旧文件格式的解析 ：我们发现，在许多国企和特定行业中，仍然存在大量的老旧文件格式，如.doc（非.docx）等。市面上的许多解析工具并不支持这些格式，这需要我们投入额外的精力进行支持和兼容。

PDF表格解析：在金融、标准化工业等领域，PDF中的表格解析是一个刚需。复杂的表格结构、合并单元格、跨行跨列等情况增加了解析的难度。为此，我们基于Apache PDFBox进行了二次开发，成功实现了对复杂表格的准确解析。

OCR的触发时机：对于包含图文混排的文件，何时启动OCR是一个需要深思的问题。过早或过晚都会影响解析效率和准确性。

布局识别的复杂性：对于一些特殊的文件，如机票、票据等，需要进行布局识别，以理解不同区域所代表的信息。这超出了传统OCR的能力范围，需要更高级的技术支持。

在实际企业应用中，很少有场景是纯粹的非结构化数据处理。通常需要与企业现有的结构化数据库进行融合。

与关系型数据库的融合：大模型在处理结构化数据时，存在一定的局限性，尤其是在处理复杂逻辑和高精度查询时。为此，我们保留了原有的结构化数据结构，通过提取元数据和资源描述，结合Function Call，实现了自然语言与结构化数据的融合。

Text-to-SQL的现状与挑战：尽管Text-to-SQL被视为未来的解决方案，但目前在处理复杂逻辑和企业级应用时，仍存在许多挑战，需要更多的技术突破。

在资源有限的情况下，我们需要在有限的硬件条件下实现高效的索引和检索。

基于元数据的检索范围缩小：通过在文件上传时提取元数据（如文件名、属性、标题等），并在查询时使用命名实体识别（NER）模型，我们能够缩小检索范围，提高检索准确性。

使用NER模型提高准确性：NER模型能够帮助我们理解用户的查询意图，进而在大量的文档中快速定位相关内容。

为了提高检索结果的准确性，我们在检索后增加了Rerank（重排序）步骤。

使用密度函数优化得分：通过计算检索得分的密度函数，我们能够自动截断低相关性的结果，只保留最相关的文档。

在问答环节的应用：在问答系统中，我们使用Rerank确保返回的原文与大模型生成的答案高度匹配，避免了答案与原文不一致的问题。

在金融领域，研报的撰写需要耗费大量时间和精力。我们开发了一款工具，允许用户将数百份文件上传至系统，然后通过自然语言提问，如"这家公司最近3年的复合增长率是多少？"，系统会给出准确的答案并提供原文参考。

这大大缩短了研报撰写的时间，从原来的三周缩短到几个小时。同时，系统还能生成初步的研报草稿，供分析师进一步润色和完善。

Touch-V哆啦A梦助力导购：在零售业，尤其是拥有大量SKU的商店，导购人员很难快速匹配客户的复杂需求。通过我们的系统，导购只需输入客户的需求，系统就能从数万个SKU中筛选出最合适的产品。

装修设计中的即时反馈：在装修设计领域，客户的需求变化频繁，传统的沟通方式效率低下。通过我们的应用，设计师可以在平板电脑上实时与客户互动，根据客户的反馈即时调整设计方案，显著提高了效率。

合同预审的自动化：大型企业在合同审查上耗费大量人力。我们的系统能够根据预设的规则，对合同进行自动审查，标记出需要注意的条款，减少了法务人员的工作量，加快了合同审批流程。

项目评审中的规则应用：在项目评审中，我们的系统能够根据不同的评审规则，对项目文件进行自动化的审查和评估，提高了评审的客观性和效率。

在大模型应用落地的实践中，我们深刻体会到，要想做好AI在企业中的应用，需要具备以下三个特点：

在与客户合作的过程中，我们也认识到，沉淀大量的应用场景是企业服务的核心竞争力。这不仅能够帮助我们更好地理解客户需求，也使我们在技术迭代和模型升级中，始终保持领先。

展望未来，随着大模型技术的不断发展，我们期待能有更多的技术突破，如多模态识别、更加精准的Text-to-SQL等。这些进步将为企业应用带来更大的可能性，也为我们解决更多的实际问题提供了技术支持。