从数据洞察到智能决策：合合信息&infiniflow RAG技术的实战案例分享

标题取自 LLamaIndex，这个内容最早提出于今年 2 月份 LlamaIndex 官方博客。从 22 年 chatGpt 爆火，23 年大模型尝鲜，到 24 年真正用 AI 落地业务场景，业界普遍都发现了从 MVP 到 PMF 不是那么容易的，具体的原因有非常多，在 RAG 场景下，最主要的表现是企业的数据 "垃圾进，垃圾出"，如何利用好企业数据是提升 RAG 效果的关键

看一下各个公司都是怎么做的

1. 合合信息

官方网站：https://www.textin.com/

一周快速出 Demo，半年产品不好用

RAG 范式从直观上理解起来落地是比较容易的，通过自然语言的语意匹配度找到相关的内容，再让模型进行回答，可是在实际落地过程中发现效果比预期差很多，总结起来会有以下一些问题

1.1 LLM RAG 产品如何快速达到可用、好用，开始增长?

如何解决 RAG 落地过程中遇到问题，提升 RAG 的整体效果，达到线上生产可用的目标，首先落地的关键点在于

再回归本质，影响 RAG 落地效果的最本质问题在于

1.2 提升 RAG 效果核心的优化方向：高质量文档解析 + 高质量检索

RAG 优化目标一: 快速、稳定、精准解析文档

原始的文档是各种各样的格式，各种各样的模态，如何快速、精确解析出高质量的内容对提升最终检索效果非常重要

RAG 优化目标二: 高精度、高效率向量检索

从海量的内容中提取出最相关的内容，对提升 LLM 输出效果准确率、相关性非常重要

TextIn 通用文本解析技术 + Acge 向量化模型

合合信息自研了 TextIn 通用文本解析技术，对丰富的文档格式和内容能快速，精准解析为 MD 格式，另外自研的 acge_text_embedding 向量化模型在检索准确率，精度等方面表现也非常突出

TextIn 技术的一些介绍和效果展示 (示例，详见附录 PPT)

acge_text_embedding 向量化模型的效果展示

线上产品效果展示

总结

2.infiniflow(英飞流)

官网：https://infiniflow.org/

infiniflow 自研了 AI-Native Database Infinity，在 RAG 检索方面表现非常突出

下一代 RAG 引擎

同样对于 RAG 效果的提升，英飞流的核心研究方向也是高质量的内容解析 + 高质量的检索

内容解析

效果展示

表格识别模型

文档识别模型

多模态识别

这里演讲人描述了和月之暗面创始人关于多模态识别的讨论，在大模型厂商看来，目前英飞流做的内容识别的工作都是雕花，因为大模型的上下文会越来越长，但演讲人还是更坚定于解决当前内容识别效果提升的问题，这里没有对错，只是看什么方案更适合

混合检索

英飞流提供的 AI Native 数据库是个亮点，由于当前向量化检索的一些限制 (数据量、延迟、精度等)，各种数据库在混合检索方面支持的效果参差不齐，英飞流致力于提供高性能、高精度、支持海量数据、支持混合检索的 AI

Native 数据库

Infinity 支持稠密向量、稀疏向量、张量、全文检索、结构化检索等丰富检索方式，了解 cross-encoder 的同学应该知道，cross-encoder 在检索效果方面比双编码器要好很多，但随着数据量提升，延迟不断升高，通常是不能接受的。随着 colbert 延迟交互的提出，目前业界针对检索效果和检索性能方面有了更让人惊喜的方案，但 colbert 也有一些工程问题，比如上下文限制，无法端到端使用等，Infinity 数据库支持 Tensor 数据类型，原生支持了 colbert 端到端方案，保障效果的前提下并解决海量数据检索延迟的问题，还是非常惊喜的