使用 Java 的混合搜索:LangChain4j Elasticsearch 集成

作者:来自 Elastic Laura Trotta

了解如何通过其 Elasticsearch 集成在 LangChain4j 中使用混合搜索,并提供完整的 Java 示例。

Elasticsearch 提供了许多新功能,帮助你为你的使用场景构建最佳搜索解决方案。通过我们的实践型 webinar 学习如何构建现代 Search AI 体验。你也可以开始免费的云试用,或者现在就在本地机器上运行 Elastic。


在我们之前关于在 LangChain 中使用 Elasticsearch 混合搜索的文章中,我们解释了为什么混合搜索可以比简单的向量搜索检索到更好的结果,以及它是如何工作的。我们建议你先阅读那篇文章。

除了 Python 和 JavaScript 之外,LangChain 生态系统还有一个社区驱动的 Java 项目,叫做 LangChain4j。本文将重点介绍它,并通过编写一个完整应用展示混合搜索的强大能力,该应用使用 LangChain4j、Elasticsearch 和 Ollama。

设置环境

运行本地 Elasticsearch 实例

在运行示例之前,你需要在本地运行 Elasticsearch。最简单的方法是使用 start-local 脚本:

sql 复制代码
`curl -fsSL https://elastic.co/start-local | sh`AI写代码

启动后,你将拥有:

注意 :该脚本仅用于本地测试。不要在生产环境中使用它。对于生产安装,请参考 Elasticsearch 官方文档

运行本地 Ollama 实例

你还需要将你的应用连接到 embedding model。虽然你可以在 LangChain4j 支持的任何 provider 中选择(查看完整列表),但在本示例中我们将使用 Ollama,它可以按照 quickstart 在本地轻松设置。

开始编写代码

这个应用的思路很简单:给定一个电影数据集(来自 Kaggle 上的 IMDb 数据集),我们希望能够找到描述与你查询相关的电影。本演示使用的是清洗后的部分数据。你可以从我们的 GitHub repo 下载本文使用的数据集,以及本演示的完整代码。

步骤 1:依赖和环境

打开你喜欢的 integrated development environment (IDE),创建一个新的空项目,最好使用较新的 Java 版本(我们使用 Java24),并配套相应的 gradle/maven 版本(在我们的示例中是 Gradle 9.0)。

我们只需要三个 dependencies:

scss 复制代码
`

1.  dependencies {
2.      implementation("com.fasterxml.jackson.dataformat:jackson-dataformat-csv:2.17.0")
3.      implementation("dev.langchain4j:langchain4j-elasticsearch:1.11.0-beta19")
4.      implementation("dev.langchain4j:langchain4j-ollama:1.11.0")
5.  }

`AI写代码

第一个 dependency 用于导入我们将要进行 embedding 和查询的数据;另外两个是连接和管理我们的 Elasticsearch vector store 和 Ollama embedding model 所需的 LangChain4j dependencies。

连接外部服务的最佳方式是设置 environment variables,并在 main function 开始时读取它们:

ini 复制代码
`

1.  String elasticsearchServerUrl = System.getenv("ES_LOCAL_URL");
2.  String elasticsearchApiKey = System.getenv("ES_LOCAL_API_KEY");

4.  String ollamaUrl = System.getenv("ollama-url");
5.  String ollamaModelName = System.getenv("model-name");

`AI写代码

步骤 2:导入数据集

由于数据集是 CSV,我们将使用 Jackson dataformat 的 jackson-dataformat-csv 来轻松读取数据并映射到一个 Java class,定义如下:

markdown 复制代码
`

1.  public record Movie(
2.      String movie_id,
3.      String movie_name,
4.      Integer year,
5.      String genre,
6.      String description,
7.      String director
8.  ) {
9.  }

`AI写代码

现在我们可以创建一个 CsvSchema 实例来映射 CSV 结构,并将文件读取为 iterator:

scss 复制代码
`

1.  CsvSchema schema = CsvSchema.builder()
2.      .addColumn("movie_id") // 与 csv 中顺序相同
3.      .addColumn("movie_name")
4.      .addColumn("year")
5.      .addColumn("genre")
6.      .addColumn("description")
7.      .addColumn("director")
8.      .setColumnSeparator(',')
9.      .setSkipFirstDataRow(true)
10.      .build();

12.  CsvMapper csvMapper = new CsvMapper();

14.  File initialFile = new File("src/main/resources/scifi_1000.csv");
15.  InputStream csvContentStream = new FileInputStream(initialFile);

17.  MappingIterator<Movie> it = csvMapper
18.      .readerFor(Movie.class)
19.      .with(schema)
20.      .readValues(new InputStreamReader(csvContentStream));

`AI写代码![](https://csdnimg.cn/release/blogv2/dist/pc/img/runCode/icon-arrowwhite.png)

每一行数据都需要先进行 embedding,然后 embedding 内容和文本表示都会被导入 Elasticsearch。

首先创建一个 Ollama embedding model 实例:

markdown 复制代码
`

1.  EmbeddingModel embeddingModel = OllamaEmbeddingModel.builder()
2.      .baseUrl(ollamaUrl)
3.      .modelName(ollamaModelName)
4.      .build();



`AI写代码

然后创建 Elasticsearch vector store,它需要一个 Elasticsearch Java RestClient 实例:

markdown 复制代码
`

1.  RestClient restClient = RestClient
2.      .builder(HttpHost.create(elasticsearchServerUrl))
3.      .setDefaultHeaders(new Header[]{
4.          new BasicHeader("Authorization", "ApiKey " + elasticsearchApiKey)
5.      })
6.      .build();

8.  EmbeddingStore<TextSegment> embeddingStore = ElasticsearchEmbeddingStore.builder()
9.      .restClient(restClient)
10.      .build();

`AI写代码![](https://csdnimg.cn/release/blogv2/dist/pc/img/runCode/icon-arrowwhite.png)

对于导入循环,LangChain4j library 要求将数据拆分为两个 list,一个用于 vector 表示,一个用于原始文本,因此我们创建两个 list 并在循环中填充:

ini 复制代码
`

1.  List<Embedding> embeddings = new ArrayList<>();
2.  List<TextSegment> embedded = new ArrayList<>();

`AI写代码

其中 Embedding 和 TextSegment 都是 library 特定的 classes。

我们将遍历 movie dataset iterator,使用 embedding model 为每个电影信息(所有字段合并后的文本表示)生成 vector 表示,并将电影名称单独作为 metadata 添加,以便结果更易阅读。

ini 复制代码
`

1.  boolean hasNext = true;

3.  while (hasNext) {
4.      try {
5.          Movie movie = it.nextValue();
6.          String text = movie.toString();

8.          Embedding embedding = embeddingModel.embed(text).content();
9.          embeddings.add(embedding);

11.          Metadata metadata = new Metadata();
12.          metadata.put("movie_name", movie.movie_name());
13.          embedded.add(new TextSegment(text, metadata));

15.          hasNext = it.hasNextValue();
16.      } catch (JsonParseException | InvalidFormatException e) {
17.          // 忽略格式错误的数据
18.      }
19.  }

`AI写代码![](https://csdnimg.cn/release/blogv2/dist/pc/img/runCode/icon-arrowwhite.png)

最后,将 vector list 和 text list 传递给 vector store 方法 addAll(),该方法会异步将数据发送到 vector store:

go 复制代码
`embeddingStore.addAll(embeddings, embedded);` AI写代码

步骤 3:查询

我们的目标是找到剧情包含时间循环的电影,因此我们的 prompt 是:

ini 复制代码
`String query = "Find movies where the main character is stuck in a time loop and reliving the same day.";` AI写代码

首先尝试简单的 vector search,通过创建一个 content retriever,并使用 k-nearest neighbor (kNN) 查询的默认配置,然后运行查询并打印结果:

scss 复制代码
`

1.  ElasticsearchContentRetriever contentRetrieverVector = ElasticsearchContentRetriever.builder()
2.                  .restClient(restClient)
3.                  .configuration(ElasticsearchConfigurationKnn.builder().build())
4.                  .maxResults(5)
5.                  .embeddingModel(embeddingModel)
6.                  .build();

8.  List<Content> vectorSearchResult = contentRetrieverVector.retrieve(Query.from(query));

10.  System.out.println("Vector search results:");
11.  vectorSearchResult.forEach(v -> System.out.println(v.textSegment().metadata().getString(
12.                  "movie_name")));

`AI写代码![](https://csdnimg.cn/release/blogv2/dist/pc/img/runCode/icon-arrowwhite.png)

输出结果:

markdown 复制代码
`

1.  Vector search results:
2.  The Witch: Part 1 - The Subversion
3.  Divinity
4.  The Maze Runner
5.  Spider-Man
6.  Spider-Man: Into the Spider-Verse

`AI写代码

现在看看 hybrid search 的表现:

scss 复制代码
`

1.  ElasticsearchContentRetriever contentRetrieverHybrid = ElasticsearchContentRetriever.builder()
2.      .restClient(restClient)
3.      .configuration(ElasticsearchConfigurationHybrid.builder().build())
4.      .maxResults(5)
5.      .embeddingModel(embeddingModel)
6.      .build();

8.  List<Content> hybridSearchResult = contentRetrieverHybrid.retrieve(Query.from(query));

10.  System.out.println("Hybrid search results:");
11.  hybridSearchResult.forEach(v -> System.out.println(v.textSegment().metadata().getString(
12.              "movie_name")));

`AI写代码![](https://csdnimg.cn/release/blogv2/dist/pc/img/runCode/icon-arrowwhite.png)

输出:

markdown 复制代码
`

1.  Hybrid search results:
2.  Edge of Tomorrow
3.  The Witch: Part 1 - The Subversion
4.  Boss Level
5.  Divinity
6.  The Maze Runner

`AI写代码

为什么会出现这些结果?

这个查询("time loop / reliving the same day")是 hybrid search 表现很好的典型案例,因为数据集中包含 BM25 可以匹配的字面短语,同时向量也可以捕获语义。

  • Vector-only (kNN) 会对查询进行 embedding,然后寻找语义相似的剧情。在广泛的科幻数据集中,这可能会偏向 "被困 / 改变现实 / 失忆 / 高风险科幻" 等概念,即使没有时间循环。因此像 "The Witch: Part 1 -- The Subversion"(失忆)和 "The Maze Runner"(被困 / 逃脱)这样的结果可能出现。
  • Hybrid (BM25 + kNN + reciprocal rank fusion (RRF)) 会奖励同时匹配关键词和语义的文档。那些描述中明确提到 "time loop" 或 "relive the same day" 的电影会获得更强的词汇匹配提升,因此像 "Edge of Tomorrow"(不断重复同一天)和 "Boss Level"(陷入不断重复一天的时间循环)会排在前面。

Hybrid search 不能保证每个结果都完全准确;它是在词汇信号和语义信号之间进行平衡,因此在 top-k 结果的尾部仍可能出现一些非时间循环的科幻电影。

主要结论是:当数据集中包含这些关键词时,hybrid search 可以通过精确文本证据来锚定语义检索。关于 hybrid search 的更多信息,请查看上一篇文章

完整代码示例

完整演示代码可以在 GitHub 上找到。

结论

在本文中,我们通过 Elasticsearch 集成展示了如何在 LangChain4j 中使用 hybrid search,并提供了完整的 Java 示例。本文是上一篇文章的扩展,那篇文章介绍了 Python 和 JavaScript 的 LangChain 集成,并解释了 hybrid search。未来我们计划继续与 LangChain4j 合作,通过 Elasticsearch Inference API 为 embedding models 做出贡献。

原文:www.elastic.co/search-labs...

相关推荐
liuyunshengsir2 小时前
使用OpenClaw与Elasticsearch实现智能数据操作与分析
大数据·elasticsearch·搜索引擎·openclaw
河码匠2 小时前
Elasticsearch 常用请求说明
大数据·elasticsearch·搜索引擎
隔壁小邓4 小时前
git merge 命令行操作
大数据·git·elasticsearch
向右看齐--4 小时前
docker 实现ES+Kibana
elasticsearch·docker·jenkins
我爱学习好爱好爱4 小时前
Elasticsearch 7.17.10 双节点集群部署(二):安装 elasticsearch-head 插件实现可视化
大数据·linux·elasticsearch
Elastic 中国社区官方博客5 小时前
SearchClaw:将 Elasticsearch 通过可组合技能引入 OpenClaw
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
无你想你12 小时前
Datawhale之春晚机器人跳舞复刻
大数据·elasticsearch·机器人
刘一说13 小时前
Git 工具知识全景图:从核心概念到高效协作实践
大数据·git·elasticsearch