首先我们需要引入pdf解析器依赖
java
<!-- pdf解析器依赖 -->
<dependency>
<groupId>dev.langchain4j</groupId>
<artifactId>langchain4j-document-parser-apache-pdfbox</artifactId>
<version>1.0.1-beta6</version>
</dependency>
然后创建一个 config 配置类,配置一个Bean
java
// 构建向量数据库操作对象
@Bean
public EmbeddingStore store() {
// 加载文档进内存
// List<Document> documents = ClassPathDocumentLoader.loadDocuments("content");
List<Document> documents = ClassPathDocumentLoader.loadDocuments("content", new ApachePdfBoxDocumentParser());
// 构建向量数据库操作对象
InMemoryEmbeddingStore store = new InMemoryEmbeddingStore();
// 完成文本数据切割和向量化,存储
EmbeddingStoreIngestor ingestor = EmbeddingStoreIngestor.builder()
.embeddingStore(store)
.embeddingModel(embeddingModel)
.build();
// 调用 ingest 把 文档存进去
ingestor.ingest(documents);
return store;
}