SpringBoot+LangChain4j解析pdf文档，不使用默认解析器

入行IT两年半2025-08-04 9:54

首先我们需要引入pdf解析器依赖

java 复制代码

        <!--    pdf解析器依赖    -->
        <dependency>
            <groupId>dev.langchain4j</groupId>
            <artifactId>langchain4j-document-parser-apache-pdfbox</artifactId>
            <version>1.0.1-beta6</version>
        </dependency>

然后创建一个 config 配置类，配置一个Bean

java 复制代码

    // 构建向量数据库操作对象
    @Bean
    public EmbeddingStore store() {
        // 加载文档进内存
//        List<Document> documents = ClassPathDocumentLoader.loadDocuments("content");
        List<Document> documents = ClassPathDocumentLoader.loadDocuments("content", new ApachePdfBoxDocumentParser());
        // 构建向量数据库操作对象
        InMemoryEmbeddingStore store = new InMemoryEmbeddingStore();
        // 完成文本数据切割和向量化，存储
        EmbeddingStoreIngestor ingestor = EmbeddingStoreIngestor.builder()
                .embeddingStore(store)
                .embeddingModel(embeddingModel)
                .build();
        // 调用 ingest 把 文档存进去
        ingestor.ingest(documents);
        return store;
    }