【从0做项目】Java搜索引擎（3）

阿华代码，不是逆风，就是我疯

你们的点赞收藏是我前进最大的动力！！

希望本文内容能够帮助到你！！

文章导读

阿华将发布项目复盘系列的文章，旨在：

1：手把手细致带大家从0到1做一个完整的项目，保证每2~3行代码都有详细的注解

2：通过文字+画图的方式，对项目进行整个复盘，更好的理解以及优化项目

3：总结自己的优缺点，扎实java相关技术栈，增强文档编写能力

零：项目结果展示

简述：在我的搜索引擎网站，用户进行关键字搜索，就可以查询到与这个关键字相关的java在线文档，（包含标题，关键字附近的简述，url），用户点击标题，即可跳转到相关在线文档，适用于JDK17版本。

一：功能实现准备

导入：搜索引擎（2）文章中我们在Index类中实现了，添加文档的操作，包括往正排索引中添加文档，和往倒排索引中添加文档。

思考：我们的索引是存储在内存当中的，构建索引的过程是相当耗时的，我们不应该在服务器启动的时候才构建索引（启动服务器会被拖慢很多）

解决：我们把内存中构造好的索引结构，变成一个"字符串"保存到文件中，持久化存储，这里使用序列化和反序列化操作，当然实现方式有很多种，这里我们使用json格式来实现，不多bb，开干

二：实现索引结构持久化文件存储

1：引入Jackson库

通过Jackson库中的ObjectMapper类实现序列化和反序列化

java 复制代码

<dependency>
            <groupId>com.fasterxml.jackson.core</groupId>
            <artifactId>jackson-databind</artifactId>
            <version>2.17.2</version>
</dependency>

2：准备工作

设置一下索引结构保存的路径

通过Jackson库中的ObjectMapper类实现序列化和反序列化

java 复制代码

 private static final String INDEX_PATH = "D:\\doc_searcher_index/";//鲁棒性~序列化后索引文件放的地方
    private ObjectMapper objectMapper = new ObjectMapper();

3：保存索引

解释一下：我们现在将两个索引结构，也就是java中的对象转化为字符串结构

（1）防止没有目录，做个判断

（2）`writeValue方法`

将java对象转化为字符串，进行文件的写入

**writeValueAsString，也可以**需要将整个 JSON 数据存储在内存中的字符串里，对于大型对象，可能会占用较多内存。

writeValue：可以直接将数据写入到目标中，无需在内存中保留整个 JSON 字符串，在处理大型对象时，内存使用上相对更高效。

（3）文件File类

这里new File(path)对象其实是指定路径，抽象出来的一种文件表示，我们在idea中可以通过它对操作系统中的文件进行操作，比如创建目录，检查路径是否存在，删除文件

java 复制代码

 //4：把内存中的索引结构保存到磁盘中
    public void save(){
        long beg = System.currentTimeMillis();
        //使用两个文件分别保存正排和倒排
        //1：判定索引对应目录是否存在，不存在就创建
        File indexPathFile = new File(INDEX_PATH);
        if(!indexPathFile.exists()){
            boolean isCreated = indexPathFile.mkdirs();//以防有多层目录
            if (!isCreated) {
                System.err.println("目录创建失败: " + INDEX_PATH);
                return;
            }
        }
        File forwardIndexFile = new File(INDEX_PATH + "forward.txt");
        File invertedIndexFile = new File(INDEX_PATH + "inverted.txt");
        //将对象转化为json对象，就是一堆字符串
        try {
            objectMapper.writeValue(forwardIndexFile,forwardIndex);//将对象转化为字符串，在写入文件。两步合一
            objectMapper.writeValue(invertedIndexFile,invertedIndex);
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
        long end = System.currentTimeMillis();
        System.out.println("保存索引完毕! 消耗时间：" + (end - beg) + "ms");
    }

三：加载索引

反序列化，还是利用Jackson库中的ObjectMapper类中的readValue方法将我们的文件反序列化为java对象

难点：在反序列化为java对象的过程中，会涉及泛型类型擦除机制，通俗的讲：编译器会在编译的时候将我们的ArrayList<Weight> 和ArrayList<DocInfo>还原为原始对象ArrayList，那么其中的DocInfo信息就丢失了，编译器不知道ArrayList<DocInfo>的具体类型信息

解决方式，这里我们使用TypeReference泛型类通过匿名类指定我们泛型的类型信息，内部其实是通过Type对象（它是java类型系统的一部分）来保留泛型类型信息的，本质上也是一种反射。

java 复制代码

    //5:把磁盘中的索引数据加载到内存中去
    public void load() throws IOException {
        long beg = System.currentTimeMillis();
        System.out.println("加载索引开始");
        //1:设置加载索引路径
        File forwardIndexFile = new File(INDEX_PATH+"forward.txt");
        File invertedIndexFile = new File(INDEX_PATH + "inverted.txt");
        forwardIndex = objectMapper.readValue(forwardIndexFile, new TypeReference<ArrayList<DocInfo>>() {});
        invertedIndex = objectMapper.readValue(invertedIndexFile, new TypeReference< HashMap<String,ArrayList<Weight>> >() {});
        long end = System.currentTimeMillis();
        System.out.println("加载索引结束！消耗时间为：" + (end - beg) + "ms");
    }

四：main方法加载索引

这里是简单测试

java 复制代码

    public static void main(String[] args) throws IOException {
        Index index = new Index();
        index.load();
        System.out.println("加载索引完成");
    }

五：Parser类制作索引入口

总结：我们现在实现了，枚举文件，解析文件（标题，正文，url），构建索引（正排，倒排）并保存（持久化保存到硬盘中），这里的run方法，作为整个索引制作的入口（这里是单线程制作索引），我将在项目优化文章中，进行多线程制作索引的实现。

java 复制代码

    public void run() throws IOException, InterruptedException {
        long beg = System.currentTimeMillis();
        //整个Parser类的入口
        //1：根据上面的路径，把该路径下的所有html文档枚举出来，推荐使用递归的方式
        ArrayList<File> fileList = new ArrayList<File>();
        enumFile(INPUT_PATH, fileList);
        long endEnumFile = System.currentTimeMillis();
        System.out.println("枚举文件完毕，消耗时间为：" + (endEnumFile - beg) + "ms");

        //2：打开枚举出来的文件，读取文件的内容，解析出来，构建索引
        for (File f : fileList) {
            System.out.println("开始解析" + f.getAbsolutePath());
            parseHTML(f);
        }
        long endFor = System.currentTimeMillis();
        System.out.println("遍历文件完毕！消耗时间为：" + (endFor - endEnumFile) + "ms");

        //3：把在内存中构造好的索引数据结构，保存到指定的文件中
        index.save();
        long end = System.currentTimeMillis();
        System.out.println("单线程索引制作完毕！消耗总时间为：" + (end - beg) + "ms");
    }

索引制作测试

java 复制代码

    public static void main(String[] args) throws IOException, InterruptedException {
        Parser parser = new Parser();
//        parser.run();
        parser.runByThread();//制作索引
    }

【从0做项目】Java搜索引擎（3）

文章导读

零：项目结果展示

一：功能实现准备

二：实现索引结构持久化文件存储

1：引入Jackson库

2： 准备工作

3：保存索引

（1）防止没有目录，做个判断

（2）writeValue方法

（3）文件File类

三：加载索引

四：main方法加载索引

五：Parser类制作索引入口

2：准备工作

（2）`writeValue方法`