Tire 字典树、前缀树

字典树(又称单词查找树或Trie树)是一种树形结构,它是哈希树的变种,通常用于统计、排序和保存大量的字符串(但不仅限于字符串)。字典树在搜索引擎系统中常用于文本词频统计。它的主要优点在于能够利用字符串的公共前缀来减少查询时间,从而最大限度地减少无谓的字符串比较,因此查询效率通常比哈希树高。

字典树有三个基本性质:

  1. 根节点不包含字符,除根节点外每一个节点都只包含一个字符。
  2. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
  3. 每个节点的所有子节点包含的字符都不相同。

字典树的基本操作包括查找、插入和删除,但删除操作相对较少见。在查找操作中,通常从根节点开始,依次搜索关键词的每个字母,直到找到对应的节点或确定关键词不存在于树中。

字典树的应用场景非常广泛,包括但不限于:

  1. 字符串检索:将已知的一些字符串(如字典)的有关信息保存到字典树中,然后查找其他未知字符串是否出现过或出现的频率。
  2. 文本过滤:给定一个词典,其中的单词为不良单词,然后判断一段文本中是否含有任何不良单词。
  3. 字符串去重和排序:处理大量字符串时,可以使用字典树来去除重复字符串,并按字典序进行排序。
  4. 热门查询统计:搜索引擎可以通过日志文件记录用户每次检索使用的检索串,并使用字典树来统计热门查询。
  5. 字符串最长公共前缀:利用字典树可以快速得到某些字符串的公共前缀。

下面是使用java程序来实现该数据结构(仅限于26个英文字母)

java 复制代码
class Trie {
    private Trie[] children;
    private boolean isEnd;

    public Trie() {
        children = new Trie[26];
        isEnd = false;
    }
    
    public void insert(String word) {
        Trie node = this;
        for (int i = 0; i < word.length(); i++) {
            char ch = word.charAt(i);
            int index = ch - 'a';
            if (node.children[index] == null) {
                node.children[index] = new Trie();
            }
            node = node.children[index];
        }
        node.isEnd = true;
    }
    
    public boolean search(String word) {
        Trie node = searchPrefix(word);
        return node != null && node.isEnd;
    }
    
    public boolean startsWith(String prefix) {
        return searchPrefix(prefix) != null;
    }

    private Trie searchPrefix(String prefix) {
        Trie node = this;
        for (int i = 0; i < prefix.length(); i++) {
            char ch = prefix.charAt(i);
            int index = ch - 'a';
            if (node.children[index] == null) {
                return null;
            }
            node = node.children[index];
        }
        return node;
    }
}
相关推荐
rabbit_pro19 小时前
Java 文件上传到服务器本地存储
java·服务器·python
q_191328469519 小时前
基于Springboot2+Vue2的旅游景点购票系统
java·vue.js·spring boot·后端·mysql·毕业设计·计算机毕业设计
XL's妃妃19 小时前
Java 基准测试工具 JMH 详细介绍
java·开发语言·测试工具
Z3r4y19 小时前
【代码审计】RuoYi-4.7.1&4.8.1 Thymeleaf模板注入分析
java·web安全·ruoyi·代码审计·thymeleaf
元直数字电路验证19 小时前
Jakarta EE (原 Java EE) 技术栈概览
java·java-ee
TL滕19 小时前
从0开始学算法——第四天(练点题吧)
数据结构·笔记·学习·算法
[J] 一坚19 小时前
华为OD、微软、Google、神州数码、腾讯、中兴、网易有道C/C++字符串、数组、链表、树等笔试真题精粹
c语言·数据结构·c++·算法·链表
多则惑少则明19 小时前
【算法题4】找出字符串中的最长回文子串(Java版)
java·开发语言·数据结构·算法
不会编程的小寒19 小时前
C and C++
java·c语言·c++
一 乐19 小时前
鲜花销售|基于springboot+vue的鲜花销售系统设计与实现(源码+数据库+文档)
java·数据库·vue.js·spring boot·后端·spring