lucene渲染未命中最匹配的关键词和内容

lucene 搜索时未命中匹配度最高的关键语句怎么办

原因:默认的最大分词或者分析字符为51200个,当内容超过这个值时,后面的内容将不会被分析和匹配。

解决办法:

高亮显示设置更大的maxDocCharsToAnalyze 值,需要覆盖大文本的全文内容,这样才能保证命中最准确的语句或者关键词。

java 复制代码
        String highlight_left_temp ="<span style='color:red'>";
        String highlight_right_temp ="</span>";
        //高亮显示
        SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter(highlight_left_temp, highlight_right_temp);
        Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query));
        //高亮后的段落范围在100字内
        Fragmenter fragmenter = new SimpleFragmenter(100);
        highlighter.setTextFragmenter(fragmenter);
        highlighter.setMaxDocCharsToAnalyze(Integer.MAX_VALUE); //关键设置
相关推荐
K_i13419 小时前
GitOps实战:Helm一键部署ArgoCD
大数据·elasticsearch·搜索引擎
路由侠内网穿透20 小时前
本地部署开源视频存档和搜索引擎工具 TubeArchivist 并实现外部访问
服务器·网络·windows·tcp/ip·搜索引擎·开源
容辞1 天前
Elasticsearch
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客2 天前
AutoOps:简单的 Elasticsearch 集群监控与管理现已支持本地部署
大数据·人工智能·elasticsearch·搜索引擎·云计算·全文检索
Elastic 中国社区官方博客2 天前
AutoOps:简化自管理 Elasticsearch 的旅程
大数据·人工智能·elasticsearch·搜索引擎·全文检索
媒体人8882 天前
中国顶级 GEO 优化专家孟庆涛:用 15 年积淀定义 2025 年 GEO 优化新标准
人工智能·搜索引擎·chatgpt·生成式引擎优化·geo优化
Elastic 中国社区官方博客3 天前
Elasticsearch MCP 服务器:与你的 Index 聊天
大数据·服务器·人工智能·elasticsearch·搜索引擎·ai·全文检索
Elastic 中国社区官方博客4 天前
CI/CD 流水线与 agentic AI:如何创建自我纠正的 monorepos
大数据·运维·数据库·人工智能·搜索引擎·ci/cd·全文检索
FIN66684 天前
新天力:定制化+创新工艺,解锁食品容器行业无限可能
科技·搜索引擎·产品运营·创业创新·制造
SEO_juper5 天前
AEO 与 SEO 双引擎:整合策略赢得搜索全域可见性
搜索引擎·百度·ai·seo·数字营销·seo优化·aeo