搜索引擎简介

搜索引擎架构

整个搜索引擎分为三个系统

  1. 爬虫系统

  2. 索引系统

  3. 线上搜素服务

爬虫系统

爬虫分为两个阶段:

  1. 第一阶段:根据目标网站的列表页,爬对应的文档 URL

  2. 第二阶段:根据文档 URL,下载文档内容

触发器:

  • 定时任务触发

  • 消息触发

  • 管理后台手动触发某一个爬虫任务

文件服务器:

  • 存储图片和视频文件

索引系统

索引系统主要数据依赖:内容库和文件服务

依赖服务:

  1. 分词服务

  2. NLP 服务

    1. 同义词扩展

    2. 生成文档摘要

    3. 抽取文档标签

    4. 图片、文本、视频生成向量

    5. ....

  3. PageRank 服务

在线搜索服务

在线服务的主要模块:

  1. Query 理解

  2. 召回

  3. 排序

当欠召回时:

  1. 在线服务会将当前 Query 发送给离线索引系统的消息队列,让其为该 Query 完善索引数据。

  2. 索引系统收到消息后,会使用第三方搜索引擎进行检索,并且将检索的内容解析出 URL,发给爬虫系统,进行数据的补充。

  3. 如果第三方搜索引擎也没有检索到数据,可以通过 LLM 进行生成内容,将生成的内容写入 ES 索引

相关推荐
天天进步20158 小时前
Elasticsearch 中变更索引的方法
大数据·elasticsearch·搜索引擎
铭毅天下11 小时前
Elasticsearch 使用误区之六——富文本内容写入前不清洗
大数据·elasticsearch·搜索引擎·全文检索
DisonTangor14 小时前
Cloudflare为网站添加AI审计 可检查AI爬虫何时抓取和抓取频次以及直接屏蔽爬虫
人工智能·爬虫·搜索引擎
中间件XL1 天前
搜索引擎onesearch3实现解释和升级到Elasticsearch v8系列(二)-索引
elasticsearch·搜索引擎·全文检索·elasticsearch8
ITdgr1 天前
AI搜索软件哪个好,AI搜索引擎工具分享
人工智能·搜索引擎
iceggy2 天前
elasticSearch常见命令及历史数据迁移
大数据·elasticsearch·搜索引擎·数据迁移
远杰数控走心机厂家2 天前
精密单轴纵切自动车床
人工智能·搜索引擎·制造
菜到极致就是渣2 天前
ElasticSearch的搜索方式
大数据·elasticsearch·搜索引擎
菜到极致就是渣2 天前
Elasticsearch自动补全如何实现
java·elasticsearch·搜索引擎