搜索引擎简介

搜索引擎架构

整个搜索引擎分为三个系统

  1. 爬虫系统

  2. 索引系统

  3. 线上搜素服务

爬虫系统

爬虫分为两个阶段:

  1. 第一阶段:根据目标网站的列表页,爬对应的文档 URL

  2. 第二阶段:根据文档 URL,下载文档内容

触发器:

  • 定时任务触发

  • 消息触发

  • 管理后台手动触发某一个爬虫任务

文件服务器:

  • 存储图片和视频文件

索引系统

索引系统主要数据依赖:内容库和文件服务

依赖服务:

  1. 分词服务

  2. NLP 服务

    1. 同义词扩展

    2. 生成文档摘要

    3. 抽取文档标签

    4. 图片、文本、视频生成向量

    5. ....

  3. PageRank 服务

在线搜索服务

在线服务的主要模块:

  1. Query 理解

  2. 召回

  3. 排序

当欠召回时:

  1. 在线服务会将当前 Query 发送给离线索引系统的消息队列,让其为该 Query 完善索引数据。

  2. 索引系统收到消息后,会使用第三方搜索引擎进行检索,并且将检索的内容解析出 URL,发给爬虫系统,进行数据的补充。

  3. 如果第三方搜索引擎也没有检索到数据,可以通过 LLM 进行生成内容,将生成的内容写入 ES 索引

相关推荐
007php0072 小时前
go语言zero框架拉取内部平台开发的sdk报错的修复与实践
大数据·elasticsearch·搜索引擎
kngines18 小时前
【实战ES】实战 Elasticsearch:快速上手与深度实践-5.3.1GeoPoint与GeoShape的选型
大数据·数据库·elasticsearch·搜索引擎
kngines1 天前
【实战ES】实战 Elasticsearch:快速上手与深度实践-8.1.1基于ES的语义搜索(BERT嵌入向量)
大数据·elasticsearch·搜索引擎·bert
kngines1 天前
【实战ES】实战 Elasticsearch:快速上手与深度实践-8.1.2近似最近邻(ANN)算法选型
数据库·elasticsearch·搜索引擎
愚昧之山绝望之谷开悟之坡1 天前
ragflow-组件可视化工具 es默认用户名elastic
大数据·elasticsearch·搜索引擎
何似在人间5751 天前
ElasticSearch入门及安装 ( 一 )
大数据·elasticsearch·搜索引擎
kngines1 天前
【实战ES】实战 Elasticsearch:快速上手与深度实践-7.3.2使用GraphQL封装查询接口
大数据·elasticsearch·搜索引擎·graphql
奥顺互联V3 天前
百度SEO关键词布局从堆砌到场景化的转型指南
搜索引擎·百度
im长街3 天前
6.聊天室环境安装 - Ubuntu22.04 - elasticsearch(es)的安装和使用
elasticsearch·搜索引擎
LaughingZhu3 天前
PH热榜 | 2025-03-10
前端·人工智能·经验分享·搜索引擎·产品运营