后端学习笔记day5-搜索引擎相关

1.数据结构

关键词:数组、链表、哈希表、布隆过滤器和位图

数组和链表都是线性表,链表最简单的形式是单链表,对于检索过程加速,为了避免O(n)的检索时间,可以通过有序的组织数据把检索时间变成O(log n),这有赖于数组支持快速访问中间点。

链表如果也支持随机访问中间节点就也可以做到二分查找,以此出现的就是二叉搜索树,二叉搜索树需要平衡问题否则会退化成单链表。

哈希表是在数组和链表的检索上的进一步优化,能支持O(1)的访问,重点就是散列函数把id映射到位置,只要在查询时进行相同的计算就好了。

哈希表使用开放链表法解决冲突可以看成数组和链表的结合。

位图在哈希的基础上减少了空间的利用,只用1bit标记某个元素是否存在于系统中,布隆过滤器是在位图的基础上缩短数组长度通过多个哈希函数来实现。

2.搜索引擎用户满意度指标

包括相关性、时效性、文本质量、个性化。

相关性是一个客观指标只要文档d和查询q有一定关联就算。

时效性是根据不同的查询内容有不同的级别。

个性化对于用户的非常粗的查询有意义,因为精细化的查询可以直接锁定到用户希望得到的结果。

EAT是专家、权威、信赖的结合,比如权威机构大学发布的招生信息就比第三方辅导机构发布的招聘信息更加权威。

总结,搜索引擎和推荐的技术感觉相关性很高。

相关推荐
Elastic 中国社区官方博客7 小时前
Elasticsearch:为 AI Agent builder 创建 skill plugin
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
薪火铺子7 小时前
ElasticSearch 集群原理与分片管理深度解析
大数据·elasticsearch·搜索引擎
zz0723207 小时前
Elasticsearch
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客9 小时前
将 Logstash Pipeline 从 Azure Event Hubs 迁移到 OTel Collector Kafka Receiver
大数据·数据库·人工智能·分布式·elasticsearch·搜索引擎·kafka
Elastic 中国社区官方博客9 小时前
使用 Elasticsearch 与 Kibana 中的 PromQL 调查 Kubernetes 基础设施问题
大数据·数据库·elasticsearch·搜索引擎·信息可视化·kubernetes·全文检索
Web极客码21 小时前
Akismet对WordPress防垃圾评论
服务器·搜索引擎·wordpress
Mac的实验室1 天前
perplexity要验证手机号怎么办?2026年登陆perplexity要验证电话号码的解决办法(附验证方法)
搜索引擎·浏览器
lilihuigz1 天前
AI内容管理系统全面解析:核心功能、关键技术与架构应用指南 - WP站长
人工智能·搜索引擎·架构
techdashen1 天前
Cloudflare Agents Week 2026 总结:20 项发布,一张 Cloud 2.0 的完整地图
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客1 天前
从平均值到任意百分位数:Elasticsearch 在 ES|QL 中原生支持指数直方图
大数据·数据库·sql·elasticsearch·搜索引擎·全文检索·prometheus