后端学习笔记day5-搜索引擎相关

1.数据结构

关键词:数组、链表、哈希表、布隆过滤器和位图

数组和链表都是线性表,链表最简单的形式是单链表,对于检索过程加速,为了避免O(n)的检索时间,可以通过有序的组织数据把检索时间变成O(log n),这有赖于数组支持快速访问中间点。

链表如果也支持随机访问中间节点就也可以做到二分查找,以此出现的就是二叉搜索树,二叉搜索树需要平衡问题否则会退化成单链表。

哈希表是在数组和链表的检索上的进一步优化,能支持O(1)的访问,重点就是散列函数把id映射到位置,只要在查询时进行相同的计算就好了。

哈希表使用开放链表法解决冲突可以看成数组和链表的结合。

位图在哈希的基础上减少了空间的利用,只用1bit标记某个元素是否存在于系统中,布隆过滤器是在位图的基础上缩短数组长度通过多个哈希函数来实现。

2.搜索引擎用户满意度指标

包括相关性、时效性、文本质量、个性化。

相关性是一个客观指标只要文档d和查询q有一定关联就算。

时效性是根据不同的查询内容有不同的级别。

个性化对于用户的非常粗的查询有意义,因为精细化的查询可以直接锁定到用户希望得到的结果。

EAT是专家、权威、信赖的结合,比如权威机构大学发布的招生信息就比第三方辅导机构发布的招聘信息更加权威。

总结,搜索引擎和推荐的技术感觉相关性很高。

相关推荐
weixin_468466854 小时前
纳米 AI 搜索新手极速上手指南
人工智能·python·深度学习·搜索引擎·ai·语言模型·自然语言处理
Elastic 中国社区官方博客7 小时前
我们如何在 Elasticsearch Serverless 上将向量搜索吞吐量提升一倍
大数据·数据库·人工智能·elasticsearch·搜索引擎·云原生·serverless
共享家952710 小时前
OpenClaw核心功能
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客13 小时前
Kibana 仪表板即代码:在 Elastic 9.4 中用于 Kibana 仪表板的 GitOps、漂移检测与 Terraform
大数据·人工智能·elasticsearch·搜索引擎·云原生·kibana·terraform
MemoriKu15 小时前
【端侧 AI 部署】MobileCLIP 导出 ONNX/TFLite 并发布到 Hugging Face 的完整实践
大数据·人工智能·elasticsearch·搜索引擎·重构·开源
逸Y 仙X15 小时前
文章五:Elasticsearch安全通信
java·大数据·安全·elasticsearch·搜索引擎·全文检索·jenkins
garmin Chen17 小时前
Elasticsearch(2):JavaRestClient操作Elasticsearch全流程实战指南
java·大数据·elasticsearch·搜索引擎
不做无法实现的梦~1 天前
git指令速查
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客1 天前
Elastic 线下 Meetup 将于 2026 年 7 月 26 号下午在深圳举行
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
Elastic 中国社区官方博客1 天前
Elasticsearch 如何通过 synthetic _id 和 Bloom filters 将时序存储降低 34%
大数据·数据库·elasticsearch·搜索引擎·serverless·全文检索·时序数据库