信息检索

AI 搜索新纪元：Perplexity 与 SearchGPT 如何颠覆传统搜索在互联网发展的早期，我们习惯了“搜索-点击-阅读”的三步走模式。那时的搜索引擎是通往互联网海洋的灯塔，它们只负责指引方向，而探索的任务则完全留给用户。然而，随着信息爆炸式增长，这种模式开始显露出疲态。用户不再满足于在成百上千个蓝色链接中筛选信息，尤其是在面对复杂问题时，传统搜索引擎往往只能提供碎片化的线索。

BGE Reranker-v2-m3多场景落地：支持RAG增强、搜索引擎后处理、对话系统意图澄清你是不是经常遇到这样的问题？用AI助手查资料，它给出的答案里总混着一些不相关的废话；在搜索引擎里找东西，排在前面的结果往往不是你最想要的；或者跟智能客服聊天，它老是理解错你的意思，答非所问。

爱思德学术

中国计算机学会（CCF）推荐学术会议-A（数据库／数据挖掘／内容检索）：SIGIR 2026SIGIR 2026The annual SIGIR conference is the major international forum for the presentation of new research results, and the demonstration of new systems and techniques, in the broad field of information retrieval (IR). The 49th ACM SIGIR conference will

RAG 检索模型如何学习：三种损失函数的机制解析Agent 系统发展得这么快那么检索模型还重要吗？RAG 本身都已经衍生出 Agentic RAG和 Self-RAG（这些更复杂的变体了。

【TJU】信息检索与分析课程笔记和练习（10）专利文献和中文专利检索1、专利文献专利文献（Patent Documentation）专利文献的狭义范围指专利（发明）说明书、权利要求书、说明书附图、说明书摘要。专利文献的广义范围包括各种专利申请文件、专利证书、专利公报、专利索引、专利题录、专利分类表等。

【TJU】信息检索与分析课程笔记和练习（8）（9）发现系统和全文获取、专利与知识产权基本知识1、读秀读秀学术搜索，超星数字图书馆研发，是以270万种中文图书资源为基础组成的知识库系统，检索到的图书可直接定位到“本馆电子全文”下载至本地阅读，或链接到本馆书目OPAC系统查阅纸质图书，或借助自动文献传递功能通过个人邮箱获取图书的全文链接。读秀学术搜索另外还有期刊、报纸、学位论文、会议论文等频道。

【Web信息处理与应用课程笔记7】知识抽取与表达【本节概要】在知识图谱的基础上，我们进一步考虑如何有效抽取和表达实体。目录一、实体抽取任务1.1 命名实体识别概述

【Web信息处理与应用课程笔记6】知识图谱导论【本节概要】在当今时代，人们已不再满足于单纯呈现原始的文档，而是需要更加精炼的知识表达与更加直观的需求解决。从查询条件的扩展，到查询内容的拓展，用户希望实现一次查询，多重服务的信息关联。因此，本节主要结合知识图谱讲解如何从文档中总结并关联知识。

【Web信息处理与应用课程笔记5】多模态信息检索【本节概要】面对当前网络世界丰富的多模态信息，这一节主要讨论如何检索出好的多模态信息。什么是多模态搜索？它主要指的是面向“多媒体文档”的搜索技术 / 系统。多模态搜索系统可以简单分为以下几类：面向单一模态的检索、跨模态检索（如借助文字标签搜索图片、视频等）、真 · 多模态搜索（建立在多模态特征融合基础之上的搜索任务）。

甄心爱学习

信息检索复习三种题型：填空所有章节37，名词解释4答题（不能写的太少，简答题3绪论不考一二填空信息检索是什么，用的场景

【TJU】信息检索与分析课程笔记和练习（4）中文文献检索—CNKI1、CNKI简介CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目，由清华大学、清华同方发起，始建于1999年6月。

MedEureka 医疗领域用于多粒度、多数据类型基于文本嵌入检索的测试数据集最近在研究医疗领域的基于文本嵌入的信息检索，需要一个比较全面的评测数据集，因此找到了《MedEureka: A Medical Domain Benchmark for Multi-Granularity and Multi-Data-Type Embedding-Based Retrieval》一文，发表于NAACL 2025，NAACL是CCF的B类会议，算是不错的会议了，文章质量相信不差。但是在复现学习的时候却发现以下问题，分享出来供高手指点。

【自然语言处理】语义基石：WordNet与知网赋能自然语言处理的深层逻辑与实践路径目录一、引言二、知识存储的本质分野：从词汇网络到概念原子（一）WordNet：以同义词集为核心的词汇语义生态

在未来等你

RAG实战指南 Day 28：RAG系统缓存与性能优化欢迎来到"RAG实战指南"系列的第28天！今天我们将深入探讨RAG系统的缓存机制与性能优化策略。在实际生产环境中，RAG系统往往面临高并发、低延迟的需求，而合理的缓存设计和性能优化可以显著提升系统响应速度、降低计算成本。本文将系统讲解RAG系统中各层级的缓存策略、性能瓶颈识别方法以及优化技巧，帮助开发者构建高性能、高可用的RAG系统。

RATE：基于LLM的检索增强生成技术提取管道在技术变革的时代，技术图谱对提升决策制定起着关键作用。这些图谱高度依赖于自动化的技术提取方法。本文介绍了检索增强技术提取(RATE)，一种基于大型语言模型(LLM)的从科学文献中自动提取技术的管道。

5个开源RAG框架对比还在为RAG应用开发头疼吗？别急，今天给大家推荐五款完全开源免费的RAG框架，覆盖自动优化、多模态处理、本地部署、生产环境支持等多种场景，助你轻松搞定RAG开发！👇

【GoMate框架案例】讯飞大模型RAG智能问答挑战赛top10 Baseline【RAG框架】GoMate：RAG Framework within Reliable input,Trusted output

RAG系统的7个检索指标：信息检索任务准确性评估指南大型语言模型（LLMs）作为一种生成式AI技术，在近两年内获得了显著的关注和应用。但是在实际部署中，LLMs的知识局限性和幻觉问题仍然是一个挑战。检索增强生成（Retrieval Augmented Generation，RAG）通过为LLM提供额外的外部知识和上下文，有效地解决了这些问题。截至2024年RAG已经成为应用生成式AI领域中最具影响力的技术之一。事实上，几乎所有基于LLM的应用都在某种程度上采用了RAG技术。

深度学习引领信息检索革新：从传统方法到神经网络信息检索的探索信息检索（Information Retrieval，IR）是自然语言理解（NLU）的典型应用之一，旨在根据用户提供的查询，在大量的文档库中找到相关信息。信息检索在数字化时代扮演着关键的角色，为用户提供了在庞大数据海洋中寻找和获取信息的能力。其背后的技术和算法的不断进步，使得我们能够更智能、高效地满足日益增长的信息需求。这也反映了NLP在处理实际问题中的实际应用，特别是在面对大规模文本数据时的重要性。

BM25（Best Matching 25）算法基本思想BM25（Best Matching 25）是一种用于信息检索（Information Retrieval）和文本挖掘的算法，它被广泛应用于搜索引擎和相关领域。BM25 基于 TF-IDF（Term Frequency-Inverse Document Frequency）的思想，但对其进行了改进以考虑文档的长度等因素。