SurfSense开源程序是NotebookLM / Perplexity / Glean的开源替代品,连接到外部来源,如搜索引擎

​一、软件介绍

文末提供程序和源码下载

虽然 NotebookLM 和 Perplexity 等工具令人印象深刻,并且对于对任何主题/查询进行研究都非常有效,但 SurfSense 通过与你的个人知识库集成来提升这种能力。它是一个高度可定制的 AI 研究代理,连接到外部资源,例如搜索引擎(Tavily、LinkUp)、Slack、Linear、Notion、YouTube、GitHub 等。

二、主要特点

1. Latest 1. 最新

💡 Idea: 💡 想法:

Have your own highly customizable private NotebookLM and Perplexity integrated with external sources.
拥有您自己的高度可定制的私有 NotebookLM 和 Perplexity 与外部源集成。

📁 Multiple File Format Uploading Support

📁 支持多种文件格式上传

Save content from your own personal files (Documents, images and supports 27 file extensions) to your own personal knowledge base .
将您自己的个人文件(文档、图像和支持 27 个文件扩展名)中的内容保存到您自己的个人知识库中。

Quickly research or find anything in your saved content .
快速研究或查找您保存的内容中的任何内容。

💬 Chat with your Saved Content

💬 与您保存的内容聊天

Interact in Natural Language and get cited answers.
在 Natural Language 中互动并获得引用的答案。

📄 Cited Answers 📄 引用的答案

Get Cited answers just like Perplexity.
获取 Perfasciity 的 Cited 答案。

🔔 Privacy & Local LLM Support

🔔 隐私和本地LLM支持

Works Flawlessly with Ollama local LLMs.
与 Ollama local LLMs完美配合。

🏠 Self Hostable 🏠 自托管

Open source and easy to deploy locally.
开源且易于本地部署。

📊 Advanced RAG Techniques

📊 高级 RAG 技术

  • Supports 150+ LLM's 支持 150+ LLM个
  • Supports 6000+ Embedding Models.
    支持 6000+ 嵌入模型。
  • Supports all major Rerankers (Pinecode, Cohere, Flashrank etc)
    支持所有主要的 Reranker(Pinecode、Cohere、Flashrank 等)
  • Uses Hierarchical Indices (2 tiered RAG setup).
    使用 Hierarchical Indices (2 层 RAG 设置)。
  • Utilizes Hybrid Search (Semantic + Full Text Search combined with Reciprocal Rank Fusion).
    利用混合搜索(语义 + 全文搜索与倒数秩融合相结合)。
  • RAG as a Service API Backend.
    RAG 即服务 API 后端。
ℹ️ External Sources i️ 外部源
  • Search Engines (Tavily, LinkUp)
    搜索引擎 (Tavily, LinkUp)
  • Slack 松弛
  • Linear 线性
  • Notion 概念
  • Youtube Videos Youtube 视频
  • GitHub GitHub的
Cross Browser Extension

🔖 跨浏览器扩展

  • The SurfSense extension can be used to save any webpage you like.
    SurfSense 扩展程序可用于保存您喜欢的任何网页。
  • Its main usecase is to save any webpages protected beyond authentication.
    它的主要用例是保存任何在身份验证之外受保护的网页。

Tech Stack 技术栈

BackEnd 后端

  • FastAPI : Modern, fast web framework for building APIs with Python

    FastAPI:用于使用 Python 构建 API 的现代、快速的 Web 框架

  • PostgreSQL with pgvector : Database with vector search capabilities for similarity searches

    带有 pgvector 的 PostgreSQL:具有用于相似性搜索的向量搜索功能的数据库

  • SQLAlchemy : SQL toolkit and ORM (Object-Relational Mapping) for database interactions

    SQLAlchemy:用于数据库交互的 SQL 工具包和 ORM(对象关系映射)

  • Alembic : A database migrations tool for SQLAlchemy.

    Alembic:用于 SQLAlchemy 的数据库迁移工具。

  • FastAPI Users : Authentication and user management with JWT and OAuth support

    FastAPI 用户:使用 JWT 和 OAuth 支持进行身份验证和用户管理

  • LangGraph : Framework for developing AI-agents.

    LangGraph:开发 AI 代理的框架。

  • LangChain : Framework for developing AI-powered applications.

    LangChain:用于开发 AI 驱动的应用程序的框架。

  • LLM Integration : Integration with LLM models through LiteLLM

    LLM集成:通过 LiteLLM 与LLM模型集成

  • Rerankers : Advanced result ranking for improved search relevance

    Rerankers:用于提高搜索相关性的高级结果排名

  • Hybrid Search : Combines vector similarity and full-text search for optimal results using Reciprocal Rank Fusion (RRF)

    混合搜索:使用倒数秩融合 (RRF) 将向量相似性和全文搜索相结合,以获得最佳结果

  • Vector Embeddings : Document and text embeddings for semantic search

    向量嵌入:用于语义搜索的文档和文本嵌入

  • pgvector : PostgreSQL extension for efficient vector similarity operations

    pgvector:用于高效向量相似性作的 PostgreSQL 扩展

  • Chonkie : Advanced document chunking and embedding library

    Chonkie:高级文档分块和嵌入库

  • Uses AutoEmbeddings for flexible embedding model selection

    用于 AutoEmbeddings 灵活的嵌入模型选择

  • LateChunker for optimized document chunking based on embedding model's max sequence length
    LateChunker 用于基于嵌入模型的最大序列长度优化文档分块


FrontEnd 前端

  • Next.js 15.2.3 : React framework featuring App Router, server components, automatic code-splitting, and optimized rendering.

    Next.js 15.2.3:React 框架,具有 App Router、服务器组件、自动代码拆分和优化渲染。

  • React 19.0.0 : JavaScript library for building user interfaces.

    React 19.0.0:用于构建用户界面的 JavaScript 库。

  • TypeScript : Static type-checking for JavaScript, enhancing code quality and developer experience.

    TypeScript:JavaScript 的静态类型检查,可增强代码质量和开发人员体验。

  • Vercel AI SDK Kit UI Stream Protocol : To create scalable chat UI.

    Vercel AI SDK 套件 UI 流协议:创建可扩展的聊天 UI。

  • Tailwind CSS 4.x : Utility-first CSS framework for building custom UI designs.

    Tailwind CSS 4.x:用于构建自定义 UI 设计的实用优先 CSS 框架。

  • Shadcn : Headless components library.

    Shadcn:Headless 组件库。

  • Lucide React : Icon set implemented as React components.

    Lucide React:作为 React 组件实现的图标集。

  • Framer Motion : Animation library for React.

    Framer Motion:React 的动画库。

  • Sonner : Toast notification library.

    Sonner:Toast 通知库。

  • Geist : Font family from Vercel.

    Geist:来自 Vercel 的字体系列。

  • React Hook Form : Form state management and validation.

    React Hook Form:表单状态管理和验证。

  • Zod : TypeScript-first schema validation with static type inference.

    Zod:使用静态类型推理进行 TypeScript 优先模式验证。

  • @hookform/resolvers : Resolvers for using validation libraries with React Hook Form.

    @hookform/resolvers: 用于将验证库与 React Hook Form 一起使用的解析器。

  • @tanstack/react-table : Headless UI for building powerful tables & datagrids.

    @tanstack/react-table:用于构建强大表格和数据网格的无头用户界面。

Extension 外延

Manifest v3 on Plasmo
Plasmo 上的 Manifest v3

三、软件下载

夸克网盘分享

本文信息来源于GitHub作者地址:GitHub - MODSetter/SurfSense: Open Source Alternative to NotebookLM / Perplexity / Glean, connected to external sources such as search engines (Tavily, Linkup), Slack, Linear, Notion, YouTube, GitHub and more.

相关推荐
东临碣石829 分钟前
【AI论文】BlenderFusion:基于三维场景的视觉编辑与生成式合成
人工智能
正在走向自律11 分钟前
第二章-AIGC入门-开启AIGC音频探索之旅:从入门到实践(6/36)
人工智能·aigc·音视频·语音识别·ai音乐·ai 音频·智能语音助手
Trent198517 分钟前
影楼精修-智能修图Agent
图像处理·人工智能·计算机视觉·aigc
烟锁池塘柳018 分钟前
【大模型】解码策略:Greedy Search、Beam Search、Top-k/Top-p、Temperature Sampling等
人工智能·深度学习·机器学习
盼小辉丶34 分钟前
PyTorch实战(14)——条件生成对抗网络(conditional GAN,cGAN)
人工智能·pytorch·生成对抗网络
Allen_LVyingbo1 小时前
数智读书笔记系列035《未来医疗:医疗4.0引领第四次医疗产业变革》
人工智能·经验分享·笔记·健康医疗
zzc9211 小时前
时频图数据集更正程序,去除坐标轴白边及调整对应的标签值
人工智能·深度学习·数据集·标签·时频图·更正·白边
isNotNullX1 小时前
什么是数据分析?常见方法全解析
大数据·数据库·数据仓库·人工智能·数据分析
riveting2 小时前
明远智睿H618:开启多场景智慧生活新时代
人工智能·嵌入式硬件·智能硬件·lga封装·3506
夜阑卧听风吹雨,铁马冰河入梦来2 小时前
Spring AI 阿里巴巴学习
人工智能·学习·spring