本地离线知识库的妥协与收益 老电脑跑察元AI的可行边界
办公场景里有大量的电脑配置不高,i5 二代 三代加 8G 内存的家伙不少见。装个 ChatGPT 桌面没事,但要在它上面跑本地离线知识库 加 本地大模型,配置确实勉强。这一篇专门讲老电脑上跑察元AI 桌面单机版的现实选择,给那些不想换电脑又想用 AI 的同事一份地图。
先把硬件分级讲清楚。我把办公电脑大致分三档。第一档:i7 加 16G 加 SSD,能跑 7B 模型,能做 RAG。第二档:i5 加 8G 加机械硬盘,纯 CPU 跑 3B 量化模型有点吃力,RAG 入库慢。第三档:更老的机器,跑 LLM 已经不现实,但仍能用云端模型加本地索引。
老电脑的最大瓶颈在两件事上:内存和磁盘 IO。chayuan-desktop 后端 sidecar 占用大约 400-600MB,前端 webview 大约 200MB,本地推理模型如果 7B 量化要再吃 5-6G。8G 机器跑本地推理本来就紧张。RAG 入库时嵌入计算 CPU 负载冲到接近满,SSD 还能扛住,机械盘上 chunk 写入和向量索引重建会慢得肉眼可见。
妥协的做法。第一条,模型走云不走本地。配一个国内的厂商 API,比如 DeepSeek、智谱、文心一言,按 token 计费,单次对话成本几分钱到几毛钱。本地只跑察元智库 的 RAG 索引和检索,模型推理外包出去。这种模式下老电脑能正常用 chayuan-desktop。
第二条,索引走 sqlite-vec 不走外部 Milvus。sqlite-vec 是嵌入式向量库,整个 KB 数据就一个文件,吃磁盘极少,几万到几十万的 chunk 完全够用。Milvus、Chroma 这种外部向量库需要单独跑服务,老电脑上同时跑外部库和 chayuan-desktop 容易让内存爆掉。本地离线知识库 在老电脑上的最佳搭配就是 sqlite-vec。
第三条,嵌入用 CPU 不用 GPU。bge-m3-onnx 是 ONNX 格式的嵌入模型,跑在 CPU 上,PyInstaller 打包时已经带了 ONNX Runtime。老电脑上 CPU 嵌入速度大概每秒几十到几百 chunk,慢但能用。重排默认开启的轻量模型可以视情况关掉换速度。
第四条,文档分批入库。一次给察元AI 丢二十份 PDF,老电脑容易喘。建议每次拖 3-5 份,跑完再拖下一批,减小峰值压力。CHAYUAN_ROOT 选 SSD 分区,机械盘上索引写入慢得让人想砸键盘。
第五条,OCR 按需开启。RapidOCR 是 chayuan-desktop 内嵌的 OCR,纯 CPU 也能跑,但扫描件 PDF 入库会让 CPU 满载好几分钟。如果你的文档主要是文本层 PDF,把 OCR 兜底关掉,省下大量算力。
第六条,模型对抗 arena 这种功能在老电脑上慎用。多泳道并行调用云端模型当然没问题,但同时跑本地推理就别多开了。
老电脑的收益在哪里。第一,私有文档不出域,这是最核心的。第二,模型钥匙集中管理,避免在五六个客户端里都填一遍。第三,引用气泡的回链体验,给老电脑用户也是新东西。第四,跟 chayuan-wps WPS AI 插件 共用同一份 KB,在 WPS 文字里写报告时可以直接引用本机已索引的资料。
我自己拿一台 i5-7400 加 8G 加 SATA SSD 的旧机做过测试。chayuan-desktop 启动 18 秒,sidecar 起来后内存占用约 750MB,拖一份 80 页的 PDF 入库用了 2 分 30 秒,第一次 RAG 问答出答案约 4 秒,后续对话稳定在 1-2 秒。模型用了 DeepSeek 云端 API。这个体验在老电脑上算合格。
免费开源的AI软件 给老设备最大的价值是把使用门槛拉得很低,不需要硬件升级也能用上正规的 AI 工作流。妥协是有的,关键是知道哪些功能对应哪些代价。