解决离线服务器无法加载HuggingFaceEmbeddings向量化模型的问题

由于服务器是离线的,因此我先在本地到huggingface官网下载模型text2vec,然后上传到服务器上运行,报错:

(MaxRetryError('HTTPSConnectionPool(host=\'huggingface.co\', port=443): Max retries exceeded with url: /api/models/sentence-transformers/text2vec-base-chinese/revision/main (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x7f12ebf56350>: Failed to resolve \'huggingface.co\' ([Errno -3] Temporary failure in name resolution)"))'), '(Request ID: d787098f-eabd-4f11-8150-623bd99a55e2)')

An error happened while trying to locate the files on the Hub and we cannot find the appropriate snapshot folder for the specified revision on the local disk. Please check your internet connection and try again.

huggingface_hub.utils._errors.LocalEntryNotFoundError: Cannot find an appropriate cached snapshot folder for the specified revision on the local disk and outgoing traffic has been disabled. To enable repo look-ups and downloads online, pass 'local_files_only=False' as input.

HuggingFaceEmbeddings它识别不了这个路径下的文件,因此我将cache_folder的值换成'shibing624/text2vec-base-chinese'依然报相同的错误。

然后我去官网看如何调用这个模型,选择了下面这种方式:

再次报错:

db = store_chroma(documents,embeddings)

AttributeError: 'BertModel' object has no attribute 'embed_documents'

也就是说加载完向量化模型后,我初始化了Chroma向量数据库,然后对传入的doc文档数据进行向量化,它会提示找不到embed_documents这个属性。本身BertModel是没有这个属性的,但是Chroma却需要调用这个属性来实现文档向量化(通过HuggingFaceEmbeddings来加载模型就不会报错,但是离线服务器上用不了)。因此,自己写一个embed_documents来实现就好啦,如下所示:

先在load_embedding_mode里面添加一个方法embedding_function,然后再建立一个类:

最后再调用这个类,就能正常对文档进行向量化和本地持久化了。

复制代码
embedding_function = EmbeddingFunction(load_embedding_mode())
db = Chroma(embedding_function=embedding_function, persist_directory='VectorStore')
相关推荐
luming-0234 分钟前
java报错解决:sun.net.utils不存
java·经验分享·bug·.net·intellij-idea
星月心城4 小时前
Element Plus 2.7.5 的 datetimerange 存在 is-disabled 误判 Bug(头部年份 / 月份被错误禁用)
bug
C语言不精7 小时前
解决ESP出现MD5报错或验证芯片bug
嵌入式硬件·bug·esp32
萧曵 丶1 天前
Java 常用运行参数配置及实际业务详解
java·bug·优化·问题排查·生产问题
熊猫钓鱼>_>1 天前
Makefile应用场景实践日志:构建高效C/C++项目工作流
c语言·c++·bug·mfc·makefile·编译·kmp
野生技术架构师1 天前
喜提一个bug,聊聊@NotEmpty和@NotBlank
java·算法·bug
好记忆不如烂笔头abc1 天前
dmesg日志显示BUG: unable to handle page fault for address
bug
有错误先debug2 天前
记录一次接入Google智能音箱开发测试阶段的bug修复
bug·智能音箱
百***58842 天前
技术文章大纲:Bug悬案侦破大会
bug
滴啦嘟啦哒3 天前
【机械臂】【基本驱动】三、对于夹取物体bug的最新解决
深度学习·bug·ros