chatGPT的Embedding最佳实践:创建自己的知识库,实现类似AI客服功能

随着OpenAI将 gpt-3.5-turbo 切换到 gpt-3.5-turbo-1106 这个版本,也就是token价格和之前一样,但是长度成了16K,足足是之前的四倍,那么embedding这种方式才有可能派上用场。之前的4k,还不够塞牙缝!

当然如果你是很差钱,直接使用 gpt-4-1106-preview (也就是 gpt-4-turbo) 这个模型更爽,长度可达128K,尽管返回最长是4096,对于大部分场景已经足够。


一、注册账号

登录网址 FELH AI,注册账号后登录。

二、准备数据

点击左下角菜单中的【个人知识库】,录入自己的AI问答问题。

我从 www.npc.gov.cn/zgrdw/npc/l... 复制了《中华人民共和国婚姻法》,一共八章,27条。

三、向量化

将以上内容录入【个人知识库】

向量化工具的选择说明

最开始使用了阿里云的向量数据库(DashVector),同样也使用了百度云的向量数据库。最后我都放弃了,功能基本可以达到我的要求,对于我这么小的应用,性能肯定也也没有问题。问题在于,对于开发者小规模测试居然开始收费

  • 阿里云从12-15号开始收费,之前的测试cluster保留一个月
  • 腾讯云不收费,但是每个月都要去申请一下免费资格(免费就免费吧,还要人去签到,脑子有坑)

果断都放弃了。

现在我的应用里面同时使用了三家向量数据库,作为索引,以免由于某些不可抗因素,突然不可用了。

这三家提供的服务很接近,比较下来Zilliz更多都可以支持pipelines,在我们使用的向量数据库相似度查询上没有什么区别。他们三家都为开发者提供了单一副本的服务,完全免费,对于OpenAI的embedding这种1536维度的向量,大概都能支持到50万条数据左右,我想对于开发者,或者对于小规模应用完全够用了。当然由于是1副本集,所以最好在自己应用数据库中做好数据备份,以免服务不可用造成数据丢失。

四、调整参数,结果对比

下面是未使用知识库。
在【聊天设置】中开启【个人知识库】

体验方式:通过下面第2条的网址即可马上体验

  1. OpenAI API SDK java版本,可访问 github:openai-java
  2. 用VUE3写了一个网站应用,包括H5和PC两个版本(网址都是 web.felh.xyz ),还有小程序版【FELH AI】(后续不会更新了,因为不要face的微信开始对个人小程序也开始收年审的费用了)

到目前为止SDK已经支持所有2023-11-06 API更新后新加的接口(Assistants, Threads, Messages, Runs),移除了废弃和过时接口(Completions, Edits, Fine-tunes)。此SDK完全是个人利用业务时间在维护,如果您觉得有用,请顺手点个star,感谢!


当然Embedding还可以做很多事情:
  • Search (where results are ranked by relevance to a query string)
  • Clustering (where text strings are grouped by similarity)
  • Recommendations (where items with related text strings are recommended)
  • Anomaly detection (where outliers with little relatedness are identified)
  • Diversity measurement (where similarity distributions are analyzed)
  • Classification (where text strings are classified by their most similar label)

具体可以参考官方文档 Embeddings

相关推荐
埃菲尔铁塔_CV算法2 小时前
深度学习神经网络创新点方向
人工智能·深度学习·神经网络
艾思科蓝-何老师【H8053】2 小时前
【ACM出版】第四届信号处理与通信技术国际学术会议(SPCT 2024)
人工智能·信号处理·论文发表·香港中文大学
weixin_452600693 小时前
《青牛科技 GC6125:驱动芯片中的璀璨之星,点亮 IPcamera 和云台控制(替代 BU24025/ROHM)》
人工智能·科技·单片机·嵌入式硬件·新能源充电桩·智能充电枪
学术搬运工3 小时前
【珠海科技学院主办,暨南大学协办 | IEEE出版 | EI检索稳定 】2024年健康大数据与智能医疗国际会议(ICHIH 2024)
大数据·图像处理·人工智能·科技·机器学习·自然语言处理
右恩3 小时前
AI大模型重塑软件开发:流程革新与未来展望
人工智能
图片转成excel表格3 小时前
WPS Office Excel 转 PDF 后图片丢失的解决方法
人工智能·科技·深度学习
ApiHug4 小时前
ApiSmart x Qwen2.5-Coder 开源旗舰编程模型媲美 GPT-4o, ApiSmart 实测!
人工智能·spring boot·spring·ai编程·apihug
哇咔咔哇咔4 小时前
【科普】简述CNN的各种模型
人工智能·神经网络·cnn
李歘歘5 小时前
万字长文解读深度学习——多模态模型CLIP、BLIP、ViLT
人工智能·深度学习