Elasticsearch 向量搜索

目标记录

"你好,我的爱人","你好,我的爱妻","你好,我的病人","世界真美丽"

搜索词

爱人

预期返回

"你好,我的爱人","你好,我的爱妻"

示例代码:

代码连接 es8以及bge-large-zh模型,

bge-large-zh用来将文本转换为向量数据

es用来存储向量数据,并根据向量来搜索相似度最高的文本(相似度可以用阈值调整)

python 复制代码
from flask import Flask, request  # 导入Flask类
from FlagEmbedding import FlagModel
from elasticsearch import Elasticsearch
from elasticsearch.helpers import bulk

app = Flask(__name__)  # 实例化并命名为app实例
model = FlagModel('./models/bge/bge-large-zh', query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章:")
# 创建Elasticsearch客户端对象
es = Elasticsearch(hosts="http://localhost:9200")
es.ping()


@app.route('/ins', methods=['POST'])
def index():    
    data = request.get_json()
    print(data)
    strs = data["strs"]
    documents = []
    for str in strs:            
        print(str)
        tmp = model.encode(str)
        documents.append({
            "general_text": str,
            "general_text_vector": tmp,
            # "domain":"001"
        })

    documents
    bulk(es, documents, index="demo")

    return success(1)

@app.route('/search', methods=['POST'])
def search():
    data = request.get_json()
    doc_vector = model.encode(data["name"])
    results = es.search(
        index="demo",
        source=[
            "general_text",            
        ],
        min_score= 1.83,
        query={
            "script_score": {
                "query": { "match_all": {} },
                "script": {
                    "source": "cosineSimilarity(params.queryVector, 'general_text_vector') + 1.0",
                    "params": {
                        "queryVector": doc_vector.tolist()
                    }
                }
            }
        },
        size=1000
    )
    # return results
    return results['hits']['hits']


def success(data):
    return {
        "status": "success",
        "result": data
    }


def fail(data):
    return {
        "status": "fail",
        "result": data
    }

if __name__ == "__main__":
    # Run
    port = 5000
    app.run(host='127.0.0.1', port=port, debug=False, use_reloader=False)

es存储数据

搜索结果

相关推荐
跨境数据猎手31 分钟前
大数据在电商行业的应用
大数据·运维·爬虫
linyanRPA1 小时前
影刀RPA店群自动化实战:多店铺活动自动报名与促销管理架构设计
运维·自动化·办公自动化·rpa·python脚本·爬虫自动化·店群自动化
会Tk矩阵群控的小木1 小时前
安卓群控系统对于游戏工作室实战教程
android·运维·游戏·adb·开源软件·个人开发
佛山个人技术开发2 小时前
GitCode SSH连接配置教程
运维·ssh·gitcode
兄台の请冷静2 小时前
Linux 安装es
linux·elasticsearch·jenkins
OpsEye3 小时前
系统负载高一定是CPU问题吗?
运维·cpu·it
AOwhisky4 小时前
MySQL 学习笔记(第六期):MySQL 备份与恢复
运维·数据库·笔记·学习·mysql·云计算
赵民勇5 小时前
Linux file命令详解
linux·运维
li-xun5 小时前
LINUX DO 社区注册机制调整与公益 AI 服务动态
linux·运维·人工智能
j_xxx404_5 小时前
MySQL表操作硬核解析:从 CREATE TABLE 到磁盘文件、ALTER TABLE 与 DDL 风险
运维·服务器·数据库·c++·mysql·adb·ai