技术栈
ngram
王卫东
3 个月前
elasticsearch
·
faiss
·
es
·
ngram
·
wildcard
·
模糊搜索
ES 模糊查询 wildcard 的替代方案探索
Wildcard 是一种支持通配符的模糊检索方式。在 Elasticsearch 中,它使用星号 * 代表零个或多个字符,问号 ? 代表单个字符。
T3165919332
1 年前
数据库
·
mysql
·
全文检索
·
ngram
mysql使用全文索引+ngram全文解析器进行全文检索
表结构:表名 gamedb 主键 id 问题类型 type 问题 issue 答案 answer现在有个游戏资料库储存在mysql中,客户端进行搜索,需要对三个字段进行匹配,得到三个字段的相关性,选出三个字段中相关性最大的值进行排序,以此获取相关性最高的数据。如以上表,用户搜索的问题是 “如何获得更多游戏积分?”,然后我需要在(type,issue,answer)三个字段里面进行匹配,找到和这个问题相关性最高的数据。
njnu@liyong
1 年前
大数据
·
elasticsearch
·
搜索引擎
·
ngram
·
fuzzy
·
suggest
ES-模糊查询
1 wildcard-fuzzy(更适合用于生产环境) 拥有纠错的能力从左向右切分,比ngram 切分的数量更少。
征途黯然.
1 年前
人工智能
·
语言模型
·
自然语言处理
·
ngram
n-gram语言模型——句子概率分布计算与平滑
语言模型(Language Model, LM)在自然语言处理(NLP)领域扮演着核心角色,特别是在统计模型驱动的汉语自动分词和句法分析等领域。目前,广泛采用的是N-gram语法模型,这种模型以其构建的简便性和直观性而著称,但同时也因数据稀疏性问题而不得不使用平滑(Smoothing)技术。