ngram

王卫东3 个月前
elasticsearch·faiss·es·ngram·wildcard·模糊搜索
ES 模糊查询 wildcard 的替代方案探索Wildcard 是一种支持通配符的模糊检索方式。在 Elasticsearch 中,它使用星号 * 代表零个或多个字符,问号 ? 代表单个字符。
T31659193321 年前
数据库·mysql·全文检索·ngram
mysql使用全文索引+ngram全文解析器进行全文检索表结构:表名 gamedb 主键 id 问题类型 type 问题 issue 答案 answer现在有个游戏资料库储存在mysql中,客户端进行搜索,需要对三个字段进行匹配,得到三个字段的相关性,选出三个字段中相关性最大的值进行排序,以此获取相关性最高的数据。如以上表,用户搜索的问题是 “如何获得更多游戏积分?”,然后我需要在(type,issue,answer)三个字段里面进行匹配,找到和这个问题相关性最高的数据。
njnu@liyong1 年前
大数据·elasticsearch·搜索引擎·ngram·fuzzy·suggest
ES-模糊查询1 wildcard-fuzzy(更适合用于生产环境) 拥有纠错的能力从左向右切分,比ngram 切分的数量更少。
征途黯然.1 年前
人工智能·语言模型·自然语言处理·ngram
n-gram语言模型——句子概率分布计算与平滑语言模型(Language Model, LM)在自然语言处理(NLP)领域扮演着核心角色,特别是在统计模型驱动的汉语自动分词和句法分析等领域。目前,广泛采用的是N-gram语法模型,这种模型以其构建的简便性和直观性而著称,但同时也因数据稀疏性问题而不得不使用平滑(Smoothing)技术。