技术栈

文本向量化

lihuayong
3 个月前
人工智能·rag·文本向量化·检索增强生成·语义相似度
RAG的工作原理以及案例列举RAG(Retrieval-Augmented Generation 检索增强生成) 是一种结合 信息检索(Retrieval) 和 文本生成(Generation) 的技术。其核心思想是:在生成答案前,先从外部知识库中检索相关数据作为上下文,再基于这些信息生成更准确、更可靠的回答。 简单来说,RAG让AI像“查阅资料后再回答问题”的人类专家一样工作。
一马平川的大草原
2 年前
python·自然语言处理·sklearn·文本向量化
如何基于gensim和Sklearn实现文本矢量化大家利用机器学习或深度学习开展文本分类或关联性分析之前,由于计算机只能分析数值型数据,而人类所熟悉的自然语言文字,机器学习算法是一窍不通的,因此需要将大类的文本及前后关系进行设计,并将其转换为数值化表示。一般来说,文本语言模型主要有词袋模型(BOW)、词向量模型和主题模型,目前比较常见是前两种,各种机器学习框架都有相应的word2vec的机制和支持模型,比如gensim和Scikit-learn(简称Sklearn),词袋模型向量化技术主要有One-Hot、文本计数数值化、词频-逆文档频率(TF-IDF)