基于NLP的检索式聊天机器人

开发思路与开发过程

开发思路

本实现为轻量检索式NLP聊天机器人，核心围绕「文本标准化处理+语义向量匹配」设计，解决用户自然语言输入与预设问题的同义匹配需求。整体思路为：

构建基础问答知识库，存储标准问题-答案对，作为机器人的知识来源；
实现中文文本预处理函数，通过分词将自然语言转化为模型可处理的词语序列；
利用TF-IDF算法将预处理后的文本转化为语义向量，实现「文本→数值」的映射；
计算用户输入向量与知识库标准问题向量的余弦相似度，找到语义最相近的问题；
设置相似度阈值过滤低匹配度场景，返回对应答案或兜底回复，保证交互合理性；
实现循环对话交互逻辑，支持用户持续提问，提供退出机制，提升使用体验。

开发过程

技术选型：选用Python作为开发语言（简洁高效、NLP生态完善），jieba实现中文分词（轻量易用、适配日常对话场景），sklearn库提供TF-IDF向量化和余弦相似度计算（成熟的机器学习工具，无需重复造轮子），无额外第三方复杂依赖，保证代码可移植性和易运行性；
知识库构建：采用列表+字典的轻量结构存储问答对，无需数据库，降低入门门槛，便于后续扩展为CSV/JSON文件存储；
预处理层开发：实现通用分词函数，将中文句子切分为词语并以空格连接，适配TF-IDF的输入格式要求，为后续向量化做准备；
向量化层开发：初始化TF-IDF向量器，对知识库中所有标准问题做拟合+转换，生成标准化的TF-IDF矩阵，完成知识库的向量预计算；
匹配层开发：封装聊天核心函数，对用户输入执行「同标准预处理流程→向量化→余弦相似度计算」，找到相似度最高的问题索引，通过阈值判断是否返回答案；
交互层开发：实现while循环对话，接收用户输入，提供「退出/再见」的终止机制，打印机器人回复，完成端到端的交互流程；
测试与调优：设置合理的相似度阈值（0.3），平衡匹配准确率和泛化能力，对低匹配度场景增加兜底回复，避免机器人无响应，提升交互友好性。

完整带逐行注释代码

python 复制代码

# 导入jieba分词库，用于中文自然语言分词处理，解决中文无天然分隔符的问题
import jieba
# 从sklearn特征提取模块导入TF-IDF向量器，实现文本到数值向量的转化，捕捉文本语义特征
from sklearn.feature_extraction.text import TfidfVectorizer
# 从sklearn相似度计算模块导入余弦相似度函数，用于计算两个文本向量的语义相似程度
from sklearn.metrics.pairwise import cosine_similarity

# 1. 构建基础问答知识库，采用列表嵌套字典的结构，key分别为question（标准问题）和answer（对应答案）
# 结构轻量易扩展，后续可替换为CSV/JSON文件存储，支持百万级问答对扩展
qa_pairs = [
    {"question": "你好", "answer": "你好呀！有什么可以帮你的？"},
    {"question": "快递多久到", "answer": "普通快递1-3天，同城次日达，偏远地区3-5天"},
    {"question": "怎么退货", "answer": "在个人中心订单页点击申请退货，审核通过后按地址寄回即可"},
    {"question": "订单怎么查", "answer": "点击首页「我的订单」，输入手机号即可查看所有订单状态"},
    {"question": "再见", "answer": "拜拜，下次有问题随时来找我哦！"}
]

# 2. 定义文本预处理-分词函数，入参为原始中文文本，出参为分词后的空格连接字符串
# 核心作用：将中文句子切分为独立词语，适配TF-IDF向量器的输入格式要求
def tokenize(text):
    # jieba.lcut：精准分词模式，返回分词后的词语列表（如"快递多久到"→["快递","多久","到"]）
    # " ".join()：将词语列表用空格连接为字符串，符合TF-IDF对单条文本的格式要求
    return " ".join(jieba.lcut(text))

# 3. 对知识库中的标准问题进行批量预处理和TF-IDF向量化，完成知识库预计算
# 提取知识库中所有标准问题，形成独立的问题列表，为后续统一处理做准备
questions = [item["question"] for item in qa_pairs]
# 对所有标准问题执行分词预处理，生成分词后的文本列表，保证与用户输入处理流程一致
tokenized_questions = [tokenize(q) for q in questions]
# 初始化TF-IDF向量器，默认过滤英文停用词，适配中文场景（中文停用词可后续通过stop_words参数添加）
vectorizer = TfidfVectorizer()
# 对分词后的标准问题列表执行「拟合+转换」：
# fit：学习所有问题的词汇表、词频、逆文档频率等特征，构建TF-IDF计算模型
# transform：将所有标准问题转化为TF-IDF数值向量，生成二维矩阵（行数=问题数，列数=词汇表大小）
tfidf_matrix = vectorizer.fit_transform(tokenized_questions)

# 4. 定义聊天机器人核心函数，入参为用户输入的原始文本，出参为机器人的回复文本
def chat(user_input):
    # 第一步：对用户输入执行与标准问题完全一致的分词预处理，保证向量维度统一
    tokenized_input = tokenize(user_input)
    # 第二步：将预处理后的用户输入转化为TF-IDF向量，注意使用transform而非fit_transform
    # 原因：必须沿用标准问题的TF-IDF模型（词汇表、IDF值等），否则向量维度不匹配，无法计算相似度
    input_vec = vectorizer.transform([tokenized_input])
    # 第三步：计算用户输入向量与知识库所有标准问题向量的余弦相似度
    # cosine_similarity返回二维矩阵（1行×问题数列），[0]取第一行得到相似度列表
    similarities = cosine_similarity(input_vec, tfidf_matrix)[0]
    # 第四步：找到相似度列表中最大值对应的索引，即语义最相近的标准问题索引
    best_idx = similarities.argmax()
    # 第五步：相似度阈值判断，过滤无意义匹配（阈值0.3为经验值，可根据业务场景调整）
    # 若最高相似度大于阈值，返回对应标准问题的答案；否则返回兜底回复
    if similarities[best_idx] > 0.3:
        return qa_pairs[best_idx]["answer"]
    else:
        return "我没太明白你的意思，可以换个更具体的问法哦~"

# 5. 实现循环对话交互逻辑，支持用户持续提问，提供退出机制
if __name__ == "__main__":  # 主程序入口，避免被其他模块导入时执行
    print("机器人：你好！我是智能小助手，有问题可以随时问我，输入「退出」或「再见」可结束对话~")
    while True:  # 无限循环，保持对话状态
        user_msg = input("你：")  # 接收用户控制台输入
        # 判断用户是否触发退出机制，若输入为「退出」或「再见」，终止对话
        if user_msg in ["退出", "再见"]:
            print("机器人：拜拜，祝你一切顺利！")
            break  # 跳出循环，结束程序
        # 调用核心聊天函数，获取机器人回复并打印
        response = chat(user_msg)
        print("机器人：", response)

代码运行说明

1. 环境准备

执行以下命令安装依赖库，Python版本建议3.7及以上：

bash 复制代码

pip install jieba scikit-learn

2. 运行方式

将代码保存为chatbot.py，在终端/命令行执行：

bash 复制代码

python chatbot.py

3. 交互示例

复制代码

机器人：你好！我是智能小助手，有问题可以随时问我，输入「退出」或「再见」可结束对话~
你：你好啊
机器人：你好呀！有什么可以帮你的？
你：物流多久能到
机器人：普通快递1-3天，同城次日达，偏远地区3-5天
你：怎么查我的订单
机器人：点击首页「我的订单」，输入手机号即可查看所有订单状态
你：退出
机器人：拜拜，祝你一切顺利！

4. 扩展方向（无代码修改成本）

新增问答对：直接在qa_pairs列表中添加{"question": "新问题", "answer": "对应答案"}即可；
调整相似度阈值：修改chat函数中0.3为其他数值（如0.5提升匹配严格度，0.2提升泛化能力）；
优化兜底回复：修改else分支的返回文本，适配不同业务场景（如客服场景可改为"抱歉，该问题我暂时无法解答，将为您转接人工客服~"）。