{结对编程/大模型} 实践营项目案例 | 基于RAG搭建政策问答智能聊天助手

在构建政策问答智能聊天助手的过程中,我们采用了 RAG(Retrieval-Augmented Generation)技术。RAG 是一种结合了检索和生成的混合型自然语言处理技术,它通过检索相关信息来增强生成模型的上下文理解能力。RAG 的主要优点在于能够有效减少生成式模型的"幻觉"问题,即模型生成与现实不符的内容,从而提高回答的准确性和可靠性。我们将整个搭建过程分为三个关键阶段:数据预处理、推理和评价。

RAG 通用框架



01. 数据预处理

在预处理阶段,我们完成了清洗、分词并提取特征,确保数据质量。首先,我们将 PDF 政策文本转化成 TXT ,这一步基于开源项目 tesseract-ocr 的简体中文版本实现。

def process_pages(pdf_path, start_page, end_page):
    images = convert_from_path(pdf_path, dpi=300, first_page=start_page, last_page=end_page)
    text_pages = {}

    for i, image in enumerate(images, start=start_page):
        gray_image = ImageOps.grayscale(image)
        text = pytesseract.image_to_string(gray_image, lang='chi_sim+eng')
        print(f"\nPage {i} Text:\n{text}")  # Print recognized text
        text_pages[i] = text + "\n"

    return text_pages

在实施时,我们选取的政策文档为43页,经过 jieba 分词后,得到13194字,共471句话。

words = jieba.lcut(text)
num_words = len(words)

# Matches Chinese period, exclamation, question marks, and newlines
sentence_delimiters = r'[。!?]'  
sentences = re.split(sentence_delimiters, text)

sentences = [s.strip() for s in sentences if s.strip()]
num_sentences = len(sentences)

接下来是分段即 chunking 环节。我们调研了多种常用的分段方法,并着重实验了其中两种。

方法一:等字符分段法

这也是最常见的分段方法。为适应大模型每次输入 token 的最大数量限制,并且考虑到单句平均28个字符,我们采用 width=300,overlapping=50 的分割法。

while start < total_words:
        end = start + W
        chunk_words = words[start:end]
        chunk_text = ''.join(chunk_words)  # Concatenate words without spaces
        chunks.append(chunk_text)
        start = end - overlap  # Move the window forward with overlap

方法二:语义双重合并分段

语义双重合并分段(semantic chunking double-pass merging)中有双重过程,其中 First Pass 的目的是准确识别主题的差异,将最明显的句子连接在一起。而 Second Pass 进一步将以上小块组成主题各异的大块。对于主题的变化判定,我们设定了阈值 threshold = 0.7。

这里采用的 sentence tokenizer 是 sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2,为句子生成84维的向量。

chunks = []
    current_chunk = []
    i = 0
    while i < len(sentences):
        sentence = sentences[i]
        is_item = bool(item_pattern.match(sentence))
        if is_item:
            # Start a new chunk for the itemized list
            if current_chunk:
                chunks.append(current_chunk)
            current_chunk = [sentence]
            i += 1
            # Add subsequent itemized entries to the current chunk
            while i < len(sentences) and (bool(item_pattern.match(sentences[i])) or sentences[i].startswith(('(', '('))):
                current_chunk.append(sentences[i])
                i += 1
            # Add the completed itemized list chunk
            chunks.append(current_chunk)
            current_chunk = []
        else:
            # Regular sentence processing with semantic similarity
            if not current_chunk:
                current_chunk = [sentence]
            else:
                # Compute similarity with the previous sentence
                embedding_prev = get_sentence_embedding(current_chunk[-1])
                embedding_curr = get_sentence_embedding(sentence)
                sim = cosine_similarity(
                    embedding_prev.reshape(1, -1),
                    embedding_curr.reshape(1, -1)
                )[0][0]
                if sim >= 0.7:  # Adjust the threshold as needed
                    current_chunk.append(sentence)
                else:
                    chunks.append(current_chunk)
                    current_chunk = [sentence]
            i += 1

    # Add any remaining chunk
    if current_chunk:
        chunks.append(current_chunk)

在实践中,我们发现使用同样的大模型,第二种语义分段法的预测效果要优于第一种等字符分段法。这可能是因为在方法二的初始分段过程中,我们注意到了句块过于零散的情况:

条例化的信息在这里被视为分段的标志,而相反他们正应被归为一类。于是我们确保"()"级别的 itemization 都能被正确合并。

item_pattern = re.compile(r'^(\(?[一二三四五六七八九十0-9]+\)?[.。、])')  

以上两种分段法得到的结果,我们都以 chunks.pkl 和 chunk_embeddings.pkl 形式存储。

02. 推理环节

在推理环节中,我们利用大模型的深度学习功能,通过微调和优化来提高模型的理解和回答能力。我们需要依据用户提问找到相关联的文本,设计提示词,随后调用大模型作答。

先对 query 进行 tokenization,找到相似度最高的 top K 段落(K=5):

def get_top_k_chunks(query_embedding, chunk_embeddings, K):
    similarities = []
    for idx, chunk_embedding in enumerate(chunk_embeddings):
        sim = cosine_similarity(
            query_embedding.reshape(1, -1),
            chunk_embedding.reshape(1, -1)
        )[0][0]
        similarities.append((idx, sim))
    similarities.sort(key=lambda x: x[1], reverse=True)
    top_k = similarities[:K]
    return top_k 

为兼顾模型性能与潜在的参数优化可行性,我们选择 Llama-2-7b-hf 作为大模型。设计一组 prompt 后即可开始问答。

context = ''
    for idx, sim in top_k_chunks:
        chunk_text = ''.join(chunks[idx]) if isinstance(chunks[idx], list) else chunks[idx]
        context += f"【内容{idx+1}】\n{chunk_text}\n\n"
    prompt = f"""你是一名智能助理,请根据以下提供的政策内容,回答用户的问题。请确保回答准确且基于提供的内容。如果无法找到答案,请告知用户。

{context}
用户提问:
{query}
你的回答:
"""

 terminal>>
请输入您的问题:杭州市海外高层次人才创新创业有哪些补助?
生成的回答:
参照中国杭州大学生创业大赛在杭落地项目资助条目

可见该回答虽言之成理,仍存在改进空间。问题在于,如何量化评价这一模型的回答准确度?为此,我们引入了多项选择题(MCQ)作为评价集。

03. 评价环节

鉴于大模型生成的自然语言回答存在不确定性,量化其准确性变得颇具挑战。为此,构建一个包含确切答案的评价集显得尤为关键。我们期望该评价集满足以下特点:

首先,每个问题应有一个正确答案,而其他三个错误答案在常识范围内应具有一定的合理性,这样可以确保判断是基于检索到的文档内容,而非模型的先验知识。

其次,正确答案应在选项中随机分布,以避免在训练过程中出现过度拟合。通过人工标注与 AI 技术的辅助,我们成功构建了30组评价问答题,确保了评价集的质量和实用性。

以下是示例问题:

{
        "query": "哪些企业能获得杭州市的创业补助?",
        "options": {
            "A": "所有注册在杭的企业均可申请。",
            "B": "符合政府补助要求的创新型企业。",
            "C": "补助只提供给年收入超过一定标准的企业。",
            "D": "只限于科技创新型企业。"
        },
        "ground_truth": "B"
    },

在这组评价集上,我们分别验证了两种分段法。鉴于生成的回答不总是如指令里声明的那样,仅仅给出 ABCD 中的选项,我们提取回答中首个出现的合法大写字母作为 predicted answer。

  for char in predicted_answer:
        if char in ['A', 'B', 'C', 'D']:
            return char
    return None

经多组实验,等字符分段法取得了13.3%-20%的准确率,而语义分段法取得了26.7%-50%的准确率。总体而言,语义分段法所产生的文本在该评价集上更加可靠,除了上述提及的合并 itemization 的原因,还可能是因为等字符分段法恒定的 top K chunks 输入宽度过大,导致大模型更难准确理解指示。此处展示正确和错误的预测案例各一组以供参考:

至此为止,我们可以对不同大模型与分段法在该评价集上的性能搭配进行总结。

不同大模型与分段方法搭配的准确率

💡注:显示的准确率为多组实验取得的最高值。当调用更小模型时,我们相应更改了分段的策略。例如对于 microsoft/phi-2,我们选取 W=80,overlap=40。对于 Open_llama_7b,我们选取 top K=3。

在学员们利用 RAG 技术搭建政策问答智能聊天助手的流程中,他们经历了详尽的调研和调试,已经从最初的探索者成长为能够独立处理复杂任务的专家。然而,这个项目方案仍有提升空间。

我们注意到,模型的训练和推理过程并未完全分离,导致超参数(hyperparameters)的设定过于依赖初始设计,缺乏迭代优化的过程,这是机器学习早期的常见问题。随着深度学习技术的不断进步,出现了多种调参方法。在这些方法中,LoRA 因其能够在较低成本下实现大模型的局部微调而备受青睐。通过引入 LoRA 技术,我们可以更有效地优化模型,实现更精准的调整,从而提升整体性能。

01. 什么是 LoRA?

LoRA(low-rank adaptation,低秩适应)是一种高效的机器学习模型微调技术,它能够迅速使模型适应新环境。与 RAG 专注于特定数据集不同,LoRA 使模型能够更好地适应特定的任务需求。在面对多样化的细分任务时,全面微调一个大型模型往往成本过高,而 LoRA 提供了一种经济且快速的解决方案。通过在模型的 QKV(Query, Key, Value)部分引入低秩矩阵,即形式为 Bmxr x Arxn 的结构,其中 r 远小于 m 和 n,LoRA 只需训练两个残差(residual)矩阵A和B。这种方法显著减少了训练的参数量,同时对模型的自注意力层和交叉注意力层产生影响,从而实现对模型的快速且有效的微调。

02. 把 LoRA 应用到 RAG Chatbot

我们先将先前的评价集 dataset.json 以 20:5:5 拆成 train:valid:test。设置 lora_config 的参数。

def fine_tune_lora(model_name, train_dataset, valid_dataset):
    # Load the pre-trained LLaMA model
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

    # Apply LoRA to the model
    lora_config = LoraConfig(
        r=8,  # Low-rank approximation factor
        lora_alpha=16,  # Scaling factor for the LoRA weights
        target_modules=["q_proj", "k_proj", "v_proj"],  # Target the attention layers
        lora_dropout=0.1  # Dropout rate for LoRA layers
    )

    model = get_peft_model(model, lora_config)

把 evaluation_metric 设置为 accuracy。定义可训练的参数,以及训练器。为节约 GPU 资源,可下调精度。

training_args = TrainingArguments(
        output_dir='./results',
        num_train_epochs=3,
        per_device_train_batch_size=2,  
        per_device_eval_batch_size=2,
        gradient_accumulation_steps=4, 
        fp16=True,  # Enable mixed precision
        evaluation_strategy="epoch",
        save_strategy="epoch",
        logging_dir='./logs',
        logging_steps=10,

# Train the model
    trainer.train()

    # Save the fine-tuned LoRA model
    model.save_pretrained('fine_tuned_lora_llama')
    tokenizer.save_pretrained('fine_tuned_lora_llama'

最后预计需要 64.00 MiB GPU 空间。技术原理已经阐明,限于算力资源,工程部分留作将来的拓展实践。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

相关推荐
小熊bdg27 分钟前
3D 生成重建027-Unique3D用超分为3D提供更多细节!
人工智能·3d·aigc
Fabarta技术团队1 小时前
枫清科技高雪峰:从数据到知识,重塑产业智能化的核心驱动力
人工智能·科技
上海知从科技1 小时前
知从科技总经理受邀参加上海临港新片区商会“湖畔TECS”技术分享沙龙(第五期)
人工智能
不知名网友小H1 小时前
【h5py】 提取mat文件中的HDF5格式的数据
人工智能·python
OKCC_kelaile5202 小时前
电销机器人为什么越来越受欢迎?
服务器·网络·人工智能·安全·机器人·语音识别
lshzdq2 小时前
【机器人】控制之稳定性判定: 李雅普诺夫Lyapunov (3) 李函数设计举例
人工智能·算法·机器人
十年一梦实验室2 小时前
【机器人】 SDK 与控制器
人工智能·机器人
weixi_kelaile5202 小时前
智能语音机器人代替人工电销能不能促进成单率
java·服务器·人工智能·机器人·语音识别
小张Tt3 小时前
基于python快速部署属于你自己的页面智能助手
人工智能·python
weixin_409411023 小时前
大模型语料库的构建过程 包括知识图谱构建 垂直知识图谱构建 输入到sql构建 输入到cypher构建 通过智能体管理数据生产组件
sql·知识图谱·easyui