从open AI 的论文可以看到，大语言模型的优化，分下面三个步骤，SFT，RM，PPO，我们跟随大神的步伐，来学习一下这三个步骤和代码实现，本章介绍PPO实践。

生活中，我们经常会遇到，希望chatgpt在指定内容范围内回答问题。目前的解决方案大致可以分为两大类，一类是知识库外挂，代表作如langchain。把chatgpt的结果转换为向量在知识库里检索。如下图，本质上最终还是一种向量检索，chatgpt的能力其实是打了一个大的折扣。

另外一类是扩展现有LLM模型的Context处理长度，把候选直接作为llm模型的Context。这里涉及到两个问题，一个是如何扩展Context长度，一个是如何让llm模型只在指定Context内回答问题。今天我们ppo优化主要解决llm模型只在指定Context内回答问题。

样本

我们在1000篇文章中随机选择30篇作为prompt，让模型从这30篇文章中选择出我们想要的文章。

python 复制代码

        #随机选择30篇作为prompt
       random_articles = df.sample(n=31)
       random_article = random_articles.iloc[0]
       cat = random_article['category']
       article_list = [title + ' (' + cat + ')' for title, cat in zip(random_articles['title'], random_articles['category'])]
       input_str = construct_input(article_list, cat)
       input_ids = tokenizer.encode(input_str, return_tensors='pt').to('cuda')

模型准确率判定

可以回答多篇结果，如果模型有我们希望的回答的结果，加1分，不符合减1分。

python 复制代码

        #判断命中条数
       for ans in answer.split('\n'):
           similarity_threshold = 0.9  # 相似度阈值
           # 判断是否在input中且分类是否一致
           if is_similar(ans, article_list, similarity_threshold):
               positive_num = positive_num +1
               break
       print(i, 'accuracy:', positive_num / (i+1))