241125学习日志——[CSDIY] [InternStudio] 大模型训练营 [17]

CSDIY：这是一个非科班学生的努力之路，从今天开始这个系列会长期更新，（最好做到日更），我会慢慢把自己目前对CS的努力逐一上传，帮助那些和我一样有着梦想的玩家取得胜利！！！

第一弹：Cpp零基础学习【30 DAYS 从0到1】

第二弹：Cpp刷题文档【LeetCode】

第三弹：Go开发入门【字节后端青训营】

第四弹：Cpp简单项目开发【黑马Rookie】

第五弹：数据结构绪论【数据结构与算法】

第六弹：Go工程实践【字节后端青训营】

第七弹：高质量编程和性能调优【字节后端青训营】

第八弹：Linux 基础知识【书生大模型训练营】

第九弹：Python 基础知识【书生大模型训练营】

第十弹：Git 基础知识【书生大模型训练营】

第十一弹：玩转HF/魔搭/魔乐社区【书生大模型训练营】

第十二弹：书生大模型全链路开源体系【书生大模型训练营】

第十三弹：玩转书生「多模态对话」与「AI搜索」产品【书生大模型训练营】

第十四弹：浦语提示词工程实践【书生大模型训练营】

第十五弹：HTTP 框架修炼之道【字节后端青训营】

第十六弹：打开抖音会发生什么【字节后端青训营】

第十七弹：将我的服务开放给用户【字节后端青训营】

第十八弹：InternLM + LlamaIndex RAG 实践【书生大模型训练营】

第4关	L1G4000	InternLM + LlamaIndex RAG 实践

1. 前置知识

正式介绍检索增强生成（Retrieval Augmented Generation，RAG）技术以前，大家不妨想想为什么会出现这样一个技术。给模型注入新知识的方式，可以简单分为两种方式，一种是内部的，即更新模型的权重，另一个就是外部的方式，给模型注入格外的上下文或者说外部信息，不改变它的的权重。第一种方式，改变了模型的权重即进行模型训练，这是一件代价比较大的事情，大语言模型具体的训练过程，可以参考InternLM2技术报告。第二种方式，并不改变模型的权重，只是给模型引入格外的信息。类比人类编程的过程，第一种方式相当于你记住了某个函数的用法，第二种方式相当于你阅读函数文档然后短暂的记住了某个函数的用法。

对比两种注入知识方式，第二种更容易实现。RAG 正是这种方式。它能够让基础模型实现非参数知识更新，无需训练就可以掌握新领域的知识。本次课程选用了 LlamaIndex 框架。LlamaIndex 是一个上下文增强的 LLM 框架，旨在通过将其与特定上下文数据集集成，增强大型语言模型（LLMs）的能力。它允许您构建应用程序，既利用 LLMs 的优势，又融入您的私有或领域特定信息。