AI基础知识（LLM、prompt、rag、embedding、rerank、mcp、agent、多模态）

1、LLM大语言模型

--基于深度学习技术，通过海量文本数据训练而成的超大规模人工智能模型，能够理解、生成和推理自然语言文本

--产品，国内为deepseek、阿里千问、豆包、KIMI等，国外为openAI、deepMind等

--参数，B=billion=十亿，LLM模拟了大脑的神经元，参数量越大代表大脑的基础能力越强大

--内嵌知识，通过数据训练形成的参数间的关系，本质是统计归纳，在遇到相同的问题时可以给出对应的答案，比如给出100万张猫的图片，告诉LLM这些是猫，它会自动总结归纳猫的特征，形成参数间的关系，以后再遇到猫的图片，它就能识别这是不是猫

--token，llm处理数据时的最小单位，通过token数量计费，分输入与输出，输出token为一个个输出，每一个输出token都要将之前所有的输出token作为输入

2、prompt提示词

--提示词非常重要，是用户输入给AI模型的指令或问题，用于引导AI生成符合预期的内容

--提示词编写通用结构

【角色】：你是什么身份？（专家/助手/特定角色）

【任务】：需要完成什么具体任务

【背景】：相关上下文或知识领域

【限制】：格式/风格/长度/关键点等

【输出】：展示期望的输出样本（可选）

【风格】：幽默类比（如"GPT像百科全书，Claude像班主任"）

3、RAG外挂知识库

--LLM仅含有截止某日的公开信息训练后形成的知识，除此外的知识它是空缺的，需要通过RAG技术补充空缺知识，以保证能够回答非公开领域的知识

--RAG（Retrieval-Augmented Generation），通过检索器从外部知识库实时检索信息，再交由生成器LLM，融合检索结果生成答案

--知识库外挂涉及信息切片、信息向量化、关联信息搜索、关联度标识等

【如图】

3.1、Embedding向量生成算法

--用于将信息向量化，向量化后的数据描述的是信息与信息间的关系，这样在查询问题相关的信息时，通过向量化数据可以更容易的查找到对应的信息

--主流算法：bge、gte

3.2、Rerank信息关联权重排序算法

--基于问题去搜索相关信息时会搜索到大量信息，全部提交llm进行分析会浪费大量算力，为了减少算力消耗，对搜索到的信息进行关联度权重标识，然后只将关联度权责最高的信息提交llm进行分析

--主流算法：bge、gpt

4、MCP模型上下文协议

--MCP（Model Context Protocol，模型上下文协议），旨在为大型语言模型（LLM）提供统一的接口，安全连接外部数据源与工具，解决AI模型与数据系统间的"信息孤岛"问题

--当前LLM的数据来自于前置准备，这与实际的商业业务流程不一致，比如经营分析时，发现某个指标异常，那么LLM需要自动的去调取对应数据进行分析，以便查找问题原因，这时就可以通过MCP接口去调用数据库、或其它工具获取对应信息

--构成：MCP主机（Hosts）- MCP客户端（Clients）- MCP服务器（Servers）

5、Agent智能体

--Agent（人工智能代理）是一种能够感知环境、自主决策并执行动作以实现特定目标的智能实体

--LLM是算法、是大脑、是CPU，负责处理信息，但是要完整的完成一件事，仅有大脑、CPU是不行的，需要有信息感知、行动能力等，才可以完整的完成一件事

--比如经营分析，需要通过MCP获取经营数据，然后提交LLM进行分析，再通过企业微信分别推送给各个部门的人员

6、算力

--LLM需要消耗大量算力，主要为GPU算力，当前本地化部署通用大模型成本极高，百万人民币起步

--可通过第三方的LLM API实现算力调用，如deepseek官方api、阿里百炼的各种LLM API等，不仅方便，而且成本可控

7、多模态

--每一种信息都是一个模态：文字、表格、图片、图表、视频、语音、CAD图、ER图等

--当前的LLM仅对文字一种模态有非常强大的支持能力，对其它模态的支持能力有限

--现实世界中的信息往往是多模态并存的，比如一份报告里面包含文字、图片、图表、表格等，所以在信息的理解方面会存在缺陷，需要等待其它模态的大模型成长