LangChain—AI应用开发框架（认识模型）

例如教一个小朋友识别猫：

不会只给一条规则（比如"有胡子就是猫"），因为兔子也有胡子。我们会让他看很多猫的图片，他大脑里的视觉神经会协同工作：

有的神经元负责识别"尖耳朵"，

有的负责识别"胡须"，

有的负责识别"毛茸茸的尾巴"。

这些神经元一层层地传递和组合信息，最后大脑综合判断："这是猫！"

神经网路就是模仿人脑的这种工作方式。

它由大量虚拟的"神经元"（也就是参数）和连接组成。

每个神经元都像一个小处理单元，负责处理一点点信息。无数个神经元分成很多层，前一层的输出作为后一层的输入。

通过海量数据的训练，这个网络会自己调整每个"神经元"的重要性（即参数的值），最终形成一个非常复杂的"判断流水线"。比如，一个识别猫的神经网络，某些参数可能专门负责识别猫的眼睛，另⼀些参数专门负责识别猫的轮廓。简单说：神经网络就是一个通过数据训练出来的、由大量参数组成的复杂 决策系统 。

2. 自监督学习 ："完型填空大师"

例如我们想学会一门外语，但没有老师给出题和批改。怎么办？

我们可以拿一本该语言的小说，自己玩"完形填空"：随机盖住一个词，然后根据上下文猜测这个词是什么。一开始猜得乱七八糟。

但不断地重复这个过程，看了成千上万本书后，对这个语言的语法、词汇搭配、上下文逻辑了如指掌。现在不仅能轻松猜对被盖住的词，甚至能自己写出流畅的文章。

自监督学习就是这个过程。

模型面对海量的、没有标签的原始文本（比如互联网上的所有文章、网页）。

它自己给自己创造任务：把一句话中间的某个词遮住，然后尝试根据前后的词来预测这个被遮住的词。

通过亿万次这样的练习，模型就深刻地学会了语言的规律。它不需要人类手动去给每句话标注"这是主语"、"这是谓语"。

简单说：自监督就是让模型从数据本身找规律，自己给自己当老师。

3. 半监督学习 ："师父领进门，修行靠个人"

例如你想学做菜：

师傅先教你几道招牌菜（比如磨破豆腐、宫保鸡丁）⸺这相当于给了你一些 "有标注的数据"（菜谱和成品）。

然后，师傅让你去尝遍天下各种美食，自己研究其中的门道⸺这相当于接触海量的 "无标注数据" （各种未知的食材和味道）。

你结合师傅教的基本功和自己尝遍天下美食的经验，最终不仅能完美复刻招牌菜，还能创新出新的菜式。这就是"半监督"。

先用少量带标签的数据让模型"入门"，掌握一些基本规则，然后再让它去海量的无标签数据中自我学习和提升。这对于大语言模型来说也是一种常用的训练方式。

简单说：半监督就是"少量指导+大量自学"的结合模式。

4.语言模型：一个"超级自动补全"或"语言预测器"。

例如你在用手机打字，输入"今天天气真"，输入法会自动提示"好"、"不错"、"冷"等。这个输入法之所以能提示，就是因为它内部有一个小型的"语言模型"，它根据你输入的前文，计算下一个词最可能是什么。

语言模型的核心任务就是预测下一个词。一个强大的语言模型，能够根据一段话，预测出最合理、最通顺的下一个词是什么，这样一个个词接下去，就能生成一整段话、一篇文章。

简单说：语言模型就是一个计算"接下来最可能说什么"的模型。

2.主流大语言模型

GPT-5 (OpenAI)：支持400k 背景信息长度，128k 最大输出标记，在多轮复杂推理、创意写作中表现突出。

DeepSeek R1 (深度求索)：开源，专注于逻辑推理与数学求解，支持128K长上下文和多语言(20+语言) ，在科技领域表现突出。

Qwen2.5-72B-Instruct (阿⾥巴巴) ：通义千问开源模型家族重要成员，擅长代码生成结构化数据（如 JSON）处理角色扮演对话等，尤其适合企业级复杂任务，支持包括中文英文法语等 29 种语言。

Gemini 2.5 Pro (Google) ：多模态融合标杆，支持图像/代码/文本混合输入，适合跨模态任务 (如图文你生成、技术文档解析)。

3.LLM的接入方式

问题：当我们自己构建AI应用时，无法直接使用其客户端。就需要通过代码的方式，接入原生LLM的能力。

各大厂商提供接入LLM的方式：【API接入】、【开源模型本地部署】、【SDK接入】。

API接入

通过 HTTP 请求（通常是 RESTful API）直接调用模型提供商部署在云端的模型服务。代表厂商：OpenAI (GPT-4o)，Anthropic (Claude)，Google (Gemini)，百度文心一言，阿里通义千问，智谱 AI等。

典型流程就是：

注册账号并获取 API Key：在模型提供商的平台上注册，获得用于身份验证的密钥。
查阅 API 文档：了解请求的端点、参数（如模型名称、提⽰词、温度、最大生成长度等）和返回的数据格式。
构建 HTTP 请求：在你的代码中，使用 HTTP 客户端库（如 Python 的 requests ）构建一个包含 API Key（通常在 Header 中）和请求体（JSON 格式，包含你的提示和参数）的请求。
发送请求并处理响应：将请求发送到提供商指定的 API 地址，然后解析返回的 JSON 数据，提取生成的文本。

以 OpenAI 为例，官网地址：https://platform.openai.com/

调用：

复制代码

curl "https://api.openai.com/v1/responses" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer $OPENAI_API_KEY" \
    -d '{
        "model": "gpt-5",
        "input": "Write a one-sentence bedtime story about a unicorn."
    }'

开源模型本地部署

大模型本地部署，这种方式就是将开源的大型语言模型（如 Llama、ChatGLM、Qwen 等）部署在你自己的硬件环境（本地服务器或私有云）中。核心概念就是，将下载模型的文件（权重和配置文件），使用转呢吧的推理框架在本地服务器或 GPU 上加载并运行模型，然后通过类似 API 的方式进行交互。

典型流程是：

获取模型：从 Hugging Face（国外）、魔搭社区（国内）等平台下载开源模型的权重。
准备环境：配置具有足够显存（如 NVIDIA GPU）的服务器，安装必要的驱动和推理框架。
选择推理框架：使用专为生产环境设计的框架来部署模型，例如：

vLLM：特别注重高吞吐量的推理服务，性能极佳。
TGI：Hugging Face 推出的推理框架，功能全面。
Ollama：非常用户友好，可以一键拉取和运行模型，适合快速入门和本地开发。
LM Studio：提供图形化界面，让本地运行模型像使用软件一样简单。

启动服务并调用：框架会启动一个本地 API 服务器（如 http://localhost:8000 ），你可以像调用云端 API 一样向这个本地地址发送请求。

以 Ollama 为例，下面是具体过程:

1.下载 Ollama

Ollama 官网: ollama.com

2.安装 Ollama

下载完成之后，一步一步安装即可。

3.验证

安装完成后，Ollama默认会启动

访问: http://127.0.0.1:11434

4.拉取模型

Ollama 可以管理和部署模型，我们使用之前，需要先拉取模型。

修改模型存储路径：模型默认安装在 C 盘个人目录下 C:\Users\XXX\.ollama ，可以修改 ollama 的模型存储路径，

使得每次下载的模型都在指定的目录下。有以下两种方式：

配置系统 环境变量

复制代码

变量名: OLLAMA_MODELS
变量值: ${⾃定义路径}

通过 Ollama 界面来进行设置

设置完成后，重启 Ollama 。

5.拉取模型

查找模型: https://ollama.com/search

以 DeepSeek-R1 为例， DeepSeek-R1 是一系列开放推理模型，其性能接近 O3 和 Gemini 2.5Pro 等领先模型。 DeepSeek-R1 有不同的版本，我们需要根据自己机器的配置及需求来选择相应的版本。

分为 1.5b ， 7b ， 8b 等，"b" 是 "Billion" (十亿) 的缩写，代表模型的参数量级。 671b表示"满血"版本，其他版本称为"蒸馏"版本。

参数越多 → 模型"知识量"越大 → 处理复杂任务的能力越强，硬件需求也越高。

根据需求及电脑配置，选择合适的模型版本，以 1.5b 为例：

复制代码

ollama run deepseek-r1:1.5b

SDK接入

SDK接入的方式，本质是对API的封装，以类的形式提供给我们使用。

安装库

复制代码

pip install openai

示例代码

复制代码

#SDK接入大模型

from openai import OpenAI

client=OpenAI(api_key="your-api-key")

response=client.responses.create(
    model="gpt-4o-mini",
    input="介绍一下你自己"
)

print(response.output_text)

三，认识嵌入模型

1.什么是嵌入式模型

大语言模型是生成式模型。它理解输入并生成新的文本（回答问题、写文章）。它内部实际上也使用嵌入技术来理解输入，但最终目标是"创造"。

而嵌入模型（Embedding Model）是表示型模型。它的目标不是生成文本，而是为输入的文本创建一个最佳的、富含语义的数值表示（向量）。

由于计算机天生擅长处理数字，但不理解文字、图片的含义。嵌入（Embedding）的核心思想就是将人类世界的符号（如单词、句子、产品、用户、图片）转换为计算机能够理解的数值形式（即向量，本质上是⼀个数字列表），并且要求这种转换能够保留原始符号的语义和关系。

我们可以把它想象成一个翻译过程，把人类语言"翻译"成计算机的"数学语言"。

结论：既然是"数学语言 "，那么我们可以用数学的方式来比较向量，从而达到【度量语义】的目的！

2.嵌入式模型应用场景

根据嵌入的特性，由此延伸出了许多嵌入模型在 AI 应用的使用场景：

语义搜索（Semantic Search）

传统搜索：依赖关键词匹配（搜 "苹果" ，只能找到包含 "苹果" 这个词的文档）。

语义搜索：则能将查询和文档都转换为向量，通过计算向量间的相似度来找到相关内容，即使文档中没有查询的确切词汇也能被检索到。

检索增强生成（Retrieval-Augmented Generation, RAG）

这是当前大预言模型应用的核心模式。当用户向 LLM 提问时，系统首先使用嵌入模型在知识库（如公司内部文档）中进行语义搜索，找到最相关的内容，然后将这些内容和问题一起交给 LLM 来生成答案。这极大地提高了答案的准确性和时效性。

例如：一家公司的内部客服机器人接到员工提问： "我们今年新增加的带薪育儿假政策具体是怎样的？" 系统会首先使用嵌入模型在公司的最新人事制度文档、福利更新备忘录等资料中进行语义搜索，找到关于 "今年育儿假规定" 的具体条款，然后将这些【条款】和【问题】一起提交给 LLM，LLM 便能生成一个准确、具体的摘要回答，而非仅凭其内部训练数据可能产生的过时或泛泛的答案

推荐系统（Recommendation Systems）

将用户（根据其历史行为、偏好）和物品（商品、电影、新闻）都转换为向量。喜欢相似物品的用户，其向量会接近；相似的物品，其向量也会接近。通过计算用户和物品向量的相似度，就可以进行精准推荐。

例如：⼀个流媒体平台将用户 A（喜欢观看《盗梦空间》和《⿊镜》）和所有电影都表示为向量。系统发现用户 A 的向量与那些也喜欢《盗梦空间》和《⿊镜》的用户向量很接近，而这些用户普遍还喜欢《星际穿越》。尽管用户A从未看过《星际穿越》，但通过计算用户向量与电影向量的相似度，系统会将这部电影推荐给用户 A。

异常检测（Anomaly Detection）

正常数据的向量通常会聚集在一起。如果一个新数据的向量远离大多数向量的聚集区，它就可能是一个异常点（如垃圾邮件、欺诈交易）。

例如：一个信用卡交易反欺诈系统，通过学习海量正常交易记录（如金额、地点、时间、商户类型等特征的向量）

形成了"正常交易"的向量聚集区。当一笔新的交易发生时，系统将其转换为向量。如果该向量出现在"正常聚集区"

之外（例如，一笔发生在通常消费地之外的高额交易），系统则会将其标记为潜在的欺诈交易并进行警报。