AI 2：大语言模型+嵌入模型

1.大语言模型（Large Language Model，LLM）

大语言模型是指基于大规模神经网络 ，通过自监督 或半监督 方式，对海量文本进行训练的语言模型。【可以询问任何问题】

【规模巨大、通用性强、训练方式不同、交互方式革命】

1.1 神经网络

一个通过数据训练出来的、由大量参数 组成的复杂决策系统，可视为极其高效的"团队工作流程"或"条件反射链"。

大规模神经网络 ：参数规模通常达数十亿至万亿级别，例如GPT-3 包含1750亿参数。

1.2 自监督、半监督

自监督 就是让模型从数据本身找规律 ，自己给自己当老师。

半监督 就是"少量指导+大量自学"的结合模式。

1.3 语言模型

语言模型就是一个计算 "接下来最可能说什么 "的模型

1.4 主流的LLM

1.5 LLM核心能力

（1）理解与创造

它真正"读懂 "了人类语言的千变万化 ，并能进行高质量 创作；这早已超越简单的关键词匹配，而是对上下文 、情感乃至潜台词 的深层理解。

（2）全球知识库

大模型并非简单的信息存储硬盘，它通过学习海量数据，将孤立的知识点编织成内在关联的立体知识网络。

（3）思维逻辑

大模型的能力版图不仅局限于人文领域的感性表达，更延伸至严格的逻辑推理 与编程语法。

（4）多模态

打破纯文本的单一界限，连接视觉与听觉 的世界；上传一张照片，辅以一段描述，AI便能开启对话式的创意工作流 ；让AI更接近人类的综合感知 方式，使其真正进化为"全能型"数字助手。

1.6 LLM的重要性

2.LLM的提示词编写技巧

好的提示词能显著提升模型输出的质量和相关性；AI对你一无所知 ，需要将你的问题限定范围，让AI知道你具体要什么；掌握多种技巧，并根据不同任务灵活组合使用。

2.1 CO-STAR 结构化框架

在目标设定 和问题解决 的场景下，清晰性和结构性是至关重要的。

通过这个结构，LLM 能精准理解：你是谁、你要做什么、怎么做、对谁说、用什么口吻、输出什么格式，从而极大提升结果的可控性和可用性。

它介于零样本提示-无示例、微调- 需要大量标注数据训练模型之间。

2.2 少样本提示 Few-shot

提供2~5 个包含****输入→输出 的示例，用例子代替长篇规则，教模型你想要的结果，进而对新的输入生成正确的答案。

为了提升 AI对复杂逻辑任务（数学题、逻辑推理、复杂决策等）的理解能力，可以使用少/零样本思维链提示。

2.3 少样本思维链 Few-shot-CoT

它在给大语言模型提供少量示例 的同时，每个示例不仅包含输入和最终输出，还包含中间推理步骤 （即 思维链 ）；让模型学会推理逻辑 ，对新的输入先逐步思考 ，再给出答案。

少样本思维链的简化版，且与普通零样本提示 相比，它能让模型在复杂推理任务中表现更好。

2.4 零样本思维链 Zero-shot CoT

它在不给任何示例 的情况下，直接要求大语言模型"一步步推理并得出结论"，从而引导模型 生成中间推理步骤，再得出最终答案。

适用于你不太清楚 具体步骤，但需要逻辑思考的任务。

2.5 生成、评审分离

将任务明确分为两个阶段：生成阶段和评审阶段，先产出初步的回答，再对自己生成的内容进行检查、批评、修正，****并给出最终的完善输出。

这种分离方式能有效减少 模型的幻觉和错误，提升答案质量，常用于需要严谨性的任务（如数学计算、逻辑推理、代码生成、文案优化等）。

2.6 总结

根据不同任务灵活组合使用，组合方案不限。

遇事先想 CO-STAR，有样学样 Few-shot，推导逻辑带 CoT，质量把关用评审。

Cursor官方提示词：https://cursor.directory/plugins

3.LLM的接入方式

开发AI应用 ，需要直接与大语言模型 提供方进行交互（接入LLM），常见的原生接入 方式有以下三种。

3.1 API远程调用（主流）

模型厂商 在云端部署模型，开发者通过 HTTP请求**+API直接调用** ，无需关心底层实现细节；简单、便捷，适用于快速应用集成；

常见厂商：OpenAI(GPT-4o)、Anthropic(Claude)，Google(Gemini)，百度文心一言，阿里通义千问、智谱AI等。

（1）注册账号并获取 API Key

在模型提供商平台注册，获取用于身份验证的密钥。

（2）查阅 API 文档

了解请求端点 、必填/可选参数（如模型名称、提示词、等）及返回的数据格式 ；也可以查看其他相关信息。

（3）构建 HTTP 请求

使用代码中的 HTTP 客户端库 （如 Python 的 requests），在请求头 （Header）中携带API Key ，在请求体 （Body）中以 JSON 格式放入提示和参数。

（4）发送请求并处理响应

将请求发送至指定的 API 地址 ，云端服务器收到请求，验证 API Key → 运行模型推理 → 返回 JSON 数据 ，提取出模型生成的文本内容。

以deepseek 为例 https://www.deepseek.com/

（1）注册账号并获取 API Key

使用电话号注册即可

输入名称，并复制 API key！

秘钥：sk-1545159be55041ca97a4c088a5afcb2d

（2）查阅 API 文档

先使用curl命令

下面我们先简单使用 一下，请求体中仅加模型名称 和用户输入。

（3）构建 HTTP 请求

此处使用postman简单演示一下，输入请求头和请求体，以及之前保存的秘钥。

注：秘钥前面的 Bearer 别忘了，模型平常用deepseek-v4-flash（轻量/快速版）即可。

记得先充值点

（4）发送请求并处理响应

点击Send

3.2 本地部署-开源模型

将开源的LLM （如Llama、ChatGLM、Qwen）下载到自己的硬件环境（本地服务器/私有云）上。

利用推理框架 （如 Ollama、llama.cpp、vLLM 等）在本地服务器/GPU 上启动模型 ；然后通过 API、命令行、Web 界面 等方式进行交互。

（1）获取模型 ：从Hugging Face（国外）、魔搭社区（国内）等平台下载开源模型的权重。

（2）准备环境 ：配置具有足够显存 （如NVIDIA GPU）的服务器，安装必要的驱动和推理框架。

（3）选择推理框架 ：使用专为生产环境 设计的框架来部署模型

（4）启动服务并调用 ：框架会启动一个本地API服务器 （如 http://localhost:8000 ），你可以像调用云端API一样向这个本地 地址发送请求。

以Ollama 为例，它支持多种开源 模型(如qwen、deepseek、LLaMA)，并提供简单的API接口。

（1）下载并安装Ollama

官网：https://ollama.com/download

魔法网正常网切换下载会快一点，下载好后点击，默认安装即可 ；安装完成后，Ollama会默认 启动。

查看启动是否成功 ： http://127.0.0.1:11434/

或使用cmd 输入 ollama --version

（2）拉取模型 ：Ollama可以管理和部署模型 ，我们使用之前，需要先拉取模型。

① 修改模型存储路径到D盘 ，可通过配置系统环境变量 设置，变量名: OLLAMA_MODELS 变量值: ${自定义路径}

或 Ollama界面设置

设置完成后，重启 Ollama。

查找模型 https://ollama.com/search

②正式拉取模型 ：以deepseek-r1 为例，根据自己机器的配置及需求来选择相应的版本；版本以 1.5b 为例。

版本分为1.5b、7b、8b 等，b是Billion(十亿) 的缩写，代表模型的参数量级 ； 671b 为满血版本，其他版本称为蒸馏版本。

参数越多→模型"知识量"越大→处理复杂任务的能力越强 ，硬件需求也越高。

在cmd 中输入 ollama run deepseek-r1:1.5b 进行下载。

（3）测试

下载完成 后，可以通过命令行和AI模型对话；

下次登录输ollama run deepseek-r1:1.5b即可

查看已下载 的模型：ollama list

（4）也可以通过接口调用

向本地 Ollama 服务 发送一条对话请求，服务处理后会 返回一个JSON 对象，其中包含模型的回复内容。

此处使用postman简单演示一下

对4.1 API 远程调用 的进一步优化

3.3 SDK、官方编程语言库

SDK 接入本质上不是一种独立的接入方式，而是对底层 HTTP API 调用 的封装与简化。

模型厂商 （或社区）提供的官方编程语言库（如 OpenAI Python SDK）会隐藏认证、请求构造、流式解析等细节，将复杂的远程调用包装成符合语言习惯的本地函数。

开发者只需引入这些官方或第三方工具包，就能以极低成本、快速且安全地 让程序拥有大模型对话能力，显著简化开发流程。

以 OpenAI Python SDK为例

（1）在python中安装库

新建项目

安装库：pip install openai

（2）**创建一个名为example.py** 的文件，输入代码；输入 OpenAI 对应的秘钥，此处使用gpt-4o-mini模型。

python 复制代码

from openai import OpenAI
client = OpenAI(api_key="your-api-key")

response = client.responses.create(
    model="gpt-4o-mini",
    input="介绍⼀下你⾃⼰。"
)

print(response.output_text)

4.1暂未调用OpenAI，此处暂不演示。

3.4 总结

SDK 是必选的开发工具，它并不与"API 远程调用 "和"本地部署 "并列，而是为两者提供统一的调用方式。

实际上，只要是原生LLM，无论怎么接入都有限制。

像LangChain这样的框架，正是为了系统性地解决这些问题而诞生的。

原生LLM更像一个"聪明的大脑 "，但缺少 "记忆、知识和规划能力"，接入方式只决定你如何连接这个大脑。

LangChain这类框架则是在为这个大脑装上工具、内存和外挂 ，让它能干真正复杂的活。

4.嵌入模型

4.1 概念

4.2 应用场景

（1）语义搜索

Semantic Search

（2）检索增强生成-RAG

Retrieval-Augmented Generation

（3）推荐系统

Recommendation Systems

（4）异常检测

Anomaly Detection

4.3 主流的嵌入模型

https://huggingface.co/spaces/mteb/leaderboard

4.4 嵌入模型接入方式

接入和使用方式根据模型类型 （开源或闭源）有根本性的不同

以text-embedding-3-large(OpenAI) 为例，4.1暂未调用OpenAI，此处暂不演示。

（1）API接入-闭源

向模型提供商 的服务端发送一个HTTP请求即可

①****注册账号并获取API Key ：在对应的云服务平台上注册账号，获取用于身份验证的API Key。

②****安装SDK或构造HTTP请求 ：使用官方提供的SDK或直接构造HTTP请求。

③****调用API并处理响应 ：发送文本，接收返回的JSON格式的向量数据。

①****类似4.1（1）

②-1****发起HTTP请求，在postman中，类似4.1（3）。

响应包含嵌入向量（浮点数列表）以及一些其他元数据

②**-2接入SDK，在python中，类似4.3。**

pip install openai

python 复制代码

# 使⽤ OpenAI Python SDK 
from openai import OpenAI
import os

# 1. 设置 API Key 
client = OpenAI(api_key="your-api-key")

# 2. 准备输⼊⽂本 
text = "这是⼀段需要转换为向量的⽂本。"

# 3. 调⽤ API 
response = client.embeddings.create(
    model="text-embedding-3-large", # 指定模型 
    input=text,
    dimensions=1024 # 可选：指定输出维度，例如从3072降维到1024 
)

# 4. 获取向量 
embedding = response.data[0].embedding
print(f"向量维度：{len(embedding)}")
print(embedding)