AI 2:大语言模型+嵌入模型

1.大语言模型(Large Language Model,LLM)

大语言模型是指基于大规模神经网络 ,通过自监督半监督 方式,对海量文本进行训练语言模型。 【可以询问任何问题】

规模巨大、通用性强、训练方式不同、交互方式革命

1.1 神经网络

一个通过数据 训练出来的、由大量参数 组成的复杂决策系统,可视为极其高效的"团队工作流程"或"条件反射链"。

大规模神经网络 :参数规模通常达数十亿万亿 级别,例如GPT-3 包含1750亿参数。

1.2 自监督、 半监督

自监督 就是让模型从数据本身找规律自己给自己当老师


半监督 就是"少量指导+大量自学"的结合模式。


1.3 语言模型

语言模型就是一个计算 "接下来最可能说什么 "的模型

1.4 主流的LLM

1.5 LLM核心能力

(1)理解与创造

它真正"读懂 "了人类语言的千变万化 ,并能进行高质量 创作;这早已超越 简单的关键词匹配,而是对上下文情感 乃至潜台词深层理解

(2)全球知识库

大模型并非 简单的信息存储 硬盘,它通过学习 海量数据,将孤立 的知识点编织 成内在关联立体知识网络

(3)思维逻辑

大模型的能力版图不仅 局限于人文领域的感性表达, 延伸至严格的逻辑推理编程语法

(4)多模态

打破纯文本的单一界限,连接视觉与听觉 的世界;上传一张照片 ,辅以一段描述 ,AI便能开启对话式的创意工作流 ;让AI更接近人类的综合感知 方式,使其真正进化为"全能型"数字助手。


1.6 LLM的重要性

2.LLM的提示词编写技巧

好的提示词能显著提升 模型输出的质量和相关性;AI对你一无所知 ,需要将你的问题限定范围,让AI知道你具体要什么掌握多种技巧,并根据不同任务灵活组合使用。

2.1 CO-STAR 结构化框架

目标设定问题解决 的场景下,清晰性和结构性是至关重要的。

通过这个结构,LLM 能精准理解:你是谁、你要做什么、怎么做、对谁说、用什么口吻、输出什么格式,从而极大提升结果的可控性和可用性。


它介于 样本提示- 示例、微调- 需要大量标注数据训练模型 之间。

2.2 少样本提示 Few-shot

提供2~5包含****输入→输出示例 ,用例子代替 长篇规则, 模型你想要的结果 ,进而对 的输入生成正确 的答案。


为了提升 AI对复杂逻辑任务(数学题、逻辑推理、复杂决策等)的理解能力,可以使用少/零 样本思维链提示

2.3 少样本思维链 Few-shot-CoT

它在给大语言模型提供少量示例同时 ,每个示例不仅 包含输入 和最终输出 ,还包含中间推理步骤 (即 思维链 );让模型学会推理逻辑 ,对新的输入先逐步思考给出答案。


样本思维链的简化 版,且与普通零样本提示 相比,它能让模型在复杂推理任务中表现更好

2.4 零样本思维链 Zero-shot CoT

它在不给任何示例 的情况下,直接要求大语言模型"一步步推理并得出结论",从而引导模型 生成中间推理 步骤,得出最终答案。

适用于你不太清楚 具体步骤, 需要逻辑思考的任务。


2.5 生成、评审分离

将任务明确分为两个 阶段:生成 阶段和评审 阶段,产出初步 的回答,对自己生成的内容进行检查、批评、修正,****并给出最终的完善输出。

这种分离方式能有效减少 模型的幻觉和错误,提升 答案质量,常用于需要严谨性的任务(如数学计算、逻辑推理、代码生成、文案优化等)。


2.6 总结

根据不同任务灵活组合使用,组合方案不限。

遇事先想 CO-STAR,有样学样 Few-shot, 推导逻辑带 CoT,质量把关用评审。

Cursor官方提示词:https://cursor.directory/plugins

3.LLM的接入方式

开发AI应用 ,需要直接大语言模型 提供 进行交互接入LLM),常见的原生接入 方式有以下种。

3.1 API远程调用(主流)

模型厂商云端 部署模型 ,开发者通过 HTTP请求**+API直接调用** ,无需 关心底层实现细节 ;简单、便捷,适用于快速应用集成;

常见厂商:OpenAI(GPT-4o)、Anthropic(Claude),Google(Gemini),百度文心一言,阿里通义千问、智谱AI等。

(1)注册账号并获取 API Key

在模型提供商平台注册,获取用于身份验证的密钥。

(2)查阅 API 文档

了解请求端点 、必填/可选参数 (如模型名称、提示词、等)及返回的数据格式 可以查看其他相关信息。

(3)构建 HTTP 请求

使用代码中的 HTTP 客户端库 (如 Python 的 requests),在请求头 (Header)中携带API Key ,在请求体 (Body)中以 JSON 格式放入提示和参数

(4)发送请求并处理响应

将请求发送至指定的 API 地址 ,云端服务器收到请求,验证 API Key → 运行 模型推理 → 返回 JSON 数据提取 出模型生成的文本内容。


deepseek 为例 https://www.deepseek.com/

(1)注册账号并获取 API Key

使用电话号注册即可

输入名称,并复制 API key!

秘钥:sk-1545159be55041ca97a4c088a5afcb2d


(2)查阅 API 文档

先使用curl命令

下面我们先简单使用 一下,请求体中模型名称用户输入


(3)构建 HTTP 请求

此处使用postman简单演示一下,输入请求 和请求 ,以及之前保存的秘钥

:秘钥前面的 Bearer 别忘了,模型平常用deepseek-v4-flash(轻量/快速版)即可。


记得先充值点


(4)发送请求并处理响应

点击Send


3.2 本地部署-开源模型

开源的LLM (如Llama、ChatGLM、Qwen)下载自己硬件 环境(本地服务器/私有云)上。

利用推理框架 (如 Ollama、llama.cpp、vLLM 等)在本地服务器/GPU 上启动模型 ;然后通过 API、命令行、Web 界面 等方式进行交互

(1)获取模型 :从Hugging Face(国外)、魔搭社区(国内)等平台下载开源模型的权重。

(2)准备环境 :配置具有足够显存 (如NVIDIA GPU)的服务器,安装 必要的驱动推理框架

(3)选择推理框架 :使用专为生产环境 设计的框架部署模型

(4)启动服务并调用 :框架会启动 一个本地API服务器 (如 http://localhost:8000 ),你可以 调用云端API一样向这个本地 地址发送请求


Ollama 为例,它支持多种开源 模型(如qwen、deepseek、LLaMA),并提供简单的API接口

(1)下载并安装Ollama

官网:https://ollama.com/download

魔法网正常网切换 下载会快一点,下载好后点击默认安装即可 ;安装完成后,Ollama会默认 启动

查看启动是否成功http://127.0.0.1:11434/

使用cmd 输入 ollama --version


(2)拉取模型 :Ollama可以管理和部署模型 ,我们使用之前,需要先拉取模型

修改模型存储路径到D盘 ,可通过配置系统环境变量 设置,变量名: OLLAMA_MODELS 变量值: ${自定义路径}

或 Ollama界面设置

设置完成后,重启 Ollama。


查找模型 https://ollama.com/search

②正式拉取模型 :以deepseek-r1 为例,根据自己机器的配置 需求来选择相应的版本;版本以 1.5b 为例。

版本分为1.5b、7b、8b 等,b是Billion(十亿) 的缩写,代表模型的参数量级671b满血 版本,其他 版本称为蒸馏版本。

参数越多→模型"知识量"越大→处理复杂任务的能力越强 ,硬件需求也越


cmd 中输入 ollama run deepseek-r1:1.5b 进行下载


(3)测试

下载完成 后,可以通过命令行和AI模型对话

下次登录输ollama run deepseek-r1:1.5b即可


查看已下载 的模型:ollama list


(4)也可以通过接口调用

本地 Ollama 服务 发送一条对话请求 , 服务处理后会 返回一个JSON 对象,其中包含模型的回复内容。


此处使用postman简单演示一下


4.1 API 远程调用 的进一步优化

3.3 SDK、官方编程语言库

SDK 接入本质上不是 一种独立的接入方式,而是对底层 HTTP API 调用封装与简化

模型厂商 (或社区)提供的官方编程语言库(如 OpenAI Python SDK)会隐藏 认证、请求构造、流式解析等细节,将复杂 的远程调用包装 成符合语言习惯的本地函数

开发者只需引入这些官方 第三方工具包,就能以极低成本、快速且安全地 让程序拥有大模型对话能力,显著简化开发流程


OpenAI Python SDK为例

(1)在python中安装库

新建项目

安装库:pip install openai


(2)**创建 一个名为example.py** 的文件 ,输入代码 ;输入 OpenAI 对应的秘钥,此处使用gpt-4o-mini模型。

python 复制代码
from openai import OpenAI
client = OpenAI(api_key="your-api-key")

response = client.responses.create(
    model="gpt-4o-mini",
    input="介绍⼀下你⾃⼰。"
)

print(response.output_text)

4.1暂未调用OpenAI,此处暂不演示。

3.4 总结

SDK必选的开发工具,它并 与"API 远程调用 "和"本地部署 "并列 ,而是为两者提供统一的调用方式。


实际上,只要是原生LLM,无论怎么接入都有限制。


LangChain这样的框架 ,正是为了系统性地解决这些问题而诞生的。

原生LLM更像一个"聪明的大脑 ",但缺少 "记忆、知识和规划能力",接入方式 决定你如何连接这个大脑。

LangChain这类框架则是在为这个大脑装上工具、内存和外挂 ,让它能干真正复杂的活。

4.嵌入模型

4.1 概念


4.2 应用场景

(1)语义搜索

Semantic Search

(2)检索增强生成-RAG

Retrieval-Augmented Generation

(3)推荐系统

Recommendation Systems

(4)异常检测

Anomaly Detection

4.3 主流的嵌入模型

https://huggingface.co/spaces/mteb/leaderboard

4.4 嵌入模型接入方式

接入和使用方式根据模型类型 (开源或闭源)有根本性的不同

text-embedding-3-large(OpenAI) 为例,4.1暂未调用OpenAI,此处暂不演示。

(1)API接入-闭源

模型提供商 的服务端发送一个HTTP请求即可

①****注册账号并获取API Key :在对应的云服务平台上注册账号,获取 用于身份验证的API Key

②****安装SDK或构造HTTP请求 :使用官方提供的SDK直接构造HTTP请求。

③****调用API并处理响应 :发送文本,接收返回的JSON格式的向量数据。


①****类似4.1(1)

②-1****发起HTTP请求,在postman中,类似4.1(3)

响应包含嵌入向量(浮点数列表)以及一些其他元数据


**-2接入SDK,在python中,类似4.3。**

pip install openai

python 复制代码
# 使⽤ OpenAI Python SDK 
from openai import OpenAI
import os

# 1. 设置 API Key 
client = OpenAI(api_key="your-api-key")

# 2. 准备输⼊⽂本 
text = "这是⼀段需要转换为向量的⽂本。"

# 3. 调⽤ API 
response = client.embeddings.create(
    model="text-embedding-3-large", # 指定模型 
    input=text,
    dimensions=1024 # 可选:指定输出维度,例如从3072降维到1024 
)

# 4. 获取向量 
embedding = response.data[0].embedding
print(f"向量维度:{len(embedding)}")
print(embedding)

(2)本地部署-开源


4.5 总结

5.AI模型平台

5.1 Hugging Face(国外)

https://huggingface.co/

5.2 魔搭社区(国内)

https://www.modelscope.cn/

相关推荐
风落无尘14 小时前
LangChain 完全入门指南:从基础到实战(附面试题)
人工智能·langchain
深海鱼在掘金21 小时前
深入浅出 LangChain —— 第五章:工具系统
人工智能·langchain·agent
深海鱼在掘金21 小时前
深入浅出 LangChain —— 第四章:提示词工程
人工智能·langchain·agent
技术钱1 天前
LangChain简介
python·langchain
hrhcode1 天前
【LangGraph】五.人机协作:审批和中断
python·ai·langchain·agent·langgraph
茉莉玫瑰花茶1 天前
LangChain 核心组件 [ 1 ]
ai·langchain
羑悻的小杀马特1 天前
深入 LangChain 内存向量存储(Memory Vector Stores):架构解析与优化
数据库·架构·langchain·向量存储
hrhcode1 天前
【LangGraph】六.多 Agent 协作:Subgraph 机制
python·ai·langchain·langgraph·ai框架
敲上瘾1 天前
LangChain 结构化输出与流式传输
python·语言模型·langchain·aigc