大语言模型运行工具及格式 Ollama操作大模型 LangChain应用开发框架【2026】

大语言模型运行工具及格式

运行工具(软件):

1、LM Studio:最推荐新手。

2、Ollama:开发者。

3、llama.cpp:底层引擎,性能天花板、可深度调优。

4、vLLM:高并发/生产环境,企业级高性能推理服务。

大模型的格式,GGUF = Generic Graph Update Format:

.gguf,目前通用标准,取代旧格式,Ollama、llama.cpp、vLLM、所有本地部署首选。

.ggml,老版本格式,已淘汰,不再用;旧版 llama.cpp 遗留

.bin/.safetensors,原生PyTorch/HuggingFace原模型,训练、微调、HuggingFace下载原版模型。

.gptq,GPU量化专用 旧版量化、部分显卡专属。

.

awq,另一种 GPU 量化格式,高性能显卡推理。

Ollama操作大模型

Ollama = 本地大模型的「Docker」+「HTTP 服务器」+「模型管家」

Ollama环境变量:OLLAMA_MODELS=F:\ProgramData\Ollama_Models,模型存储目录。

复制代码
OLLAMA_MODELS/
├── blobs/【真实模型文件,核心权重文件】
├── manifests/【清单 & 索引】
│   └── registry.ollama.ai/
│       └── library/
└── models/【软链接/分层映射】

Ollama提供的Web 服务: http://localhost:11434

复制代码
# 启动&停止
net stop ollama
net start ollama

# 拉取模型
ollama pull qwen2.5:7b-instruct
ollama pull qwen2.5:14b-instruct
ollama pull deepseek-coder:14b

# 启动并进入对话窗口
ollama run qwen2:7b
# 退出对话
/bye

# 单纯加载驻留内存,不进终端
ollama run qwen2.5:7b-instruct ""

# 启动设置保活,加载后一直不释放
ollama run qwen2.5:7b-instruct && ollama keepalive -1

# 后台静默启动(纯 API 服务用)
ollama serve

# 启动,限制上下文长度(num_ctx)、CPU线程(num_thread)
ollama run qwen2:7b --num_ctx 8192 --num_thread 16

# 查看状态
tasklist | findstr ollama
netstat -ano | findstr 11434

# 查看本地已下载的模型
ollama list
# 查看正在运行占用内存的模型
ollama ps

# 停止指定模型
ollama stop qwen2:7b
# 停止所有运行模型
ollama stop all

# 清理不用的模型
ollama rm 模型全名

LangChain应用开发框架

LangChain 是一个「大模型应用开发框架」,它不是大模型,不训练模型,不生成权重,旨在快速、低成本、用代码搭建大模型应用。

LangChain家族(三大版本):LangChain (Python) --- 最成熟、功能最全;LangChain.js (JavaScript/TS) --- 前端/Node用;LangChain4j (Java) --- Java / SpringBoot后端用。

LangChain,功能对等的最佳匹配版本:

Python端:langchain==1.2.17,地址:https://www.langchain.com.cn/。

前端/Node端:LangChain.js==1.2.35,地址:https://docs.langchain.com/oss/javascript/langchain/overview。

Java端:langchain4j==1.13.0, 地址:https://docs.langchain4j.dev/,中文官网:https://langchain4j.cn/。

相关推荐
米小虾16 分钟前
DSpark:让大模型"写得更快"的秘密武器
人工智能·deepseek
JavaGuide28 分钟前
比 iTerm2 更适合 Claude Code/Codex 的终端,我换成 Ghostty 了
人工智能·后端
threerocks39 分钟前
神级 Skill,作品个个儿爆,我开源了长期自用的手绘风格库
人工智能·aigc
小爷毛毛_卓寿杰2 小时前
我把一个 3B 模型塞进了 Xinference,然后它干掉了 DeepSeek V3.2
人工智能·开源·github
秦先生在广东2 小时前
Agent 闭环才是真正的护城河:Anthropic “300 个 Agent“ 背后被忽视的秘密
人工智能
Bigfish_coding2 小时前
前端转agent-【python】- 14 记忆系统优化:摘要与遗忘
人工智能
Bigfish_coding2 小时前
前端转agent-【python】-13 Ollama Python流式输出教程:stream=True 与 async 实践
人工智能
字节跳动数据库4 小时前
文章分享——相似函数处理方法
人工智能·后端·程序员
Bigfish_coding4 小时前
前端转agent-【python】-12 LangChain 入门实战:RAG + LCEL 链式调用
人工智能
程序员cxuan5 小时前
读懂 Claude Code 架构分析系列,第一篇,开始!
人工智能·后端·架构