llama.cpp作为crewAI的模型后端

环境与版本

  • win10,Python 3.13.7

  • 库版本

    crewai1.5.0
    crewai-tools1.5.0

    langchain-classic1.0.0
    langchain-community0.4.1

    langchain-core1.0.5
    langchain-openai1.0.3

    langchain-text-splitters==1.0.0

  • llama.cpp 下载最新win版本

测试代码

python 复制代码
# test_crewai_minimal.py
import os
from langchain_openai import ChatOpenAI
from crewai import Agent, Task, Crew
from langchain_core.globals import set_debug
set_debug(True)

os.environ["OPENAI_API_BASE"] = "http://127.0.0.1:8080/v1"
os.environ["OPENAI_API_KEY"] = "not-needed"

local_llm = ChatOpenAI(
    model_name="local-model",
    openai_api_base="http://127.0.0.1:8080/v1",
    openai_api_key="not-needed",
    temperature=0.7,
    request_timeout=30,
)

# 3. 创建一个简单的 Agent,并显式指定 LLM
general_agent = Agent(
    role='Simple Agent',
    goal='Just answer a simple question',
    backstory='You are a helpful assistant.',
    verbose=True,
    llm=local_llm # <--- 显式指定
)

# 4. 创建一个简单的 Task
simple_task = Task(
    description="What is the capital of France? Just give the name of the city.",
    expected_output="The name of the city.",
    agent=general_agent
)

# 5. 创建 Crew 并执行
crew = Crew(
    agents=[general_agent],
    tasks=[simple_task],
    verbose=True
)

print("Starting the minimal CrewAI test...")
result = crew.kickoff()
print("\n--- Final Result ---")
print(result)

llama.cpp运行命令:

powershell 复制代码
llama-server -m e:\llama\Qwen3VL-8B-Instruct-Q4_K_M.gguf --no-mmproj-offload --no-warmup --jinja -t 8 -c 4096 -b 1

没有GPU显卡,纯CPU。

正常结果:

llama.cpp后端会有请求和相应:

修改ompletion.py

路径:D:\Python\Lib\site-packages\crewai\llms\providers\openai\completion.py

python 复制代码
"base_url": os.environ["OPENAI_API_BASE"] if self.base_url is None else self.base_url
相关推荐
JOJO___1 天前
【2026】记录在windows编译llama.cpp步骤,AMD CPU本地部署千问3.5本地大模型,内存占用低
windows·cpu·amd·llama.cpp·llama.cpp编译·千问3.5·本地大语言模型
曦云沐2 天前
MacOS 上使用 Metal GPU 加速编译 llama.cpp 完整指南
macos·llama.cpp
feasibility.10 天前
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
大龄码农有梦想10 天前
Spring AI Alibaba和CrewAI:多智能体开源框架对比与选型
spring ai·crewai·多智能体协作框架·spring ai阿里巴巴·spring ai aliba·java智能体框架·python智能体框架
大龄码农有梦想10 天前
单智能体编排 vs 多智能体协作:AI应用开发技术路线之争
人工智能·dify·langgraph·工作流编排·crewai·单智能体编排·多智能体协助
晨欣1 个月前
单卡 L20 48GB实测 | 同是 Q8_0,为什么 Qwen3.6 在 llama.cpp 长上下文下比 Qwen3.5 更慢?
llama.cpp·qwen3.6-35b-a3b·qwen3.5-35b-a3b
Java码农也是农1 个月前
Agent编排框架对比:LangGraph vs AutoGen vs CrewAI
langchain·autogen·langgraph·crewai
d1z8881 个月前
(二十)32天GPU测试从入门到精通-llama.cpp CPU/GPU 混合推理day18
人工智能·llama·显卡·llama.cpp
gergul1 个月前
在llama-cpp-python中使用自己编译的llama.cpp,解决pip install llama-cpp-python报错
python·llama·llama.cpp·llamacpppython
晨欣1 个月前
单卡 48GB 实测:Gemma 4 26B A4B、Gemma 4 31B、gpt-oss-20b 三模型部署与并发对比
google·openai·nvidia·vllm·llama.cpp·gpt-oss-20b·gemma4