如何从0到1开发一个AI Agent

引言

在日常生活中、工作中，从openClaw到各种Code Agent，我们接触了各种各样的AI Agent，这也是AI大模型在日常应用中最主要的应用形式。

早期的AI应用，大多停留在"提示词调优"的阶段------通过优化单次对话的Prompt，让大模型完成特定任务。但当我们试图让AI真正落地到复杂业务场景时，慢慢发现，只通过对Prompt的优化很快就遇到了瓶颈：工具调用频繁出错、多任务协同混乱、上下文溢出导致幻觉等问题层出不穷。

针对这些问题，慢慢衍生出一些标准的工程化基础设施如MCP、SKILLS以及Context Engineer，用于支撑AI Agent尽可能的稳定运行，尽可能可靠的处理复杂业务场景的问题。

本文首先会对衍生出的标准工程化基础设施进行简要介绍，然后通过实现一个简化版的个人助理Agent，来看下MCP、SKILLS以及Context Engineer是如何支撑Agent稳定运行的。

前置介绍

开始实现Agent之前，首先对相关概念做一个基本的介绍，由于本文最终目标是实现一个简化板个人助理Agent，不会对相关概念做深入解析，这里只做简单的介绍，想了解更多，可自行查询对应的文档。

1.1 MCP：统一的工具调用协议层

MCP（Model Context Protocol，模型上下文协议）是由Anthropic 公司在2024 年 11 月 25 日开源发布，其核心定位，是为大模型与工具之间提供一套统一的、上下文感知的通信协议。它向下兼容各类CLI工具、API服务、系统能力，向上给Agent提供标准化的工具调用接口，解决了工具碎片化、适配成本高、调用不稳定的核心问题。

其核心能力价值体现在三个方面：

标准化的工具定义与交互规范：MCP定义了统一的工具元数据格式、参数校验规则、返回结构与错误处理机制，Agent无需针对单个工具做定制化适配，只需遵循MCP协议即可完成调用，大幅提升工具调用的成功率与稳定性；
原生的上下文感知能力：不同于传统工具调用的静态参数传递，MCP可以将Agent的会话上下文、历史执行记录、用户权限等信息同步给工具，让工具可以结合上下文动态调整执行逻辑，实现更智能的交互；
分层的安全与权限管控：MCP内置了权限隔离、调用审计、沙箱执行等能力，开发者可以精细化管控Agent对工具的访问权限，限制高危操作，同时完整记录所有调用日志，解决了原生CLI的安全风险问题。

1.2 SKILLS：面向业务的工具链封装

SKILLS的本质，是将多个原子工具、固定的业务流程、Prompt逻辑、错误处理机制打包封装成的可复用业务能力单元。比如"用户行为数据分析"技能，就可以封装"SQL数据查询→数据清洗→指标计算→可视化生成→报告输出"的全流程，整合多个原子工具，内置对应的业务逻辑与异常处理方案。

它解决了Agent工程化中的两个核心痛点：

解决工具调用的碎片化问题：无需让大模型每次都从零拆解任务、逐个调用工具，大幅降低大模型的推理压力，减少任务拆解错误与工具调用幻觉；
实现业务能力的可复用：封装好的SKILLS可以在不同Agent、不同场景中直接复用，大幅降低Agent的开发成本，同时保证业务逻辑的一致性。

二者的协同关系非常清晰：MCP提供标准化的协议与管控层，SKILLS基于前两者完成面向业务的能力封装，共同构成了Agent完整的行动体系，让Agent真正具备"动手做事"的能力。

1.3 Context Engineer------贯穿Agent全生命周期的神经系统

在AI Agent的落地实践中，有一个被绝大多数人忽视的真相：80%的Agent故障，都不是大模型能力不足，而是上下文管理混乱导致的。

不该传给大模型的冗余信息塞满了上下文窗口，导致核心信息被截断；该同步给工具/子Agent的关键上下文没有传递，导致执行错误；历史执行记录没有被有效召回，导致重复犯错；敏感信息没有脱敏，导致数据泄露......基于这些问题，它需要一套完整的、贯穿Agent全生命周期的工程化体系------这就是Context Engineer（上下文工程）。

1.3.1 Context Engineer与Prompt Engineering的核心区别

在AI发展早期，更被人熟知的是Prompt Engineer（提示词工程），其目标是通过设计、优化、调试 Prompt（提示词），让 AI模型稳定输出符合业务预期的结果。

很多人会把Context Engineer和Prompt Engineering混为一谈，但二者有着本质的区别：

Prompt Engineering是单点的、单次的优化，针对的是单次大模型调用的提示词，目标是让大模型在单次调用中输出符合预期的结果；
Context Engineer是体系化的、全生命周期的工程，针对的是Agent从启动到任务结束的全流程上下文，目标是让整个Agent系统的信息流转高效、准确、可控，支撑整个能力闭环的稳定运行。

如果说Prompt Engineering是"给AI说一句正确的话"，那么Context Engineer就是"给AI搭建一套完整的信息处理系统"。

1.3.2 Context Engineer的核心模块与能力

Context Engineer贯穿Agent的感知-规划-行动-记忆-反思全流程，其核心体系分为五大模块：

上下文采集与标准化层 这是整个体系的入口，负责采集Agent全流程的所有上下文信息，包括用户输入、工具执行结果、多Agent交互信息、外部系统数据、环境反馈等。同时完成信息的标准化处理，包括格式统一、无效信息过滤、语义结构化，确保所有进入系统的信息，都能被Agent的各个模块精准识别。
上下文存储与记忆管理层 这是整个体系的"记忆中枢"，负责上下文的分层存储与生命周期管理。它将上下文分为三类：
- 短期记忆：当前会话的实时上下文，支撑当前任务的规划与执行；
- 中期记忆：任务全流程的执行记录、中间结果、反馈信息，支撑任务的复盘与反思；
- 长期记忆：用户历史偏好、业务知识、行业数据、历史任务沉淀的经验，支撑Agent的长期能力迭代。通常会结合向量数据库、关系型数据库、时序数据库，实现热数据、温数据、冷数据的分层管理，兼顾召回效率与存储成本。
上下文路由与分发层 这是整个体系的"信息调度中枢"，核心目标是"把正确的信息，在正确的时间，发给正确的模块"。比如在规划阶段，给大模型传入任务目标、历史执行记录、业务规则等核心上下文；在行动阶段，给对应工具传入参数所需的专属上下文；在多Agent协作时，给不同的子Agent分发其任务所需的上下文，同时隔离无关信息，避免信息冗余。它解决了上下文"该给谁、不该给谁"的问题，避免信息泛滥导致的系统混乱。
上下文压缩与优化层 这是解决大模型上下文窗口限制、提升推理效率的核心模块。随着任务的推进，上下文会持续膨胀，很容易超出大模型的窗口限制，导致核心信息丢失、幻觉频发。该模块通过语义摘要、冗余信息剔除、RAG精准召回、窗口分层管理等技术，在完整保留核心语义的前提下，对上下文进行动态压缩与优化。同时基于任务阶段，动态调整上下文的内容，只给大模型传入当前阶段所需的核心信息，大幅提升大模型的推理效率与输出准确性。
上下文安全与合规层 这是整个体系的"安全闸门"，负责全流程的上下文安全管控。包括用户隐私信息脱敏、企业机密数据权限管控、敏感内容过滤、合规审计日志留存等。它确保不同的Agent、工具、用户，只能访问其权限范围内的上下文信息，从根源上避免数据泄露、合规风险等问题。

Context Engineer的核心价值，就是为Agent的整个能力闭环搭建一套高效、可控的信息流转体系。它就像人体的神经系统，把感知、规划、行动、记忆、反思的各个环节连接起来，确保所有信息都能精准、高效地流转，让整个Agent系统稳定、可控地运行。

实现个人助理Agent

开始之前，先明确下Agent具备的基本功能，个人助理Agent主要用于采用聊天的方式收集并整理用户任务，并可以对任务进行整理总结，包含以下基本功能：

支持MCP配置
支持SKILL
交互方式采用终端聊天的方式

技术栈选择pydentic-AI框架，选择Agent框架原因是为了聚焦Agent核心实现逻辑，对于一些繁琐的边缘操作，比如：同模型提供商通信的逻辑、以及MCP协议解析相关的逻辑均使用框架提供的封装。

效果展示

Agent启动

MCP工具查询

任务创建

任务查询

获取任务报告

实现解析

交互层

交互采用终端聊天的方式，通过阻塞式stdio，实现通信，具体代码如下：

python 复制代码

class TUI:
    def __init__(self):
        self.running = True

    # 开始欢迎语
    def print_welcome(self) -> None:
        print("=" * 50)
        print("Task Assistant Agent 已就绪，请开始对话")
        print("输入 'exit' 或 'quit' 退出程序")
        print("=" * 50)
        print()

    # 打印消息内容
    def print_message(self, message: str) -> None:
        print(f"[助手]: {message}")

    # 获取用户消息
    def get_user_input(self) -> str:
        try:
            user_input = input("你: ").strip()
            return user_input
        except (EOFError, KeyboardInterrupt):
            return ""

    # 检查是否是退出命令
    def should_exit(self, user_input: str) -> bool:
        return user_input.lower() in ["exit", "quit"]

    # 退出友好提示
    def print_goodbye(self) -> None:
        print()
        print("=" * 50)
        print("感谢使用，再见！")
        print("=" * 50)

具体使用方式如下：

python 复制代码

def run() -> None:
    tui = TUI()

    # 打印欢迎语
    tui.print_welcome()

    while tui.running:
        # 等待用户输入
        user_input = tui.get_user_input()

        if not user_input:
            continue

        if tui.should_exit(user_input):
            tui.running = False
            tui.print_goodbye()
            break


        try:
            # ...省略部分逻辑...

            # 打印消息
            tui.print_message(response)

        except Exception as e:
            error_msg = f"处理请求时出错: {str(e)}"
            # 打印消息
            tui.print_message(error_msg)

if __name__ == "__main__":
    run()

交互逻辑比较简单，通过在Agent在开始运行时，示例化TUI，然后通过调用tui.print_welcome()打印欢迎语，然后通过tui.get_user_input()等待用户输入消息，内部通过读取终端标准输入实现，while死循环实现不间断持续聊天的效果。

执行效果如下：

Agent核心调度层

这部分主要包括Agent创建、系统提示词、上下文管理、任务管理等核心功能，具体代码如下：

python 复制代码

from pydantic_ai import Agent, RunContext
from pydantic_ai.models.openai import OpenAIChatModel
from pydantic_ai.providers.deepseek import DeepSeekProvider
from pydantic import BaseModel, ConfigDict
from typing import Optional

from load_skill import SkillInferenceEngine
from models import Task, Priority, Status
from store import TaskStore
from load_mcp import load_mcp_config

# 添加任务结果对象模型
class AddTaskResult(BaseModel):
    success: bool
    message: str
    task_id: Optional[str] = None

# 任务列表对象模型
class TaskListResult(BaseModel):
    success: bool
    tasks: list[dict]
    total: int

# 任务报告对象模型
class TaskReportResult(BaseModel):
    success: bool
    report: dict

# Agent上下文依赖模型
class AgentDeps(BaseModel):
    model_config = ConfigDict(arbitrary_types_allowed=True)
    task_store: TaskStore
    skill_engine: SkillInferenceEngine

# 系统提示词
system_prompt = """你是一个任务助手，帮助用户管理日常任务。

你有以下能力：
1. 添加新任务：从用户的输入中提取任务内容和优先级，然后添加到任务列表
2. 查看任务列表：列出所有任务或按优先级/状态筛选
3. 生成任务报告：按时间整理任务，提供统计信息

添加任务时，默认优先级为 medium（中等），除非用户明确指定 high（高）或 low（低）。

请用中文回复。"""

# 创建Agent方法
def create_agent(
    mcp_config_path: str | None = None,
) -> Agent[AgentDeps]:
    # MCP相关处理
    mcp_servers = []
    if mcp_config_path:
        mcp_servers = load_mcp_config(mcp_config_path)

    # 构造deepseek模型连接实例
    model = OpenAIChatModel("deepseek-v4-pro", provider=DeepSeekProvider())

    current_system_prompt = system_prompt

    # 构造Agent
    agent = Agent(
        model,
        system_prompt=current_system_prompt,
        deps_type=AgentDeps,
        toolsets=mcp_servers,
    )

    @agent.tool
    def add_task(
        ctx: RunContext[AgentDeps], content: str, priority: str = "medium"
    ) -> AddTaskResult:
        """添加一个新任务"""
        try:
            priority_enum = Priority(priority.lower())
        except ValueError:
            return AddTaskResult(
                success=False,
                message=f"无效的优先级: {priority}，有效值为 high, medium, low",
            )

        task = Task(content=content, priority=priority_enum)
        ctx.deps.task_store.add_task(task)

        return AddTaskResult(
            success=True, message=f"任务已添加：{content}", task_id=task.id
        )

    @agent.tool
    def list_tasks(
        ctx: RunContext[AgentDeps],
        priority_filter: str | None = None,
        status_filter: str | None = None,
    ) -> TaskListResult:
        """列出所有任务"""
        tasks = ctx.deps.task_store.get_all_tasks()

        if priority_filter:
            try:
                priority_enum = Priority(priority_filter.lower())
                tasks = [t for t in tasks if t.priority == priority_enum]
            except ValueError:
                pass

        if status_filter:
            try:
                status_enum = Status(status_filter.lower())
                tasks = [t for t in tasks if t.status == status_enum]
            except ValueError:
                pass

        tasks.sort(key=lambda t: (t.priority.value, t.created_at))

        return TaskListResult(
            success=True, tasks=[t.model_dump() for t in tasks], total=len(tasks)
        )

    @agent.tool
    def get_task_report(ctx: RunContext[AgentDeps]) -> TaskReportResult:
        """生成按时间整理的任务报告"""
        report = ctx.deps.task_store.generate_report()

        all_tasks = ctx.deps.task_store.get_all_tasks()
        if all_tasks:
            all_tasks.sort(key=lambda t: t.created_at)
            report["timeline"] = {
                "earliest": all_tasks[0].created_at.isoformat() if all_tasks else None,
                "latest": all_tasks[-1].created_at.isoformat() if all_tasks else None,
            }

        return TaskReportResult(success=True, report=report)

    return agent

重点关注create_agent方法，使用pydantic-ai实例化一个Agent非常方便，主要包括两个步骤：

构造模型连接实例，这一步主要是对模型提供商sdk或api的封装，pydantic-ai内部提供了对市面上几乎所有主流的模型提供商的支持，这里我们选择Deepseek的deepseek-v4-pro来作为我们的底层模型。
构造智能体，通过实例化Agent类时传入上一步的连接实例，得到Agent实例，后续和模型的通信，均基于该Agent实例。

除了基本的Agent实例创建，pydantic-ai还支持内部的工具函数，通过@agent.tool装饰器装饰的方法会被注册成工具函数，供模型在特定场景调用。本次开发的智能体作为演示，注册了3个方法，分别会在添加任务时、获取任务列表时、获取任务报告时调用。

MCP的支持

前面提到过，MCP是一个通信协议，规定了客户端和服务端以什么方式通信，Agent中对MCP功能的支持，主要指的是将Agent作为MCP客户端，如果完全从零实现MCP客户端，需要实现协议层（对JSON‑RPC 2.0协议的编解码）、传输层（分别对stdio、sse、Streamable HTTP的支持）、会话层（管理连接的生命周期）等等，可见还是很繁琐了（感兴趣的可以自行研究实现）。不过好在pydantic-ai框架提供了开箱即用的MCP客户端实现，具体代码如下：

python 复制代码

from typing import List, TypedDict
import json
from pathlib import Path

from pydantic_ai.mcp import MCPServerStdio

# MCP配置数据类型接口
class MCPConfig(TypedDict):
    command: str
    args: List[str]
    cwd: str

# 解析mcp配置
def process_mcp_config(list: list[MCPConfig]) -> list[MCPServerStdio]:
    configs = []
    for config in list:
        configs.append(MCPServerStdio(
            config['command'],
            args=config['args'],
            timeout=10,
            cwd=config['cwd']
        ))
    return configs


# 加载mcp配置文件
def load_mcp_config(config_path: str | Path) -> list[MCPServerStdio]:
    path = Path(config_path)
    if not path.exists():
        return process_mcp_config([])
    with open(path, "r", encoding="utf-8") as f:
        data = json.load(f)
        return process_mcp_config(data['mcp_servers'])

MCP加载解析文件主要包括两个方法：

load_mcp_config方法，用于读取解析mcp配置文件
process_mcp_config方法，针对每个mcp配置通过MCPServerStdio构建对应的客户端，最终返回一个MCP客户端集合

具体使用方式如下：

python 复制代码

def create_agent(
    mcp_config_path: str | None = None,
) -> Agent[AgentDeps]:
    mcp_servers = []
    
    # 如果mcp配置路径存在，加载mcp配置
    if mcp_config_path:
        mcp_servers = load_mcp_config(mcp_config_path)

    model = OpenAIChatModel("deepseek-v4-pro", provider=DeepSeekProvider())

    current_system_prompt = system_prompt

    agent = Agent(
        model,
        system_prompt=current_system_prompt,
        deps_type=AgentDeps,
        toolsets=mcp_servers,
    )

MCP的加载位于agent文件的create_agent方法中，在开始实例化Agent之前调用load_mcp_config加载MCP配置，然后在实例化Agent时，传入获取的MCP配置（作为toolsets传入）。

SKILL的支持

开始实现SKILL功能支持的代码之前，先来梳理下SKILL的解析流程，主要包含两个阶段，分别是 SKILL加载阶段和 SKILL执行阶段。

SKILL的加载比较简单，主要是加载skills目录中的SKILL.md文件，然后依次提取SKILL.md文件的Frontmatter字段（本次实现只支持name和description字段），然后构成SKILL.md的技能列表，列表中只包括SKILL.md的元数据。重点介绍下SKILL的执行阶段。

众所周知，SKILL最核心的特点是按需加载，渐进式披露，这也是其风头强盛的原因之一。那么该如何实现其渐进式披露的功能呢？

核心逻辑其实很简单，首先当获取到用户的输入内容时，依次和收集的SKILL元数据的描述内容做对比，如果匹配到了，说明命中了SKILL，然后通过该SKILL的元数据信息获取完整的SKILL内容，将该内容拼接到系统提示词后面，随用户输入的内容一起发送给大模型。

针对上面的逻辑，有两个问题待解决：

如何判断用户输入的内容和哪个SKILL的描述更吻合？
如果用户输入的内容和每个SKILL的描述差别都很大，但终究会找到了一个相对来说更吻合一些的SKILL执行，对用户来说也是不合理（如果都差别很大，就都不执行才对），这个场景该怎么处理？

先回答第一个问题，判断用户输入的内容和和哪个SKILL的描述更吻合，答案是通过向量化来实现，将所有SKILL的名称(name)+描述(description)转化为向量，然后同样将用户输入的内容也转化为向量，将用户内容向量和每个SKILL向量依次计算余弦相似度，得分越高的SKILL，说明和用户内容越接近。

然后是第二个问题，也很简单，直接设置一个的阈值，只有超过这个阈值SKILL并且相对来说得分最高的SKILL才算命中。接下来看下代码中的具体实现：

python 复制代码

def preprocess() -> SkillInferenceEngine:
    # 加载skills
    skills = load_skills_from_directory("skills")

    # 创建向量库
    store = SkillVectorStore()

    # 注册skills
    for skill in skills:
        store.add_skill(skill)

    # 构建检索索引
    store.build_index()

    # 构建推理引擎
    engine = SkillInferenceEngine(store)

    return engine

首先看下preprocess方法，开始先通过load_skills_from_directory加载skills内容，其代码如下：

python 复制代码

def parse_frontmatter(markdown: str) -> tuple[dict, str]:
    """
    解析 markdown 文件的 frontmatter 和内容

    Args:
        markdown: 原始 markdown 内容

    Returns:
        (frontmatter_dict, content_without_frontmatter)
    """
    match = FRONTMATTER_REGEX.match(markdown)
    if not match:
        return {}, markdown

    frontmatter_text = match.group(1)
    content = markdown[match.end():]

    frontmatter = {}
    for line in frontmatter_text.split('\n'):
        if ':' in line:
            key, _, value = line.partition(':')
            frontmatter[key.strip()] = value.strip()

    return frontmatter, content

def load_skill_from_file(file_path: str) -> Optional[Skill]:
    """
    从单个 SKILL.md 文件加载技能

    Args:
        file_path: SKILL.md 文件路径

    Returns:
        Skill 对象，解析失败返回 None
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            content = f.read()
    except (IOError, OSError):
        return None

    frontmatter, markdown_content = parse_frontmatter(content)

    # 解析 name（目录名作为 fallback）
    skill_name = frontmatter.get('name')
    if not skill_name:
        skill_name = Path(file_path).parent.name

    # 解析 description（取第一行作为 fallback）
    description = frontmatter.get('description')
    if not description:
        for line in markdown_content.split('\n'):
            line = line.strip()
            if line:
                if line.startswith('#'):
                    description = line.lstrip('#').strip()
                else:
                    description = line
                break
        if not description:
            description = skill_name

    return Skill(
        name=skill_name,
        description=description,
        content=markdown_content.strip(),
        file_path=file_path
    )

def load_skills_from_directory(skills_dir: str) -> list[Skill]:
    """
    从 skills 目录加载所有技能

    目录结构:
        skills/
            skill-name/
                SKILL.md
            another-skill/
                SKILL.md

    Args:
        skills_dir: skills 根目录路径

    Returns:
        Skill 对象列表
    """
    skills = []
    skills_path = Path(skills_dir)

    if not skills_path.exists():
        return skills

    for entry in skills_path.iterdir():
        if not entry.is_dir():
            continue

        skill_file = entry / 'SKILL.md'
        if not skill_file.exists():
            continue

        skill = load_skill_from_file(str(skill_file))
        if skill:
            skills.append(skill)

    return skills

整体skills的加载有三个方法构成，分别是

load_skills_from_directory：从skills目录加载所有单独skill目录
load_skill_from_file：从每个单独skill目录加载解析SKILL.md文件
parse_frontmatter：解析SKILL.md文件，提取Frontmatter中的name和description，以及SKILL内容

这里做了简化处理，直接写死从固定目录中加载SKLL，在真实场景中，还需要包含从项目根目录、内部设置的全局目录、内置skill目录中加载。

然后是创建向量库，代码如下：

python 复制代码

class SkillVectorStore:
    def __init__(self):
        self.model = SentenceTransformer('./all-MiniLM-L6-v2')  # 轻量语义模型
        self.skills: List[Skill] = []
        self.index = None
        self.embeddings = []

    # 把技能描述向量化
    def add_skill(self, skill: Skill):
        text = f"{skill.name} {skill.description}"
        emb = self.model.encode([text])[0]
        self.skills.append(skill)
        self.embeddings.append(emb)

    # 构建 FAISS 检索库
    def build_index(self):
        emb_np = np.array(self.embeddings).astype('float32')
        self.index = faiss.IndexFlatL2(emb_np.shape[1])
        self.index.add(emb_np)

    # 检索最匹配的技能
    def search(self, query: str, top_k=1):
        query_emb = self.model.encode([query])
        D, I = self.index.search(np.array(query_emb).astype('float32'), top_k)
        idx = I[0][0]
        score = 1 - D[0][0] / 10  # 转成相似度 0~1
        return self.skills[idx], score

这个类主要功能包括：

add_skill：对SKILL元数据进行向量化
build_index：为所有SKILL向量化后的向量集合构建索引，用于后续的高效相似度检索
search：对用户内容进行向量化，然后通过构建的索引执行相似度检索

这里用到了两个工具，分别是：

FAISS：Facebook 开源的本地向量库，支持超快相似度检索、意图检索

Sentence-Transformers：文本向量化模型，特点是轻量可本地运行，用于把文字变成向量
有关这两个工具的详细信息，感兴趣的自行研究。

向量库实例构造好以后，遍历SKILL元数据集合，依次向量化，完成后，为SKILL向量集合构建检索索引，代码如下：

python 复制代码

def preprocess() -> SkillInferenceEngine:
    # 加载skills
    skills = load_skills_from_directory("skills")

    # 创建向量库
    store = SkillVectorStore()

    # 注册skills【这里】
    for skill in skills:
        store.add_skill(skill)

    # 构建检索索引【这里】
    store.build_index()

    # 构建推理引擎
    engine = SkillInferenceEngine(store)

    return engine

最后构建推理引擎，推理引擎的代码如下：

python 复制代码

class SkillInferenceEngine:
    def __init__(self, vector_store: SkillVectorStore):
        self.vs = vector_store
        self.threshold = 0.65  # 阈值

    def infer(self, query: str) -> Optional[Skill]:
        skill, score = self.vs.search(query)
        if score >= self.threshold:
            print(f"✅ 命中技能: {skill.name} | 相似度: {score:.2f}")
            return skill
        else:
            print(f"❌ 无匹配技能 | 最高分: {score:.2f}")
            return None

推理引擎的代码主要就是通过向量库实例的search方法做用户内容向量和SKILL向量的相似度检索，并设定基础阈值，最终检索出一个符合要求的SKILL。

整个preprocess预处理方法在启动Agent时执行，得到推理引擎，然后在每次用户输入内容时通过推理引擎执行SKILL搜索，具体代码如下：

python 复制代码

def run() -> None:
    # ...省略部分代码...

    # 预处理skills
    skill_engine = preprocess()

    # ...省略部分代码...

    while tui.running:
        user_input = tui.get_user_input()

        # ...省略部分代码...

        try:
            # 通过推理引擎，提取命中skill
            target_skill = skill_engine.infer(user_input)
            instructions = None
            if target_skill:
                print(f"命中技能：{target_skill.name}")
                instructions = target_skill.content

            deps = AgentDeps(task_store=task_store, skill_engine=skill_engine)
            # 向模型发送消息时，一并带入命中的SKILL内容
            result = agent.run_sync(user_input, deps=deps, instructions=instructions)

            response = result.output
            context.add_message("assistant", response)
            tui.print_message(response)

        except Exception as e:
            error_msg = f"处理请求时出错: {str(e)}"
            context.add_message("assistant", error_msg)
            tui.print_message(error_msg)

从上面代码中可以看到，命中的SKILL内容是通过instructions携带发送给模型的。

instructions在pydantic-ai框架被称为指令，也可以理解为另一种System Prompt，区别是instructions的内容不会存在于历史消息中，满足SKILL内容用后即焚的要求。

Context Engineer功能

前面的介绍中，Context Engineer包含的内容很多，本项目是处于演示的目的，因此只会选择其中一两点实现，只实现以下功能：

上下文压缩
上下文存储

同样的，pydantic-ai对上下文的处理提供了很好的支持，具体实现代码如下：

python 复制代码

from openai import BaseModel
from pydantic_ai import Agent
from pydantic_ai.messages import ModelMessage
from pydantic_ai.models.openai import OpenAIChatModel
from pydantic_ai.providers.deepseek import DeepSeekProvider


class ContextManager(BaseModel):
    __contexts: list[ModelMessage] = []
    __compress_agent: Agent = None

    def update_messages(self, messages: list[ModelMessage]):
        self.__contexts = messages

    def clear_messages(self):
        self.__contexts = []

    def get_messages(self):
        return self.__contexts

    def compress_messages_and_update(self, messages: list[ModelMessage]):
        if not self.__compress_agent:
            model = OpenAIChatModel("deepseek-v4-pro", provider=DeepSeekProvider())
            self.__compress_agent = Agent(
                model, # 这里可以选择更便宜的小模型
                instructions="""总结本次对话，省略闲聊内容及无关话题。重点梳理任务要点与后续工作计划。""",
            )

        compress_content = self.__compress_agent.run_sync(message_history=messages)
        self.__contexts = compress_content

这里实现了一个用于上下文管理的类，包含三个方法，分别是：

update_messages：更新上下文消息
clear_messages：清空上下文消息
get_messages：获取上下文消息
compress_messages_and_update：压缩上下文消息并记录

上下文管理类实例化的位置如下：

python 复制代码

def run() -> None:
    # ...省略部分代码...

    # 上下文管理器在这里实例化
    context_manager = ContextManager()

    tui = TUI()
    agent = create_agent(mcp_path)

    # ...省略部分代码...

    # context = context_manager.create_context(IntentType.UNKNOWN)

    while tui.running:
        user_input = tui.get_user_input()

        # ...省略部分代码...

        try:
            # ...省略部分代码...

            # 在向模型发送消息之前先加载历史消息
            message_history = context_manager.get_messages()

            deps = AgentDeps(task_store=task_store, skill_engine=skill_engine)
            # 将用户消息和历史消息一同发送给大模型（通过message_history字段）
            result = agent.run_sync(user_input, deps=deps, instructions=instructions, message_history=message_history)

            tui.print_message(result.output)

             # 更新历史消息：如果历史消息的token数量大于1000，执行消息压缩
            usage = result.usage()
            if usage.total_tokens > 1000:
                context_manager.compress_messages_and_update(result.all_messages)
            else:
                context_manager.update_messages(result.all_messages)


        except Exception as e:
            error_msg = f"处理请求时出错: {str(e)}"
            tui.print_message(error_msg)

上下文管理的流程如下：

首先在Agent启动的时候构造上下文管理器实例
然后在获取到用户消息之后，发送给大模型之前，获取历史消息记录
然后将用户消息和历史消息记录一同发送给大模型
模型响应消息以后，判断所有消息的token量是否超过了设置的阈值（这里设置的是1000）
如果超出了token阈值，执行历史消息压缩，将压缩后的消息更新到历史消息记录中，供后续使用。

总结

本文首先简单介绍了一下Agent应用的三大基础设施MCP、SKILL、Context Engineer，然后实现了一个简化版的个人助理Agent，本次实现的项目只是为了起到抛砖引玉的作用，因为实际生产环境可用的Agent的复杂度远远超过这个，比如：对于上下文管理中设计的记忆管理（记忆分层、短期记忆、长期记忆）、以RAG为核心的信息检索和过滤。再比如：对于历史消息的压缩，如何将成模型的解析成本，如何优先移除低冗余、老旧信息，保留核心推理链等等，所以说一个生产环境可落地的Agent的开发，是一个复杂的系统性工程，限于篇幅，本文的分享就到这里。