智能体学习记录二之发展史

智能体学习记录二之发展史

一、基于符号和逻辑的早期智能体

在那个时代,研究者们普遍持有一种信念:人类的智能,尤其是逻辑推理能力,可以被形式化的符号体系所捕捉和复现。

  • 物理符号系统假说

    • 1976年由艾伦·纽厄尔(Allen Newell) 赫伯特·西蒙(Herbert A. Simon)共同提出的物理符号系统假说(PhysicalSymbol SystemHypothesis, PSSH)
    • 核心论断
      • 充分性论断:任何一个物理符号系统,都具备产生通用智能行为的充分手段。
      • 必要性论断:任何一个能够展现通用智能行为的系统,其本质必然是一个物理符号系统。
  • 专家系统

    • 专家系统的核心目标,是模拟人类专家在特定领域内解决问题的能力。通过将专家的知识和经验编码成计算机程序,使其能够在面对相似问题时,给出媲美甚至超越人类专家的结论或建议。

    • 典型的专家系统通常由由知识库、推理机、用户界面等几个核心部分构成,如下图所示

    • 核心组件:知识库和推理机

      • 知识库(Knowledge Base)
        • 专家系统的知识存储中心,用于存放领域专家的知识和经验
        • 通过一系列"IF-THEN"形式的条件语句制定规则,将特定情境(IF部分,条件)与相应的结论或行动(THEN部分,结论)关联起来
      • 推理机(Inference Engine)
        • 正向链(Forward Chaining):从已知事实出发,不断匹配规则的IF部分,触发THEN部分的结论,并将新结论加入事实库,直到最终推导出目标或无新规则可匹配。这是一种"数据驱动"的推理方式.
        • 反向链(Backward Chaining):从一个假设的目标(比如"病人是否患有肺炎")出发,寻找能够推导出该目标的规则,然后将该规则的IF部分作为新的子目标,如此递归下去,直到所有子目标都能被已知事实所证明。这是一种"目标驱动"的推理方式
      • 典型案例:MYCIN,由斯坦福大学于20世纪70年代开发
  • SHRDLU

    由**特里·威诺格拉德(Terry Winograd)**于1968-1970年开发,在"广度"上实现了革命性的突破,它首次将多个独立的人工智能模块(如语言解析、规划、记忆)集成在一个统一的系统中,并使它们协同工作

    • 自然语言理解:能够解析结构复杂且含有歧义的英语句子
    • 规划与行动:在理解指令后,能够自主规划出一系列必要的动作来完成任务
    • 记忆与问答:拥有关于其所处环境和自身行为的记忆
  • 符号主义面临的挑战

    • 常识知识与知识获取瓶颈
      • 知识获取瓶颈(Knowledge Acquisition Bottleneck):专家系统的知识需要由人类专家和知识工程师通过繁琐的访谈、提炼和编码过程来构建。这个过程成本高昂、耗时漫长,且难以规模化
      • 常识问题(Common-sense Problem):人类行为依赖于庞大的常识背景(例如,"水是湿的"、"绳子可以拉不能推"),但符号系统除非被明确编码,否则对此一无所知
    • 框架问题与系统脆弱性
      • 框架问题(Frame Problem):在一个动态世界中,每个动作显式地声明所有不变的状态,在计算上是不可行的,而人类却能毫不费力地忽略不相关的变化
      • 系统脆弱性(Brittleness):符号系统完全依赖预设规则,一旦遇到规则之外的任何微小变化或新情况,系统便可能完全失灵,无法像人类一样灵活变通
二、基于规则的优化
  • ELIZA的设计思想

    ELIZA是由麻省理工学院的计算机科学家**约瑟夫·魏泽鲍姆(Joseph Weizenbaum)**于1966年发布的一个计算机程序,是早期自然语言处理领域的著名尝试之一。

    通过一系列的预设规则进行内容处,例如,当用户说"我为我的男朋友感到难过"时,ELIZA可能会识别出关键词"我为......感到难过",并应用规则生成回应:"你为什么会为你的男朋友感到难过?"

  • 模式匹配和文本替换

    算法流程基于模式匹配(Pattern Matching)与文本替换(Text Substitution)

    • **关键词识别与排序:**对每个关键词设置一个优先级,程序自动选择优先级最高的
    • **分解规则:**根据关键词,程序使用通配符(*)来分解规则捕获语句内容
    • **重组规则:**从重组规则中选择一条来回应关联分解后的规则内容
    • **代词转换:**代词转换(如 Iyou, myyour),以维持对话的连贯性
  • 核心逻辑

    定义一堆预设规则,以匹配输入内容,系统看似智能的表现,完全依赖于设计者预先编码的规则。

  • 存在缺陷

    • 缺乏语义理解 :系统不理解词义。例如,面对"I am not happy"的输入,它仍会机械地匹配 I am (.*) 规则并生成语义不通的回应,因为它无法理解否定词"not"的作用
    • 无上下文记忆 :系统是无状态的(Stateless),每次回应仅基于当前单句输入,无法进行连贯的多轮对话
    • 规则的扩展性问题:尝试增加更多规则会导致规则库的规模爆炸式增长,规则间的冲突与优先级管理将变得极其复杂,最终导致系统难以维护
三、马文·明斯基(Marvin Minsky)心智社会
  • 对单体智能模型的反思

    • "理解"是什么? 当我们说我们理解一个故事时,这是一种单一的能力吗?还是说,它其实是视觉化能力、逻辑推理能力、情感共鸣能力、社会关系常识等数十种不同心智过程协同工作的结果?
    • "常识"是什么? 常识是一个包含了数百万条逻辑规则的庞大知识库吗(如Cyc项目的尝试)?还是说,它是一种分布式的、由无数具体经验和简单规则片段交织而成的网络?
    • 智能体应该如何构建? 我们是否应该继续追求一个完美的、统一的逻辑系统,还是应该承认,智能本身就是"不完美"的、由许多功能各异、甚至会彼此冲突的简单部分组成的大杂烩?
  • 协作的智能

    在明斯基的理论框架中,智能体指的是一个极其简单的、专门化的心智过程,它自身是"无心"的

  • 多智能系统的理论启发

    心智社会理论最深远的影响,在于它为**分布式人工智能(Distributed Artificial Intelligence, DAI)以及后来的多智能体系统(Multi-Agent System, MAS)**提供了重要的概念基础

    • 去中心化控制(Decentralized Control):理论的核心在于不存在中央控制器。这一思想被MAS领域完全继承,如何设计没有中心节点的协调机制和任务分配策略,成为了MAS的核心研究课题之一
    • 涌现式计算(Emergent Computation):复杂问题的解决方案可以从简单的局部交互规则中自发产生。这启发了MAS中大量基于涌现思想的算法,如蚁群算法、粒子群优化等,用于解决复杂的优化和搜索问题
    • 智能体的社会性(Agent Sociality):明斯基的理论强调了智能体之间的交互(激活、抑制)。MAS领域将其进一步扩展,系统地研究智能体之间的通信语言(如ACL)、交互协议(如契约网)、协商策略、信任模型乃至组织结构,从而构建起真正的计算社会
四、学习范式的演进与现代智能体
  • 联结主义

    • 知识的分布式表示:知识并非以明确的符号或规则形式存储在某个知识库中,而是以连接权重的形式,分布式地存储在大量简单的处理单元(即人工神经元)的连接之间。整个网络的连接模式本身就构成了知识
    • 简单的处理单元:每个神经元只执行非常简单的计算,如接收来自其他神经元的加权输入,通过一个激活函数进行处理,然后将结果输出给下一个神经元
    • 通过学习调整权重:系统的智能并非来自于设计者预先编写的复杂程序,而是来自于"学习"过程。系统通过接触大量样本,根据某种学习算法(如反向传播算法)自动、迭代地调整神经元之间的连接权重,从而使得整个网络的输出逐渐接近期望的目标
  • 强化学习的智能体

    联结主义主要解决了感知问题(例如,"这张图片里有什么?"),但智能体更核心的任务是进行决策(例如,"在这种情况下,我应该做什么?")。**强化学习(Reinforcement Learning, RL)**正是专注于解决序贯决策问题的学习范式。它并非直接从标注好的静态数据集中学习,而是通过智能体与环境的直接交互,在"试错"中学习如何最大化其长期收益。

    强化学习的框架可以用几个核心要素来描述:

    • 智能体(Agent):学习者和决策者。在AlphaGo的例子中,就是其决策程序。
    • 环境(Environment):智能体外部的一切,是智能体与之交互的对象。对AlphaGo而言,就是围棋的规则和对手。
    • 状态(State, S):对环境在某一时刻的特定描述,是智能体做出决策的依据。例如,棋盘上所有棋子的当前位置。
    • 行动(Action, A):智能体根据当前状态所能采取的操作。例如,在棋盘的某个合法位置上落下一子。
    • 奖励(Reward, R):环境在智能体执行一个行动后,反馈给智能体的一个标量信号,用于评价该行动在特定状态下的好坏。例如,在一局棋结束后,胜利获得+1的奖励,失败获得-1的奖励。
  • 基于大规模训数据的预训练

    强化学习赋予了智能体从交互中学习决策策略的能力,但这通常需要海量的、针对特定任务的交互数据,导致智能体在学习之初缺乏先验知识,需要从零开始构建对任务的理解

    • 预训练阶段:首先在一个包含互联网级别海量文本数据的通用语料库上,通过**自监督学习(Self-supervised Learning)**的方式训练一个超大规模的神经网络模型。这个阶段的目标不是完成任何特定任务,而是学习语言本身内在的规律、语法结构、事实知识以及上下文逻辑
    • 微调阶段:完成预训练后,这个模型就已经学习到了和数据集有关的丰富知识。之后,针对特定的下游任务,只需使用少量该任务的标注数据对模型进行微调,即可让模型适应对应任务
  • 基于大预言模型的智能体

    随着大型语言模型技术的飞速发展,以LLM为核心的智能体已成为人工智能领域的新范式。它不仅能够理解和生成人类语言,更重要的是,能够通过与环境的交互,自主地感知、规划、决策和执行任务

    • 感知 (Perception) :流程始于感知模块 (Perception Module) 。它通过传感器从外部环境 (Environment) 接收原始输入,形成观察 (Observation)。这些观察信息(如用户指令、API返回的数据或环境状态的变化)是智能体决策的起点,处理后将被传递给思考阶段。

    • 思考 (Thought) :智能体的认知核心,对应图中的规划模块 (Planning Module)大型语言模型 (LLM) 的协同工作。

      • 规划与分解 :规划模块接收观察信息,进行高级策略制定。它通过反思 (Reflection)自我批判 (Self-criticism) 等机制,将宏观目标分解为更具体、可执行的步骤。

      • 推理与决策 :作为中枢的LLM 接收来自规划模块的指令,并与记忆模块 (Memory) 交互以整合历史信息。LLM进行深度推理,最终决策出下一步要执行的具体操作,这通常表现为一个工具调用 (Tool Call)

    • 行动 (Action) :决策完成后,便进入行动阶段,由执行模块 (Execution Module) 负责。LLM生成的工具调用指令被发送到执行模块。该模块解析指令,从工具箱 (Tool Use) 中选择并调用合适的工具(如代码执行器、搜索引擎、API等)来与环境交互或执行任务。这个与环境的实际交互就是智能体的行动 (Action)

    • 观察 (Observation) 与循环 :行动会改变环境的状态,并产生结果。

      • 工具执行后会返回一个工具结果 (Tool Result) 给LLM,这构成了对行动效果的直接反馈。同时,智能体的行动改变了环境,从而产生了一个全新的环境状态

      • "工具结果"和"新的环境状态"共同构成了一轮全新的观察 (Observation) 。这个新的观察会被感知模块再次捕获,同时LLM会根据行动结果更新记忆 (Memory Update),从而启动下一轮"感知-思考-行动"的循环。

相关推荐
西岸行者4 天前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
悠哉悠哉愿意4 天前
【单片机学习笔记】串口、超声波、NE555的同时使用
笔记·单片机·学习
别催小唐敲代码4 天前
嵌入式学习路线
学习
毛小茛5 天前
计算机系统概论——校验码
学习
babe小鑫5 天前
大专经济信息管理专业学习数据分析的必要性
学习·数据挖掘·数据分析
winfreedoms5 天前
ROS2知识大白话
笔记·学习·ros2
在这habit之下5 天前
Linux Virtual Server(LVS)学习总结
linux·学习·lvs
我想我不够好。5 天前
2026.2.25监控学习
学习
im_AMBER5 天前
Leetcode 127 删除有序数组中的重复项 | 删除有序数组中的重复项 II
数据结构·学习·算法·leetcode
CodeJourney_J5 天前
从“Hello World“ 开始 C++
c语言·c++·学习