TinyAgent
这里基于React
的方式,我们手动制作了一个最小的Agent
结构(其实更多的是调用工具),尝试将React
结构修改为SOP
结构。一步一步手写Agent
,可以让我们对Agent
的构成和运作更加的了解。
论文:ReAct: Synergizing Reasoning and Acting in Language Models
实现细节
Step 1: 构造大模型
首先我们需要一个大模型,这里我们使用InternLM2
作为我们的 Agent 模型。InternLM2
是一个基于Decoder-Only
的通用对话大模型,可以使用transformers
库来加载InternLM2
模型。
首先,还是先创建一个BaseModel
类,我们可以在这个类中定义一些基本的方法,比如chat
方法和load_model
方法,方便以后扩展使用其他模型。
python
class BaseModel:
def __init__(self, path: str = '') -> None:
self.path = path
def chat(self, prompt: str, history: List[dict]):
pass
def load_model(self):
pass
接着,我们创建一个InternLM2
类,这个类继承自BaseModel
类,我们在这个类中实现chat
方法和load_model
方法。就和正常加载InternLM2
模型一样,来做一个简单的加载和返回即可。
python
class InternLM2Chat(BaseModel):
def __init__(self, path: str = '') -> None:
super().__init__(path)
self.load_model()
def load_model(self):
print('================ Loading model ================')
self.tokenizer = AutoTokenizer.from_pretrained(self.path, trust_remote_code=True)
self.model = AutoModelForCausalLM.from_pretrained(self.path, torch_dtype=torch.float16, trust_remote_code=True).cuda().eval()
print('================ Model loaded ================')
def chat(self, prompt: str, history: List[dict], meta_instruction:str ='') -> str:
response, history = self.model.chat(self.tokenizer, prompt, history, temperature=0.1, meta_instruction=meta_instruction)
return response, history
Step 2: 构造工具
我们在tools.py
文件中,构造一些工具,比如Google搜索
。在这个文件中,构造一个Tools
类。在这个类中,我们需要添加一些工具的描述信息和具体实现方式。
添加工具的描述信息,是为了在构造system_prompt
的时候,让模型能够知道可以调用哪些工具,以及工具的描述信息和参数。
- 首先要在
tools
中添加工具的描述信息 - 然后在
tools
中添加工具的具体实现
python
class Tools:
def __init__(self) -> None:
self.toolConfig = self._tools()
def _tools(self):
tools = [
{
'name_for_human': '谷歌搜索',
'name_for_model': 'google_search',
'description_for_model': '谷歌搜索是一个通用搜索引擎,可用于访问互联网、查询百科知识、了解时事新闻等。',
'parameters': [
{
'name': 'search_query',
'description': '搜索关键词或短语',
'required': True,
'schema': {'type': 'string'},
}
],
}
]
return tools
def google_search(self, search_query: str):
pass
Step 3: 构造Agent
我们在Agent.py
文件中,构造一个Agent
类,这个Agent
是一个React
范式的Agent
,我们在这个Agent
类中,实现了text_completion
方法,这个方法是一个对话方法,我们在这个方法中,调用InternLM2
模型,然后根据React
的Agent
的逻辑,来调用Tools
中的工具。
首先我们要构造system_prompt
, 这个是系统的提示,我们可以在这个提示中,添加一些系统的提示信息,比如ReAct
形式的prompt
。
python
def build_system_input(self):
tool_descs, tool_names = [], []
for tool in self.tool.toolConfig:
tool_descs.append(TOOL_DESC.format(**tool))
tool_names.append(tool['name_for_model'])
tool_descs = '\n\n'.join(tool_descs)
tool_names = ','.join(tool_names)
sys_prompt = REACT_PROMPT.format(tool_descs=tool_descs, tool_names=tool_names)
return sys_prompt
这个system_prompt
告诉了大模型,它可以调用哪些工具,以什么样的方式输出,以及工具的描述信息和工具应该接受什么样的参数。
Agent的结构是一个
React的结构,提供一个
system_prompt`,使得大模型知道自己可以调用那些工具,并以什么样的格式输出。
每次用户的提问,如果需要调用工具的话,都会进行两次的大模型调用,第一次解析用户的提问,选择调用的工具和参数,第二次将工具返回的结果与用户的提问整合。这样就可以实现一个React
的结构。

Step 4: 运行agent_demo.ipynb

本来想用书生蒲语2.5-20b对话的,结果发现在本地跑显示显存不足报错cuda out of memory只好放弃了,然后又尝试用modelscope跑一半就报错了,说没有响应,然后示例就断开连接了,重新尝试还是不行。
经过一段时间权衡利弊之后换成了书生-蒲语2.5-7b-对话。

下面三个就是最终的效果图,可以看出一开始对话里面找不到特朗普是谁,再问一次才得出结论。
看了以后发现效果还是不错的。
##参考