行为树保姆级教程(以机器人的任务规划为例

行为树

目录

参考原文:https://robohub.org/introduction-to-behavior-trees/

参考翻译:https://zhuanlan.zhihu.com/p/463182588

什么是行为树(behavior tree)?

行为树(behavior tree)是用来实现非人工角色复杂行为的工具,它具有下面这些特征:

  1. 行为树是树: 执行时从根结点开始按照指定的顺序遍历,直到到达终结状态
  2. **叶子结点都是可执行的行为:**叶子结点会进行具体的操作,可以是一个简单的检测操作,也可以是一个更复杂的操作,结点会返回状态信息(成功,失败,运行中)。
  3. 内部结点控制树的遍历:内部结点会根据孩子结点返回的状态信息,按照特定的规则确定下一个执行的结点。

行为树的相关术语

行为节点和控制节点

下图给出了行为树的不同结点类型及其对应的图示:

  1. tick:行为树从根节点开始按照预定义的顺序遍历各个节点并执行他们的行为的过程称为一次tick,会返回成功(success)失败(failure)运行中(running) 的状态信息给它的父结点。
  2. 行为结点(execution node ):行为树的叶子结点,可以是动作结点(action node)或条件结点(condition node)。对于条件结点(condition node)会在一次tick后立马返回 成功或失败的状态信息。对于动作结点(action node)则可以跨越多个tick执行,直到到达它的终结状态。一般来说,条件结点用于简单的判断(比如钳子是否打开?),动作结点用于表示复杂的行为(比如打开房门)。
  3. 控制结点(control node ):控制结点是行为树的内部结点,它们定义了遍历其孩子结点的方式。控制结点的孩子可以是行为结点,也可以是控制结点顺序(Sequence)备选(Fallback)并行(Parallel)这3种类型的控制结点可以有任意数量的孩子结点,它们的区别在于对其孩子结点的处理方式。而装饰(Decorator)结点只能有一个孩子结点,用来对孩子结点的行为进行自定义修改。

不同类型的控制结点:

顺序节点

按顺序执行孩子结点直到其中一个孩子结点返回失败状态或所有孩子结点返回成功状态。

选择节点

按顺序执行孩子结点直到其中一个孩子结点返回成功状态或所有孩子结点返回失败状态。一般用来实现角色的选择行为。

并行节点

"并行执行"所有孩子结点。直到至少M个孩子(M的值在1到N之间)结点返回成功状态或所有孩子结点返回失败状态。

装饰结点

装饰结点:以自定义的方式修改孩子结点的行为。比如Invert类型的装饰结点,可以反转其孩子结点返回的状态信息。为了方便他人理解,应该尽可能使用比较常见的装饰结点。

机器人的例子:物体搜索

接下来我们通过一个机器人搜索物体的例子来理解行为树的执行过程。

1:如果只存在一个地点A,那么行为树很简单,到A处,找到物体。如下图所示:

上图中我们使用了一控制结点表示到A处这一动作。在机器人还没有移动到A处前,这一动作结点会返回运行中(running)状态。

2:接下来我们使用一个条件结点,用来判断机器人是否找到了物体(具体实现可以通过相机拍摄照片,然后进行图像识别)。

行为树的一个很常用的设计规则就是使用显式成功条件(explicit success condition)。简单来说,就是在执行动作前总是先进行条件检测。比如,先检测机器人是否已经在A处,如果在就不执行去A处的动作,直接返回成功状态。如下图所示:

3:我们的机器人工作的环境可能包含了多个地点,我们期望它可以尝试到所有已知的地点搜寻物体,在搜寻到物体后结束搜索。这可以通过添加一个选择结点作为根节点来实现,如下图所示:

我们可以使用选择结点(fallback node)定义角色的反应行为。当一种反应行为无法工作后,自动尝试下一种。

4:如果我们期望机器人可以同时搜寻多个不同的物体(比如苹果和橘子),可以通过添加并行结点实现。

下图给出了在多个地点,同时搜寻苹果和橘子的行为树图示:

我们可以使用并行结点组合多个动作,比如:让机器人原地打转直到连续5个tick识别到一个人为止。

装饰器(decorator)和黑板(blackboard)

📌装饰器(decorator)

我们可以使用装饰器结点(decorator node)来对行为树进行优化。考虑上面的在多个地点搜寻物体的行为树,如果地点数目达到20个以上,整个行为树看上去就会变得非常庞大,也为我们进一步添加新的结点带来麻烦。

下面是避免这些麻烦的常用方法:

  • 引入装饰器结点(decorator node) 相较于每增加一个搜寻地点就复制一份完全相同的子树,我们可以定义一个规则为Repeat的装饰器结点,用来重复执行它的孩子结点,完成搜寻多个地点。
  • 在每一次迭代更新目标位置**:** 使用一个队列存储所有待搜寻地点,每次迭代从队列中取出一个地点进行搜寻,当队列为空时,所有地点都被搜寻完毕。

📌黑板(blackboard)

为了存储可以被多个结点访问的共享信息(比如上面提到的存储有所有待搜寻地点的队列),我们引入黑板(blackboard)的概念。黑板是一块可以被结点读写的公共存储区。

针对我们的例子,我们为行为树添加一个Repeat装饰器结点和一个GetLoc的动作结点,用来在每一次迭代读取新的搜寻地址,如下图所示:

我们也可以利用黑板(blackboard)实现其它一些任务。比如:在找到苹果或橘子后在黑板上记录下它们的位置信息,然后在添加的Speak动作结点中读取它们,让机器人说出在哪里找到了苹果或橘子。还有对于找到的物体不同,后续结点可以根据黑板记录的信息采取不同的处理规则。

行为树和有限状态机的比较

读者可能想了解行为树和有限状态机哪个更好。下面这些观点可以供大家参考:

  • 理论上,行为树和状态机具有相同的表达能力,可以实现相同的功能。
  • 行为树更好还是状态机更好主要看所要定义的行为是更偏向模块化,还是更偏向反应式。一般来说,行为树更方便进行组合和修改,状态机更方便进行反应式动作设计。
1:以机器人捡起一个物体的任务为例,这需要机器人先移动到物体附近,然后夹起物体,最后再移动回机器人原来所处的位置。我们分别用行为树和状态机实现它们,如下图所示:

​ 左侧为行为树实现,右侧为状态机实现

2:如果我们想要进一步修改行为,比如检测夹子是否处于可以抓起物体的位置,然后再夹紧夹子。对于行为树,我们只需要插入一个子树就能完成期望的修改。但对于状态机,我们需要重写多个转换操作。也就是说行为树更便于进行组合(modularity)和模块化。下图给出了修改后的行为树和状态机图示:

修改后的行为树和状态机

3:对于反应式行为,比如机器人低电量时需要马上回到电源处,即使它还在执行某个任务的过程中。如果使用行为树来实现,这会非常麻烦,我们需要在任意任务的子树中支持充电行为。但对于状态机来说,实现起来就很简单,只需要从所有其它动作连线到充电动作即可。

​ 有限状态机可以在任意两个结点添加转换方便地实现反应式行为​

更进一步,通过对状态分层(也就是层次状态机,HFSM),建立超级状态Nominal,我们可以简化状态间的转换实现

状态机和行为树联合使用

行为树更好还是状态机更好需要看具体要解决的问题,个人认为有限状态机更方便管理高优先级的操作行为(比如机器人处于正常状态还是充电状态),行为树更适合定义复杂的行为,比如处理错误恢复等等。实践中,混合使用两者可能会是更好的选择。下图给出了混合使用行为树和状态机定义我们例子中的机器人行为的图示:

​ 高优先级行为使用状态机,复杂行为使用行为树实现​

相关推荐
浊酒南街1 分钟前
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)4.9-4.10
人工智能·深度学习·神经网络·cnn
菲路普科技2 分钟前
有无人机巡检为什么还会再采购巡检管理系统
无人机
创小董4 分钟前
无人机校企联动:飞行、组装、摄影兴趣班技术详解
无人机
Tony聊跨境17 分钟前
独立站SEO类型及优化:来检查这些方面你有没有落下
网络·人工智能·tcp/ip·ip
懒惰才能让科技进步23 分钟前
从零学习大模型(十二)-----基于梯度的重要性剪枝(Gradient-based Pruning)
人工智能·深度学习·学习·算法·chatgpt·transformer·剪枝
Qspace丨轻空间34 分钟前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
没有不重的名么35 分钟前
门控循环单元GRU
人工智能·深度学习·gru
love_and_hope39 分钟前
Pytorch学习--神经网络--搭建小实战(手撕CIFAR 10 model structure)和 Sequential 的使用
人工智能·pytorch·python·深度学习·学习
2403_875736871 小时前
道品科技智慧农业中的自动气象检测站
网络·人工智能·智慧城市
学术头条1 小时前
AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告
人工智能·科技·深度学习·语言模型