深度优先搜索是一种在开发爬虫的早期使用较多的方法。它的目的是达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索一条单独的链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。优点是能遍历一个Web站点或深层嵌套的文档集合;缺点是因为Web结构相当深,有可能出现一旦进去便再也出不来的情况。
相关推荐
2501_91590906几秒前
如何防止 IPA 被反编译,从攻防视角构建一套真正有效的 iOS 成品保护体系khatung20 分钟前
借助Electron打通平台与用户通知(macOS系统)Proud lion42 分钟前
Apipost开发管理平台功能对比与应用场景分析Sheffi661 小时前
ARC 的自动释放机制与 autoreleasepool 深度解析海绵宝宝_15 小时前
良心产品- Mac 上最强卸载清理工具(开源) Mole 小鼹鼠喵霓16 小时前
ipython笔记程序员霸哥哥18 小时前
XYplorer(多标签文件管理器) v27.20.0700 / 28.00.1200 多语便携版测试涛叔19 小时前
高频Postman软件测试面试题聊天QQ:6882388621 小时前
TAC: 线性多智能体系统的时变编队队形跟踪与协同围捕研究超频化石鱼21 小时前
使用Postman访问siliconflow大模型接口