深度优先搜索是一种在开发爬虫的早期使用较多的方法。它的目的是达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索一条单独的链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。优点是能遍历一个Web站点或深层嵌套的文档集合;缺点是因为Web结构相当深,有可能出现一旦进去便再也出不来的情况。
相关推荐
一念一花一世界30 分钟前
接口管理工具选型指南:Postman vs swagger vs PostInJune bug1 小时前
【领域知识】广告全链路测试作孽就得先起床3 小时前
Xcode设置中文smileSunshineMan3 小时前
本地mac-openclaw安装fish_study_csdn5 小时前
自己的mac 电脑上部署本地大模型绝世唐门三哥6 小时前
Mac 查看手机信息工具 + platform-tools 使用全指南qinyia7 小时前
如何彻底卸载macOS上的conda并清理环境变量配置-To be number.wan7 小时前
为什么 pyecharts 在 Jupyter Notebook 里显示空白?0wioiw018 小时前
Onesignal(Xcode)哈基米~南北绿豆20 小时前
虚拟机体验:在Windows/Mac上运行鸿蒙PC开发环境