深度优先遍历策略

深度优先搜索是一种在开发爬虫的早期使用较多的方法。它的目的是达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索一条单独的链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。优点是能遍历一个Web站点或深层嵌套的文档集合;缺点是因为Web结构相当深,有可能出现一旦进去便再也出不来的情况。

相关推荐
Digitally15 小时前
如何将 iPad 上的视频无损传输到 Mac
macos·音视频·ipad
Maynor99615 小时前
Codex 中国站正式上线!
人工智能·gpt·macos·github
XuecWu316 小时前
【Mac系统】一次 Keychain 异常导致的 Trae 卡死问题排查
macos
青山_FPGA17 小时前
以太网 MAC-PHY 接口总结
嵌入式硬件·macos
小锋学长生活大爆炸17 小时前
【开源软件】打造 macOS 纯本地 LLM 工作台 | Sidekick
macos·llm
bleuesprit18 小时前
MAC 电脑快速打开claude code 终端
macos
雨声不在18 小时前
mac-intel安装git-lfs
git·elasticsearch·macos
拜托啦!狮子19 小时前
本地连接服务器并运行jupyter
服务器·jupyter·github
iwS2o90XT19 小时前
开发一个VS Code主题插件,定制你的IDE
ide·jupyter·postman
大貔貅喝啤酒1 天前
接口测试_Postman(详细版)
javascript·测试工具·node.js·自动化·postman