【LINUX】shell中模拟爬虫

因缘而起12024-09-16 16:23

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print $3 }' \| awk -F"\<" '{ print$ 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl " ${url_home}/$ url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

上一篇：TiDB 扩容过程中 PD 生成调度的原理及常见问题丨TiDB 扩缩容指南（一）

下一篇：代码随想录 | Day21 | 二叉树：找树左下角的值&&路径总和

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05GitLab 零基础入门指南：从安装到项目管理全流程 06一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示 07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 082025软件测试面试八股文（含答案+文档）09在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）10两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答