【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
陈皮糖..2 分钟前
27 届运维实习笔记|第三、四周:从流程熟练到故障排查,企业运维实战深化
运维·笔记·sql·nginx·ci/cd·云计算·jenkins
莫白媛28 分钟前
Linux在限制敏感命令下的修改用户密码小白版
linux·运维·服务器
hhb_6181 小时前
C Shell 基础语法与高阶运维实战指南
运维·c语言·chrome
Rcnhtin1 小时前
RocketMQ
java·linux·rocketmq
想唱rap2 小时前
UDP套接字编程
服务器·网络·c++·网络协议·ubuntu·udp
AC赳赳老秦2 小时前
OpenClaw多平台部署:Windows+Linux跨系统协同,实现全场景覆盖
linux·服务器·前端·网络·windows·deepseek·openclaw
念恒123062 小时前
进程--程序地址空间下篇(进程地址空间)
linux·c语言
___波子 Pro Max.2 小时前
Linux 外挂 SSD 根目录下的 `.Trash-1000` 到底是什么
linux
爱学习的小囧3 小时前
VMware vCenter Server 9.0.2.0 资源详解+完整部署教程+下载指南+常见问题
运维·服务器·esxi·vmware·虚拟化·esxi9.0.2.0
IpdataCloud3 小时前
游戏服务器选择,为何绕不开IP地址查询?
服务器·tcp/ip·游戏