【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
为思念酝酿的痛4 小时前
POSIX信号量
linux·运维·服务器·后端
专业白嫖怪4 小时前
什么是docker
运维·docker·容器
隔窗听雨眠5 小时前
Nginx网关响应慢排查手记
java·服务器·nginx
人还是要有梦想的5 小时前
linux下用搜狗输入法,中英文切换
linux·运维·服务器
北京智和信通5 小时前
某部队IT基础设施及机房动环统一运维建设实例
运维·网管平台·网管软件·网络管理系统·网络运维平台·网络运维系统
乐维_lwops5 小时前
从 “救火运维” 到 “自动驾驶”:运维智能体到底解决了什么?
运维·人工智能·运维智能体
bush46 小时前
嵌入式linux学习记录二
linux·运维·学习
9分钟带帽6 小时前
linux_通过NFS挂载远程服务器的硬盘
linux·服务器
weixin_468466856 小时前
MoneyPrinterTurbo 短视频自动化生产实战指南
运维·人工智能·自动化·大模型·音视频·moneyprinter
難釋懷6 小时前
Nginx自签名-图形化工具 XCA
运维·nginx