【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
川214 分钟前
ZooKeeper配置+失误
linux·分布式·zookeeper
向日葵.15 分钟前
中间件交接文档
linux·运维·服务器
LucidX16 分钟前
Docker核心操作实战
运维·docker·容器
隔壁阿布都16 分钟前
Docker Compose中的网络管理
运维·docker·容器
TG:@yunlaoda360 云老大26 分钟前
华为云国际站代理商TaurusDB的读写分离是如何实现的?
服务器·数据库·华为云
Ghost Face...31 分钟前
U-Boot与PMON:配置与设备树解析对比
linux·单片机·嵌入式硬件
云和数据.ChenGuang34 分钟前
运维工程师技术教程之Pull Requests(PR)
运维·分布式·git·数据库运维工程师·运维教程
Blurpath36 分钟前
什么是 ISP 代理?双 ISP 代理又是什么?一文讲清原理与应用场景
服务器·网络·ip代理·静态代理·住宅代理
TG:@yunlaoda360 云老大38 分钟前
华为云国际站代理商如何配置GaussDB的读写分离权重?
服务器·华为云·gaussdb
小快说网安40 分钟前
抗 DDoS 防护在等保测评中的权重提升:云服务器如何通过防护能力加分?
运维·服务器·ddos·等保测评