【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
L Jiawen6 小时前
【Golang基础】基础知识(下)
服务器·开发语言·golang
haimin03717 小时前
linux设置CPU固定频率
linux·运维·服务器
大聪明-PLUS7 小时前
Linux:处理器释放内存
linux·嵌入式·arm·smarc
一条咸鱼¥¥¥7 小时前
【运维经验】服务器磁盘做镜像的方法
运维·服务器·windows·经验分享
渣渣盟7 小时前
NFS服务器配置全攻略:从入门到精通
linux·运维·服务器
一只旭宝7 小时前
Linux专题九:I/O复用(水平以及边缘触发放到libevent库那一专题细讲)
linux·运维·服务器
缘如风8 小时前
Linux上sunrpc 111端口关闭
linux·服务器
I · T · LUCKYBOOM8 小时前
iptables防火墙
linux·运维·服务器·网络·安全
山上三树9 小时前
main()函数带参数的用法
linux·c语言
凌波粒9 小时前
Linux-Ubuntu系统环境搭建
linux·运维·ubuntu