【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
HZero.chen26 分钟前
Linux字符串处理
linux·string
张童瑶28 分钟前
Linux SSH隧道代理转发及多层转发
linux·运维·ssh
汪汪队立大功12332 分钟前
什么是SELinux
linux
石小千38 分钟前
Linux安装OpenProject
linux·运维
柏木乃一1 小时前
进程(2)进程概念与基本操作
linux·服务器·开发语言·性能优化·shell·进程
Lime-30901 小时前
制作Ubuntu 24.04-GPU服务器测试系统盘
linux·运维·ubuntu
代码or搬砖1 小时前
Nginx详讲
运维·nginx·dubbo
守城小轩1 小时前
基于Chrome140的Quora账号自动化——运行脚本(三)
运维·自动化·chrome devtools·指纹浏览器·浏览器开发
CloudJourney1 小时前
从Unix到OpenEuler及其关键协议解析
服务器·unix
百年渔翁_肯肯1 小时前
Linux 与 Unix 的核心区别(清晰对比版)
linux·运维·unix