【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
IP搭子来一个9 分钟前
2026年动态IP代理怎么选:共享好还是独享好?
服务器·网络协议·tcp/ip
比奇堡派星星32 分钟前
awk命令
linux·运维·服务器
WW、forever32 分钟前
【服务器】上传百度网盘数据至服务器
运维·服务器
清水白石00844 分钟前
Python 柯里化完全指南:从函数式思想到工程实践
linux·服务器·python
m0_694845571 小时前
netcut 是什么?简单安全的在线剪贴板搭建与使用教程
运维·服务器·安全·开源·云计算·github
女王大人万岁1 小时前
Golang标准库 CGO 介绍与使用指南
服务器·开发语言·后端·golang
宸迪2 小时前
【python】使用uv管理项目包依赖
linux·python·uv
网云工程师手记2 小时前
DDNS-Go部署与使用体验:动态公网IP远程访问不再断
运维·服务器·网络·网络协议·网络安全
HalvmånEver3 小时前
Linux:基于信号量的环形队列与生产者消费者模型(一)
linux·运维·服务器·信号量
海兰3 小时前
手把手elasticsearch学习增删改查之“增”
运维·jenkins