【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
超级大福宝1 分钟前
集群中服务器的个数为什么最好是奇数个
服务器·分布式·后端
wangjialelele8 分钟前
详解Redis终端操作和Redis-plus-plus接口使用
linux·数据库·c++·redis·分布式·缓存·中间件
weixin_3975780212 分钟前
Docker 完整介绍
运维·docker·容器
EasyDSS16 分钟前
EasyDSS视频流媒体WebRTC技术解析:智慧校园直播、点播与会议一体化融合实践
运维·网络·人工智能·架构·音视频·m3u8·点播技术
timi先生20 分钟前
安装 GitLab
linux·运维
小璐资源网22 分钟前
《Nginx缓存配置:浏览器缓存与服务器缓存实战》
服务器·nginx·缓存
李长渊哦25 分钟前
PostgreSQL 18 本地部署与运维完全指南 (Windows版)
运维·windows·postgresql
[纳川]26 分钟前
Alibaba Cloud Linux 4或者 CentOS 9 无法秘钥登录
linux·运维·centos
炸炸鱼.29 分钟前
Nginx 性能调优与深度监控实战指南
运维·nginx
FriendshipT30 分钟前
Ultralytics Docker 安装使用教程(以训练 YOLO26 模型为例)
linux·运维·人工智能·目标检测·ubuntu·docker·容器