【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
qinyia27 分钟前
WisdomSSH解决因未使用Docker资源导致的磁盘空间不足问题
运维·服务器·人工智能·后端·docker·ssh·github
❀͜͡傀儡师31 分钟前
Docker 一键安装godoos
运维·docker·容器
6***B481 小时前
Nginx搭建负载均衡
运维·nginx·负载均衡
2501_939909051 小时前
Web与Nginx网站服务(1)
运维·nginx
奔跑吧邓邓子1 小时前
CentOS 7性能飞升秘籍:实战系统优化与调优
linux·运维·centos·实战·系统优化·性能调优
Broken Arrows1 小时前
Docker原理之一的Namespace详解
运维·docker·容器
翼龙云_cloud1 小时前
亚马逊云渠道商:如何利用AWS工具进行日常安全运维?
运维·安全·云计算·aws
b***65321 小时前
【解决】RESP.app GUI for Redis 连接不上redis服务器
服务器·redis·github
qinyia2 小时前
WisdomSSH如何高效检查服务器状态并生成运维报告
linux·运维·服务器·数据库·人工智能·后端·ssh
laocooon5238578863 小时前
实现了一个新闻数据采集与分析系统python
linux·服务器·windows