【Shell】模拟爬虫下载天龙八部小说

Shell脚本:

bash 复制代码
#curl https://tianlong.5000yan.com/ -o tianlong.html
grep "href=" tianlong.html | grep html | awk -F"\"" '{ print $6 }' >> urls.txt
grep "href=" tianlong.html | grep html | awk -F">" '{ print $3 }' | awk -F"<" '{ print $1 }' >>titles.txt

exec 3<urls.txt
exec 4<titles.txt

while read -u 3 url && read -u 4 title
do
	echo "$title : $url"
	curl "$url" -o "${title}.html"
done

exec 3<&-
exec 4<&-

下载后的文件:

下载后的效果:

相关推荐
迎風吹頭髮21 分钟前
UNIX下C语言编程与实践53-UNIX 共享内存控制:shmctl 函数与共享内存管理
服务器·c语言·unix
迎風吹頭髮26 分钟前
Linux内核架构浅谈8-Linux内核与UNIX的传承:设计思想与特性差异
linux·运维·架构
黑马金牌编程1 小时前
Linux 服务器常见的性能调优
linux·运维·服务器·性能优化
jieyu11191 小时前
网络、主机安全扫描工具
linux·安全·系统安全
tianyuanwo1 小时前
Linux进程管理中的T状态问题分析与解决体系
linux·运维·进程管理·t状态
BTU_YC1 小时前
Neo4j查询计划完全指南:读懂数据库的“执行蓝图“
数据库·neo4j
非极限码农1 小时前
Neo4j图数据库上手指南
大数据·数据库·数据分析·neo4j
mit6.8242 小时前
[C# starter-kit] 命令/查询职责分离CQRS | MediatR |
java·数据库·c#
liuyao_xianhui2 小时前
Linux_基本指令1
linux·运维·服务器
守望时空332 小时前
Linux挂载NTFS分区指南
linux