【Shell】模拟爬虫下载天龙八部小说

Shell脚本:

bash 复制代码
#curl https://tianlong.5000yan.com/ -o tianlong.html
grep "href=" tianlong.html | grep html | awk -F"\"" '{ print $6 }' >> urls.txt
grep "href=" tianlong.html | grep html | awk -F">" '{ print $3 }' | awk -F"<" '{ print $1 }' >>titles.txt

exec 3<urls.txt
exec 4<titles.txt

while read -u 3 url && read -u 4 title
do
	echo "$title : $url"
	curl "$url" -o "${title}.html"
done

exec 3<&-
exec 4<&-

下载后的文件:

下载后的效果:

相关推荐
006_1 分钟前
Java8的lambda用法总结
前端·数据库
航Hang*2 分钟前
第2章:进阶Linux系统——第1节:配置与管理Samba服务器
linux·运维·服务器·笔记·学习
倔强的石头1063 分钟前
KWDB 3.1.0 制造业实战:从 0 到 1 搭建工业设备健康监测系统
数据库·kwdb
qq_4924484465 分钟前
Maven直接下载jar包
数据库·maven·jar
开始了码7 分钟前
基于 Qt 实现多客户端 TCP 通信聊天室
开发语言·数据库·php
摇滚侠8 分钟前
从 Tomcat 服务最大连接数角度讲一讲高峰期高考查分网站打不开,服务器的资源是有限的,同一时间大量用户连接服务器,会耗尽服务器的资源,服务器会拒绝新的连接
java·服务器·tomcat
肥猪猪爸8 分钟前
数据库 2PC 极简流程图
java·数据库·分布式·mysql·分布式事务·2pc
dot to one15 分钟前
B树系列在数据库中的应用
数据结构·数据库·b树
心前阳光19 分钟前
Mirror网络库插件使用4
java·linux·网络·unity·c#·游戏引擎
XHW___00119 分钟前
linux 解决挖矿病毒的方法
linux·运维·服务器