【Shell】模拟爬虫下载天龙八部小说

Shell脚本:

bash 复制代码
#curl https://tianlong.5000yan.com/ -o tianlong.html
grep "href=" tianlong.html | grep html | awk -F"\"" '{ print $6 }' >> urls.txt
grep "href=" tianlong.html | grep html | awk -F">" '{ print $3 }' | awk -F"<" '{ print $1 }' >>titles.txt

exec 3<urls.txt
exec 4<titles.txt

while read -u 3 url && read -u 4 title
do
	echo "$title : $url"
	curl "$url" -o "${title}.html"
done

exec 3<&-
exec 4<&-

下载后的文件:

下载后的效果:

相关推荐
XDHCOM14 小时前
ORA-31215: DBMS_LDAP PL/SQL无效LDAP修改值,Oracle报错故障修复与远程处理方案,快速解决连接配置难题
数据库·sql·oracle
白緢14 小时前
嵌入式 Linux + 内核开发高频问题及排查
java·linux·运维
学编程就要猛14 小时前
JavaEE初阶:网络编程
运维·服务器·网络
深蓝电商API14 小时前
Redis在海淘场景下的缓存策略设计
数据库·redis·缓存·海淘
杰克尼14 小时前
redis(day04-达人探店)
数据库·redis·缓存
蜡笔小新..14 小时前
Linux下Matplotlib使用Times New Roman字体的解决方案
linux·运维·matplotlib
飞yu流星14 小时前
文件压缩、文本内容、文本编辑
运维·服务器
洪流之源14 小时前
图像格式转换与内存对齐详解
linux
二宝哥14 小时前
Failed connect to mirrorlist.centos.org:80; Connection refused
linux·运维·centos
humors22114 小时前
一些安全类网站(不定期更新)
linux·网络·windows·安全·黑客·白帽