【Shell】模拟爬虫下载天龙八部小说

Shell脚本:

bash 复制代码
#curl https://tianlong.5000yan.com/ -o tianlong.html
grep "href=" tianlong.html | grep html | awk -F"\"" '{ print $6 }' >> urls.txt
grep "href=" tianlong.html | grep html | awk -F">" '{ print $3 }' | awk -F"<" '{ print $1 }' >>titles.txt

exec 3<urls.txt
exec 4<titles.txt

while read -u 3 url && read -u 4 title
do
	echo "$title : $url"
	curl "$url" -o "${title}.html"
done

exec 3<&-
exec 4<&-

下载后的文件:

下载后的效果:

相关推荐
取经蜗牛26 分钟前
Ubuntu 国内镜像源配置指南(多版本常用镜像地址都有)
linux·运维·ubuntu
tedcloud1231 小时前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr
实心儿儿2 小时前
Linux —— 线程控制(1)
linux·运维·服务器
筠筠喵呜喵2 小时前
Linux软件开发性能优化
linux·c++·性能优化
weixin_397574092 小时前
用自然语言查数据库出图表靠谱吗?一次智能问数实践复盘
数据库
Bruce_kaizy2 小时前
c++ linux环境编程——文件io介绍以及open 、write 、read 三剑客深度详解
linux·服务器·c++·ubuntu·操作系统·文件io
亦良Cool3 小时前
VMware虚拟机ubuntu瘦身,解决虚拟机越用越大
linux·运维·ubuntu
字节跳动开源4 小时前
Viking AI 搜索 CLI 正式发布:会说话,就能做搜索推荐
数据库·人工智能·开源
星辰&与海4 小时前
KVM + QEMU虚拟化方案
linux·运维
宋浮檀s4 小时前
应急响应——恶意流量&攻击行为识别
linux·运维·网络·网络安全·应急响应