【Shell】模拟爬虫下载天龙八部小说

Shell脚本:

bash 复制代码
#curl https://tianlong.5000yan.com/ -o tianlong.html
grep "href=" tianlong.html | grep html | awk -F"\"" '{ print $6 }' >> urls.txt
grep "href=" tianlong.html | grep html | awk -F">" '{ print $3 }' | awk -F"<" '{ print $1 }' >>titles.txt

exec 3<urls.txt
exec 4<titles.txt

while read -u 3 url && read -u 4 title
do
	echo "$title : $url"
	curl "$url" -o "${title}.html"
done

exec 3<&-
exec 4<&-

下载后的文件:

下载后的效果:

相关推荐
齐落山大勇11 小时前
Linux的文件IO
linux·运维·服务器
奔跑吧树袋熊11 小时前
Oracle 9i 与 19c 跨版本字符集乱码(US7ASCII ↔ AL32UTF8)DBLink 解决方案
数据库·oracle
byzh_rc11 小时前
[AI编程从入门到入土] 配置文件
java·数据库·ai编程
oradh11 小时前
Oracle数据库模式、对象的入门概述
数据库·oracle·oracle数据库基础
七七powerful11 小时前
运维养龙虾--Tmux 终端复用器完全指南:从入门到 AI Agent 远程操控
运维·服务器·人工智能
tod11312 小时前
深入解析ext2文件系统架构
linux·服务器·c++·文件系统·ext
m0_6948455712 小时前
CRUD (Nestjsx)部署教程:自动生成RESTful接口
服务器·人工智能·后端·开源·自动化·restful
雷工笔记12 小时前
SQL语句解析:DESC LIMIT 1
数据库·sql
萧行之12 小时前
FRP 0.62.0 + Mac Ollama 公网穿透部署+排障实录(标准 TOML 格式)
linux·服务器
齐潇宇12 小时前
文件共享服务器
linux·运维·网络·文件共享