【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
Sheffield7 小时前
Docker的跨主机服务与其对应的优缺点
linux·网络协议·docker
Sheffield15 小时前
Alpine是什么,为什么是Docker首选?
linux·docker·容器
舒一笑1 天前
程序员效率神器:一文掌握 tmux(服务器开发必备工具)
运维·后端·程序员
Johny_Zhao1 天前
centos7安装部署openclaw
linux·人工智能·信息安全·云计算·yum源·系统运维·openclaw
haibindev1 天前
在 Windows+WSL2 上部署 OpenClaw AI员工的实践与踩坑
linux·wsl2·openclaw
NineData1 天前
数据库管理工具NineData,一年进化成为数万+开发者的首选数据库工具?
运维·数据结构·数据库
梦想很大很大2 天前
拒绝“盲猜式”调优:在 Go Gin 项目中落地 OpenTelemetry 链路追踪
运维·后端·go
Sinclair2 天前
内网服务器离线安装 Nginx+PHP+MySQL 的方法
运维
叶落阁主2 天前
Tailscale 完全指南:从入门到私有 DERP 部署
运维·安全·远程工作