【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
徐子元竟然被占了!!38 分钟前
STUN 协议
运维
wljy11 小时前
二、静态库的制作和使用
linux·c语言·开发语言·c++
mzhan0171 小时前
Linux: coredump产生对程序退出的影响
linux·运维·服务器
利来利往1 小时前
ubuntu设置永不休眠
运维·服务器
光电笑映1 小时前
从环境变量到进程虚拟地址空间——Linux 内存管理的底层脉络
linux·服务器·c++·c
遇印记2 小时前
软考知识点
运维·服务器·网络
源远流长jerry2 小时前
Linux 网络收包机制:从网卡到 Socket 的完整路径
linux·运维·服务器·网络·网络协议·tcp/ip
qq_364371722 小时前
基于 Docker 容器化环境配置
运维·docker·容器
我命由我123452 小时前
Windows 操作系统 - Windows 查看架构类型
运维·windows·笔记·学习·系统架构·运维开发·系统
goyeer2 小时前
【ITIL4】34服务实践 - 服务请求管理
运维·it·数字化·信息化·itil·信息化企业管理