【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
云计算练习生1 分钟前
渗透测试行业术语—— 网络攻击方式与漏洞利用
服务器·网络·安全·渗透测试术语·网络安全术语
繁华似锦respect4 分钟前
C++ & Linux 中 GDB 调试与内存泄漏检测详解
linux·c语言·开发语言·c++·windows·算法
爱潜水的小L8 分钟前
自学嵌入式day25,树
linux
周杰伦_Jay8 分钟前
【Linux Shell】命令完全指南
linux·运维·服务器
乾元8 分钟前
SDN 与 AI 协同:控制面策略自动化与策略一致性校验
运维·网络·人工智能·网络协议·华为·系统架构·ansible
锡兰_CC9 分钟前
无缝触达,卓越体验:开启openEuler世界的任意门
服务器·网络·数据库·c++·图像处理·qt·nginx
qq_4798754310 分钟前
protobuf[2]
linux
sky北城15 分钟前
Linux的回收站机制实现方式总结
linux·运维·服务器
代码游侠28 分钟前
复习——栈、队列、树、哈希表
linux·数据结构·学习·算法
橘子真甜~32 分钟前
C/C++ Linux网络编程10 - http协议
linux·服务器·网络·c++·网络协议·http