【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
txinyu的博客3 分钟前
static_cast、const_cast、dynamic_cast、reinterpret_cast
linux·c++
“αβ”18 分钟前
TCP相关实验
运维·服务器·网络·c++·网络协议·tcp/ip·udp
qq_2546744133 分钟前
Cisco Nexus 9504交换机上
java·linux·服务器
etp_37 分钟前
连击非第一击无伤害
运维·nginx
历程里程碑1 小时前
Linux 3 指令(3):进阶指令:文件查看、资源管理、搜索打包压缩详解
linux·运维·服务器·c语言·数据结构·笔记·算法
十六年开源服务商1 小时前
外贸WordPress用户反馈分析与运营维护
运维·服务器·数据库
梦想的旅途21 小时前
利用关键行为触发外部群的主动推送
运维·自动化·企业微信
junziruruo1 小时前
BAT方法在LasHeR上进行训练,生成了相关训练模型,在RGBT234的可视化操作过程(Linux)
linux·运维·服务器
极安代理1 小时前
代理地址IP怎么获取和使用?一文讲清
服务器·网络·tcp/ip
物理与数学1 小时前
Linux 页表映射
linux·linux内核