【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
珠海西格电力2 分钟前
西格电力零碳园区管理系统的技术架构是怎样的?
大数据·运维·人工智能·物联网·架构·能源
MAHATMA玛哈特科技3 分钟前
矫平机的液压系统是干什么的?压下精度背后的控制逻辑
运维·服务器·校平机·矫平机·整平机
打码人的日常分享10 分钟前
信息化数据安全管理制度办法(Word)
大数据·运维·网络·云计算·制造
Kingairy19 分钟前
vi(vim)常用命令汇总
linux·编辑器·vim
日取其半万世不竭24 分钟前
immich-low-memory-tuning-20260601
服务器·docker·容器
li357428 分钟前
深入理解 Linux eBPF 技术——从内核观测到可编程网络
linux·网络
电商API_1800790524729 分钟前
技术分享:如何实现批量自动化获取淘宝商品视频主图API
运维·爬虫·数据挖掘·自动化
TG_yunshuguoji30 分钟前
亚马逊云代理商:如何用 CloudWatch+Lambda 打造自动化告警系统
大数据·运维·自动化·云计算·aws
maosheng114636 分钟前
网络综合项目(做个博客)
linux·服务器·网络
田里的水稻38 分钟前
FA_IPC_协议网络(VRPN)数据交互三
linux·网络·网络协议·tcp/ip·机器人