【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
皆圥忈几秒前
Linux文件系统与缓冲区深度解析
linux
Dream_ksw4 分钟前
借助AI再次理解三次握手和四次挥手
服务器·网络·tcp/ip
壹号用户16 分钟前
初识linux
linux·运维·服务器
衫水21 分钟前
Windows Server Nginx 代理企业内网 API 偶发超时处理与保活 SOP(20260608))
运维·windows·nginx
Java 码思客26 分钟前
【Redis分布式缓存实战】第20章 Redis监控运维与自动化体系
运维·redis·缓存
梦想的颜色27 分钟前
硬核|Docker从入门到精通:镜像构建、仓库推送、Compose编排、生产部署全攻略
运维·服务器·docker·容器·部署·环境·镜像
团象科技28 分钟前
中小出海企业站点运维实践 关于WP建站海外主机的行业观察
运维·人工智能
凡人叶枫36 分钟前
Effective C++ 条款02:宁可以编译器替换预处理器
java·linux·c语言·开发语言·c++
m0_738120721 小时前
渗透测试基础——PHP 序列化数据结构与反序列化机制详解
android·服务器·网络·数据结构·安全·php
爱看老照片1 小时前
linux上查看磁盘空间占用情况,清理大文件
linux·清理·大文件·磁盘空间