【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
ZFSS5 小时前
Localization Translate API 集成与使用指南
java·服务器·数据库·人工智能·mysql·ai编程
hj2862516 小时前
Linux 磁盘管理 + 文件系统 + LVM 笔记整理
linux·运维
.YYY7 小时前
Linux--如何安装rockyLinux9虚拟机
linux
索木木7 小时前
NCCL SHARP 和 TREE算法
java·服务器·算法
kdxiaojie7 小时前
U-Boot分析【学习笔记】(12)
linux·笔记·学习
Bert.Cai8 小时前
Linux let命令详解
linux·运维·服务器
枕星而眠8 小时前
Linux 线程:原理、属性、实战与面试避坑
linux·运维·c语言·面试
晚风予卿云月8 小时前
【Linux】环境变量概念、作用、配置与修改详解
linux·运维·服务器·环境变量
r-t-H8 小时前
从零开始搭建CDH-第十二章
linux·hive·spark·centos·hbase
~黄夫人~8 小时前
零基础速通|Windows&Linux 常用命令行对照表大全
linux·运维·windows·笔记·备忘录·整理表格