【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
适应规律10 分钟前
Docker和虚拟机
运维·docker·容器
抠脚学代码11 分钟前
Linux开发-->驱动开发-->设备树
linux·驱动开发·设备树
喜欢吃燃面16 分钟前
Linux 进程信号深度解析:从概念到产生机制
linux·开发语言·学习
A-刘晨阳20 分钟前
k8s之镜像拉取策略
运维·docker·容器·kubernetes·运维开发·harbor
埃伊蟹黄面20 分钟前
应用层HTTP协议
linux·网络·网络协议·http
IMPYLH25 分钟前
【无标题】
linux·运维·服务器·网络·bash
硬核子牙33 分钟前
软件虚拟化 vs 硬件虚拟化
linux
ShineWinsu34 分钟前
对于Linux:进程间通信IPC(命名管道)的解析
linux·c++·面试·笔试·进程·ipc·命名管道
比昨天多敲两行40 分钟前
Linux权限管理
linux·运维·服务器
runningshark1 小时前
【Linux】VirtualBox ↔ Ubuntu+WinSCP 文件传输
linux·运维·ubuntu