【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
Tandy12356_5 分钟前
手写TCP/IP协议栈——环境配置
服务器·网络·网络协议·tcp/ip
桃子叔叔12 分钟前
Prompt Engineering完全指南:从基础到高阶技术实战
java·服务器·prompt
minji...15 分钟前
linux 进程控制(一) (fork进程创建,exit进程终止)
linux·运维·服务器·c++·git·算法
wanhengidc15 分钟前
巨 椰 云手机功能丰富 高性价比
运维·服务器·科技·智能手机·云计算
I · T · LUCKYBOOM18 分钟前
21.Linux网络设置
linux·运维·网络
❀͜͡傀儡师19 分钟前
使用Docker部署DashDot服务器仪表盘和Drupal
服务器·docker·容器
Likeyou719 分钟前
关于Linux下的Oracle的rman备份操作指南
linux·运维·oracle
峰顶听歌的鲸鱼23 分钟前
13.docker部署
linux·运维·笔记·docker·容器·云计算
橘子编程26 分钟前
仓颉语言变量与表达式解析
java·linux·服务器·开发语言·数据库·python·mysql
虚神界熊孩儿31 分钟前
linux下创建用户和用户组
linux·运维·服务器