【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
minglie14 分钟前
gcc编译器汇总
linux
挽安学长7 分钟前
保姆级教程,通过GACCode使用Claude Code Desktop!
运维·服务器
firstacui1 小时前
MGRE实验
运维·服务器·网络
白菜欣2 小时前
Linux —《开发三件套:gcc/g++、gdb、make/Makefile 全解析》
linux·运维
何中应2 小时前
Grafana如何给列表设置别名
运维·grafana·监控
senijusene2 小时前
基于 imx6ull平台按键驱动开发:input子系统+中断子系统+platform总线
linux·驱动开发
MXsoft6182 小时前
运维的尽头,是把“救火”变成“算命”
运维
大卡片2 小时前
IO模型与并发服务器设计
运维·服务器·网络
莎士比亚的文学花园2 小时前
Linux驱动开发(1)——系统移植
linux·运维·服务器
PH = 73 小时前
OverlayFS联合文件系统使用示例
java·linux·服务器