【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
网络研究院6 分钟前
Proton Drive采用OpenPGP加密,上传速度提升300%
服务器·网络·安全·proton drive·openpgp
Ltd Pikashu8 分钟前
insmod 加载内核模块 —— sys_init_module 源码剖析
linux·kernel·insmod
大貔貅喝啤酒24 分钟前
pip 国内镜像源大全【测试 / 自动化开发常备】
运维·自动化·pip·国内镜像源
遇见小修修26 分钟前
选择诚信上门修电脑服务,应参考哪些判断标准?
服务器·电脑·负载均衡
hj28625126 分钟前
Linux网络基础一
linux·运维
世人万千丶39 分钟前
鸿蒙PC异常解决:Install Failed: error: failed to install bundle.
服务器·华为·开源·harmonyos·鸿蒙
云计算磊哥@1 小时前
运维开发宝典023-WEB网站服务
运维·前端·运维开发
likerhood1 小时前
服务器使用 vLLM 部署 Qwen2.5-Coder-7B-CL 笔记
服务器·笔记·vllm
小义_1 小时前
【Linux 1】
linux·运维·云原生·红帽
JF_Ma1 小时前
天量极客自动化技术:miniQMT系统实现量化交易自动化
运维·自动化