【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"

curl ${url_home} -o 1.html

cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt

cat 1.html | grep 'href="' | awk -F"\"" '{ print 3 }' \| awk -F"\<" '{ print 1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt

打开文件1

exec 3< urls.txt

打开文件2

exec 4< titles.txt

读取文件1和文件2的内容

while read -u 3 url && read -u 4 title

do

echo "url: $url"

echo "title: $title"

curl "{url_home}/url" -o "${title}.html"

done

关闭文件

exec 3<&-

exec 4<&-

相关推荐
吴爃1 小时前
小微企业 SRE 稳定性建设
运维·稳定性·小微企业
天空'之城1 小时前
Linux 系统编程 10:线程同步
linux·开发语言·系统编程·线程同步
河铃旅鹿1 小时前
在Ubuntu系统上为Android交叉编译OpenSSL
android·linux·ubuntu
开开心心_Every1 小时前
带OCR识别的电子发票打印工具
运维·自动化·ocr·电脑·powerpoint·音视频·lua
长孙豪翔1 小时前
引发事件的问题
java·linux·数据库
小张成长计划..2 小时前
【Linux】7:第一个系统程序-进度条
linux·运维·服务器
枳实-叶2 小时前
【Linux驱动开发】第23天:spi_driver 的 probe / remove 函数实现规范
linux·驱动开发·c#
李子琪。2 小时前
云计算虚拟化技术全解析:从理论到实践
linux·centos·云计算
wuminyu2 小时前
markword在高并发场景下变化剖析
java·linux·c语言·jvm·c++
Cloud_Shy6182 小时前
Linux 用户管理知识与应用实践(二:用户相关命令与示例)
linux·运维·服务器·测试用例