爬虫 知识点2以及SSL1129错误该怎么解决

python 复制代码
article_url = url_tag['href']
            article_response = requests.get(article_url, headers=headers)
            article_soup = BeautifulSoup(article_response.content, "html.parser")
            print(index)

(1)article_url = url_tag['href']

这行代码从一个名为url_tag的标签(通常是一个链接标签)中提取href属性的值,并将其赋给article_url变量。这个href属性通常包含了一个完整的网址,指向具体的文章或页面。

(2) article_response = requests.get(article_url, headers=headers)

这行代码使用requests.get()方法向article_url发送一个HTTP GET请求,以获取该网址的内容。headers=headers部分是为了模拟浏览器请求,其中headers是一个包含了User-Agent等信息的字典。

(3)article_soup = BeautifulSoup(article_response.content, "html.parser")

这行代码使用BeautifulSoup将article_response.content(即获取的网页内容)解析为一个BeautifulSoup对象。这样就可以方便地从网页中提取信息。

(4) print(index)

这行代码打印当前的index值,用于调试或跟踪当前处理的是第几个链接。

提取一个链接的href属性。

使用requests库获取该链接指向的页面内容。

使用BeautifulSoup解析该页面内容。

打印当前处理的链接的索引值。

2.爬虫要关掉小黄猫,因为网络会不稳定 (解决SSL1129的问题)

3.以及要换浏览器的请求头user_agent

相关推荐
深蓝电商API1 小时前
爬虫界的 “核武器”:Splash + Scrapy 动态渲染终极方案
爬虫·scrapy·splash
J***Q2923 小时前
Vue数据可视化
前端·vue.js·信息可视化
ttod_qzstudio5 小时前
深入理解 Vue 3 的 h 函数:构建动态 UI 的利器
前端·vue.js
芳草萋萋鹦鹉洲哦5 小时前
【elemen/js】阻塞UI线程导致的开关卡顿如何优化
开发语言·javascript·ui
_大龄5 小时前
前端解析excel
前端·excel
1***s6325 小时前
Vue图像处理开发
javascript·vue.js·ecmascript
槁***耿6 小时前
JavaScript在Node.js中的事件发射器
开发语言·javascript·node.js
一叶茶6 小时前
移动端平板打开的三种模式。
前端·javascript
前端大卫6 小时前
一文搞懂 Webpack 分包:async、initial 与 all 的区别【附源码】
前端
U***49836 小时前
JavaScript在Node.js中的Strapi
开发语言·javascript·node.js