Python爬虫乱码问题之encoding和apparent_encoding的区别

encoding是从http中的header中的charset字段中提取的编码方式,若header中没有charset字段则默认为ISO-8859-1编码模式,则无法解析中文,这是乱码的原因

apparent_encoding会从网页的内容中分析网页编码的方式,所以apparent_encoding比encoding更加准确。当网页出现乱码时可以把apparent_encoding的编码格式赋值给encoding。

相关推荐
kadog1 小时前
PubMed PDF下载 cloudpmc-viewer-pow逆向
前端·javascript·人工智能·爬虫·pdf
nongcunqq2 小时前
爬虫练习 js 逆向
笔记·爬虫
一个天蝎座 白勺 程序猿3 小时前
Python爬虫(5)静态页面抓取实战:requests库请求头配置与反反爬策略详解
开发语言·爬虫·python
iuhart3 小时前
chromedp 反反爬设计方案
爬虫
橘猫云计算机设计3 小时前
net+MySQL中小民营企业安全生产管理系统(源码+lw+部署文档+讲解),源码可白嫖!
数据库·后端·爬虫·python·mysql·django·毕业设计
爱吃泡芙的小白白5 小时前
爬虫学习——使用HTTP服务代理、redis使用、通过Scrapy实现分布式爬取
redis·分布式·爬虫·http代理·学习记录
Auroral15610 小时前
【Python爬虫详解】第五篇:使用正则表达式提取网页数据
爬虫
一个天蝎座 白勺 程序猿12 小时前
Python爬虫(4)CSS核心机制:全面解析选择器分类、用法与实战应用
css·爬虫·python
丰锋ff20 小时前
爬虫学习总结
爬虫
西柚小萌新1 天前
【Python爬虫基础篇】--4.Selenium入门详细教程
爬虫·python·selenium