Python爬虫乱码问题之encoding和apparent_encoding的区别

encoding是从http中的header中的charset字段中提取的编码方式,若header中没有charset字段则默认为ISO-8859-1编码模式,则无法解析中文,这是乱码的原因

apparent_encoding会从网页的内容中分析网页编码的方式,所以apparent_encoding比encoding更加准确。当网页出现乱码时可以把apparent_encoding的编码格式赋值给encoding。

相关推荐
全栈开发圈11 小时前
新书速览|Java网络爬虫精解与实践
java·开发语言·爬虫
小白学大数据11 小时前
JavaScript重定向对网络爬虫的影响及处理
开发语言·javascript·数据库·爬虫
ac-er888812 小时前
PHP网络爬虫常见的反爬策略
开发语言·爬虫·php
聪明的墨菲特i15 小时前
Python爬虫学习
爬虫·python·学习
oliveira-time17 小时前
爬虫学习6
爬虫
xiaoxiongip6661 天前
HTTP 和 HTTPS
网络·爬虫·网络协议·tcp/ip·http·https·ip
兆。1 天前
掌握 PyQt5:从零开始的桌面应用开发
开发语言·爬虫·python·qt
API快乐传递者1 天前
淘宝反爬虫机制的主要手段有哪些?
爬虫·python
兜里有糖请分享2 天前
Python中序列化/反序列化JSON格式的数据
爬虫·python
亿牛云爬虫专家2 天前
用Puppeteer点击与数据爬取:实现动态网页交互
javascript·爬虫·爬虫代理·puppeteer·数据·代理ip·16yun