Python爬虫乱码问题之encoding和apparent_encoding的区别

encoding是从http中的header中的charset字段中提取的编码方式,若header中没有charset字段则默认为ISO-8859-1编码模式,则无法解析中文,这是乱码的原因

apparent_encoding会从网页的内容中分析网页编码的方式,所以apparent_encoding比encoding更加准确。当网页出现乱码时可以把apparent_encoding的编码格式赋值给encoding。

相关推荐
你也渴望鸡哥的力量么3 小时前
爬虫学习笔记
笔记·爬虫·学习
深蓝电商API15 小时前
常见反爬虫策略与破解方案汇总
爬虫
(时光煮雨)21 小时前
【Python进阶】Python爬虫-Selenium
爬虫·python·selenium
嫂子的姐夫21 小时前
10-七麦js扣代码
前端·javascript·爬虫·python·node.js·网络爬虫
深蓝电商API1 天前
将爬虫部署到服务器:Scrapy+Scrapyd 实现定时任务与监控
服务器·爬虫·scrapy
nightunderblackcat1 天前
四大名著智能可视化推演平台
前端·网络·爬虫·python·状态模式
数据牧羊人的成长笔记1 天前
python爬虫scrapy框架使用
爬虫·python·scrapy
Fairy_sevenseven2 天前
[1]python爬虫入门,爬取豆瓣电影top250实践
开发语言·爬虫·python
white-persist2 天前
MCP协议深度解析:AI时代的通用连接器
网络·人工智能·windows·爬虫·python·自动化
深蓝电商API2 天前
不止是 Python:聊聊 Node.js/Puppeteer 在爬虫领域的应用
爬虫·python·node.js