Python爬虫乱码问题之encoding和apparent_encoding的区别

encoding是从http中的header中的charset字段中提取的编码方式,若header中没有charset字段则默认为ISO-8859-1编码模式,则无法解析中文,这是乱码的原因

apparent_encoding会从网页的内容中分析网页编码的方式,所以apparent_encoding比encoding更加准确。当网页出现乱码时可以把apparent_encoding的编码格式赋值给encoding。

相关推荐
m0_663234011 小时前
python数据分析之爬虫基础:selenium详细讲解
爬虫·python·数据分析
汤姆yu6 小时前
python大数据国内旅游景点的数据爬虫与可视化分析
爬虫·数据分析·景点可视化
eqwaak07 小时前
爬虫自动化(DrissionPage)
开发语言·人工智能·爬虫·python·自动化·pip
MySheep.8 小时前
爬虫数据存储:Redis、MySQL 与 MongoDB 的对比与实践
redis·爬虫·mysql
m0_7482540913 小时前
100天精通Python(爬虫篇)——第113天:爬虫基础模块之urllib详细教程大全
开发语言·爬虫·python
小爬虫程序猿13 小时前
深入理解Jsoup与Selenium:Java爬虫的双剑合璧
爬虫·python·selenium
m0_7482389213 小时前
【2024年最新】BilibiliB站视频动态评论爬虫
爬虫
赵谨言1 天前
基于python网络爬虫的搜索引擎设计
爬虫·python·搜索引擎
Jelena技术达人1 天前
深入探索:获取翻译文本与语言词法分析的API接口
开发语言·爬虫
搬砖的果果1 天前
爬虫代理服务要怎么挑选?
网络·爬虫·网络协议·tcp/ip