Python爬网页,不确定网页的编码,不需要用第三方库

Python爬网页,不确定网页的编码,不需要用第三方库,自己写个判断,乱拳打死老师傅

detect试了,不好用

apparent_encoding试了,不好用

encoding试了,不好用

headers里get试了,不好用

最后用下面这个方法,反而是最好用的,也不是100%准确,但是在我用的过程中,这个是最好用的,反正也没有100%的,还不如用自己写的函数呢

python 复制代码
def detect_encoding(byte_text):  
    encodings_to_try = ['utf-8', 'gbk', 'gb2312', 'gb18030', 'ascii', 'latin1']  
    for encoding in encodings_to_try:  
        try:  
            return encoding  
        except UnicodeDecodeError:  
            continue  
    return None
相关推荐
陈增林16 分钟前
基于 PyQt5 的多算法视频关键帧提取工具
开发语言·qt·算法
郝学胜-神的一滴27 分钟前
Linux系统函数stat和lstat详解
linux·运维·服务器·开发语言·c++·程序人生·软件工程
编程岁月32 分钟前
java面试-0141-java反射?优缺点?场景?原理?Class.forName和ClassLoader区别?
java·开发语言·面试
、花无将40 分钟前
PHP:配置问题从而导致代码运行出现错误
开发语言·php
小小测试开发1 小时前
pytest 库用法示例:Python 测试框架的高效实践
开发语言·python·pytest
BUG弄潮儿1 小时前
go-swagger标准接口暴露
开发语言·后端·golang
至善迎风1 小时前
把 Python 应用打包成 Mac 应用程序 — 完整指南
python·macos
数字化顾问1 小时前
Flink ProcessFunction 与低层级 Join 实战手册:实时画像秒级更新系统
java·开发语言
qq_339191142 小时前
go win安装grpc-gen-go插件
开发语言·后端·golang
疯狂吧小飞牛2 小时前
Lua中,表、元表、对象、类的解析
开发语言·junit·lua