Python爬网页,不确定网页的编码,不需要用第三方库

Python爬网页,不确定网页的编码,不需要用第三方库,自己写个判断,乱拳打死老师傅

detect试了,不好用

apparent_encoding试了,不好用

encoding试了,不好用

headers里get试了,不好用

最后用下面这个方法,反而是最好用的,也不是100%准确,但是在我用的过程中,这个是最好用的,反正也没有100%的,还不如用自己写的函数呢

python 复制代码
def detect_encoding(byte_text):  
    encodings_to_try = ['utf-8', 'gbk', 'gb2312', 'gb18030', 'ascii', 'latin1']  
    for encoding in encodings_to_try:  
        try:  
            return encoding  
        except UnicodeDecodeError:  
            continue  
    return None
相关推荐
Full Stack Developme3 分钟前
Java 反射原理及应用
java·开发语言·数据库
进击的雷神7 分钟前
相对路径拼接、TEL前缀清洗、多链接过滤、毫秒级延迟控制——日本东京塑料展爬虫四大技术难关攻克纪实
爬虫·python
云溪·12 分钟前
Milvus向量数据库混合检索召回案例
python·ai·milvus
柒.梧.19 分钟前
Java集合核心知识点深度解析:数组与集合区别、ArrayList原理及线程安全问题
java·开发语言·python
0 0 020 分钟前
洛谷P4427 [BJOI2018] 求和 【考点】:树上前缀和
开发语言·c++·算法·前缀和
web3.088899921 分钟前
使用PHP采集数据的完整技术文章,涵盖多种场景和最佳实践
开发语言·php
柒.梧.26 分钟前
Java基础高频面试题(含详细解析+易错点,面试必看)
java·开发语言·面试
佩奇大王27 分钟前
P593 既约分数
java·开发语言·算法
polaris063035 分钟前
Java集合进阶
java·开发语言
AsDuang41 分钟前
Python 3.12 MagicMethods - 49 - __imatmul__
开发语言·python