Python爬网页,不确定网页的编码,不需要用第三方库

Python爬网页,不确定网页的编码,不需要用第三方库,自己写个判断,乱拳打死老师傅

detect试了,不好用

apparent_encoding试了,不好用

encoding试了,不好用

headers里get试了,不好用

最后用下面这个方法,反而是最好用的,也不是100%准确,但是在我用的过程中,这个是最好用的,反正也没有100%的,还不如用自己写的函数呢

python 复制代码
def detect_encoding(byte_text):  
    encodings_to_try = ['utf-8', 'gbk', 'gb2312', 'gb18030', 'ascii', 'latin1']  
    for encoding in encodings_to_try:  
        try:  
            return encoding  
        except UnicodeDecodeError:  
            continue  
    return None
相关推荐
隐退山林1 天前
JavaEE:多线程初阶(二)
java·开发语言·jvm
乌暮1 天前
JavaEE初阶---《JUC 并发编程完全指南:组件用法、原理剖析与面试应答》
java·开发语言·后端·学习·面试·java-ee
小鸡吃米…1 天前
机器学习 - 亲和传播算法
python·机器学习·亲和传播
内存不泄露1 天前
基于Django和Vue3的文件分享平台设计与实现
后端·python·django
没学上了1 天前
SLM-多头注意力机制
pytorch·python·深度学习
CCPC不拿奖不改名1 天前
计算机网络:电脑访问网站的完整流程详解+面试习题
开发语言·python·学习·计算机网络·面试·职场和发展
wanderist.1 天前
C++输入输出的一些问题
开发语言·c++·图论
PXM的算法星球1 天前
用 semaphore 限制 Go 项目单机并发数的一次流量控制优化实践
开发语言·后端·golang
寻星探路1 天前
【算法专题】哈希表:从“两数之和”到“最长连续序列”的深度解析
java·数据结构·人工智能·python·算法·ai·散列表
@zulnger1 天前
python 学习笔记(闭包)
笔记·python·学习