Python爬网页,不确定网页的编码,不需要用第三方库

Python爬网页,不确定网页的编码,不需要用第三方库,自己写个判断,乱拳打死老师傅

detect试了,不好用

apparent_encoding试了,不好用

encoding试了,不好用

headers里get试了,不好用

最后用下面这个方法,反而是最好用的,也不是100%准确,但是在我用的过程中,这个是最好用的,反正也没有100%的,还不如用自己写的函数呢

python 复制代码
def detect_encoding(byte_text):  
    encodings_to_try = ['utf-8', 'gbk', 'gb2312', 'gb18030', 'ascii', 'latin1']  
    for encoding in encodings_to_try:  
        try:  
            return encoding  
        except UnicodeDecodeError:  
            continue  
    return None
相关推荐
沐知全栈开发13 小时前
jEasyUI 设置排序
开发语言
code bean13 小时前
【C++ 】C++ 与 C#:using 关键字、命名空间及作用域解析符对比
开发语言·c++·c#
CAE虚拟与现实13 小时前
C# 调用 DLL为什么不像 C/C++调用 DLL 时需要lib库
开发语言·c++·c#·动态链接库·dll库·lib库
Larry_Yanan13 小时前
Qt线程使用(一)直接继承QThread类
开发语言·c++·qt·ui
vortex513 小时前
Bash One-Liners 学习精要指南
开发语言·chrome·bash
Blossom.11813 小时前
基于Mamba-2的实时销量预测系统:如何用选择性状态空间干掉Transformer的O(n²)噩梦
人工智能·python·深度学习·react.js·机器学习·设计模式·transformer
Wise玩转AI13 小时前
Day 26|智能体的“伦理与安全边界”
人工智能·python·安全·ai·chatgpt·ai智能体
Yu_Lijing13 小时前
【个人项目】C++基于websocket的多用户网页五子棋(上)
开发语言·c++·websocket
脏脏a13 小时前
【初阶数据结构】栈与队列:定义、核心操作与代码解析
c语言·开发语言
济宁雪人13 小时前
Java安全基础——序列化/反序列化
java·开发语言