Python爬网页,不确定网页的编码,不需要用第三方库

Python爬网页,不确定网页的编码,不需要用第三方库,自己写个判断,乱拳打死老师傅

detect试了,不好用

apparent_encoding试了,不好用

encoding试了,不好用

headers里get试了,不好用

最后用下面这个方法,反而是最好用的,也不是100%准确,但是在我用的过程中,这个是最好用的,反正也没有100%的,还不如用自己写的函数呢

python 复制代码
def detect_encoding(byte_text):  
    encodings_to_try = ['utf-8', 'gbk', 'gb2312', 'gb18030', 'ascii', 'latin1']  
    for encoding in encodings_to_try:  
        try:  
            return encoding  
        except UnicodeDecodeError:  
            continue  
    return None
相关推荐
Oueii几秒前
构建一个基于命令行的待办事项应用
jvm·数据库·python
2301_81665122几秒前
自定义异常类设计
开发语言·c++·算法
weixin_421922691 分钟前
C++与自动驾驶系统
开发语言·c++·算法
在屏幕前出油3 分钟前
04. FastAPI——响应类型
开发语言·后端·python·pycharm·fastapi
小郭学习之路3 分钟前
Qt vs tools的一个编译问题
开发语言·qt
前进的李工9 分钟前
LangChain使用之Model IO(提示词模版之FewShotPromptTemplate)
开发语言·人工智能·语言模型·langchain·agent
Ivanqhz9 分钟前
寄存器分配的核心函数 allocate
java·开发语言·后端·python·rust
天远云服11 分钟前
驾培系统车辆核验实战:PHP集成天远二手车估值API实现学员车辆信息自动化管理
大数据·开发语言·自动化·php
2501_9454248011 分钟前
高性能计算资源调度
开发语言·c++·算法
野犬寒鸦14 分钟前
JVM垃圾回收机制深度解析(G1篇)(垃圾回收过程及专业名词详解)(补充)
java·服务器·开发语言·jvm·后端·面试