Python爬网页,不确定网页的编码,不需要用第三方库

Python爬网页,不确定网页的编码,不需要用第三方库,自己写个判断,乱拳打死老师傅

detect试了,不好用

apparent_encoding试了,不好用

encoding试了,不好用

headers里get试了,不好用

最后用下面这个方法,反而是最好用的,也不是100%准确,但是在我用的过程中,这个是最好用的,反正也没有100%的,还不如用自己写的函数呢

python 复制代码
def detect_encoding(byte_text):  
    encodings_to_try = ['utf-8', 'gbk', 'gb2312', 'gb18030', 'ascii', 'latin1']  
    for encoding in encodings_to_try:  
        try:  
            return encoding  
        except UnicodeDecodeError:  
            continue  
    return None
相关推荐
shimly1234561 分钟前
python3 uvicorn 是啥?
python
z落落1 小时前
C#WinForm 窗体切换与窗体传值(登录跳转案例)+WinForm 窗体传值(从上往下传、从下往上传)
开发语言·windows·c#
CTA量化套保1 小时前
期货量化程序 time.sleep 卡死:天勤单线程与 deadline 替代
python·区块链
allway21 小时前
How to Echo Multiline to a File in Bash [3 Methods]
开发语言·chrome·bash
weixin_462446231 小时前
手把手教你用 Bash 脚本自动更新 /etc/hosts —— 自动绑定网卡 IP 与节点名
开发语言·tcp/ip·bash
一个梦醒了1 小时前
安装git bash选项推荐
开发语言·git·bash
GIS数据转换器1 小时前
城市排水生命线安全运行监测平台深度解析
java·运维·人工智能·python·安全·数据挖掘·无人机
ct9781 小时前
React 状态管理方案深度对比
开发语言·前端·react
贤哥哥yyds2 小时前
GBK转UTF\-8编码自动转换工具 使用文档
python
数量技术宅2 小时前
2026量化前沿:从Reddit热帖到Python实战,如何用赫斯特指数(Hurst)狙击虚假突破?
开发语言·python