根本原因是 std::ifstream 默认按字节流打开,不识别 BOM,将 UTF-8 或 UTF-16 BOM 当普通字符读入导致解析失败;需二进制模式打开、手动检测并跳过 BOM,再转码处理。读取时直接遇到乱码或空内容根本原因是 C++ 标准库的 std::ifstream 默认按字节流打开,不识别 BOM;遇到 UTF-8 BOM(0xEF 0xBB 0xBF)或 UTF-16 BOM(0xFF 0xFE 或 0xFE 0xFF)时,会把它们当普通字符读入,导致后续解析失败------比如 std::getline 读出首行含不可见字节,JSON 解析器直接报 invalid character。实操建议:立即学习"C++免费学习笔记(深入)";用二进制模式打开文件:std::ifstream f("file.txt", std::ios::binary),避免系统层面对换行符或编码的隐式转换手动读前 3 字节判断 UTF-8 BOM,前 2 字节判断 UTF-16 BOM;别依赖 std::codecvt_utf8(已弃用)或平台 API 做自动探测UTF-16 小端和大端 BOM 必须区分:读到 0xFF 0xFE 是 UTF-16LE,0xFE 0xFF 是 UTF-16BE;混用会导致每两个字节被颠倒解析std::wifstream 读 UTF-16 文件却只读出一半字符这是最典型的坑:Windows 下 std::wifstream 默认用本地宽字符编码(通常是 UTF-16LE),但若没显式指定 locale,它不会跳过 BOM,也不会按 UTF-16 单位解析------而是把每个字节当一个 wchar_t 处理,结果一个汉字变成两个乱码宽字符。实操建议:立即学习"C++免费学习笔记(深入)";必须在打开前设置 locale:f.imbue(std::locale(f.getloc(), new std::codecvt_utf16<char16_t std::little_endian>));</char16_t>改用 char16_t 流而非 wchar_t 流,避免 Windows 上 wchar_t 是 16 位但语义模糊的问题更稳妥的做法是:先用 std::ifstream 读原始字节,检测 BOM 后,用 std::mbrtoc16 或 std::from_bytes(C++20)转成 std::u16string跨平台读 UTF-8 文件时 BOM 导致 std::stoi 失败Linux/macOS 下很多工具生成的 UTF-8 文件带 BOM,而 std::stoi、std::stod 等函数遇到开头的 0xEF 0xBB 0xBF 会立即返回 0 并设 failbit,不是抛异常,容易被忽略。 文小言 百度旗下新搜索智能助手,有问题,问小言。
相关推荐
兵慌码乱1 小时前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析金銀銅鐵3 小时前
[Python] 体验用欧几里得算法计算最大公约数的过程FreakStudio6 小时前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发用户0332126663678 小时前
使用 Python 从零创建 Word 文档Csvn12 小时前
Python 两大经典坑点 —— 可变默认参数 & 闭包延迟绑定曲幽13 小时前
别再用网页翻译看源码了!你的私人翻译神器LibreTranslate,部署避坑指南来了用户5569188175315 小时前
#从脚本到独立程序:Python + Playwright 批量抓取的完整踩坑记录倔强的石头_17 小时前
KingbaseES 新版MySQL 兼容版体验:旧版迁移 + 功能实测兵慌码乱1 天前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析luckdewei1 天前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化