使用pybind11开发c++扩展模块输出到控制台的中文信息显示乱码的问题

使用pybind11开发供Python项目使用的C++扩展模块时,如果在扩展模块的C++代码中向控制台输出的信息中包含中文,python程序的控制台很容易出现乱码。以如下C++扩展框架代码为例(这是对上一篇文章简明使用pybind11开发pythonc+扩展模块教程-CSDN博客中的C++扩展框架代码进行少量修正后的结果):

cpp 复制代码
#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
#include <vector>
#include <map>
#include <locale>
#include <codecvt>
#include <windows.h>
#include <pybind11/pybind11.h>
#include <pybind11/stl.h>

namespace py = pybind11;

class CSVFinder {
private:
    std::map<std::string, std::vector<std::string>> dataMap;
    std::vector<std::string> headers;


public:
    // 默认构造函数
    CSVFinder() {
    }

    // 接受 CSV 文件路径的构造函数
    CSVFinder(const std::string& filePath) {
        loadCSV(filePath);
    }

    // 载入 CSV 文件的方法
    void loadCSV(const std::string& filePath) {
        // 检查文件扩展名是否为 .csv
        if (filePath.substr(filePath.find_last_of(".") + 1) != "csv") {
            std::cerr << "文件扩展名不是 .csv,但仍尝试解析: "  << filePath << std::endl;
        }

        std::ifstream file(filePath);
        if (!file.is_open()) {
            std::cerr << "无法打开文件,请检查文件名或路径是否错误: " << filePath <<  std::endl;
            dataMap.clear();
            headers.clear();
            return;
        }

        std::string line;
        // 读取第一行作为标题
        if (!std::getline(file, line)) {
            std::cerr << "无法读取文件的第一行,请检查文件内容: " << filePath << std::endl;
            dataMap.clear();
            headers.clear();
            return;
        }

        std::istringstream iss(line);
        std::string token;
        while (std::getline(iss, token, ',')) {
            headers.push_back(token);
        }

        if (headers.empty()) {
            std::cerr << "第一行未包含有效的标题信息,请检查文件内容: "
                       << filePath << std::endl;
            dataMap.clear();
            headers.clear();
            return;
        }

        // 读取后续行
        while (std::getline(file, line)) {
            std::istringstream iss(line);
            std::vector<std::string> values;
            std::string token;
            while (std::getline(iss, token, ',')) {
                values.push_back(token);
            }
            if (values.empty()) {
                std::cerr << "某行未包含有效的数据信息,请检查文件内容: "
                           << filePath << std::endl;
                dataMap.clear();
                headers.clear();
                return;
            }
            std::string key = values[0];
            values.erase(values.begin());
            dataMap[key] = values;
        }

        if (dataMap.empty()) {
            std::cerr << "The file does not contain valid data lines:"
                       << filePath << std::endl;
            dataMap.clear();
            headers.clear();
            return;
        }

        file.close();
    }

    // 返回 dataMap 的方法
    const std::map<std::string, std::vector<std::string>>& getDataMap() const {
        return dataMap;
    }

    // 返回 headers 的方法
    const std::vector<std::string>& getHeaders() const {
        return headers;
    }

    // 查找数据的方法
    py::object findData(const std::string& rowTitle, const std::string& colTitle) {
        auto rowIt = dataMap.find(rowTitle);
        if (rowIt != dataMap.end()) {
            for (size_t i = 1; i < headers.size(); ++i) {
                if (headers[i] == colTitle && i < rowIt->second.size()) {
                    return py::cast(rowIt->second[i]);
                }
            }
        }
        return py::none();  // 返回 None 对象
    }

    // 查找行的方法
    std::vector<std::string> findRow(const std::string& rowTitle) {
        auto it = dataMap.find(rowTitle);
        if (it != dataMap.end()) {
            return it->second;
        }
        return {};
    }

    // 查找列的方法
    std::vector<std::string> findColumn(const std::string& colTitle) {
        std::vector<std::string> column;
        // 查找列标题在headers中的索引, 注意 headers[0] 为行标题,因此从index 1开始
        int colIndex = -1;
        for (size_t i = 1; i < headers.size(); ++i) {
            if (headers[i] == colTitle) {
                colIndex = static_cast<int>(i - 1); // 对应到每行数据中的索引
                break;
            }
        }
        if (colIndex < 0) {
            return column; // 未找到对应的列标题,返回空向量
        }
        // 遍历每一行数据
        for (const auto& row : dataMap) {
            const std::vector<std::string>& values = row.second;
            if (static_cast<size_t>(colIndex) < values.size()) {
                column.push_back(values[colIndex]);
            }
            else {
                column.push_back(""); // 如该行数据列数不足,可选择返回空字符串
            }
        }
        return column;
    }
};

PYBIND11_MODULE(CSVFinder, m) {
    py::class_<CSVFinder>(m, "CSVFinder")
        .def(py::init<>())
        .def(py::init<const std::string&>())
        .def("load_csv", &CSVFinder::loadCSV)
        .def("get_datamap", &CSVFinder::getDataMap)
        .def("get_headers", &CSVFinder::getHeaders)
        .def("find_data", &CSVFinder::findData)
        .def("find_row", &CSVFinder::findRow)
        .def("find_column", &CSVFinder::findColumn);
}

其中loadCSV方法中有不少向控制台输入的错误信息。将上面的框架构建分发给Python项目使用(具体过程参见本文开头提到的博客),使用下面的python代码进行测试:

python 复制代码
from CSVFinder import CSVFinder

width = 8

file = "E:/projects/ziweidoushu/csv1/destiny_type.csv"
finder = CSVFinder(file)
dict = finder.get_datamap()
headers = finder.get_headers()
print(f'{[value.ljust(width) + "|" for value in headers]}')
for key, values in dict.items():
	print(f'{key.ljust(width)  + "|" }:{[value.ljust(width)  + "|" for value in values]}')
key = '甲'
row = finder.find_row(key)
print(f"{key.ljust(width)  + '|' }:{len(row)}:{[value.ljust(width)  + '|' for value in row]}")
key = '寅'
column = finder.find_column(key)
print(f"{key.ljust(width)  + '|' }:{len(column)}:{[value.ljust(width)  + '|' for value in column]}")

测试程序中的文件路径故意写错了,本来应该向控制台输出C++代码中的包含中文的错误信息:

无法打开文件,请检查文件名或路径是否错误: E:/projects/ziweidoushu/csv1/destiny_type.csv

在控制台执行测试程序,实际输出如下图:

可以看到C++扩展模块向控制台输出的中文信息变成了乱码,但是Python程序向控制台输出的中文信息则显示正常。AI以及不少文章说用下面的命令将控制台所使用的编码改成UTF-8能够解决问题:

chcp 65001

实际上起不了作用:

实际上只要在C++扩展模块中在字符串前加上u8修饰符、在模块入口处将控制台编码改为UTF-8,并给编译器加上"/utf-8"选项即可正常显示中文,而无需调整控制台编码页。也就是:

1、在C++扩展模块代码中包含<windows.h>,然后调用Windows API在pybind11模块入口处进行如下调用即可:

//省略一些代码

std::cerr <<u8"无法打开文件,请检查文件名或路径是否错误: " << filePath << std::endl;

// 省略一些代码

PYBIND11_MODULE(CSVFinder, m) {

SetConsoleOutputCP(CP_UTF8); // 增加的代码

std::cerr.imbue(std::locale("chs")); // 增加的代码,可省略

std::cout.imbue(std::locale("chs")); // 增加的代码,可省略

// 省略后面的代码

实际上C++扩展模块中增加的三行代码后面两行省略也能解决问题,但考虑到提高健壮性,加上后两行代码,让控制台认为处于中文环境中。

2、在setup.py的扩展模块定义中,增加"/utf-8"选项:

定义扩展模块

csv_module = Extension(

'CSVFinder', # 模块名称

sources=['read_csv.cpp'], # C++ 源文件路径

include_dirs=[pybind11.get_include(), ],

language='c++', # 指定使用 C++ 语言

extra_compile_args=['/utf-8', '-D_WIN32_WINNT=0x0601', '-D__USE_MINGW_ANSI_STDIO=1'], # 编译选项

)

重新构建并测试,结果如下:

相关推荐
志存高远664 小时前
kotlin 扩展函数
android·开发语言·kotlin
LingRannn5 小时前
【最新Python包管理工具UV的介绍和安装】
开发语言·python·uv
yuanjun04165 小时前
RTDETRv2 pytorch训练
人工智能·pytorch·python
杰克逊的日记5 小时前
什么是PyTorch
人工智能·pytorch·python
Sheep Shaun6 小时前
C++类与对象—下:夯实面向对象编程的阶梯
c语言·开发语言·数据结构·c++·算法
AIGC魔法师7 小时前
轮播图导航组件 | 纯血鸿蒙组件库AUI
开发语言·harmonyos·openharmony·鸿蒙开发·纯血鸿蒙·arkui / ets·鸿蒙组件库aui
后藤十八里7 小时前
Python格式化字符串的四种方法
开发语言·python·学习
Little_Yuu8 小时前
抽奖系统(基于Tkinter)
开发语言·python
豌豆花下猫8 小时前
uv全功能更新:统一管理Python项目、工具、脚本和环境的终极解决方案
后端·python·ai
消失的dk8 小时前
Softmax回归与单层感知机对比
python·深度学习