如何修复 Python Pandas 数据标记错误

用于分析数据的 Python 库称为 Pandas。在 Pandas 中读取数据最常见的方式是通过 CSV 文件，但 CSV 文件的限制是它应该采用特定的格式，否则在标记数据时会抛出错误。在本文中，我们将讨论修复 Python Pandas 错误标记数据的各种方法。

当您使用 pandas.read_csv() 函数从 CSV 文件读取数据，并且该函数在标记化或解析数据时遇到问题时，通常会出现" Python Pandas 错误标记数据" 。标记化是指将数据分割成更小的单元（标记）的过程，通常基于分隔符，对于 CSV 文件，通常是逗号。

修复 Python Pandas 数据标记错误

当我们通过 CSV 文件读取 Python Pandas 数据时，检查我们上传的 CSV 文件是否有错误至关重要。要检查 CSV 文件是否有任何错误，您可以通过任何 Excel 或任何您喜欢的编辑器打开 CSV 文件。如果您发现任何错误，请更正错误并再次上传正确的 CSV。

在 Pandas 数据框中读取 CSV 文件时使用的默认分隔符是逗号 (,)。如果您在 CSV 文件中使用任何其他分隔符，则有必要在读取 CSV 文件时指定该分隔符，否则会错误地读取 CSV 文件或给出错误的标记数据。您可以在读取 CSV 时指定分隔符，如下所示：

示例：在本例中，我们正在读取 CSV 文件，其中的数据以分号分隔，因此我们在读取 CSV 文件时指定了分隔符分号 (;)，如下所示：

python 复制代码

import pandas as pd
df = pd.read_csv('student_data1.csv', sep=';')
df

输出

在 Pandas 数据帧中读取 CSV 文件时使用的默认编码是 utf-8。如果您在 CSV 文件中使用任何特殊字符，那么在读取 CSV 文件时使用正确的编码至关重要，否则会错误地读取 CSV 文件或给出错误的标记数据。您可以在读取 CSV 时指定正确的编码，如下所示：

示例：在此示例中，我们正在读取的 CSV 文件中包含特殊字符，因此在读取 CSV 文件时，我们使用 ascii 编码，如下所示：

python 复制代码

import pandas as pd
df = pd.read_csv('student_data1.csv', encoding='ascii')
df

输出

读取上传的 CSV 文件的默认方式是读取所有行，无论是否有错误。如果您知道您的数据可能有一些包含错误的行，那么有必要指定在读取 CSV 文件时跳过这些行，否则它将错误地读取 CSV 文件或给出错误标记数据。您可以指定在读取 CSV 时跳过错误行，如下所示：

示例：在此示例中，我们正在读取的 CSV 文件中有一些包含错误的行，因此在读取 CSV 文件时，我们将跳过包含错误的行，如下所示：

python 复制代码

import pandas as pd
df = pd.read_csv('student_data1.csv', on_bad_lines='skip')
df

输出：

我们正在读取的 CSV 文件中会出现包含不平衡报价的各种情况。在这种情况下，有必要在仅读取 CSV 文件时修复不平衡的报价。在此方法中，我们将了解如何修复那些不平衡的报价。

**示例： **在此示例中，我们正在读取的 CSV 文件中有一些不平衡的双引号，因此在读取 CSV 文件时，我们将修复不平衡的双引号，如下所示：

python 复制代码

import pandas as pd
import csv
df = pd.read_csv('student_data1.csv', quoting=csv.QUOTE_NONE, quotechar='"')
df

输出：

在 Python Pandas 中读取不正确的 CSV 文件可能会导致错误标记数据，但本文中定义的各种方法将帮助您解决错误并正确解析 Pandas 中的 CSV 文件。