CSV,全称为 Comma-Separated Values)(逗号分隔值 ),是一种常用的文本文件格式 ,用于存储表格数据 ,如电子表格 或数据库 。它采用纯文本形式,以逗号作为字段之间的分隔符,每行表示一个数据记录。每行文本包含由逗号分隔的一个或多个字段。这些字段通常代表表格中的列。CSV文件具有简单、通用和易于处理的特点,在数据处理和数据交换方面被广泛应用。
CSV文件结构
CSV文件由多行组成,每行表示一个数据记录。每行中的字段使用逗号进行分隔,字段之间可以包含文本、数字或日期等数据。文件的第一行通常用于定义字段名,后续行则包含相应的数据值。字段值可以使用引号 或双引号 进行包裹,以处理包含逗号或换行符的复杂数据。
python
# -*- coding: UTF-8 -*-
''' grade0.csv
20170110,刘兴怡,Female,B
20170109,刘春燕,Female,B
20170106,周思云,Female,B
20170115,张铭武,Male,A
20170102,徐芳,Female,A
20170113,田益宾,Male,A
20170101,章阳,Male,A
20170112,胡瑞欣,Female,A
'''
def csv_to_lst(filename):
"""接收文件名为参数,读取数据到二维列表中,返回二维列表。形如
[['20170101', '章阳', 'Male', 'A'],... ['20170108', '刘忆宁', 'Male', 'E']]
"""
with open(filename, 'r', encoding="gbk") as f:
grade_in_lst = [line.strip().split(',') for line in f] # 逐行切分为列表,得到二维列表
return grade_in_lst
def sort_lst(list_name, n):
"""接收需要排序的二维列表名和整数的排序列序号(范围为:1,2,3,4)为参数,返回排序后的二维列表。"""
list_name.sort(key=lambda x: x[n - 1]) # 列序号从1开始,列表中的序列从0开始,排序依据用x[n - 1]
return list_name # 返回排序后的列表
def output(ls):
"""接收排序后的二维列表为参数,逐行输出,每行的元素间用制表符分隔。"""
for line in ls: # line 为子列表
print(*line, sep='\t') # *对子列表进行解包,得到多个元素,sep指定分隔符
import csv
# 创建并写入CSV文件
def create_csv():
with open('example.csv', 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(["Name", "Age", "City"])
writer.writerow(["Alice", 30, "New York"])
writer.writerow(["Bob", 25, "Los Angeles"])
print("CSV file 'example.csv' created and written successfully.")
def save_ls_csv(ls):
with open('sort_lst_csv.csv', 'w', newline ='') as file:
writer = csv.writer(file)
#for line in ls:
# writer.writerow(line)
writer.writerows(ls)
print("CSV file 'sort_lst_csv.csv' created and written successfully.")
def pandas_save_csv(ls):
import numpy as np
import pandas as pd
# 使用 numpy 创建一个示例数组
data = np.array(ls)
# 将 numpy 数组转换为 pandas DataFrame
#df = pd.DataFrame(data, columns=['A', 'B', 'C'])
df = pd.DataFrame(data, columns=['student number', 'name', 'sex','grade'])
# 保存为CSV文件
df.to_csv('exapandas_save_csvmple.csv', index=False)
print("CSV file 'pandas_save_csv.csv' created and saved successfully.")
def pandas_save_dict_list_to_csv():
import pandas as pd
dict1 = {'学号': [235,432,204], '姓名': ['Alice', 'Bob', 'Tom'], '排名':[3, 23, 86]}
df = pd.DataFrame(dict1, index=range(0,3))
df.to_csv('pandas_save_dict_list_to_csv.csv',index = False, encoding='gbk' )
def save_ls_hex_csv(ls):
with open('sort_lst_hex_csv.csv', 'w', newline ='') as file:
writer = csv.writer(file)
for line in ls:
newline = [hex(int(item)) if str(item).isdigit() else item for item in line]
writer.writerow(newline)
print("CSV file 'sort_lst_hex_csv.csv' created and written successfully.")
if __name__ == '__main__':
file = 'grade0.csv'
num = int(input("Please input the sort column (1 based) : "))
grade_list = csv_to_lst(file)
ls_in_sort = sort_lst(grade_list, num)
output(ls_in_sort)
save_ls_csv(ls_in_sort)
pandas_save_csv(ls_in_sort)
save_ls_hex_csv(ls_in_sort)
pandas_save_dict_list_to_csv()
# 假设我们有一个列表和要转换为十六进制的项的索引
my_list = [1234, 'abcd', 'xyz']
# 转换字符串表示的整数为十六进制
hex_list = [hex(int(item)) if str(item).isdigit() else item for item in my_list]
print(hex_list)
grade_list_hex = csv_to_lst('sort_lst_hex_csv.csv')
ls_in_sort_hex = sort_lst(grade_list_hex, 1)
output(ls_in_sort_hex)
CSV 文件有多种编码格式,如 UTF - 8、UTF - 16、ANSI 等。如果 CSV 文件是UTF - 8 编码 ,而 Excel 默认使用的是 ANSI 编码 打开,就可能出现乱码。例如,许多从网络应用程序或非 Windows 系统生成的 CSV 文件可能采用UTF - 8 编码。
更改 Excel 编码设置:
在 Excel 中,可以通过 "数据 " 选项卡中的 "自文本 / CSV" 功能来导入文件 ,并在导入向导中选择正确的文件原始编码。在导入向导步骤中,会有一个 "文件原始格式" 选项,在这里可以选择 UTF - 8 等合适的编码格式来正确读取文件内容。
使用文本编辑器转换编码:
先使用专业的文本编辑器,如 Notepad++。打开 CSV 文件后,在 "编码" 菜单中查看文件的当前编码。如果是 UTF - 8 等非 Excel 默认支持的编码导致乱码,可以将其转换为 ANSI 编码(不过这种方法可能会丢失一些非 ASCII 字符信息,需要谨慎使用)。