一般例如json数据可以用Pandas进行数据处理
with open('xxx.json','r', encoding = 'utf-8') as filename
python
import json
import pandas as pd
# 读取JSON文件, utf-8保留中文
with open('json/prompt.json', 'r', encoding='utf-8') as file:
data = json.load(file)
# 存储提取的内容
extracted_data = []
# 遍历
for item in data:
if item['kwargs'] != "{}": # 或者 if 'kwargs' in item:
kwargs_dict = item
extracted_data.append(kwargs_dict)
# 写入新的JSON文件,可以同时写多个,ensure_ascii false保留中文,index 缩进4格
with open('new1.json','w',encoding = 'utf-8') as newfile1, with open ('new2.json','w',encoding = 'utf-8') as newfile2:
json.dump(extracted_data, newfile1, ensure_ascii = False, index = 4)
# df格式
df = pd.DataFrame(data)
# csv保存
# 如果需要保存为CSV文件
df.to_csv('output.csv', index=False, encoding='utf-8') # 此处index是索引,,不包含索引
Pandas DataFrame 提供了丰富的数据处理和查看方法。以下是一些常见的方法和示例代码:
查看数据
-
查看前几行数据
pythondf.head()
查看前5行数据。
-
查看后几行数据
pythondf.tail()
查看后5行数据。
-
查看数据的基本信息
pythondf.info()
显示数据类型、非空值计数等信息。
-
查看描述性统计信息
pythondf.describe()
显示数据的统计信息,如平均值、标准差等。
处理缺失值
-
查找缺失值
pythondf.isnull().sum()
查看每列缺失值的数量。
-
删除包含缺失值的行
pythondf.dropna()
删除包含任何缺失值的行。
-
填充缺失值
pythondf.fillna(value)
用指定值填充缺失值。例如,用0填充:
pythondf.fillna(0)
数据选择与过滤
-
选择列
pythondf['column_name']
选择单列数据。
pythondf[['column1', 'column2']]
选择多列数据。
-
选择行
使用行索引选择行:
pythondf.loc[0]
使用条件过滤行:
pythondf[df['column_name'] > value]
数据操作
-
添加新列
pythondf['new_column'] = df['column1'] + df['column2']
-
删除列
pythondf.drop(columns=['column_name'])
-
重命名列
pythondf.rename(columns={'old_name': 'new_name'}, inplace=True)
-
数据排序
pythondf.sort_values(by='column_name', ascending=False)
数据合并
-
按列合并
pythondf1.merge(df2, on='common_column')
-
按行合并
pythonpd.concat([df1, df2])