数据预处理 - 技术栈

一般例如json数据可以用Pandas进行数据处理
with open('xxx.json','r', encoding = 'utf-8') as filename

python 复制代码

import json
import pandas as pd
# 读取JSON文件, utf-8保留中文
with open('json/prompt.json', 'r', encoding='utf-8') as file:
    data = json.load(file)
# 存储提取的内容
extracted_data = []

# 遍历
for item in data:
	if item['kwargs'] != "{}":  # 或者 if 'kwargs' in item:
		kwargs_dict = item
		extracted_data.append(kwargs_dict)

# 写入新的JSON文件,可以同时写多个，ensure_ascii false保留中文，index 缩进4格
with open('new1.json','w',encoding = 'utf-8') as newfile1, with open ('new2.json','w',encoding = 'utf-8') as newfile2：
	json.dump(extracted_data, newfile1, ensure_ascii = False, index = 4)

# df格式
df = pd.DataFrame(data)
# csv保存
# 如果需要保存为CSV文件
df.to_csv('output.csv', index=False, encoding='utf-8') # 此处index是索引，，不包含索引

Pandas DataFrame 提供了丰富的数据处理和查看方法。以下是一些常见的方法和示例代码：

查看数据

查看前几行数据
python 复制代码
```
df.head()
```
查看前5行数据。
查看后几行数据
python 复制代码
```
df.tail()
```
查看后5行数据。
查看数据的基本信息
python 复制代码
```
df.info()
```
显示数据类型、非空值计数等信息。
查看描述性统计信息
python 复制代码
```
df.describe()
```
显示数据的统计信息，如平均值、标准差等。

处理缺失值

查找缺失值
python 复制代码
```
df.isnull().sum()
```
查看每列缺失值的数量。
删除包含缺失值的行
python 复制代码
```
df.dropna()
```
删除包含任何缺失值的行。
填充缺失值
python 复制代码
```
df.fillna(value)
```
用指定值填充缺失值。例如，用0填充：
python 复制代码
```
df.fillna(0)
```

数据选择与过滤

选择列
python 复制代码
```
df['column_name']
```
选择单列数据。
python 复制代码
```
df[['column1', 'column2']]
```
选择多列数据。
选择行

使用行索引选择行：
python 复制代码
```
df.loc[0]
```
使用条件过滤行：
python 复制代码
```
df[df['column_name'] > value]
```

数据操作

添加新列

python 复制代码

df['new_column'] = df['column1'] + df['column2']

删除列
python 复制代码
```
df.drop(columns=['column_name'])
```

重命名列

python 复制代码

df.rename(columns={'old_name': 'new_name'}, inplace=True)

数据排序

python 复制代码

df.sort_values(by='column_name', ascending=False)

数据合并

按列合并
python 复制代码
```
df1.merge(df2, on='common_column')
```
按行合并
python 复制代码
```
pd.concat([df1, df2])
```