人工智能备考——大体题型讲解+1.1.1-1.1.5固定搭配总结

理论及实操题的题型分布和分值

理论知识考试采用闭卷机考方式，操作技能考核采用计算机机考方式。理论知识考试和操作技能考核均实行百分制，成绩皆达60分及以上者为合格。

其中理论题的考试方式如下图所示。

操作技能考试的方式和抽题方式如下图所示。

备考逻辑

由分值分布可知，

客观题需要多刷题库的单选和判断题

实操题需要将重心放在前3个大板块特别是2，3板块占总分值的70%，第4板块总共就5分，时间不足的情况可酌情放弃

实操题可以理解为完形填空，多记多刷，没代码基础也可以过

1.1.1-1.1.5固定搭配

1 打开文件以及之后的基本操作

pd.read_csv('文件名')

注意，pd是pandas的缩写，如果import里没有pd，要写pandas.read_xxxx

打开excel是read_excel

文件名从提干里获取，同时要加引号

看前5条数据是xx.head()

看数据信息是xx.info()

注意带括号，xx是dataframe的对象名

2 指定列名/创建新列

data $'RiskLevel'$

格式是 dataframe的对象名，方括号，列名

这个用的地方很多

3 创建新列，并填充数据，大致格式

data $'RiskLevel'$ = np.where(data $'DaysInHospital'$ >7,'高风险患者','低风险患者')

注意， np.where是设置数据条件

data $'DaysInHospital'$ >7,'高风险患者','低风险患者'

这三个参数连起来理解，是该列数据大于7天，即住院天数大于7天，设值是'高风险患者',反之是'低风险患者'

4 统计数量，统计总数

data $'RiskLevel'$ .value_counts()

格式是，对象 $'列名'$ .value_counts()

这是个固定搭配，一起连起来记忆

5 看到bins要写cut，cut的全部结构

pd.cut(data $'Age'$ ,bins=xxx,labels=xxx,right=False)

答题时，right=False未必要你们写，就记三个参数

分别是，待操作的列，这可以从上下文获取，后面是bins=xxx,labels=xxx

bins和lables可以从上下文获取

这个结构记住，看到bins就套用

6 看到上下文有分组提示，或者最后有mean等计算均值的提示，就用groupby

说明，题目里大概率是根据mean倒推写groupby，但有个别例外，例外就根据分组等关键字倒推groupby

该结构如下，

data.groupby('列名')

data是dataframe的对象名，记住，这里后面还会再有操作，先记这半段

7 向前填充和向后填充，记住这两个搭配语句

data $'列名'$ .fillna(method='ffill' inplace=True)

data $'列名'$ .fillna(method='bfill' inplace=True)

inplace=True其实不用记

8 保存成为xx(大概率是csv)文件

注意两点，从dataframe的对象保存保存到文件

所以格式是

cleaned_data.to_csv('csv文件名', index=False)

cleaned_data是dataframe的对象

index=False也要记的

9 空值和重复值处理

统计空值和重复值

data.isnull().sum()

data.duplicated().sum()

删除空值和重复值

data.dropna()

data.drop_duplicates()

10 数据转换用astype，看到有数据区间，用between

11 标准化处理的格式

先减均值（mean），再除以标准差（std）