**数据集的获取与选择:**数据集可以通过爬虫技术获取或使用开源数据集,对于大数据来说,自己采集不太现实,因此推荐使用开源数据集。
数据探索:强调了使用numpy和panda进行数据初步了解的重要性,包括了解数据集的每一列含义以及如何扩充数据集。
数据预处理:数据预处理的重要性,主要是处理重复值、缺失值和异常值。
数据可视化:通过绘制柱形图等方式,对数据进行可视化展示,以便更好地理解和分析数据。


















**数据集的获取与选择:**数据集可以通过爬虫技术获取或使用开源数据集,对于大数据来说,自己采集不太现实,因此推荐使用开源数据集。
数据探索:强调了使用numpy和panda进行数据初步了解的重要性,包括了解数据集的每一列含义以及如何扩充数据集。
数据预处理:数据预处理的重要性,主要是处理重复值、缺失值和异常值。
数据可视化:通过绘制柱形图等方式,对数据进行可视化展示,以便更好地理解和分析数据。