TomatoSCI分析日记:数据分析为什么用csv不用excel

其实并不是多余,虽然看到的内容是一样的,但是相比excel文件,csv文件没这么多繁文缛节,效率更高。

1.csv更干净

csv本质是纯文本,只有你看到的数据,没有花里胡哨的单元格格式、颜色、批注等隐藏信息,不会影响分析读取。当我们把两种文件内的字体颜色改变并保存(图1A,左为excel,右为csv),再打开的时候可以看到csv依然是最简朴的形式(图1B,左为excel,右为csv)。当然这里说的字体颜色只是一个很简单的举例,在实际应用中,你可不知道别人给你的excel埋了多少雷。

2.csv结构更简单

excel文件你建多少个工作表保存的时候就保留多少工作表,csv文件无论你有几个工作表就永远只会保留第一个工作表。很多人觉得 csv 不支持多个工作表是个限制,但在数据分析视角下,它反而是一种强制的规范化。你如果工作表之间来回引用,谁又能保证导入的时候不会出问题呢。

3.csv文件可以用记事本打开

这个点大家可以看看图2自己感受一下多有用。一份人畜无害的数据(图2A),但是分析时就是不停报错,但是把excel/csv文件都翻了给遍都没找到问题,但是这个时候我们用记事本打开csv文件我们可以发现最后两列是空列(图2B),这个时候我们再回头用excel打开把最后两列空列删除即可。而excel文件用记事本打开是乱码的,这个问题就没办法排查了。

4.excel文件转csv文件

很多小伙伴图快直接把.xlsx后缀改为.csv后缀,用记事本打开也是乱码的(图3),这样的文件是不具备可用性的,初学者如果不注意这个问题的话倒腾一天也不知道问题出在哪里,非常浪费时间。正确的方法是在"文件"-"另存为"中导出为csv格式。

TomatoSCI欢迎大家来访!

相关推荐
A3608_(韦煜粮)1 小时前
从数据沼泽到智慧引擎:现代大数据分析与应用架构全景解密
大数据·数据分析·数据治理·实时计算·数据架构·数据网格·数据湖仓
Ethan Hunt丶2 小时前
运动想象脑电的基本原理与分类方法
人工智能·分类·数据挖掘·脑机接口
Yuer20254 小时前
为什么要用rust做算子执行引擎
人工智能·算法·数据挖掘·rust
山海青风6 小时前
人工智能基础与应用 - 数据处理、建模与预测流程 8 基础模型之分类模型
人工智能·分类·数据挖掘
心无旁骛~7 小时前
华为 ModelEngine Nexent低代码平台单智能体评测:数据分析智能体 —— 零代码实现数据洞察与可视化闭环
低代码·数据挖掘·数据分析
yousuotu7 小时前
基于Python的亚马逊销售数据集探索性数据分析
开发语言·python·数据分析
算法与编程之美7 小时前
探索不同的损失函数对分类精度的影响
人工智能·算法·机器学习·分类·数据挖掘
AI浩7 小时前
RDD4D:基于4D注意力引导的道路损伤检测与分类
人工智能·分类·数据挖掘
傻啦嘿哟7 小时前
Python实现Excel数据自动化处理:从繁琐操作到智能流程的蜕变
python·自动化·excel
没有梦想的咸鱼185-1037-16637 小时前
土壤污染物迁移路径与范围模拟(适用于污染场地评估、修复工程、地下水保护)
数据分析