TomatoSCI分析日记:数据分析为什么用csv不用excel

其实并不是多余,虽然看到的内容是一样的,但是相比excel文件,csv文件没这么多繁文缛节,效率更高。

1.csv更干净

csv本质是纯文本,只有你看到的数据,没有花里胡哨的单元格格式、颜色、批注等隐藏信息,不会影响分析读取。当我们把两种文件内的字体颜色改变并保存(图1A,左为excel,右为csv),再打开的时候可以看到csv依然是最简朴的形式(图1B,左为excel,右为csv)。当然这里说的字体颜色只是一个很简单的举例,在实际应用中,你可不知道别人给你的excel埋了多少雷。

2.csv结构更简单

excel文件你建多少个工作表保存的时候就保留多少工作表,csv文件无论你有几个工作表就永远只会保留第一个工作表。很多人觉得 csv 不支持多个工作表是个限制,但在数据分析视角下,它反而是一种强制的规范化。你如果工作表之间来回引用,谁又能保证导入的时候不会出问题呢。

3.csv文件可以用记事本打开

这个点大家可以看看图2自己感受一下多有用。一份人畜无害的数据(图2A),但是分析时就是不停报错,但是把excel/csv文件都翻了给遍都没找到问题,但是这个时候我们用记事本打开csv文件我们可以发现最后两列是空列(图2B),这个时候我们再回头用excel打开把最后两列空列删除即可。而excel文件用记事本打开是乱码的,这个问题就没办法排查了。

4.excel文件转csv文件

很多小伙伴图快直接把.xlsx后缀改为.csv后缀,用记事本打开也是乱码的(图3),这样的文件是不具备可用性的,初学者如果不注意这个问题的话倒腾一天也不知道问题出在哪里,非常浪费时间。正确的方法是在"文件"-"另存为"中导出为csv格式。

TomatoSCI欢迎大家来访!

相关推荐
计算机毕设定制辅导-无忧学长1 天前
Grafana 与 InfluxDB 可视化深度集成(二)
信息可视化·数据分析·grafana
Jina AI1 天前
回归C++: 在GGUF上构建高效的向量模型
人工智能·算法·机器学习·数据挖掘·回归
瓦特what?1 天前
关于C++的#include的超超超详细讲解
java·开发语言·数据结构·c++·算法·信息可视化·数据挖掘
鹏多多.1 天前
flutter-使用device_info_plus获取手机设备信息完整指南
android·前端·flutter·ios·数据分析·前端框架
Full Stack Developme1 天前
Java后台生成多个Excel并用Zip打包下载
java·开发语言·excel
芦骁骏2 天前
自动处理考勤表——如何使用Power Query,步步为营,一点点探索自定义函数
数据分析·excel·powerbi
柑木2 天前
隐私计算-SecretFlow/SCQL-SCQL的两种部署模式
后端·安全·数据分析
计算机源码社2 天前
分享一个基于Hadoop的二手房销售签约数据分析与可视化系统,基于Python可视化的二手房销售数据分析平台
大数据·hadoop·python·数据分析·毕业设计项目·毕业设计源码·计算机毕设选题
楚韵天工2 天前
基于多分类的工业异常声检测及应用
人工智能·深度学习·神经网络·目标检测·机器学习·分类·数据挖掘
Kay_Liang2 天前
从聚合到透视:SQL 窗口函数的系统解读
大数据·数据库·sql·mysql·数据分析·窗口函数