TomatoSCI分析日记:数据分析为什么用csv不用excel

其实并不是多余,虽然看到的内容是一样的,但是相比excel文件,csv文件没这么多繁文缛节,效率更高。

1.csv更干净

csv本质是纯文本,只有你看到的数据,没有花里胡哨的单元格格式、颜色、批注等隐藏信息,不会影响分析读取。当我们把两种文件内的字体颜色改变并保存(图1A,左为excel,右为csv),再打开的时候可以看到csv依然是最简朴的形式(图1B,左为excel,右为csv)。当然这里说的字体颜色只是一个很简单的举例,在实际应用中,你可不知道别人给你的excel埋了多少雷。

2.csv结构更简单

excel文件你建多少个工作表保存的时候就保留多少工作表,csv文件无论你有几个工作表就永远只会保留第一个工作表。很多人觉得 csv 不支持多个工作表是个限制,但在数据分析视角下,它反而是一种强制的规范化。你如果工作表之间来回引用,谁又能保证导入的时候不会出问题呢。

3.csv文件可以用记事本打开

这个点大家可以看看图2自己感受一下多有用。一份人畜无害的数据(图2A),但是分析时就是不停报错,但是把excel/csv文件都翻了给遍都没找到问题,但是这个时候我们用记事本打开csv文件我们可以发现最后两列是空列(图2B),这个时候我们再回头用excel打开把最后两列空列删除即可。而excel文件用记事本打开是乱码的,这个问题就没办法排查了。

4.excel文件转csv文件

很多小伙伴图快直接把.xlsx后缀改为.csv后缀,用记事本打开也是乱码的(图3),这样的文件是不具备可用性的,初学者如果不注意这个问题的话倒腾一天也不知道问题出在哪里,非常浪费时间。正确的方法是在"文件"-"另存为"中导出为csv格式。

TomatoSCI欢迎大家来访!

相关推荐
Mikhail_G1 小时前
Python应用for循环临时变量作用域
大数据·运维·开发语言·python·数据分析
qwfys2003 小时前
零基础认知企业级数据分析平台如何落实数据建模(GAI)
数据挖掘·数据分析·数据建模
路由侠内网穿透6 小时前
本地部署消息代理软件 RabbitMQ 并实现外部访问( Windows 版本 )
服务器·开发语言·windows·数据分析·rabbitmq·ruby
lczdyx9 小时前
高效Excel数据净化工具:一键清除不可见字符与格式残留
python·excel·pandas·数据清洗·数据处理
姜太小白9 小时前
【Office】Excel两列数据比较方法总结
excel
jie1889457586610 小时前
ubuntu中,文本编辑器nano和vim区别,vim的用法
ubuntu·vim·excel
waterHBO11 小时前
python 空气质量可视化,数据分析 + 前后端分离 + ppt 演讲大纲
python·数据分析
阡之尘埃18 小时前
Python量化交易12——Tushare全面获取各种经济金融数据
python·金融·数据分析·pandas·量化交易·宏观经济
流年viv20 小时前
数据分析学习笔记——A/B测试
笔记·学习·数据分析·统计原理
前端sweetGirl1 天前
Excel 中的SUMIFS用法(基础版),重复项求和
excel