数据分析与FineBI介绍

数据分析

数据分析是通过收集数据,对收集的数据进行清理、处理,解释的过程。把有用的信息提取出来,总结出数据的内在规律。

具体步骤

数据收集

互联网,很多公开的资源,企业招标情况以及公告,会在官网上发布,还有很多平台也会发布数据。可以通过爬虫来获取来自互联网的数据。企业内部也会产生大量的数据,员工流动情况,员工工资、绩效情况等等。娱乐电商平台,每天产生大量的数据并通过这些数据来统计用户浏览内容,用户特征,浏览量,转化情况等等

数据清洗

数据拿到后,很多时候并不能直接进行分析。数据清洗(data cleaning 或 data cleansing)是把原始数据中错误、不完整、不一致或无关的信息识别、修正或删除的过程,使数据变得正确、统一并适合后续分析或建模使用。它是数据预处理的一部分,与数据集成、转换和特征工程紧密相关

为什么要做数据清洗?

  • 提高准确性:脏数据会导致统计结果和模型预测偏差甚至完全错误。
  • 提升可靠性和可重复性:清洗后别人能更容易复现你的分析流程。
  • 降低偏差:缺失或错误数据若不处理会引入系统性偏差。
  • 提高模型/算法表现:机器学习模型对异常、空值和错误格式敏感。
  • 节约成本和时间:虽然清洗需要时间,但能避免后续反复修正和错误决策造成更大损失。
  • 符合合规与审计要求:某些场景需保证数据质量以满足法规或内部审计

常见清洗方法与策略(红色部分为常见情况)

  • 探查与概览(数据剖析):查看分布、缺失率、唯一值等。
  • 处理空值(也叫缺失值):删除、均值/中位数/众数填充、基于模型预测填充或保留为特殊类别。
  • 去重:按主键或关键字段去除重复行。
  • 格式统一:日期、货币、单位、大小写规范化。
  • 类型转换:把字符串转为数值或日期等合适类型。
  • 统一类别:合并同义词或拼写变体("NY"="New York")。
  • 处理异常值:检查是数据错误还是有意义的极端值,视情况剔除或截断(capping)。
  • 计算字段(表头):根据已有的字段,计算出新的东西。比如有一列是单价,另一列是销量,就可以计算出新的一列销售额。添加了新的字段,就有了新的分析方向
  • 验证与校验:规则检查(如年龄不能为负数),交叉字段验证。
  • 记录与文档化:记录清洗步骤,保留原始数据快照,保证可回溯。

处理数据

  • 把清洗后的数据变成可用于分析或模型的数据;发现模式并构建模型。
  • 常做工作:
    • 探索性分析(EDA):分布、相关性、分组统计、可视化(直方图、散点图、箱线图)。
    • 特征工程:衍生变量、编码分类变量、标准化/归一化、处理时间序列特征、缺失值填充策略。
    • 建模/统计分析:选择算法(回归、分类、聚类、时间序列模型)、交叉验证、超参调优、诊断模型性能(AUC、RMSE、混淆矩阵)。
  • 工具:Python(pandas、scikit-learn、statsmodels)、R、Jupyter、SQL、Spark(大数据)。
  • 注意事项:训练/测试数据分离、防止数据泄露(leakage)、合理评估指标、处理不平衡数据

解释数据

  • 把分析结果转化为可理解、可执行的结论与建议;支持决策。
  • 常做工作:
    • 结果可视化(图表、仪表盘)、摘要关键指标、置信区间与不确定性说明。
    • 模型解释:系数解释、特征重要性、SHAP/LIME 等局部/全局解释方法。
    • 报告与故事化:构建清晰结论、方法与假设、限制与风险、可操作建议。
  • 工具:Tableau、FineBI、Power BI、Matplotlib/Seaborn/Plotly、SHAP、报告模板(PPT/Markdown)。
  • 注意事项:针对不同受众(技术 vs 非技术)调整表达深度,避免以相关性误导因果结论,清楚标注假设与数据局限

以上的一系列执行后,最终都是为了驱动决策

应用场景

个人生活:数据分析可以对个人喜好,生活习惯等进行分类,为其提供更加周到的个性化服务。这也是传说中的用户画像:年龄、性别、身高、收入、职业、教育程度、活跃度、是否有孩子、孩子年龄、颜色偏好等等

FineBI

两个网址:

第一个是自己做分析报告的平台,第二个是用来学习的

FineBI在线数据分析平台

FineBI帮助文档

简介:请查看官网

finebi的两个端:本地版本:学习阶段用的,单机游戏,不能设置权限,不能分享在线链接;在线版本:接单

区别:本地版本可以连接数据库,设置更新数据集;但是在线版本就不行

如何区分当前使用的版本是本地还是在线的:通过网址来区分

有 localhost 是本地的

入门案例

打开这个网址:FineBI在线数据分析平台

在左侧栏找到 我的分析

最主要的是 我的分析,这里是专门做仪表板的,其他的用的不多

进入到 我的分析之后,点击新建文件夹,我命名的是 CSDN,再点击加号,点击分析主题。这样就新建了一个分析主题

命名为"xxx超市销售分析"

完成:入门案例介绍

把这里的所有一步步照着做一遍就可以了,小白大约需要两小时左右的时间,有一点耐心

相关推荐
跨境数据猎手5 小时前
大数据在电商行业的应用
大数据·运维·爬虫
绿算技术6 小时前
万卡推理集群存储选型分析:从核心架构到应用视角
大数据·科技·算法·架构
朴马丁8 小时前
预制菜的“数字厨房”:PLM如何支撑菜品标准化与供应链高效协同?
大数据·人工智能·食品行业·流程行业plm
奋斗的老史10 小时前
Spring-Boot 集成 TDengine 完整实战
大数据·时序数据库·tdengine
郑洁文10 小时前
音乐数据分析研究与应用
大数据·数据挖掘·数据分析·音乐数据分析
成长之路51411 小时前
【实证分析】地市环境规制综合指数测算-原始数据+do代码(2011-2024年)
大数据
逸模11 小时前
AI+BIM 重构连锁公装新范式 逸模打造数字化营建核心底座
大数据·人工智能·笔记·其他·信息可视化·重构
谁似人间西林客12 小时前
工业大数据实战:看中国智造如何用数据驱动效率革命
大数据·单例模式
2501_9336707912 小时前
数学成绩偏弱是否能填报大数据专业
大数据
陆水A13 小时前
【实时数仓·3】Flink多表JOIN状态爆炸——Event Time Temporal JOIN + TTL分层治理
大数据·数据仓库·数据分析·flink·数据库开发·bigdata