数据分析与FineBI介绍

数据分析

数据分析是通过收集数据,对收集的数据进行清理、处理,解释的过程。把有用的信息提取出来,总结出数据的内在规律。

具体步骤

数据收集

互联网,很多公开的资源,企业招标情况以及公告,会在官网上发布,还有很多平台也会发布数据。可以通过爬虫来获取来自互联网的数据。企业内部也会产生大量的数据,员工流动情况,员工工资、绩效情况等等。娱乐电商平台,每天产生大量的数据并通过这些数据来统计用户浏览内容,用户特征,浏览量,转化情况等等

数据清洗

数据拿到后,很多时候并不能直接进行分析。数据清洗(data cleaning 或 data cleansing)是把原始数据中错误、不完整、不一致或无关的信息识别、修正或删除的过程,使数据变得正确、统一并适合后续分析或建模使用。它是数据预处理的一部分,与数据集成、转换和特征工程紧密相关

为什么要做数据清洗?

  • 提高准确性:脏数据会导致统计结果和模型预测偏差甚至完全错误。
  • 提升可靠性和可重复性:清洗后别人能更容易复现你的分析流程。
  • 降低偏差:缺失或错误数据若不处理会引入系统性偏差。
  • 提高模型/算法表现:机器学习模型对异常、空值和错误格式敏感。
  • 节约成本和时间:虽然清洗需要时间,但能避免后续反复修正和错误决策造成更大损失。
  • 符合合规与审计要求:某些场景需保证数据质量以满足法规或内部审计

常见清洗方法与策略(红色部分为常见情况)

  • 探查与概览(数据剖析):查看分布、缺失率、唯一值等。
  • 处理空值(也叫缺失值):删除、均值/中位数/众数填充、基于模型预测填充或保留为特殊类别。
  • 去重:按主键或关键字段去除重复行。
  • 格式统一:日期、货币、单位、大小写规范化。
  • 类型转换:把字符串转为数值或日期等合适类型。
  • 统一类别:合并同义词或拼写变体("NY"="New York")。
  • 处理异常值:检查是数据错误还是有意义的极端值,视情况剔除或截断(capping)。
  • 计算字段(表头):根据已有的字段,计算出新的东西。比如有一列是单价,另一列是销量,就可以计算出新的一列销售额。添加了新的字段,就有了新的分析方向
  • 验证与校验:规则检查(如年龄不能为负数),交叉字段验证。
  • 记录与文档化:记录清洗步骤,保留原始数据快照,保证可回溯。

处理数据

  • 把清洗后的数据变成可用于分析或模型的数据;发现模式并构建模型。
  • 常做工作:
    • 探索性分析(EDA):分布、相关性、分组统计、可视化(直方图、散点图、箱线图)。
    • 特征工程:衍生变量、编码分类变量、标准化/归一化、处理时间序列特征、缺失值填充策略。
    • 建模/统计分析:选择算法(回归、分类、聚类、时间序列模型)、交叉验证、超参调优、诊断模型性能(AUC、RMSE、混淆矩阵)。
  • 工具:Python(pandas、scikit-learn、statsmodels)、R、Jupyter、SQL、Spark(大数据)。
  • 注意事项:训练/测试数据分离、防止数据泄露(leakage)、合理评估指标、处理不平衡数据

解释数据

  • 把分析结果转化为可理解、可执行的结论与建议;支持决策。
  • 常做工作:
    • 结果可视化(图表、仪表盘)、摘要关键指标、置信区间与不确定性说明。
    • 模型解释:系数解释、特征重要性、SHAP/LIME 等局部/全局解释方法。
    • 报告与故事化:构建清晰结论、方法与假设、限制与风险、可操作建议。
  • 工具:Tableau、FineBI、Power BI、Matplotlib/Seaborn/Plotly、SHAP、报告模板(PPT/Markdown)。
  • 注意事项:针对不同受众(技术 vs 非技术)调整表达深度,避免以相关性误导因果结论,清楚标注假设与数据局限

以上的一系列执行后,最终都是为了驱动决策

应用场景

个人生活:数据分析可以对个人喜好,生活习惯等进行分类,为其提供更加周到的个性化服务。这也是传说中的用户画像:年龄、性别、身高、收入、职业、教育程度、活跃度、是否有孩子、孩子年龄、颜色偏好等等

FineBI

两个网址:

第一个是自己做分析报告的平台,第二个是用来学习的

FineBI在线数据分析平台

FineBI帮助文档

简介:请查看官网

finebi的两个端:本地版本:学习阶段用的,单机游戏,不能设置权限,不能分享在线链接;在线版本:接单

区别:本地版本可以连接数据库,设置更新数据集;但是在线版本就不行

如何区分当前使用的版本是本地还是在线的:通过网址来区分

有 localhost 是本地的

入门案例

打开这个网址:FineBI在线数据分析平台

在左侧栏找到 我的分析

最主要的是 我的分析,这里是专门做仪表板的,其他的用的不多

进入到 我的分析之后,点击新建文件夹,我命名的是 CSDN,再点击加号,点击分析主题。这样就新建了一个分析主题

命名为"xxx超市销售分析"

完成:入门案例介绍

把这里的所有一步步照着做一遍就可以了,小白大约需要两小时左右的时间,有一点耐心

相关推荐
武子康17 小时前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康2 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP2 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库2 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟2 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人2 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长2 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人2 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城2 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
中烟创新2 天前
灯塔AI智能体获评“2025-2026中国数智科技年度十大创新力产品”
大数据·人工智能·科技