数据分析与FineBI介绍

数据分析

数据分析是通过收集数据,对收集的数据进行清理、处理,解释的过程。把有用的信息提取出来,总结出数据的内在规律。

具体步骤

数据收集

互联网,很多公开的资源,企业招标情况以及公告,会在官网上发布,还有很多平台也会发布数据。可以通过爬虫来获取来自互联网的数据。企业内部也会产生大量的数据,员工流动情况,员工工资、绩效情况等等。娱乐电商平台,每天产生大量的数据并通过这些数据来统计用户浏览内容,用户特征,浏览量,转化情况等等

数据清洗

数据拿到后,很多时候并不能直接进行分析。数据清洗(data cleaning 或 data cleansing)是把原始数据中错误、不完整、不一致或无关的信息识别、修正或删除的过程,使数据变得正确、统一并适合后续分析或建模使用。它是数据预处理的一部分,与数据集成、转换和特征工程紧密相关

为什么要做数据清洗?

  • 提高准确性:脏数据会导致统计结果和模型预测偏差甚至完全错误。
  • 提升可靠性和可重复性:清洗后别人能更容易复现你的分析流程。
  • 降低偏差:缺失或错误数据若不处理会引入系统性偏差。
  • 提高模型/算法表现:机器学习模型对异常、空值和错误格式敏感。
  • 节约成本和时间:虽然清洗需要时间,但能避免后续反复修正和错误决策造成更大损失。
  • 符合合规与审计要求:某些场景需保证数据质量以满足法规或内部审计

常见清洗方法与策略(红色部分为常见情况)

  • 探查与概览(数据剖析):查看分布、缺失率、唯一值等。
  • 处理空值(也叫缺失值):删除、均值/中位数/众数填充、基于模型预测填充或保留为特殊类别。
  • 去重:按主键或关键字段去除重复行。
  • 格式统一:日期、货币、单位、大小写规范化。
  • 类型转换:把字符串转为数值或日期等合适类型。
  • 统一类别:合并同义词或拼写变体("NY"="New York")。
  • 处理异常值:检查是数据错误还是有意义的极端值,视情况剔除或截断(capping)。
  • 计算字段(表头):根据已有的字段,计算出新的东西。比如有一列是单价,另一列是销量,就可以计算出新的一列销售额。添加了新的字段,就有了新的分析方向
  • 验证与校验:规则检查(如年龄不能为负数),交叉字段验证。
  • 记录与文档化:记录清洗步骤,保留原始数据快照,保证可回溯。

处理数据

  • 把清洗后的数据变成可用于分析或模型的数据;发现模式并构建模型。
  • 常做工作:
    • 探索性分析(EDA):分布、相关性、分组统计、可视化(直方图、散点图、箱线图)。
    • 特征工程:衍生变量、编码分类变量、标准化/归一化、处理时间序列特征、缺失值填充策略。
    • 建模/统计分析:选择算法(回归、分类、聚类、时间序列模型)、交叉验证、超参调优、诊断模型性能(AUC、RMSE、混淆矩阵)。
  • 工具:Python(pandas、scikit-learn、statsmodels)、R、Jupyter、SQL、Spark(大数据)。
  • 注意事项:训练/测试数据分离、防止数据泄露(leakage)、合理评估指标、处理不平衡数据

解释数据

  • 把分析结果转化为可理解、可执行的结论与建议;支持决策。
  • 常做工作:
    • 结果可视化(图表、仪表盘)、摘要关键指标、置信区间与不确定性说明。
    • 模型解释:系数解释、特征重要性、SHAP/LIME 等局部/全局解释方法。
    • 报告与故事化:构建清晰结论、方法与假设、限制与风险、可操作建议。
  • 工具:Tableau、FineBI、Power BI、Matplotlib/Seaborn/Plotly、SHAP、报告模板(PPT/Markdown)。
  • 注意事项:针对不同受众(技术 vs 非技术)调整表达深度,避免以相关性误导因果结论,清楚标注假设与数据局限

以上的一系列执行后,最终都是为了驱动决策

应用场景

个人生活:数据分析可以对个人喜好,生活习惯等进行分类,为其提供更加周到的个性化服务。这也是传说中的用户画像:年龄、性别、身高、收入、职业、教育程度、活跃度、是否有孩子、孩子年龄、颜色偏好等等

FineBI

两个网址:

第一个是自己做分析报告的平台,第二个是用来学习的

FineBI在线数据分析平台

FineBI帮助文档

简介:请查看官网

finebi的两个端:本地版本:学习阶段用的,单机游戏,不能设置权限,不能分享在线链接;在线版本:接单

区别:本地版本可以连接数据库,设置更新数据集;但是在线版本就不行

如何区分当前使用的版本是本地还是在线的:通过网址来区分

有 localhost 是本地的

入门案例

打开这个网址:FineBI在线数据分析平台

在左侧栏找到 我的分析

最主要的是 我的分析,这里是专门做仪表板的,其他的用的不多

进入到 我的分析之后,点击新建文件夹,我命名的是 CSDN,再点击加号,点击分析主题。这样就新建了一个分析主题

命名为"xxx超市销售分析"

完成:入门案例介绍

把这里的所有一步步照着做一遍就可以了,小白大约需要两小时左右的时间,有一点耐心

相关推荐
ALex_zry43 分钟前
Git大型仓库推送失败问题完整解决方案
大数据·git·elasticsearch
可观测性用观测云1 小时前
采集华为云 CCI 日志到观测云最佳实践
数据分析
二进制coder2 小时前
Git Fork 开发全流程教程
大数据·git·elasticsearch
CodeLongBear4 小时前
Python数据分析: 数据可视化入门:Matplotlib基础操作与多坐标系实战
python·信息可视化·数据分析
天硕国产存储技术站6 小时前
DualPLP 双重掉电保护赋能 天硕工业级SSD筑牢关键领域安全存储方案
大数据·人工智能·安全·固态硬盘
雷文成.思泉软件6 小时前
以ERP为核心、企微为门户,实现一体化集成
大数据·低代码·创业创新
东哥说-MES|从入门到精通8 小时前
数字化部分内容 | 十四五年规划和2035年远景目标纲要(新华社正式版)
大数据·人工智能·数字化转型·mes·数字化工厂·2035·十四五规划
南飞测绘视界8 小时前
上市公司绿色专利申请、授权数据(1999-2024年)
大数据·专利·上市公司
一个天蝎座 白勺 程序猿9 小时前
KingbaseES在政务领域的应用实践——武汉人社大数据平台“数字化服务新模式”
大数据·数据库·政务·kingbasees·金仓数据库