数据分析与FineBI介绍

数据分析

数据分析是通过收集数据,对收集的数据进行清理、处理,解释的过程。把有用的信息提取出来,总结出数据的内在规律。

具体步骤

数据收集

互联网,很多公开的资源,企业招标情况以及公告,会在官网上发布,还有很多平台也会发布数据。可以通过爬虫来获取来自互联网的数据。企业内部也会产生大量的数据,员工流动情况,员工工资、绩效情况等等。娱乐电商平台,每天产生大量的数据并通过这些数据来统计用户浏览内容,用户特征,浏览量,转化情况等等

数据清洗

数据拿到后,很多时候并不能直接进行分析。数据清洗(data cleaning 或 data cleansing)是把原始数据中错误、不完整、不一致或无关的信息识别、修正或删除的过程,使数据变得正确、统一并适合后续分析或建模使用。它是数据预处理的一部分,与数据集成、转换和特征工程紧密相关

为什么要做数据清洗?

  • 提高准确性:脏数据会导致统计结果和模型预测偏差甚至完全错误。
  • 提升可靠性和可重复性:清洗后别人能更容易复现你的分析流程。
  • 降低偏差:缺失或错误数据若不处理会引入系统性偏差。
  • 提高模型/算法表现:机器学习模型对异常、空值和错误格式敏感。
  • 节约成本和时间:虽然清洗需要时间,但能避免后续反复修正和错误决策造成更大损失。
  • 符合合规与审计要求:某些场景需保证数据质量以满足法规或内部审计

常见清洗方法与策略(红色部分为常见情况)

  • 探查与概览(数据剖析):查看分布、缺失率、唯一值等。
  • 处理空值(也叫缺失值):删除、均值/中位数/众数填充、基于模型预测填充或保留为特殊类别。
  • 去重:按主键或关键字段去除重复行。
  • 格式统一:日期、货币、单位、大小写规范化。
  • 类型转换:把字符串转为数值或日期等合适类型。
  • 统一类别:合并同义词或拼写变体("NY"="New York")。
  • 处理异常值:检查是数据错误还是有意义的极端值,视情况剔除或截断(capping)。
  • 计算字段(表头):根据已有的字段,计算出新的东西。比如有一列是单价,另一列是销量,就可以计算出新的一列销售额。添加了新的字段,就有了新的分析方向
  • 验证与校验:规则检查(如年龄不能为负数),交叉字段验证。
  • 记录与文档化:记录清洗步骤,保留原始数据快照,保证可回溯。

处理数据

  • 把清洗后的数据变成可用于分析或模型的数据;发现模式并构建模型。
  • 常做工作:
    • 探索性分析(EDA):分布、相关性、分组统计、可视化(直方图、散点图、箱线图)。
    • 特征工程:衍生变量、编码分类变量、标准化/归一化、处理时间序列特征、缺失值填充策略。
    • 建模/统计分析:选择算法(回归、分类、聚类、时间序列模型)、交叉验证、超参调优、诊断模型性能(AUC、RMSE、混淆矩阵)。
  • 工具:Python(pandas、scikit-learn、statsmodels)、R、Jupyter、SQL、Spark(大数据)。
  • 注意事项:训练/测试数据分离、防止数据泄露(leakage)、合理评估指标、处理不平衡数据

解释数据

  • 把分析结果转化为可理解、可执行的结论与建议;支持决策。
  • 常做工作:
    • 结果可视化(图表、仪表盘)、摘要关键指标、置信区间与不确定性说明。
    • 模型解释:系数解释、特征重要性、SHAP/LIME 等局部/全局解释方法。
    • 报告与故事化:构建清晰结论、方法与假设、限制与风险、可操作建议。
  • 工具:Tableau、FineBI、Power BI、Matplotlib/Seaborn/Plotly、SHAP、报告模板(PPT/Markdown)。
  • 注意事项:针对不同受众(技术 vs 非技术)调整表达深度,避免以相关性误导因果结论,清楚标注假设与数据局限

以上的一系列执行后,最终都是为了驱动决策

应用场景

个人生活:数据分析可以对个人喜好,生活习惯等进行分类,为其提供更加周到的个性化服务。这也是传说中的用户画像:年龄、性别、身高、收入、职业、教育程度、活跃度、是否有孩子、孩子年龄、颜色偏好等等

FineBI

两个网址:

第一个是自己做分析报告的平台,第二个是用来学习的

FineBI在线数据分析平台

FineBI帮助文档

简介:请查看官网

finebi的两个端:本地版本:学习阶段用的,单机游戏,不能设置权限,不能分享在线链接;在线版本:接单

区别:本地版本可以连接数据库,设置更新数据集;但是在线版本就不行

如何区分当前使用的版本是本地还是在线的:通过网址来区分

有 localhost 是本地的

入门案例

打开这个网址:FineBI在线数据分析平台

在左侧栏找到 我的分析

最主要的是 我的分析,这里是专门做仪表板的,其他的用的不多

进入到 我的分析之后,点击新建文件夹,我命名的是 CSDN,再点击加号,点击分析主题。这样就新建了一个分析主题

命名为"xxx超市销售分析"

完成:入门案例介绍

把这里的所有一步步照着做一遍就可以了,小白大约需要两小时左右的时间,有一点耐心

相关推荐
2501_943695338 分钟前
高职大数据技术专业,怎么参与开源数据分析项目积累经验?
大数据·数据分析·开源
Dxy12393102161 小时前
别再让 ES 把你拖垮!5 个实战技巧让搜索性能提升 10 倍
大数据·elasticsearch·搜索引擎
2501_943695331 小时前
大专市场调查与统计分析专业,怎么辨别企业招聘的“画饼”岗位?
大数据
七夜zippoe2 小时前
CANN Runtime跨进程通信 共享设备上下文的IPC实现
大数据·cann
威胁猎人2 小时前
【黑产大数据】2025年全球电商业务欺诈风险研究报告
大数据
L543414462 小时前
告别代码堆砌匠厂架构让你的系统吞吐量翻倍提升
大数据·人工智能·架构·自动化·rpa
证榜样呀2 小时前
2026 大专计算机专业必考证书推荐什么
大数据·前端
LLWZAI2 小时前
让朱雀AI检测无法判断的AI公众号文章,当创作者开始与算法「躲猫猫」
大数据·人工智能·深度学习
实时数据3 小时前
一手资料结合大数据分析挖掘海量信息中的价值了解用户真实需求 实现精准营销
数据挖掘·数据分析
SickeyLee3 小时前
产品经理案例分析(五):电商产品后台设计:撑起前台体验的 “隐形支柱”
大数据