数据分析与FineBI介绍

数据科学小丫2025-11-28 20:02

数据分析

数据分析是通过收集数据，对收集的数据进行清理、处理，解释的过程。把有用的信息提取出来，总结出数据的内在规律。

具体步骤

数据收集

互联网，很多公开的资源，企业招标情况以及公告，会在官网上发布，还有很多平台也会发布数据。可以通过爬虫来获取来自互联网的数据。企业内部也会产生大量的数据，员工流动情况，员工工资、绩效情况等等。娱乐电商平台，每天产生大量的数据并通过这些数据来统计用户浏览内容，用户特征，浏览量，转化情况等等

数据清洗

数据拿到后，很多时候并不能直接进行分析。数据清洗（data cleaning 或 data cleansing）是把原始数据中错误、不完整、不一致或无关的信息识别、修正或删除的过程，使数据变得正确、统一并适合后续分析或建模使用。它是数据预处理的一部分，与数据集成、转换和特征工程紧密相关

为什么要做数据清洗？

提高准确性：脏数据会导致统计结果和模型预测偏差甚至完全错误。
提升可靠性和可重复性：清洗后别人能更容易复现你的分析流程。
降低偏差：缺失或错误数据若不处理会引入系统性偏差。
提高模型/算法表现：机器学习模型对异常、空值和错误格式敏感。
节约成本和时间：虽然清洗需要时间，但能避免后续反复修正和错误决策造成更大损失。
符合合规与审计要求：某些场景需保证数据质量以满足法规或内部审计

常见清洗方法与策略（红色部分为常见情况）

探查与概览（数据剖析）：查看分布、缺失率、唯一值等。
处理空值（也叫缺失值）：删除、均值/中位数/众数填充、基于模型预测填充或保留为特殊类别。
去重：按主键或关键字段去除重复行。
格式统一：日期、货币、单位、大小写规范化。
类型转换：把字符串转为数值或日期等合适类型。
统一类别：合并同义词或拼写变体（"NY"="New York"）。
处理异常值：检查是数据错误还是有意义的极端值，视情况剔除或截断（capping）。
计算字段（表头）：根据已有的字段，计算出新的东西。比如有一列是单价，另一列是销量，就可以计算出新的一列销售额。添加了新的字段，就有了新的分析方向
验证与校验：规则检查（如年龄不能为负数），交叉字段验证。
记录与文档化：记录清洗步骤，保留原始数据快照，保证可回溯。

处理数据

把清洗后的数据变成可用于分析或模型的数据；发现模式并构建模型。
常做工作：
- 探索性分析（EDA）：分布、相关性、分组统计、可视化（直方图、散点图、箱线图）。
- 特征工程：衍生变量、编码分类变量、标准化/归一化、处理时间序列特征、缺失值填充策略。
- 建模/统计分析：选择算法（回归、分类、聚类、时间序列模型）、交叉验证、超参调优、诊断模型性能（AUC、RMSE、混淆矩阵）。
工具：Python（pandas、scikit-learn、statsmodels）、R、Jupyter、SQL、Spark（大数据）。
注意事项：训练/测试数据分离、防止数据泄露（leakage）、合理评估指标、处理不平衡数据

解释数据

把分析结果转化为可理解、可执行的结论与建议；支持决策。
常做工作：
- 结果可视化（图表、仪表盘）、摘要关键指标、置信区间与不确定性说明。
- 模型解释：系数解释、特征重要性、SHAP/LIME 等局部/全局解释方法。
- 报告与故事化：构建清晰结论、方法与假设、限制与风险、可操作建议。
工具：Tableau、FineBI、Power BI、Matplotlib/Seaborn/Plotly、SHAP、报告模板（PPT/Markdown）。
注意事项：针对不同受众（技术 vs 非技术）调整表达深度，避免以相关性误导因果结论，清楚标注假设与数据局限

以上的一系列执行后，最终都是为了驱动决策

应用场景

个人生活：数据分析可以对个人喜好，生活习惯等进行分类，为其提供更加周到的个性化服务。这也是传说中的用户画像：年龄、性别、身高、收入、职业、教育程度、活跃度、是否有孩子、孩子年龄、颜色偏好等等

FineBI

两个网址：

第一个是自己做分析报告的平台，第二个是用来学习的

FineBI在线数据分析平台

FineBI帮助文档

简介：请查看官网

finebi的两个端：本地版本：学习阶段用的，单机游戏，不能设置权限，不能分享在线链接；在线版本：接单

区别：本地版本可以连接数据库，设置更新数据集；但是在线版本就不行

如何区分当前使用的版本是本地还是在线的：通过网址来区分

有 localhost 是本地的

入门案例

打开这个网址：FineBI在线数据分析平台

在左侧栏找到我的分析

最主要的是我的分析，这里是专门做仪表板的，其他的用的不多

进入到我的分析之后，点击新建文件夹，我命名的是 CSDN，再点击加号，点击分析主题。这样就新建了一个分析主题

命名为"xxx超市销售分析"

完成：入门案例介绍

把这里的所有一步步照着做一遍就可以了，小白大约需要两小时左右的时间，有一点耐心

上一篇：ChatGPT不推荐你？7个GEO技巧让AI主动引用你的内容

下一篇：区块链智能合约开发与多语言链上交互实战指南

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？092026 年 AI 大模型 & AI 编程工具实战全总结 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？