
💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node...
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
文章目录
- 🚀前言
- 🚀一、数据分析基础
-
- 🔎1.数据类型
-
- [🦋1.1 按字段类型分类](#🦋1.1 按字段类型分类)
- [🦋1.2 按存储数据的文件结构分类](#🦋1.2 按存储数据的文件结构分类)
- [🦋1.3 按数据自身的连续属性分类](#🦋1.3 按数据自身的连续属性分类)
- 🔎2.数据思维
-
- [🦋2.1 数据概念描述](#🦋2.1 数据概念描述)
- [🦋2.2 判断分析能力](#🦋2.2 判断分析能力)
- [🦋2.3 逻辑推理能力](#🦋2.3 逻辑推理能力)
- 🔎3.数据分析方法论
-
- [🦋3.1 PEST 分析](#🦋3.1 PEST 分析)
- [🦋3.2 4P营销理论](#🦋3.2 4P营销理论)
- [🦋3.3 逻辑树分析法](#🦋3.3 逻辑树分析法)
- [🦋3.4 用户行为理论](#🦋3.4 用户行为理论)
- [🦋3.5 5W2H分析](#🦋3.5 5W2H分析)
🚀前言
数据分析与可视化密不可分,读者不仅要了解数据分析的基础知识,还需要具有数据思维。本章将先从宏观上介绍数据分析的方法论,然后从微观上介绍具体的数据分析方法。通过学习这些内容,读者可以逐步掌握数据分析的核心技能,为未来的数据分析工作打下坚实的基础。
🚀一、数据分析基础
数据分析是指采用适当的方法和技术,对收集到的数据进行系统性的探索、处理、建模和检验,以提取有价值的信息、形成有依据的结论、并支持决策的一系列过程。在这个过程中,数据可视化作为一种强大的沟通与探索工具,常被用来直观呈现分析的中间结果或最终结论,帮助人们理解复杂的数据关系和模式。
数据分析已广泛应用于商业、科学研究、社会学、医疗健康、公共管理等不同领域,并在不同场景下衍生出各有侧重的分支:
- 数据挖掘:关注从大规模数据中通过算法自动或半自动地发现隐藏的模式、未知的关系和有用的知识。
- 商务智能(BI):聚焦于商业信息的提取、整合与利用,通过将企业中现有的运营数据转化为直观的报表、仪表盘和洞见,帮助各级管理者做出明智的业务经营决策,以实现商业价值。
- 文本分析/自然语言处理 :专门处理非结构化的文本数据,综合应用统计学、语言学和机器学习等技术,从文本中提取主题、情感、实体和关键信息。
概括而言,数据分析就是系统地应用统计、逻辑、计算模型等各种技术来描述 数据现状、说明 数据关系、概括 数据规律、评价 数据结果,并最终利用数据指导行动的过程。
🔎1.数据类型
数据分析的基石是数据。如第1章所述,数据是对事物描述的记录。其表现形式不仅限于数字,文本、图像、声音、视频等同样承载着信息。理解数据的类型是选择正确分析方法的先决条件。
🦋1.1 按字段类型分类
根据数据在数据库或表格中的存储和处理方式,可分为:
- 数值型数据:用于存储可以进行数学运算的数字。适用于描述量化属性,如商品数量、单价、成交金额、温度、身高等。支持加减乘除、排序、求平均值等操作。
- 文本型数据:用于存储由字母、数字、符号组成的字符串。适用于描述性、分类性或标识性字段,如姓名、地址、产品名称、评论内容等。通常不能直接进行算术运算。
- 时间型数据:用于表示特定的日期、时间或时间戳。是时序分析和洞察周期规律的重要维度,如订单日期、登录时间、产品生命周期等。支持计算时间间隔、提取年月日等操作。
- 逻辑型数据:通常只有两个取值(是/否、真/假、1/0)。适用于标记状态、进行条件判断或筛选,如"是否会员"、"订单是否完成"等。
🦋1.2 按存储数据的文件结构分类
根据数据的组织格式和规范化程度,可分为:
- 结构化数据:具有明确定义的格式和严格组织结构的数据,易于用二维表格的行和列来表示。绝大多数存储在关系型数据库(MySQL, Oracle)或电子表格(Excel)、CSV文件中。例如,学生信息表、销售记录表。
- 非结构化数据:没有固定格式或预定义模型的数据。其形式多样,包含的信息不易被传统数据库直接处理。例如,图片、音频、视频、PDF文档、社交媒体上的自由文本。
- 半结构化数据:介于两者之间。它虽然不遵循关系型数据库的严格模式,但通过标签、标记或一定的层次结构来分离数据元素,使其具有一定自描述性。例如,XML、JSON格式的配置文件、网页日志(Log)、电子邮件。
🦋1.3 按数据自身的连续属性分类
根据数据取值的数学特性,可分为:
- 连续型数据:可以在某个区间内取任意值的数据,其值通常通过测量得到,允许有小数。例如,身高(1.75米)、体重(65.3公斤)、温度(22.5℃)、时间(2.5小时)。理论上,两个连续值之间可以存在无限多个其他值。
- 离散型数据 :其取值是有限的、可数的,通常是整数。常见于计数或分类场景。
- 计数数据:如家庭孩子数(0, 1, 2, 3...)、网站访问次数。
- 分类数据 :如性别(男/女)、年级(高一/高二/高三)、产品类别(电子产品/服装/食品)。分类数据又可分为有序分类 (如评分:差/中/好)和无序分类(如颜色:红/蓝/绿)。
🔎2.数据思维
数据科学家维克托·迈尔-舍恩伯格曾指出,世界的本质是数据。数据思维是一种基于数据和事实,通过量化分析来认识世界、解决问题和进行决策的思维模式。它不仅仅是掌握分析工具,更是一种核心的认知能力。数据思维的核心要素包括:
🦋2.1 数据概念描述
即用数据准确、客观地刻画和定义事物的能力。这要求我们能够将复杂的现实世界抽象为可度量的数据模型。
- 定性数据与定量数据 :
- 定性数据:描述事物的品质、属性或类别,是一种标签,通常没有数学意义。例如,性别(男/女)、品牌名称、故障类型。
- 定量数据:描述事物的数量或程度,可以进行数学运算和比较。例如,销售额、年龄、满意度评分(1-5分)。
- 示例 :描述一名员工。
姓名、性别、部门、学历是定性数据;年龄(或出生日期)、工龄、月薪、身高是定量数据。正确的数据描述是后续一切分析的基础。
🦋2.2 判断分析能力
指基于数据,通过剖析现象、辨别特征、研究关联,从而揭示事物本质属性及其内在联系,最终形成有洞察力的结论或决策的能力。数据思维的关键不在于罗列数字,而在于从数字中提炼出观点和价值。
- 反面例子(无判断分析) : "十二五"期间,全国电力工业投资规模达到5.3万亿元,其中,电源投资2.75万亿元,占全部投资的52%,电网投资2.55万亿元,占48%。
(仅仅陈述了数据,没有解释其含义或影响。)
- 正面例子(体现判断分析) : "十二五"期间,全国电力工业投资规模达到5.3万亿元,其中电源和电网的投资占比分别为52%和48%。对比国际上通用的电源和电网投资比例大致相当(约1:1)的基准 ,我国"十二五"期间的投资结构略显偏重电源端 。这一投资倾向对于快速提升发电能力、优化电源产业结构(如增加清洁能源占比)起到了积极作用 ,但也提示未来需要关注电网智能化、输配电能力等短板领域的均衡发展 。
(不仅报告了数据,还引入了外部基准进行比较,分析了数据背后的含义、积极影响和潜在问题,形成了完整的判断链条。)
🦋2.3 逻辑推理能力
指通过理解数据内涵、识别变量关系、把握变化趋势,运用归纳、演绎、溯因等逻辑方法,从数据中提取信息、发现规律并做出合理推断的能力。
- 示例:电商用户偏好分析
- 分类与识别(归纳推理):基于用户购买频率、金额等数据,将用户归纳为"高频高价值用户"、"低频尝鲜用户"、"季节性用户"等不同群体。
- 关联分析(演绎推理) :发现"高频高价值用户"中,购买"高端数码产品"的比例显著高于其他群体。由此可以演绎推断:针对高端数码产品进行精准营销,优先面向高频高价值用户群体,可能获得更高的转化率。
- 趋势推断(溯因推理) :观察到"高端数码产品"的销量在过去三个季度持续环比增长15%,同时购买该品类的高频用户占比也在提升。可以溯因推断:这一趋势可能源于消费升级和品牌忠诚度建设,预测该品类在未来一个季度仍将保持强劲增长,应保障库存和推广资源。
这种结构化的逻辑推理能力,确保了分析过程从原始数据到决策支持的每一步都是严谨、可信的。
🔎3.数据分析方法论
数据分析方法论是从宏观层面指导数据分析工作的战略框架和思考模型。它提供了一套结构化的思路,帮助分析人员系统地定义问题、分解问题、并寻找解决方案。以下是五种常用的方法论:
🦋3.1 PEST 分析
PEST分析是一种用于扫描企业外部宏观环境的战略工具(见图4-1)。
- 政治:政策法规、政局稳定性、贸易协定、环保要求等。
- 经济:经济增长率、利率、通货膨胀、消费能力、失业率等。
- 社会:人口结构、文化传统、教育水平、价值观念、生活方式等。
- 技术 :技术变革、研发投入、创新速度、技术普及率等。
应用:在制定公司战略、进入新市场或评估投资风险前,进行PEST分析可以帮助全面理解外部环境的机遇与威胁。
图4-1 PEST分析框架示意图

🦋3.2 4P营销理论
4P是营销组合的经典框架(见图4-2),从企业可控的四个基本策略出发。
- 产品:向市场提供的实物、服务、品牌或体验。核心是满足客户需求。
- 价格:消费者为获得产品所付出的货币成本。需考虑成本、竞争、价值和心理因素。
- 渠道:产品从生产者到达消费者手中所经过的路径和环节。包括分销、物流、仓储等。
- 促销 :企业向目标市场传递产品信息、说服购买的沟通活动。包括广告、公关、销售促进等。
应用 :在分析市场表现时,可以用4P框架来诊断问题。例如,销量下滑可能是产品 过时、价格 缺乏竞争力、渠道 覆盖不足或促销效果不佳导致的,分析时需要从这四个方面逐一排查。
图4-2 4P营销理论组成示意图

🦋3.3 逻辑树分析法
逻辑树是一种以树状结构系统分解复杂问题的工具(见图4-3)。它将一个核心问题作为树干,逐层分解为相互独立、完全穷尽(MECE原则)的子问题作为树枝。
- 步骤 :定义核心问题 → 列出所有相关的一级子问题 → 对每个一级子问题继续分解 → 直到问题足够具体、可被解决或验证。
应用:适用于任何需要追根溯源的复杂问题分析。例如,核心问题是"公司净利润下降",可以分解为"收入减少"和"成本上升"两大分支。"收入减少"又可进一步分解为"销量下降"和"单价降低"等,从而定位根本原因。
图4-3 逻辑树分析法示意图(以利润下降为例)

🦋3.4 用户行为理论
该理论关注用户与产品/服务互动的完整生命周期,经典模型是AIDMA/AISAS及其演变模型,核心路径可概括为:认知 → 熟悉 → 试用 → 使用 → 忠诚。
- 认知:用户首次知晓产品。
- 熟悉:开始了解产品功能和价值。
- 试用:首次体验产品(如下载试用版、首次购买)。
- 使用:重复使用产品,形成习惯。
- 忠诚 :对产品产生高度信任和依赖,并愿意推荐给他人。
应用:在互联网和电商领域,常通过分析用户在各个环节的行为数据(如曝光量、点击率、激活率、留存率、复购率)来评估用户体验漏斗的健康度,并针对薄弱环节进行优化。
🦋3.5 5W2H分析
这是一种通过七个基本问题来全面界定问题、描述情况并构思解决方案的简洁而强大的框架。
- Why:为什么?目的/原因是什么?
- What:是什么?对象/内容是什么?
- Where:何处?地点/场景在哪里?
- When:何时?时间/时机是什么时候?
- Who:谁?责任人/相关者是谁?
- How:怎么做?方法/步骤如何?
- How much :多少?数量/成本/程度如何?
应用 :几乎适用于所有场景。例如,在分析一次失败的营销活动时:Why (活动目标是什么?)What (活动内容是什么?)Where/When (在哪些平台、什么时间投放?)Who (目标用户是谁?实际触达了谁?)How (执行流程是怎样的?)How much(投入了多少预算?获得了多少转化?成本是多少?)。通过系统回答这七个问题,可以快速厘清全局。
数据分析的基础概念,强调了数据是多元的 ,需要根据其类型选择分析方法;数据思维是核心 ,它要求我们具备准确描述、深入判断和严谨推理的能力;方法论是导航,为我们提供了应对不同分析场景的结构化思考框架。