python数据分析——业务数据描述

业务数据描述


前言

业务数据描述将从统计学角度来分析这指标。利用统计方法,数据分析人员可以通过相应统计模型开展数据分析。数据分析过程包括数据收集,数据处理,数据探索,模型方法应用,分析结果数据展现及形成分析报告。

业务报表是指对业务内容和数据的统计分析图表。统计图表代表了一张图像化的数据,形象地呈现数据。我们常常提到的可视化分析图表一般包括比较类图表,占比类图表,相关类图表和趋势类图表。

业务数据描述是企业决策的重要依据,它反映了公司运营的状况、趋势以及潜在问题。通过深入分析和理解业务数据,企业能够更准确地把握市场脉搏,优化运营策略,从而实现更高效的资源配置和更快速的业务增长。

首先,业务数据描述包括销售数据、客户数据、市场数据等多个方面。销售数据反映了企业产品或服务的市场表现,包括销售额、销售增长率、销售渠道效果等。客户数据则揭示了客户的购买行为、偏好和需求,有助于企业进行精准营销和产品改进。市场数据则提供了行业动态、竞争对手情况等重要信息,为企业制定市场战略提供了有力支持。

其次,对业务数据进行分析和解读,可以发现企业运营中的优势和不足。比如,通过分析销售数据,企业可以发现哪些产品或服务受欢迎,哪些销售渠道效果好,从而调整产品策略和销售策略。同时,通过分析客户数据,企业可以了解客户的需求变化,及时改进产品和服务,提升客户满意度。

最后,业务数据描述还需要与企业的战略目标相结合。企业需要根据自身的业务特点和市场定位,制定符合自身发展的战略目标。业务数据描述应该服务于这些目标,提供决策支持和数据依据。同时,企业还需要不断完善数据收集和分析体系,提高数据质量和准确性,以更好地支持业务发展和决策制定。

总之,业务数据描述是企业决策的重要依据。通过对业务数据的深入分析和理解,企业可以更准确地把握市场脉搏,优化运营策略,实现更高效的资源配置和更快速的业务增长。同时,企业还需要不断完善数据收集和分析体系,提高数据质量和准确性,以更好地支持业务发展和决策制定。在这个基础上,企业可以更加自信地面对市场挑战,抓住发展机遇,实现持续稳健的增长。

一、数据收集

作为企业的数据分析人员,应当熟知关于业务指标数据收集的过程,即数据的来源,数据收集的基本原则和数据收集方法。

数据信息来源

为了收集企业所需要的各类业务数据,数据分析师主要关注以下信息来源:

  1. 企业内部数据源
    公司内部数据源主要是指公司运营过程中产生的数据。可以是公司业务线运营产生的业务数据,也可以是公司经营类数据
  2. 市场调查数据源
    市场调查是指用科学的方法,有目的、系统地搜集、记录、整理和分析市场情况,了解市场的现状及其发展趋势,为企业的决策者制定政策,进行市场预测,做出经营决策,制定计划提供客观、正确的依据。
  3. 公共数据源和第三方数据源。
    公共数据主要是指政府在行政执法过程中产生的信息,例如行政许可,法院、诉讼等活动所带来的信息。公共数据一般由数据服务机构通过数据服务平台向大众开放。
    第三方数据是指一个企业与其他企业合作获得的数据。例如,企业以自身的技术交换其他企业的数据,或者自己与对方企业各有不同细分市场数据,双方合作能形成战略上的互补。

二、公司内部数据

公司内部信息收集可以是各类业务数据,例如实体数据,交易数据和行为数据。也可以是经营类数据。例如,收入、成本、费用。数据收集的来源可以是来自于业务部门每日、每周或每月的各类数据表,企业信息系统自动生成数据存放于表格文件或数据库中。如果数据分析人员需要获取企业内部数据,下表列出可能的数据内容。

以下对客户数据,销售明细数据和营销活动数据收集进行详细介绍。

(1)客户资料数据

由于客户资料数据是市场细分的基础,许多分析模型都是建立在客户资料数据的基础上。所以在收集客户资料数据时,数据表要能够反映客户的基本特征,一般包括下述内容:性别,年龄,收入,性格,职业,工作单位,籍贯,体型特征,居住地。

(2)销售明细数据

销售数据分析的目标是为实现业绩的增长做支撑。通过销售数据分析,管理者规避可能存在的风险、探索潜在新业务。销售明细数据一般包括:什么时候卖的,卖给谁,谁买的,卖的什么东西,什么价格卖的,卖的途径,跟什么一起卖。

(3)营销活动数据

营销活动数据能够帮助企业更好服务顾客,给顾客创造更多价值,对企业起赋能作用。营销活动数据包括活动的投入,产出,各种渠道的客户的反馈意见,还包括营销活动的目标、主题、手段,活动的进展和成本,营销活动对应销售业绩的影响。

三、市场调查数据

根据企业业务需求,数据分析人员应当熟知通过市场调查方法来收集相关业务数据。市场调查的主要方法包括观察法,提问法,入户访问,拦截访问,投影技法,邮寄调查表法法。重点介绍:

1 观察法

观察法的特点是需要了解问题在正常情况下自然状态的表现。观察法又分为直接观察法与实际痕迹测量法两种。

  1. 直接观察法是指调查者有目的,有计划地对调查对象的行为,言语,情感进行观察记录 。这种方法取得的往往是第一手数据,比如,观察超市货架能够得出很热销产品都在超市货架的中层。它大的特点是所得信息真实生动,但也会因为调查者的主观意见而使观察结果过于片面
  2. 实际痕迹测量法是指对某个具体的事件留下的痕迹进行观察,该方法**一般于对客户流量,广告效果的调查。**例如,网站的点击量,客户停留时间和登录页面时间等,这些数据都能显示出客户流量情况。

2 提问法

提问法是指以问题形式将需要调查的事项通过面访,问卷,电话等方式 ,向

被调查者提出,以获取所需要的信息的方法,这是市场调查中最常见的一种方法。提问法分为面对面调查,电话调查,书信调查,问卷调查,电子邮件调查。这些方法的优缺点各有不同。

  1. 面对面调查能直接获取被调查者的意见,富有灵活性 ,但这种方式耗费的成本较多 ,并且调查结果容易受到调查者能力强弱的影响;
  2. 邮寄调查成本较低,但回收率极低,速度慢
  3. 电话调查和电子邮件调查具有速度快,成本最低,但只限于部分有电话或有电邮的用户,调查结果不具有普遍性;
  4. 调查问卷几乎没有其他三种方法的缺点,不仅速度快,而且成本低,也不受调查者能力强弱影响,但这种方法得来的结果也容易受到调查者主观意见的影响

3 实验法

实验法通常用来分析某种因素对市场产品销售量的影响,一般先通过小规模调查实验,分析实验结果后再确定是否值得推广 。它的应用范围较广,某件产品的品质,包装,价格,广告,陈列方法等进行改变时都可以采取这种方法,来调查客户的反应。

网络问卷调查是在互联网上发展起来的新型调查形式,主要应用于网上调查,其优点是快捷,高效,针对性强,能够节约数据调查人员的大量走访时间,避免调查人员在调查过程中因语言,语气给受访者带来误导。同时,网络问卷调查还可以降低调查成本

四、公共数据

公共数据主要有宏观经济数据和行业数据 ,而这些数据的收集方法是一项很重要的基础工作。首先,我们需要确定这些数据的来源,然后在通过各种技术手段,包括数据提取技术,爬虫技术,语音技术 来收集相关数据。下面我们分别列出部分宏观经济数据的信息源,和行业数据的信息源。数据分析人员应当根据所在企业的具体情况找到更多的信息源。

第一,宏观分析信息来源包括:

  1. 从电视,广播,报纸,杂志等了解世界经济动态与国内经济大事。
  2. 政府部门与经济管理部门,省。市,自治区公布的各种经济政策,计划,统计资料和经济报告,各种统计年鉴,例如: 《中国统计年鉴》 《中国经济年鉴》《经济白皮书》 《中国经济报告》。
  3. 各主管公司,行业管理部门搜集和编制的统计资料。
  4. 部门与企业可供查阅的原始资料。
  5. 各预测、情报和咨询机构公布的数据资料。
  6. 国家领导人和有关部门、省市领导报告或讲话中的统计数字和信息等

第二,行业数据的信息来源包括:

以下几个方面:

  1. 政府部门发布的行业统计数据和报告,例如国家统计局、工业和信息化部等;

  2. 相关行业协会和组织发布的行业报告和调研数据,例如中国互联网协会、中国汽车工业协会等;

  3. 公司、企业发布的行业报告和财务数据,例如上市公司年报、财报等;

  4. 第三方市场咨询机构发布的行业报告和研究数据,例如IDC、公信宝等;

  5. 互联网和移动互联网数据平台上的数据,例如百度指数、谷歌趋势等;

  6. 社交媒体、行业论坛等社区内的数据和讨论。

  7. 上市企业的1PO招股说明书等公开披露资料中归纳总结的行业相关信息。

  8. 政府内参及其他信息来源。

五、第三方数据

第三方数据是从外部数据源购买的数据,许多不同的数据提供商都销售这类数据,而且可以通过许多不同的途径访问这些数据。选择第三方数据段的原因通常是对公共数据的补充,从第三方数据源获取数据的方法一般通过第三方数据运营商提供的数据交换接口。数据分析人员在购买第三方数据时,有许多因素需要注意。需要了解数据提供者如何收集信息,何时从何处获得信息。我们还想知道他们提供的数据字段类型。由于第三方数据的数量和范围,我们可以使用它来扩展我们自己的数据集,当我们将第三方数据与企业内部数据相结合时,来自第三方的数据有可能非常强大。

六、数据预处理

我们为什么要进行数据预处理?现实中,通过个种数据源获得的数据可能是"脏的",数据多了什么都会出现。比如会出现不完整,有噪声,数据不一致的情况。那么数据预处理为什么重要?因为没有高质量的数据,就没有高质量的挖据结果。

数据预处理的方法主要包括去除唯一属性,处理缺失值,属性编码,数据标准化正则化、特征选择、主成分分析等 ,下面我们将会简要地总结数据预处理的基本方法。

数据预处理是对收集到的业务数据进行加工、整理、检验、归类编码和数字编码的过程,形成业务指标及适合数据分析的样式,它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章的数据中抽取并推导出对解决问题有价值,有意义的数据。

七、数据清洗

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把"脏"的"洗掉" ,指发现并纠正数据中可识别的错误的最后一道程序数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。常用的数据清洗方法主要有以下4种,分别为丢弃,补全处理,不处理,和真值转换。让我们来研究这四种常见的数据清洗方法。

  1. 丢弃部分数据
    丢弃数据就是直接删除有缺失值或无效值的行对应的整条记录或列对应的字段,以减少趋势数据记录对整体数据的影响,从而提高数据的准确性。但这种方法并不适用于任何场景,因为丢失意味着数据特征会减少,以下两个场景不应该使用丢弃的方法,数据集中存在大量数据记录不完整和数据记录缺失值明显的数据分布规则或特征。
  2. 补全缺失的数据
    与丢弃相比,补充是一种更常用的缺失值处理方法,通过某种方法补充缺失的数据,形成完整的数据记录对后续的数据处理 。分析和建模非常重要。估算方法是一种常用的补全缺失数据的,它就是用某个变量的样本均值,中位数,或者众数代替无效值和缺失值,这种办法简单,但没有充分考虑数据中已有的信息,误差可能比较大。另一种办法通过变量之间的相关分析或逻辑推论进行估计,比如某一产品的购买情况可能和家庭收入有关,可以根据调查对象的家庭收入推算购买这一产品的可能性。
  3. 不处理数据
    不处理是指在数据预处理阶段,不处理缺失值的数据记录。这主要取决于后期的数据分析和建模应用。许多模型对缺失值有容忍度或灵活的处理方法,因此在预处理阶段不能进行处理。
  4. 真值转换法
    承认缺失值的存在,并将数据缺失作为数据分布规律的一部分,将变量的实际值和缺失作为输入维度参与后续数据处理和模型计算。然而,变量的实际值可以作为变量值参与模型计算,而缺失值通常不能参与计算,因此需要转换缺失值的真实值

除了上述清洗方法之外,我们还需考虑一致性检查,根据每个特征的合理取值范围和相互关系,检查数据是否规范,是否超出正常范围,逻辑上不符或相互矛盾的数据。比如年龄、体重、考试成绩出现了负数,都是超出了正常的范围。一个好用的工具对数据清洗工作和一致性检查是很有帮助, Excel, SPAA, SAS软件都能根据定义的取值范围进行识别筛选。

三、数据加工

在数据清洗之后,为了方便数据的使用需要对数据进行进一步处理,这就是数据加工的概念。数据加工包括数据转化,数据抽取,数据合并,数据分组,和数据计算这些高级操作处理方法。在进行数据处理之前,先要对数据变量进行一些介绍。

  1. 数据变量
    变量就是我们常说的字段,在Excel数据表中对应列,在统计学中,称为变量。常用的数据类型有字符型数据,数值型数据, 日期型数据
    字符型数据,也称为文本数据 ,由字符串组成,它是不能进行算术运算的文字数据类型,它包括中文字符,英文字符,数字字符字符型数据可以用于数据分类 ,比如,性别可以分为男或女,省份可以按各省进行分类,我们就可以通过这些分类数据进行分类研究。
    数值型数据是直接使用自然数或度量单位进行计量的数值数据 。例如:收入、成本,利润,销售额这些变量均为数值型数据。对于数值型数据,可以直接用算术运算方法进行汇总和分析。
    日期型数据用于表示日期或时间数据,它可以进行算术运算,所以它是特殊的数值型数据。日期型数据主要应用在时间序列数据中,比如,企业按日期的订单。
  2. 数据抽取
    数据抽取是指抽取原数据表中部分字段或记录的部分信息,形成一个具有新字段和新记录的新数据表。主要方法有字段拆分和随机抽样。随机抽样方法主要有简单随机抽样,分层抽样,系统抽样等
  3. 数据合并
    数据合并是指综合数据表中部分字段的信息或不同的记录数据,组合成一个新字段或新记录数据。主要有两种操作方法,字段合并和记录合并。字段合并,是将某几个字段合并为一个新字段。记录合并,也称为纵向合并,是将具有共同的数据字段,结构,不同的数据表记录信息,合并到一个新的数据表中。
  4. 数据分组
    数据分组是根据数据分析的目的将数值型数据进行等距或非等距分组,这个过程也称为数据离散化,其用途通常是用于查看分布,如消费分布,收入分布,年龄分布等。其中,用于绘制分布图X轴的分组变量,是不能改变其顺序的,一般按分组区间从小到大进行排列,这样才能观察数据的分布规律。
  5. 数据计算
    简单计算就是指通过对已有字段进行字段通过加减乘除等简单算术运算计算得出新的字段。还有的是函数计算,比如,日期计算,数据标准化,加权求和,平均值和总和。

我们总结一下,数据处理主要是指对原始数据进行清洗和加工处理,使之系统化,条理化,以符合数据分析的需要,同时也可用图表形式将数据展示出来,以便简化数据,使之更容易理解和分析。数据处理之后就是数据分析,是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值信息,形成有效结论的过程。到了这个阶段,要能驾驭数据开展数据分析,就要涉及到工具和方法的使用。一般的数据分析我们可以通过Excel电子表格工具完成,而高级的数据分析就要采用专业的Python编程进行了。

常用的能够直观的展现数据的图形

在完成数据处理之后,数据分析人员能够使用数据图形向管理层和业务人员展示相关的业务指标。借助图形的展现手段,能更加有效,直观地发现原始数据中存在的问题。所谓数据图形泛指在屏幕中显示的,可直观展示数据属性,是一种很好的将数据直观,形象地呈现出来的手段。数据图形的可视化有助于快速,有效地表达数据关系。接下来我们介绍一些常用的能够直观的展现数据的图形。常言道,字不如表,表不如图。借助图形的展现手段,能更加有效,直观地发现数据中存在的问题。

常用的图形包括频率直方图,饼图,柱形图,条形图,折线图,散点图

一、频率直方图

在直角坐标系中,确定横轴和纵轴上的数据。横轴是根据数据的最大值和最小值把数据分为m组,组距等于全距除以m,各数据组的边界范围按左闭右开区间。

二、饼图

用于描述和表现一个或多个成分占全部的百分比。使用饼图时需要注意,首先,饼图中的成分最好小于6个,其次,各成分额的和必须等于100%,最后,成分比例必须与图形区域的面积比例一致。

绘制饼图某水果商店为了解哪些水果比较受欢迎,编制各种水果销售的情况如下表。饼图的应用场景是用来反映部分占整体的百分比,该水果店使用饼图是最适当的。

在绘制饼图时,需要考虑下面的要点。首先,只有一个要绘制的数据系列,例如,上面表中的第三列。第二,要绘制的数据值没有负值。第三,各个部分需要标注百分比。

三、条形图

条形图是用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置,纵置时也称为柱形图。此外,条形图有简单条形图、复式条形图等形式。绘制条形图有3个要素,分别为组数,组宽度和组限。组数把数据分成几组,指导性的经验是将数据分成5到10组之间。通常来说,每组的宽度是一致的。组数和组宽度的相关,一个经验标准是近似组宽度等于(最大值-最小值)/组数。组限分为组下限(进入该组的最小可能数据)和组上限(进入该组的最大可能数据),并且一个数据只能在一个组限内。绘制条形图时,不同组之间有空隙

四、折线图

折线图是一种常见的数据图表形式,是数字或定量数据的直观表示,它显示了两个变量之间的关系。变量可以是任何数据,例如,数量,百分比,或时间间隔。这些变量分别位于图表的横轴和纵轴上。折线图看起来像在图表上从左到右的一条或多条连接点的线,每个点代表一个数据值,显示随时间而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。折线图有3种主要类型,分别为简单折线图,多折线图和复合折线图。

绘制企业销售趋势折线图

下表给出了某企业3个产品的月销售数据,用折线图绘制各产品月销售额。

五、散点图

散点图是指数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,所以可以选择合适的函数对数据点进行拟合。

用两组数据构成多个二维数据点,考察数据点的分布,判断两变量之间是否存在某种关联或总结数据点的分布模式。散点图为数据分析提供关键信息,我们可以观察2组数据之间是否存在数量关联趋势。其次,如果存在关联趋势,是线性还是曲线的。最后,如果有某一个点或者某几个点偏离大多数点,也就是离群值,通过散点图可以一目了然识别离群值。从而可以进一步分析这些离群值是否可能在建模分析中对总体产生很大影响。

绘制散点图

下表所列数据为收集的某个钢件的淬火温度X与硬度Y之间的数据。分析两个变量之间是否有相关性。将表中的第二和第三列数据绘制成如下散点图,可见随着淬火温度上升,钢的硬度上升

总结

在完成企业的业务指标体系构建之后,我们将讨论如何收集相关数据,并用数据形成指标。数据分析人员应当理解一个数据分析过程包括,业务指标构建,数据收集,数据处理,数据探索,模型方法应用,分析结果数据展现,及形成数据分析图

相关推荐
山人在山上28 分钟前
arcgis server ip修改后服务异常解决方案
数据库·tcp/ip·arcgis
CV-King1 小时前
旋转框目标检测自定义数据集训练测试流程
人工智能·目标检测·计算机视觉
努力的布布1 小时前
Elasticsearch-索引的批量操作
大数据·elasticsearch·搜索引擎·全文检索
不剪发的Tony老师1 小时前
SQL实现新年倒计时功能
数据库·sql
无问社区1 小时前
无问社区-无问AI模型
人工智能·web安全·网络安全
小小药1 小时前
009-spring-bean的实例化流程
java·数据库·spring
RodrickOMG1 小时前
【大数据】Hadoop三节点集群搭建
大数据·hadoop·分布式
智慧化智能化数字化方案1 小时前
工业金融政务数据分类分级体系建设解读
大数据·金融·数据分类分级·政务·政务数据分类·工业数据分类·金融数据分类分级
Jacen.L1 小时前
探究音频丢字位置和丢字时间对pesq分数的影响
人工智能·语音识别
DashVector1 小时前
如何通过HTTP API插入或更新Doc
大数据·数据库·数据仓库·人工智能·http·数据库架构·向量检索