关于个人安全忧虑的因素的数据分析
引言
英格兰和威尔士犯罪调查(Crime Survey for England and Wales, CSEW)是由英国国家统计局收集和分析的一项调查数据集,它专注于英格兰和威尔士的犯罪情况,以便更好地了解公众对犯罪和警察的经历。
我们感兴趣的是确定调查受访者对个人安全的关注程度,并使用来自CSEW的数据来协助我们进行研究。在CSEW数据集中,没有单一的变量直接测量对个人安全的关注水平。然而,有六个变量:walkdark、wmugged、wraped、wattack、wraceatt和wfraud,它们从不同角度反映了受访者对个人安全的担忧。虽然我们可以单独分析这些变量中的每一个,但最好将它们综合考虑。因此,我们提议创建一个新的变量,persafcon,作为我们分析的因变量。
以下描述了合成新变量的过程。首先,如表1所示,我们移除了无意义的值(如"拒绝回答"和"不知道"),并修改了walkdark的分数意义,使这些变量朝着同一方向发展。然后,我们将walkdark、wmugged、wraped、wattack、wraceatt和wfraud组合起来,得到一个连续变量persafcon。如果一个受访者对自身安全不关注,他将在persafcon上获得6分,因为1+1+1+1+1+1=6。
表1 因变量组成
接下来,我们将考虑自变量的选择。Sophie等人[1, 2]的研究表明,性别可以影响个人对个人安全的关注。我们假设女性往往比男性更关注自己的安全。鉴于种族可以影响个人与警察的关系[3],不良的警民关系可能会影响个人对个人安全的考虑。因此,我们将种族和对当地警方的信任程度作为解释变量纳入其中。直观上,我们认为身体条件较好的个体往往更少担心自己的个人安全。我们将受访者的身体状况作为另一个解释变量引入。上述变量的名称、标签、值以及值标签列在表2中。
表2 解释变量的描述
初步数据分析
数字特征
我们过滤掉了信息不完整的列(例如包含NA值的列),最终获得7612个样本。上述因变量和自变量的数值特征分析如下。如图1和表3所示,人们对人身安全的平均关注程度为18.2,这表明大多数人并不担心自己的人身安全。尽管如此,仍有一群人对自己的人身安全表示担忧。
图1 人身安全担忧值分布
表3 人身安全问题的数字特征
我们分别绘制了解释变量sex、ethgrp2a、educat3、genheal2和patt7的条形图,如图2、3、4、5和6所示。
图2 受访者的性别情况
图3 受访者的民族情况
图2显示,在过滤后的样本中,性别比例相对平衡,女性比例略高于男性。这可能是因为男性不太可能有人身安全问题。图3表明,大多数受访者是白人,这显然是由于采样地点在欧洲,因此白人比例更高。我们可以在图4中看到,受访者的教育水平各不相同。
图4 受访者的教育情况
接下来,我们来看看受访者的健康状况以及他们对当地警察的信任程度。如图5所示,大多数人的身体健康状况良好。然而,令人惊讶的是,在图6中,人们并没有对当地警察表现出足够的信任。
图5 受访者的健康情况
图6 受访者对警察情况的信心情况
数据可视化
下面,我们展示了因变量persafcon与解释变量sex和genheal2之间的关系。我们为什么选择性别和健康状况?我们有以下假设:
- 女性往往更注意自己的人身安全。
- 身体状况较弱的人往往更注意自己的人身安全。
接下来,我们将进行单独的分析。
性别与安全问题之间的关系
为了分析性别和人身安全问题之间的关系,我们分别绘制了散点图(如图7所示)和箱线图(如表8所示)。
图7 sex和persafcon的散点图
图8 sex和persafcon的箱形图
为了增加可读性,我们使用抖动函数在sex和persafcon列中添加了一些噪声。从图7和图8可以看出,与男性相比,女性更关心自己的人身安全,这与我们的假设和研究一致\[4,5,6,7,8]。这可能是因为与男性相比,女性经历了更多的骚扰、恐吓或暴力\[9]。
身体状况与安全忧虑之间的关系
我们分析了身体条件和安全忧虑之间的关系,类似地,如图9和图10所示绘制了散点图和箱形图。
图9 Health与persafcon的散点图
图10 health和persafcon的箱线图
起初,我们猜测身体状况较弱的人往往更关心自己的身体安全。因为身体状况不佳的人可能会影响他们的心理安全[10],这可能会导致对身体安全的担忧。从方框图中可以看出,一个身体状况良好的人往往不会太担心被攻击。然而,与身体状况较好的人相比,身体状况较弱的人是否更关心身体安全,仍需进行统计测试。
T-test
从图8可以看出,与男性相比,女性更关心自己的安全。我们进行了T检验,以确定差异是否具有统计学意义。在t检验中,与大多数显著性检验一样,显著性阈值传统上设置为p=0.05。如果人群中男性和女性的平均关注水平没有差异,那么随机选择样本可能会导致男性和女性平均关注水平的差异。我们可以计算出偶然获得结果的概率。如果t检验报告的p值小于0.05,则认为该结果具有统计学意义。如果p值大于0.05,则结果不显著。 我们定义了零假设H0:男性和女性在安全问题上没有差异。备择假设H1:男性和女性在安全问题上存在差异。为了简单起见,我们假设它们具有相同的方差。如图11所示,我们可以通过R语言中的t.test函数获得p值<2.2e-16。因此,我们选择H1,这表明性别影响对人身安全的担忧。
图11 T-test 结果
相关性分析
我们想研究各种解释变量和因变量之间线性关系的性质。由于解释变量是分类的,为了顺利进行实验,我们将其分解为多个虚拟变量。我们拥有的伪变量的数量是1+4+4+1=14。因为一个有n个类别的变量实际上需要n-1个虚拟变量。
表4 解释变量与persafcon之间的相关性值
从表4可以看出,解释变量确实与persafcon变量存在线性关系。其中,Male,ethgrp2aWhite,educat3Apprenticeship.or.A.AS.level, educat3Degree.or.diploma, genheal2Very.good, 和 patt7Agree与persafcon呈正相关,这与我们之前的推测一致。
回归分析
为了理解和解释解释变量对persafcon的影响,我们进一步进行了回归分析。
单变量的线性回归
由于sexMale 变量对persafcon的影响最大(如表4所示),我们使用sexMale 来解释persafcon。数据集分为训练集和测试集,其中80%用于训练,20%用于测试。R语言中的lm函数可以进行单变量线性回归。我们的拟合结果如图12所示。
图12 单变量拟合结果
sexMale变量的系数为2.18687,截距为17.20751,具体回归式如下所示。
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> p e r s a f c o n = 2.18687 ∗ s e x M a l e + 17.20751. persafcon=2.18687*sexMale+17.20751. </math>persafcon=2.18687∗sexMale+17.20751.
此外,我们可以计算测试集上的均方根误差(RMSE),即RMSE=17.747。尽管性别男性变量解释了persafcon的一些变化,但效果并不是很令人满意。
多元线性回归
我们使用了所有的解释变量来拟合persafcon模型,并采用了与以前相同的数据分割方法。为了提高模型的拟合能力,我们采用岭模型对数据进行拟合。Ridge利用L2正则化,可以增强模型的稳定性。同时,我们对训练集进行了交叉验证,以选择最优正则化系数。各个解释变量的权重如表5所示。
表5 解释变量的权重
可以观察到,在控制其他变量的同时,当sexMale为1时,persafcon的值将增加2.181。这与我们的假设和文献是一致的。同样,当genheal2Very.poor为1时,persafcon的值将减少1.526,这表明身体健康状况较差的人往往更关心自己的安全。从种族的角度来看,亚洲人或亚裔英国人也往往更担心自己的安全。关于对警察的信任,更信任警察的人往往会感到更安全。与上述因素相比,教育的影响相对较小。当我们将训练后的模型应用于测试集时,其RMSE仅为3.377。这表明上述变量确实增加了模型的解释力。
讨论与结论
我们使用CSEW数据集对受访者对自身安全的担忧这一主题进行了数据分析。我们分析了单个变量的数值特征以及不同变量之间的关系,并使用岭回归模型进行了回归分析。通过交叉验证,我们选择了最优的模型参数。实验表明,我们选择的解释变量很好地解释了人们对人身安全的担忧因素。 我们发现,女性比男性更关心自己的安全,亚裔身份会降低人们的安全感,而更好的身体健康和对警察的信任可以减少这种担忧。 然而,我们的实验也有一些不足之处。首先,我们选择了五个解释变量,但影响个人对自身安全的担忧的因素往往很复杂,仅凭五个变量不足以解释它们。其次,尽管考虑了正则化,线性模型可能无法完全解释因变量。
代码
具体代码可见我的github.
引用
[1] Trawalter, S., Doleac, J., Palmer, L., Hoffman, K., & Carter-Sowell, A. (2022). Women's Safety Concerns and Academia: How Safety Concerns Can Create Opportunity Gaps. Social Psychological and Personality Science, 13(2), 403-415.
[2] Logan TK, Walker R. The Impact of Stalking-Related Fear and Gender on Personal Safety Outcomes. J Interpers Violence. 2021 Jul;36(13-14):NP7465-NP7487. doi: 10.1177/0886260519829280. Epub 2019 Feb 10. PMID: 30741095.
[3] Peck, J., & Elligson, R. (2021, October 29). Race, Ethnicity, and Police--Community Relations. Oxford Research Encyclopedia of Criminology.
[4] Brownlow A. (2005). A geography of men's fear. Geoforum, 36, 581-592.
[5] Day K., Stump C., Carreon D. (2003). Confrontation and loss of control: Masculinity and men's fear of public space. Journal of Environmental Psychology, 23, 311-322.
[6] Harris M., Miller K. (2000). Gender and perceptions of danger. Sex Roles, 43, 843-863.
[7] May D. (2001). The effect of fear of sexual victimization on adolescent fear of crime. Sociological Spectrum, 21, 141-174.
[8] Riggs S., Cook C. (2014). The shadow of physical harm? Examining the unique and gendered relationship between fear of murder versus fear of sexual assault on fear of violent crime. Journal of Interpersonal Violence, 30, 2383-2409.
[9] Logan, T., & Walker, R. (2021). The Gender Safety Gap: Examining the Impact of Victimization History, Perceived Risk, and Personal Control. Journal of Interpersonal Violence, 36(1-2), 603-631.
[10] Aarons GA, Monn AR, Leslie LK, Garland AF, Lugo L, Hough RL, Brown SA. Association between mental and physical health problems in high-risk adolescents: a longitudinal study. J Adolesc Health. 2008 Sep;43(3):260-7.