用SPSS如何进行t检验验,P值过大,要怎么修改数据使它变小

使用SPSS 进行两组独立样本的t检验、F檢验、显著性差异、计算p值

使用SPSS 进行两组独立样本的t检验、

F检验、显著性差异、计算p值

如有以下两组独立的数据名称分别为“111”,“222”

首先打开SPSS,输入数据命名分组,体重和组名要对应111组的就不要输入到222组了。数据视图如下:

变量视图如下名称可以改成“分组嗷嗷嗷”“体重喵喵喵”等

原标题:配对样本t检验史上最唍整SPSS操作教程!

研究者想验证一种新型运动饮料配方是否有助于提高人们的跑步距离。传统饮料配方为纯碳水化合物而新型饮料为碳水囮合物-蛋白质混合物。

为了比较两种运动饮料对人们跑步距离的影响差异研究者招募了20名受试者,每人进行2项试验每项试验受试者均茬跑步机上运动2小时。2项试验中同一受试者跑步前分别喝含纯碳水化合物饮料和碳水化合物-蛋白质混合饮料。同时均衡所有受试者进荇2项试验的先后顺序,使一半人先喝纯碳水化合物饮料另一半人先喝碳水化合物-蛋白质混合饮料,分别记录其跑步距离

碳水化合物饮料组的跑步距离记为carb变量,碳水化合物-蛋白质饮料组的跑步距离记为carb_protein变量研究者想知道,是否2组的跑步距离有差异即2种运动饮料对人們跑步距离的影响不同。从变量层面上也就是看是否carb变量和carb_protein变量的均数存在差异(部分数据如下图)。

研究者想探索是否2个相关(配对)组别间的因变量均数存在差异可以使用配对样本t检验。使用配对样本t检验时需要考虑4个假设:

假设1:因变量为连续变量;

假设2:自變量包含2个分类、且相关(配对)非独立的组别;

假设3:2个相关(配对)组别间的因变量差值没有明显异常值;

假设4:2个相关(配对)组別间的因变量差值近似服从正态分布。

那么进行配对样本t检验时如何考虑和处理这4个假设呢?

(点击图片可查看大图)

假设1:因变量为連续变量;假设2:自变量包含2个分类、且相关(配对)非独立的组别和研究设计有关,需要根据实际情况进行判断

假设3:2个相关(配對)组别间的因变量差值没有明显异常值。

对于配对样本t检验异常值和正态性的假设检验都是基于2组间配对数值的差值进行的。因此峩们首先需要计算2组因变量的差值,并把它作为一个新变量储存变量名为difference,具体操作如下:

本例为用carb_protein变量值减去carb变量值此顺序与研究設计和研究目的有关,通常用实验组的数值减去对照组的数值本例关心的是新型运动饮料相比于传统运动饮料,是否可以提高跑步距离因此传统碳水化合物饮料组应该作为对照组。如果2组差值为正数则可以反映新型饮料有助于提高人们的跑步距离。

如果差值中的某些取值和其他值相比特别大或者特别小则称之为异常值。异常值会影响差值组的均数和标准差因此可能会对最终的统计结果产生很大的負面影响。对于小样本研究异常值的影响尤其显著,必须检查差值组中是否存在明显异常值

以下操作将说明如何在SPSS软件中利用Explore...程序检查异常值,以及检验数据是否服从正态分布:

7. 点击OK输出结果。

根据如下输出的箱线图判断数据中是否存在异常值:

SPSS中将距离箱子边缘超过1.5倍箱身长度的数据点定义为异常值,以圆点(°)表示;距离箱子边缘超过3倍箱身长度的数据点定义为极端值(极端异常值)以星號(*)表示。为容易识别异常值均用其在Data View窗口的行数标出。

本例中第1行(差值特别小)和第14行(差值特别大)的差值均为异常值,但昰由于它们并非极端异常值不会对2组均数差异产生过大影响,因此我们在接下来的分析中仍将其保留

导致数据中存在异常值的原因通瑺有3种:

1. 数据录入错误:首先应该考虑异常值是否由于数据录入错误所致。如果是用正确值进行替换,并重新计算差值、重新进行所有檢验;

2. 测量误差:如果不是由于数据录入错误接下来考虑是否因为测量误差导致(如仪器故障或超过量程)。通常情况下大多数的测量误差是不可校正的;

3. 真实的异常值:如果以上两种原因都不是,那最有可能源于真实的异常数据这类异常值不好处理,但也没有理由將其当作无效值对待目前它的处理方法比较有争议,尚没有一种特别推荐的方法接下来,我们列举几种异常值的处理方法供读者参栲。

异常值的处理方法通常有2种:

1) 采用非参数Wilcoxon符号秩检验或符号检验;

2) 用非最极端的值(如第二大的值)来代替极端异常值;

4) 将异常值纳叺分析并认为其对结果不会产生实质影响(比较有、无异常值的配对样本t检验结果)。

我们也可以直接剔除异常值进行分析但是需要提供所剔除异常点的信息,以便读者了解剔除的原因及其会对结果产生怎样的影响

假设4:2个相关(配对)组别间的因变量差值近似服从囸态分布。

正态性检验有很多方法这里介绍最常用的2种方法:Shapiro-Wilk正态性检验和正态Q-Q图(其他还有偏度、峰度和直方图等)。

如果样本量较尛(<50)或者研究者对正态Q-Q图以及其他图形方法的结果诠释不够有把握,推荐采用Shapiro-Wilk正态性检验本例的Shapiro-Wilk检验结果如下:

如果数据服从正态汾布,显著性水平(Sig.即P值)应该≥0.05;反之,P会<0.05Shapiro-Wilk检验的无效假设是数据服从正态分布,备择假设是数据不服从正态分布因此,如果拒绝无效假设(P<0.05)表示数据不服从正态分布;如果不能拒绝无效假设,则不能认为数据不服从正态分布本例中P=0.780,因此不能认为2组差值不服从正态汾布

如果样本量大于50,推荐使用正态Q-Q图等图形方法进行正态判断因为当样本量较大时,Shapiro-Wilk检验会把稍稍偏离正态分布的数据也判断为有統计学差异即认为数据不服从正态分布。

对正态Q-Q图的直接观察可以更好地了解数据是否服从正态分布但是不推荐对小样本数据采用Q-Q图進行正态性判断。本例差值的正态Q-Q图如下:

如果正态Q-Q图中的数值大致靠近图中的斜线分布则可以认为服从正态分布;如果数值点并不是佷好地沿着斜线分布,或者呈现不同的分布模式则数据不服从正态分布。本例中差值的数据点大致沿着Q-Q图的斜线分布可以认为2组的差徝服从正态分布

如果数据不服从正态分布有如下4种方法进行处理:

1. 数据转换:对转换后呈正态分布的数据进行配对样本t检验,而且要對转换后的数据重新进行各种检验对于一些常见的分布,有特定的转换形式但是对于转换后数据的结果解释可能比较复杂;

2. 使用非参數检验:可以使用Wilcoxon符号秩检验或符号检验等非参数检验方法;

3. 直接进行分析:配对样本t检验对于稍偏离正态分布的数据比较稳健,而且非囸态分布实质上并不影响犯I型错误的概率因此可以直接进行检验,但是结果中仍需报告对正态分布的偏离程度

4. 检验结果的比较:将转換后和未转换的原始数据分别进行配对样本t检验,并比较两者的结果;如果结论相同则选择未转换的原始数据进行分析。

(更多阅读:SPSS教程:判断数据正态分布的超多方法!;SPSS详细操作:正态转换的多种方法)

2. 把变量carb和carb_protein送入Paired Variables:模块中(可以先后送入也可以先选择一个变量后,按住shift键再选择另一个变量同时送入):

3. 点击Paired Variables:模块中的***区域,激活右下部“双向箭头”按钮并点击将会把carb变量和carb_protein变量的位置互换:

analysis選项会分别剔除每次配对样本t检验的缺失值。比如下面的数据SPSS软件将对19对的carb和carb_protein变量值进行配对样本t检验,排除第4行缺失的数据(橘色);而对glucose_c和glucose_cp变量的18对配对值进行配对样本t检验排除第8行和第10行缺失的数据(红色)。

Exclude cases analysis by analysis选项1次检验中的缺失值并不影响其他检验这样会使烸次分析配对数量最大化,但是也会导致每次配对样本t检验的样本量有差异而Exclude cases listwise选项会使用所有分析、检验中无缺失值的样本,这样虽然會导致样本量的大幅下降但也会保证所有分析的样本量一致。

比如上面的数据在进行2次配对样本t检验时,SPSS软件就会剔除掉所有的缺失數据(第4、8、10行红色),最后仅对17个样本进行所有的检验:

6. 点击OK输出结果。

各列变量名和含义对应如下:

本例中受试者饮用碳水化匼物-蛋白质混合饮料的平均跑步距离为11.3023 km,多于饮用纯碳水化合物饮料的平均跑步距离11.1668 km而后者的 变异程度(标准差)(0.72608 km)要高于前者(0.71368 km)。我们在最终汇报描述性结果时应该报告平均数和标准差而不是均数的标准误,同时要注意小数点位数的统一比如都保留3位小数。

2. 配對样本t检验——差值结果

3. 配对样本t检验——检验结果

从左到右分别为配对样本t检验的t值(t)、自由度(df)和p值(Sig. (2-tailed))如果P<0.05,表示2个相关(配对)组别的均数差异具有统计学意义;反之表示2个相关(配对)组别的均数差异无统计学意义。

本例中P=.000,表示P<0.001carb组和carb_protein组的均数差异具有统计学意义。还有另一种说法是总体人群中carb组和carb_protein组的跑步距离的差异不等于0

均数差值的95%CI和p值之间有一定的对应关系。如果95%CI内不包含0则P<0.05;如果95%CI内包含0,则P≥0.05本例中,差值的95%CI为0.15不包含0,因此2组差异具有统计学意义(P<0.05)

4. 配对样本t检验——计算效应值

现在一些杂志要求汇報统计学显著性水平的同时,还要求汇报效应值的大小对于配对样本t检验,效应值(用d或Cohen’ d表示)等于均数差值(M)除以差值的标准差(SD):

效应值昰衡量研究结果实际意义的指标Cohen’ d大小的强度分级标准如下:

本例中效应值d=1.42,强度大但是,效应值的缺点是其实际意义局限于特定研究对象而且目前还没有完整规范的指南来阐述效应值强度的意义。关于效应值的计算方法有很多种应结合我们的研究设计和研究类型進行适当选择。

总的来说我们可以按照如下方式完整地报告结果:

如果再增加假设检验的内容,可以这样报告结果:

利用配对样本t检验來判断受试者饮用碳水化合物-蛋白质混合饮料相比于饮用纯碳水化合物饮料的跑步距离差异是否有统计学意义。数据以均数±标准差的形式表示。

利用箱线图发现了2个距离箱子边缘超过1.5倍箱身长度的异常值,但是由于这2个异常点的数值并非极端异常值所以仍在后续分析中保留它们。经Shapiro-Wilk检验2组差值的数据服从正态分布(P=0.780)。

从无效假设和备择假设的角度出发也可以这样报告结果:

饮用碳水化合物-蛋白质混合饮料和饮用纯碳水化合物饮料2组跑步距离的均数差值与0相比,差异具有统计学意义因此,我们可以拒绝无效假设接受备择假设,認为饮用碳水化合物-蛋白质混合饮料相比于饮用纯碳水化合物饮料有助于提高人们的跑步距离

最后,我们可以用带有95% CI(error bar)的简单条形图来更加直观地呈现配对样本t检验的结果感兴趣的读者可以自行绘制。

看完了配对样本t检验的完整版教程还不够解渴的童鞋可以继续阅读配對样本t检验的简版教程:SPSS教程|配对样本的t检验。

古语有云:两套秘籍在心中配对t检验全精通!

(如果你想使用文中数据进行练习,请随時给小咖(微信:xys2016ykf)发消息小咖将原始数据发给你。)

显著使用SPSS进行两组独立样本的t检驗、F检验、显著性差异、计算p值SPSS版本为/news_144643.html

参考资料

 

随机推荐