- 心理统计学考点归纳及典型题(含历年真题)详解
- 圣才电子书
- 7字
- 2021-04-15 12:54:42
第1章 描述统计
1.1 考点归纳
一、统计图表
1.统计图
(1)概念:统计图是用图形的形式呈现研究的数量化结果的一种形式。
(2)组成及特点如下:
①统计图一般由图题、变量说明、坐标轴及单位、图形4个部分组成。常见的统计图有线性图、条形图、圆形(扇形)图和组织图等。
②统计图比统计表更直观,更易于理解。但是,统计图和统计表一样,不能代替研究报告中的有关文字叙述,只能用来强调某些重要的数据关系。
③不同的统计图表达的效果是有区别的,即使选用同一种统计图,绘制方法的不同(如采用不同的轴单位尺度)也可能造成表达效果的差异。
2.统计表
(1)概念:统计表是用表格的形式呈现研究的数量化结果的方式之一。
(2)组成及特点如下:
①一个统计表通常包括表题、表体和表注三部分。表题是统计表的标题。表体是统计表的主体内容,包括研究的对象或特征,研究对象或特征的指标、类别、数据结果等内容。表注是对统计表中有关内容的说明,包括对表的来源、用途等作的注的说明。有时可以说明统计推论的结果和结论。
②研究的对象或特征名称一般列在表的左边一列;研究对象或特征的指标、类别名称一般列在表的上边一栏;同一纵列上的数据所保留的小数位要一致,位数要对齐。
③统计表的类型主要包括原始数据表、次数分布表和分析结果表等。
二、集中量数
1.算术平均数
(1)概念:算术平均数是所有观察值的总和除以总频数所得之商,简称为平均数或均数。它是一种集中量数,是某一特质“真值”的渐进、最佳的估计值。
表达公式:
式中N为数据个数,Xi为每一个数据,∑为相加求和。
(2)算术平均数的优点是:反应灵敏;计算方便;适合代数运算;受抽样变动的影响较小。具体表现在以下几个方面:
①当只知一组观察值的总和及总频数就可以求出算术平均数;
②用加权法可以求出几个平均数的总平均数;
③用样本数据推断总体集中量时,算术平均数最接近于总体集中量的真值,它是总体平均数的最好估计值;
④在计算方差、标准差、相关系数以及进行统计推断时,都要用到它。
(3)算术平均数的缺点:易受两极端数值(极大或极小)的影响并且当一组数据中某个数值的大小不够确切时就无法计算其算术平均数。
(4)算术平均数的条件要求如下:
①数据必须是同质的,即同一种测量工具所测量的某一特质;
②数据取值必须明确;
③数据离散不能太大。
(5)算术平均数的特点:
①在一组数据中每个变量与平均数之差(称离均差)的总和等于零;
②在一组数据中,每个数都加上一常数C,所得的平均数为原来的平均数加常数C;
③在一组数据中,每个数据都乘以一个常数C,所得的平均数为原来的平均数乘以常数C。
(6)应用平均数的原则
①同质性原则,即使用同一种观测手段,采用相同的观测标准,能反映某一问题的同一方面特质的数据;
②平均数和个体数值相结合的原则;
③平均数与标准差、方差相结合原则。
2.中数(Median,符号为Md)
(1)概念:中数,又称中位数,中点数,中值,是位于依一定顺序排列的一组数据中央位置的数值,在这一数值上、下各有一半频数分布着。即在这组数据中,有一半的数据比它大,有一半的数据比它小。这个数可能是数据中的某一个,也可能根本不是原有的数。
(2)中数的计算方法
①原始数值计算方法
将一组原始数据依大小顺序排列后,若总频数为奇数,就以位于中央的数据作为中位数;若总频数为偶数,则以最中间的两个数据的算术平均数作为中位数。
②频数分布表计算法
若一组原始数据已经编成了频数分布表,可用内插法,通过频数分布表计算中位数。
(3)中位数虽然也具备一个良好的集中量所应具备的某些条件,例如比较严格确定,简明易懂,计算简便,受抽样变动影响较小,但是它不适合进一步的代数运算。它适用于以下几种情况:
①一组数据中有特大或特小两极端数值时;
②一组数据中有个别数据不确切时;
③资料属于等级性质时;
④当需要快速估计一组数据的代表值时。
3.众数(Mode,简称Mo)
(1)概念:众数又称为范数,密集数,是指在次数分布中出现次数最多的那个数的数值。它也是一种集中量数,也可用来代表一组数据的集中趋势。
(2)计算众数的方法
①直接观察求众数。直接观察求众数的方法很简单,就是只凭观察找出出现次数最多的那个数据就是众数。数据整理成次数分布表后,观察次数最多的那个分组区间的组中值为众数。依据次数分组表计算众数受分组的影响。
②用公式计算的众数称为数理众数。当次数分布曲线的形式已知时,可用积分的方法求众数。这种方法较复杂,在心理与教育统计中很少应用,而应用较多的是皮尔逊经验法和金氏插补法。
(3)众数的意义与应用
众数的概念简单明了,容易理解,但它不稳定,受分组影响,亦受样本变动影响。较少受极端数目的影响,反应不够灵敏。众数只是一个估计值。同时,众数不能作进一步代数运算。所以众数不是一个优良的集中量数,应用也不广泛。
三、差异量数
1.离差与平均差
(1)离差表示每一个观测值与平均数的距离大小,正负号说明了重量施于什么方向,离均差的总和为零,标志着完全平衡。有时又称离均差或偏差。
(2)平均差是次数分布中所有原始数据与平均数绝对离差的平均值。一般用符号A.D.或M.D.来表示。如果使用原始数据求平均差,使用下面的公式:
平均差是根据分布中每一个观测值计算求得的,它较好地代表了数据分布的离散程度。然而,由于它在计算中要对离均差取绝对值,不利于进一步做统计分析,应用受到了限制,属于一种低效差异量数,在统计实践中不太常用。
2.方差与标准差
方差和标准差是最常用的差异量数。度量数据变异性即离散趋势的统计量称差异量数。标准差是方差的算术平方根。
(1)概念:方差,又称变异数、均方。常用符号为:S2、SD2(样本统计量),σ2(总体参数)。它是每个数据与该组数据平均数之差乘方后的均值,即离均差平方后的平均数。
标准差即方差的平方根,常用符号为:SD、S(样本统计量),(总体参数)
用下列公式表示:
①方差:
②标准差:
(2)意义:方差和标准差适合于代数运算方法,数值较稳定且反应灵敏,在计算中全部数据都参与运算,是数据离散程度的最好的指标。这也是标准差和方差优于其他差异量数的特点。
标准差表示数据的分散程度,标准差大表示分散,标准差小表示相对集中。
①若一个班的分数之标准差大,说明该班学习成绩不齐,好的好,差的差。此时标准差小好,说明成绩整齐。
②若一个老师所出的试卷,学生考完后标准大,说明这张试卷出得好,把不同学生的水平区分开了。此时标准差小不好。
③同一测量的标准差大,说明误差较大。
(3)标准差的特点:
①每一个观测值都加一个相同常数C之后,计算得到的标准差等于原标准差;
②每个观测值都乘以一个相同的常数C,则所得的标准差等于原标准差乘以这个常数;
③以上两点相结合,每一个观测值都乘以同一个常数C(C0),再加一个常数d,所得的标准差等于原标准差乘以这个常数C。
3.变异系数
(1)概念:变异系数,又称差异系数、相对标准差等,它是一种相对差异量,用CV来表示,为标准差对平均数的百分比。
(2)表达公式:
(3)应用
①同一团体不同测量间变异的比较,例如相同班级不同科目考试成绩之变异比较。
②不同团体同一测量间变异的比较,例如不同年级同一种试卷成绩变异大小的比较。
四、相对量数
1.百分位数
百分位数是相对于某一百分等级的分数点。它是指量尺上的一个点,在此点以下,包括数据分布中全部数据个数的一定百分比,第P百分位数就是指在其值为P的数据以下,包括分布中全部数据的百分之p,其符号是Pp,公式如下:
式中,Pp为所求的第P个百分位数;Lb为百分位数所在组的精确下限;f为百分位数所在组的次数;Fb为小于Lb的各组次数的和;N为总次数;i为组距。
2.百分等级
一个分数的百分等级可定义为在常模团体中低于该分数的人数的百分比。百分等级指示个体在常模团体中的相对位置,百分等级越低,个体所处的地位越低。百分等级是百分位数的逆运算,当已知原始分数,求某一分数在总体中所处的百分位置时,用百分等级,当已知百分等级时,可以求得处于某一百分等级的原始分数值。
百分等级的计算公式是:
式中,PR为百分等级;X为给定的原始分数;f为该分数所在组的频数;Lb为该分数所在组的精确下限;Fb为小于Lb的各组次数的和;N为总次数;i为组距。
3.标准分数
(1)概念:标准分数又称为基分数或Z分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。
(2)标准分数可以通过线性转换或者通过非线性转换得到,由此可将标准分数分为两类:
①线性转换的标准分数
根据标准分数的定义,可通过下式将原始分数直接转换成标准分数:
a.总体
b.样本
因为标准分数是从原始分数(X)中减去一个恒定值(平均数)再除以一个恒定值(标准差S)得到的,所以这是一种线性转换。有时也把线性转换的标准分数简称作标准分数或Z分数。
②常态化的标准分数
当原始分数不是常态时,可先把原始分数转化为百分等级,然后从正态曲线面积表中便可得到对应的标准分数。由这种方式所得到的分数就叫常态化的标准分数。在将分数常态化时有一个前提:只有所测特质的分数实际上应该是常态分布,只是由于测验本身的缺陷或取样误差而使分布稍有偏斜时,才能计算常态化标准分数。
(3)标准分数的性质
①Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量。
②一组原始分数转换得到的Z分数可以是正值,也可以是负值。凡小于平均数的原始分数的Z值为负数,大于平均数的原始分数的Z值为正数,等于平均数的原始分数的Z值为零。所有原始分数的Z分数之和为零,Z分数的平均数也为零。即,
,根据求平均数及Z分数的公式可以证明。
③一组原始数据中,各个Z分数的标准差为1,即sZ=1。根据Z分数的第二条性质和标准差公式可以推证。
④若原始分数呈正态分布,则转换得到的所有Z分数值的均值为0,标准差为1的标准正态分布。
(4)标准分数的优点
①可比性。标准分数以团体平均分作为比较的基准,以标准差为单位。因此不同性质的成绩,一经转换为标准分数(均值为零,标准差为1),相当于处在不同背景下的分数,放在同一背景下去考虑,具有可比性。
②可加性。标准分数是一个不受原始分数单位影响的抽象化数值,能使不同性质的原始分数具有相同的参照点,因而可以相加。
③明确性。知道了某一被试的标准分数,利用标准正态分布函数值表,可以知道该分数在全体分数中的位置,即百分等级,也就知道了该被试分数在全体被试分数中的地位。所以,标准分数较原始分数意义更为明确。
④稳定性。原始分数转换为标准分数后,规定标准差为1,保证了不同性质的分数在总分数中的权重一样。
(5)标准分数的应用
①用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低;
②计算不同质的观测值的总和或平均值,以表示在团体中的相对位置;
③表示标准测验分数。
五、相关量数
相关量数用于描述双变量数据相互之间的关系,这两个变量之间的关系不同于因果关系和共变关系,在相关关系中,两个变量之间不能确定因果,并且不同时受第三因素的影响。统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度,前提是事物之间的这种联系又不能直接做出因果关系的解释。有时,相关被解释为两种特征相伴随的变化。相关有三种:正相关、负相关和零相关,其变化范围在-1至+1之间。
1.积差相关
(1)概念:积差相关是英国统计学家皮尔逊于20世纪初提出的一种计算相关的方法,因而被称为皮尔逊积差相关,适用于正态分布中的双列变量,即用等距等比量表测得的数据。常用的是皮尔逊相关。
(2)计算公式如下:
①直接用原始数据计算的公式:
②运用标准差与离均差的计算公式:
其中,X、Y为两个变量的离均差,,
;N为成对数据的数目;
为X变量的标准差;
为Y变量的标准差。
③应用标准分数计算积差相关系数的公式:
其中,ZX为X变量的标准分数;ZY为Y变量的标准分数。
(3)积差相关系数适合的情况:
①两列数据都是测量的数据,而且两列变量各自总体的分布是正态的,即正态双变量。这里只要求保证双变量总体为正态分布,而对要计算相关系数的两样本的观测数据并不一定要求正态分布。
②两列变量之间的关系应是直线性的。如果是非直线性的双列变量,不能计算线性相关。判断两列变量之间的相关是否直线式,可以作相关散点图进行线性分析。
③实际测验中,计算信度涉及的积差相关时,分半的两部分测验须满足在平均数、标准差、分布形态、测题间相关、内容、形式和题数都相似的假设条件。
(4)相关系数的合并
在心理与教育工作研究中,常遇到需将取自同一总体的几个样本的相关系数合成、求平均的相关系数这一问题,由于相关系数不是等距的尺度,因此,对其不能采用简单合成的办法,必须将其转换成等距的尺度后再求平均,这样方有意义。求平均的相关系数,一般采用Z-r转换法。具体步骤如下:
①查费舍Z-r转换表,先将各样本的r转换成费舍Z分数
②求每一样本的Z分数之和
③求平均Z分数,即
其中,Zi由各样本ri查Z-r转换表得到;ni为各样本的成对数目。
④再查费舍Z-r转换表,将转换成相应的r值,即平均的r。
2.等级相关
(1)等级相关方法
等级相关方法对变量的总体分布不作要求,故又称这种相关法为非参数的相关方法。适用于等级变量和非正态分布的变量之间的相关分析。常用的等级相关是斯皮尔曼相关,也是线性相关。其公式为:
其中,N为等级个数,,指二列成对变量的等级差数。
(2)等级序数法
如果不用等级差数,可以直接用等级序数计算,可用下式:
其中,RX与RY为两列变量各自排列的等级序数。
具体的计算步骤:①赋予等级:②计算两个变量每对数据所赋予的等级数之差D,及差数的平方之和;③将有关数据代入等级相关的计算公式。
3.肯德尔等级相关
(1)肯德尔等级相关方法有很多种,有适合两列等级变量资料的交错系数和相容系数,它们的功用与斯皮尔曼等级相关相同。另外还有适合多列等级变量资料的方法,比如肯德尔和谐系数和肯德尔U分数。
(2)肯德尔W系数
①适用范围:适用于多列等级变量的相关。
②计算公式如下:
其中,
式中,Ri代表评价对象获得的K个等级之和,N代表被等级评定的对象的数目,K代表等级评定者的数目。
W值介于0与1之间,计算值都为正值,若表示相关方向,可从实际资料中进行分析。如果K个评价者意见完全一致,则W=1;若K个评价者的意见存在一定的关系,但又不完全一致,则0<W<1;如果K个评价者的意见完全不一致,则W=0。也就是说,如果各变量完全一致,那么各个评价者对每个被评价的事物(或人)评定的等级应该相同,其等级和的最大变异即最大可能的s应为。如果每个评价者给予的等级不同,则s变小,一致性程度降低,等级差异越大,一致性越低。如果完全没有相关,则每个被评价事物实际获得的等级之和应该相等,其最大可能的变异(s)应为0。这样实际获得的等级(原始数据资料)总和的变异与最大可能的等级总和的变异的比值,便是和谐系数,其值必然介于0到1之间。
(3)肯德尔U系数又称一致性系数,适用于对K个评价者的一致性进行统计分析。它与肯德尔W系数所处理的问题相同,但更适合评价者采用对偶比较的方法所得数据,所处理的资料的获得方法不同,计算的结果也不一样。肯德尔U系数的计算公式如下:
其中,N为被评价事物的数目,即等级数,K为评价者的数目;∑rij为对偶比较记录表中i>j(或i<j)格中的择优分数。
计算步骤:将被评价的事物用符号代表,分别横列与纵列,这样可画成N×N个格子。将每一对事物择优比较的结果按优者记1,非优者记0,难以判定记0.5的方法记分,将分数填到相应的格子中,这便是。两相同事物不用比较,因此在整个方格中,位于对角线位置的小格空着。在对角线以下每格的次数记为i>j,对角线以上的每格中的次数记为i<j。将整理后的资料,代入公式计算。
4.点二列相关与二列相关
(1)点二列相关适用于一列为等距正态变量的测量数据,另一列为二分名义变量的资料。常应用于试卷的信度分析。公式如下:
(2)二列相关适用于两列变量都为正态等距变量,但其中一列变量被人为地分成两类资料。公式如下:
(3)点二列相关和二列相关的选择
二列相关不太常用,但有些数据只适用于这种方法。在测验中,二列相关常用于对项目区分度指标的确定。二者之间的主要区别是二分变量是否为正态分布。总的原则是,如果不是十分明确,观测数据的分布形态是否为正态分布,这时,不管观测数据代表的是一个真正的二分变量,还是一个基于正态分布的人为二分变量,这时就用点二列相关。当确认数据分布形态为正态分布时,都应选用二列相关。只要有任何疑问,选用点二列相关总是较好的选择。在实际的研究当中,二列相关很少使用。
5.Φ相关
(1)Φ相关是指当两个分布都只有两个点值或只是表示某些质的属性,如工作状态(有工作与无工作)、吸烟状况(吸烟者与非吸烟者)等,可以运用列联表计算,因此它又称列联系。适用资料是除四分相关(当两个变量都是连续变量,且每个变量的变化都被人为地分为两种类型时,采用四分相关)之外的四格表(计数)资料,是表示两因素两项分类资料相关程度最常用的一种相关系数。
(2)若直接用四格表内数据计算可用下式:
图1-1变量四格表
Φ接近1为高相关,接近0为低相关。