01度量的基本原理1.确定度量什么变量统计学是讨论数字的,所以我们必须对变量进行度量。在此之前,我们需要考虑一下两个问题:我们...
01 度量的基本原理
1.确定度量什么变量
统计学是讨论数字的,所以我们必须对变量进行度量。在此之前,我们需要考虑一下两个问题:
我们准备度量的是不是正确的变量?有没有忽略什么不易度量却很重要的变量?比如在临床实验中,我们往往会倾向于度量容易度量的变量(血压、肿瘤大小、血液病毒含量等等)。但往往会忽略对患者而言最重要的问题:经过治疗之后,患者的生活真的改善了吗?有一项研究发现,在1980-1997年发表的实验结果当中,只有5%度量了治疗对患者在情绪方面和社交方面有什么影响。
2.确定怎么度量
什么是度量?
度量:
我们度量人或物的某一性质,并用数字来代表那个性质。通常我们用某种量具来取得度量结果。对于记录度量结果所用的单位,我们也许有不同的选择。度量结果是一个数值变量(numerical variable),只要我们度量的人或物在这项上有差别,这个变量的值就不同。例如:
一张床的长度,可以用卷尺作为度量工具,度量单位可以是厘米(cm)或者米(m)。
一名学生的高考水平,可以用全国高等教育入学考试作为度量工具,度量单位就是分数。
高速路的驾车风险,可以用政府交通事故报告系统作为度量工具,度量单位就是事故次数。
确定以上两点后,我们需要对变量进行细致入微的研究。
02 度量有效性以及误差度
1.变量是如何定义的?
例如我们要度量休息时间,“休息时间”就是变量,但是,什么是休息时间我们必须要先定义清楚。
又如我们要度量公路车祸死亡人数,“公路车祸死亡人数”就是变量,但是,什么是公路车祸死亡人数?发生车祸后6个月不治身亡的算吗?被车撞到的行人算吗?
如果定义变量不明确,就会出现偏差。
2.该度量能否有效描述它所要度量的人或物的性质?
有效量度:当变量和某一性质有关,或者适合作为那个性质的代表时,我们就称此变量为该性质的有效量度。
没有人会反对用厘米为单位的尺子来度量床的长度,但是,如果用身高高度决定谁能考入好的大学,这就有点荒谬了。身高和高考几乎一点关系都没有,这里的身高就不是一个有效度量。真正的有效量度应该是高考分数。
另外,有一些变量需要用比率(Ratio)计算才是有效量度,否则是无效量度,来看下面这个例子。
Example1:评估公路安全性
路越建越好,限速要求提高了,大型运动型多功能车取代了轿车,而且严格的执法行动减少了酒后驾驶行为。在这种有很大改善的环境之下,1994~2007年,公路安全情况有没有随着时间改善?死亡事故报告系统公布,1994年有40716人死于车祸,13年之后的2007年有41259人死于车祸。有驾照的人从1994年的1.75亿增加到2007年的2.06亿。人们开车行驶的总英里数,也从23580亿英里增加到30320亿英里。如果只是简单地用“车祸死亡人数”作为变量,也即计数(Count)的方式来评估公路安全状况并不理想。我们应该用比率(Ratio)计算每英里的车祸死亡人数,因为,车越来越多导致驾车行驶里程更多。
以2007年为例,公路车祸死亡率是:
死亡率从1994年的每亿英里1.7人,降至2007年的1.4人。这是很大的差距:2007年和1994年比起来,每亿英里的死亡人数减少了18%。因此,在公路上开车已经变得越来越安全了。
但是,我们会遇到涉及介于有效量度与无效量度之间的情况。
Example2:美国学术能力评估测试
1999年,当美国学术能力评估测试分数公布时,公正测验机构表示:“测验如果有所偏颇,就会很不公平地导致数以千计的女学生无缘上大学或拿不到奖学金。而根据她们平日在学校里的优异表现,她们应该得到这些。”数学成绩的性别差距比较大,女生的平均分为495,男生的平均分为531。12年后的2021年,这个差距依然存在。在高中的高年级学生中,女生数学成绩的平均分是500,而男生数学成绩的平均分是531。美国联邦民权办公室(Federal Office of Civil Rights)认为,女生和少数族裔学生成绩比较差的测验中存在歧视问题。大学委员会回复道,造成某些群体的平均分比其他群体低的原因有很多。举例来说,来自低收入与低受教育程度家庭的参加美国学术能力评估测试的学生中,女生比男生多。平均来看,父母收入低且受教育程度也低的学生,在家里和学校里拥有的资源都不及其他学生多。他们的美国学术能力评估测试分数比较低,是因为他们的家庭背景使得他们为进大学所做的准备不足。因此,他们的分数较低并不能说明美国学术能力评估测试不是有效量度。“为考大学做好准备”这个概念其实非常模糊,其中可能包括先天智力、知识水平、读书方法、稳定水平等因素。对于高考这个量度能否正确度量这个模糊的概念,永远都会存在争议。
但是,高考这一量度仍具有“预测有效性”,来看定义:
如果某一个指标的量度,可以用来预测跟这个指标有关的一些事情,我们就认为其具有预测有效性(predictive validity)。
我们可以问一个问题:美国学术能力评估测验分数是否有助于预测一个学生能否胜任大学毕业?“能否胜任大学毕业”这个概念非常明确,可以用绩点来度量。比起美国学术能力评估测试分数低的学生,分数高的学生更有可能顺利从大学毕业,得到更好的绩点水平。因此,以美国学术能力评估测试分数作为一个学生能否考上大学的量度,具有预测有效性。这是唯一可以用数据直接进行评估的有效性。
3.度量结果有多精确?
例如体重秤,这个体重秤测量体重总是会多出3公斤,这3公斤就是“偏差”。
偏差就是每次度量都会出现的系统性误差。
体重秤用久了不灵敏,第一次站上去读数少了1公斤,第二次站上去又多了1公斤。如果一直在体重秤上上上下下,就会得到不同的读数,但总体会以超过真实体重+3公斤为中心点上下浮动。这种浮动值,被称作“随机误差”。
随机误差(Random error)是因意外状况产生的误差,我们无法预测。
随机误差的大小是可以被测量的,我们一般用“方差”变量计算随机误差。一个可靠的度量过程应该方差值较小。
步骤如下:
- 计算n个测量值的平均值。计算每个测量值与平均值的差,再计算其平方值。将得到的平方值加总,再除以n–1,就得到了方差。
Example3:计算方差
假设我的真实体重为50kg,我在体重秤上测了3次,这3个测量值分别是:50+3-1=52kg50+3+1=54kg50+3-1.5=51.5kg这3个测量值得平均数是:(52+54+51.5)/3 = 52.5kg每个测量值与平均值的差为:52-52.5=-0.554-52.5=1.551.5-52.5=-1这些差值的平方和为:(-0.5)^2+(1.5)^2+(-1)^2=3.5因此,方差为:3.5/(3-1)=1.75
如果体重秤只存在偏差,那么方差为0,是可靠的(即结果会重复出现)。
如果方差过大,我们一般说这个度量不可靠。
那么,怎样做可以减少误差呢?
我们可以采取多次测量,取平均值。
例如,国际计量局的原子钟准确程度是600万误差为1秒,他们使用超过200台原子钟来测量时间,最终的时间由这200台原子钟的平均值得出。这样子做的好处是可以减少度量结果的变异性。
如果认为本文对您有所帮助请赞助本站