首先,这个东西一定有事实数据,但问题是我接触不到。这样的事情有很多,于是我只能用数学手段模拟合理的区间,从而建立自己的信念。希望数学不会骗我。
其次,这类问题一定不要相信身边统计学,因为你的注意力会骗你。
本文通过简单的建模说明当至少一半学生的成绩离开原本分段的情况下才会呈现出实际观测的统计分析结果。这变相回答了题目的问题:中考成绩能否预测高考成绩?我的结论是不能,至少有一半不能
这也回答了之前短文用到的一个假设,高中通过中考成绩掐尖优质生源有用吗?我觉得用处不大。与其去赌一半的概率,不如相信自己的学生。
- 问题抽象
- 模拟结果与讨论
- 建模过程
- 箱间交换的情况
问题抽象
中考成绩能否预测高考成绩,这个问题很简单,只需要跟踪每名考生,记录他的中考、高考成绩并作统计分析即可。我没有渠道获得这类数据。
我能查到是这样几篇文章<高考中考成绩相关性研究报告.pdf>,总分的相关系数为
在<高考、中考成绩相关性研究报告_王庆灿教育工作室_新浪博客>中,他们得到的结论是
- 1.各学科中、高考成绩相关性分析 (1)从总体上看,理科各科中、高考成绩属于实正相关或微正相关,高考总分和中考总分属于实正相关。 (2)理科高考英语与中考英语、高考数学与中考数学成绩属于实正相关,其中高考英语与中考英语成绩的相关程度是这几科中最高的,接近显著正相关。 (3)理科高考语文与中考语文、高考化学与中考化学、高考物理与中考物理成绩属于微正相关,其中高考物理与中考物理成绩相关性最低,接近不相关。
他们得到的最强的相关性是“实正相关”,那么什么是实正相关呢?实正相关(Substantial Positive Correlation):
- 指两个变量之间存在统计学上显著实际意义较强的正向关联。
- 不仅要求相关系数(如皮尔逊相关系数)为正,还需满足:
- 统计显著性();
- 相关系数达到一定强度(通常或更高,具体阈值因学科而异)。
由于他们并没有给出具体数值,因此有理由认为相关系数值不会超过。
因此,接下来的问题是:学生的排名发生怎样的变化才能导致这样的相关系数?也就是问,如果一名同学中考排名在,那么他的高考排名是怎样的?能否预测?
模拟结果与讨论
建模过程
下面开始建模。首先获取北京中考、高考一分一档的成绩分布。由于分析的范围是重点高中,因此取头部名考生作为分析对象。为了模拟某所高中的情况,我采用无放回平均采样的方法采样名考生,将他们的分数绘制为下图。
- 图中蓝色曲线代表中考成绩(z),绿色曲线代表高考成绩(g),并将它们分别从高到低排列。它们的分布都呈现两头陡峭、中间平缓的合理分布,二者的相关系数为。
- 图中红色曲线是模拟学生成绩发生“交换”的情况。所谓交换就是学生排名次序的变化,即两次考试之间学生A与学生B的成绩发生了交换。
红色曲线代表“箱内交换假设”,即处于不同成绩段(箱)的学生之间不发生跃变,好学生永远是好学生,差学生也永远是差学生,他们的名次仅在自己所处的箱内变化。红色曲线是箱内交换的“最差结果”,即导致相关系数降低最大的结果。此时相关系数降低到。
可见,即使在最差情形下,箱内交换也不会导致相关系数降低过大,这与实际观测到的事实不符。所以,有理由认为中考成绩难以预测高考成绩。接下来分析它们的量化关系。
箱间交换的情况
为了找寻怎样的名次变换才会导致的结果,继续考虑箱间交换的情况。如下图中紫色曲线所示,我并没有改变成绩分布,只是将它们进行跨箱交换,交换的尺度()。所谓尺度是指交换名学生数量的成绩,图中是随机交换学生的成绩。可以看到,这种箱间交换对相关系数的影响非常大,使其降低到。
顺着这个思路,我进行了大量模拟,模拟中调整值和箱子数量,得到值的分布如下图所示。
- 首先,总体的规律是箱子划分越细(越大)则值的动态范围越大,且时基本收敛。
- 其次,可以看到当交换尺度时,才会观测到的结果。也就是说,当至少一半学生的成绩离开原本分段的情况下才会呈现出实际观测结果。
也就是说,从随机模拟的角度来看,目前高中阶段至少有一半学生的成绩会发生较大变化。我不知道实际情形如何,但若果真如此,在高考决定论的导向下,这无疑会导致大量的学生出现心理问题。
热门跟贴