注册 投稿
经济金融网 中国经济学教育科研网 中国经济学年会 EFN通讯社

父母的受教育程度怎样影响孩子的教育?

\

 

Haan, M. D., & Plug, E. (2011). Estimating intergenerational schooling mobility on censored samples: consequences and remedies. Journal of Applied Econometrics, 26(1), 151-166.

 
导读
 
 
 

教育在代际之间的传递性是怎样的?父母的受教育程度会怎样影响孩子的受教育程度? 

传统文章对此的解释往往是孩子的教育年限对父母的教育年限回归的结果。然而原文从数据收集的角度对此提出疑问,即收集到的数据中很少会完全反应孩子的受教育程度,因为通常被调查到的孩子仍处于上学阶段(教育尚未完成)。文章提出了三个改进此问题的方法并合理地运用数据分别得出计量结果,我们会发现,有时最有效率的方法往往就是最简单的那一个。 

教育水平在代际之间的传递性在计量中存在的问题

原文针对的是利用计量方法对教育水平在代际之间的传递性——即父母的教育水平与子女教育水平之间的相关关系——进行实证过程中存在的问题以及可能的改进措施。即回归模型为:

\

其中,St:孩子的教育年限;St-1:父母的教育年限。因此,所关心的参数β1满足:

\

一般而言,利用计量方法对对教育水平在代际之间的传递性进行实证所使用的数据为针对某一特定群体的普查数据。利用这一类数据验证教育水平在代际之间的传递性,存在一个数据截断的问题,即样本中的大多数孩子往往在调查进行时还处在接受教育的过程之中,他们的教育过程还没有完成。因此,普查数据仅仅记录了普查发生时孩子所处的年级,或到普查发生为止所接受的教育水平(年限),而不是孩子完整的接受的教育年限。大多数孩子完整的教育年限在普查进行时并不能够得到。 

因此,在存在截断数据问题时,由于截断数据与真实的孩子完整的教育年限不同,实际的回归模型为

\

其中,公式左端为非完整的孩子教育年限。 

由于非完整的孩子教育年限与父母教育年限之间的协方差较完整的孩子教育年限与父母教育年限之间的协方差要小,因此这样回归出来的参数会较真实参数下偏,即:

\

解决这个问题最直接的方法即在数据收集阶段收集到所有孩子的完整的教育年限,但这样就要求收集工作发生在所有孩子都完成教育之后。由此,这样的数据又带来了数据陈旧问题,即回归结果的时间有效性落后于当前正在接受教育的孩子,对现实的解释意义会受到这一时间落后的影响,不能及时估计当前受教育群体的教育的代际传递性。 

 三种解决这一问题的计量方法概述

 

 为了能够及时准确地估计出教育的代际传递性,原文作者提出了三种解决阶段数据问题的计量方法,即:父母预期的教育年限法、截断数据回归方法以及省略在校学生样本法。下面对这三种方法的思想进行简要介绍。

(一)父母预期的教育年限法

 这一方法的思路较为简单,即在收集数据时,收集父母对子女接受的完整的教育年限的预期的数据,并以此来代存在未完整的子女教育年限数据。

 这一方法的可行性的理论分析如下:用对St的预期代表父母的对子女接受的完整的教育年限的预期,dt=1(0)代表(不)存在截断数据问题的样本点,由此,回归模型中的因变量变为

\

同时,假设父母的对子女接受的完整的教育年限的预期与孩子真实接受的完整的教育年限之间存在关系:

\

将其代入原始的回归模型,得到

\

因此,这一方法下估计的参数表达式为

\

可以看出,若上式中等式右边的第二项为0时,这一方法的估计值是对真实参数的一致估计值。

(二)截断数据回归方法

 这一方法采用了极大似然估计方法的思想,通过构造适当的似然函数然后选择适当的参数使其最大化。

 在这一方法下,假设残差条件分布为正态分布,均值为0,方差为σ²,构造的似然函数为:

\

其中Φ和φ分别为正态分布的累积密度函数和概率密度函数。  

 估计参数包括β和σ²。在模型设定正确的情形下,这一方法可以得到真实参数的一致估计量。

 (三)省略在校学生样本法

 这一方法的思想是显而易见的,即省去存在截断数据问题的数据点以避免截断数据影响估计结果。在这个计量方法下,由于年龄较小的孩子更有可能仍然处在接受教育的过程之中,因此便以年龄作为省略样本的标准。具体而言,在原文中,作者采用了25周岁作为是否省去样本点的标准,即将孩子年龄低于25周岁的样本点省去。

 这一方法虽然可以避免截断数据带来的问题,但是却有可能引入新的问题,即样本选择偏误的问题,造成估计值不能一致估计真实值。 

 三种计量方法的验证结果及主要结论

 

 为了对以上提出的解决截断数据问题的三种计量方法的有效性进行验证,原文采用了WLS数据集,利用三种方法进行回归分析。

 WLS数据集的特点是既包含完整的子女教育年限数据(不存在截断问题的数据),同时也包含在某一时间点的存在阶段问题的数据。这样,就可以利用完整的子女教育年限数据对真实参数的一致估计量进行估计,并以此作为比较的基准。WLS数据集还包含利用过三种解决截断数据问题计量方法所需要的数据(例如:父母对子女完整受教育年限的预期值),从而可以利用三种解决截断数据问题的计量方法对其进行估计,并比较它们之间的结果。

(一)基准结果和存在阶段问题的估计结果

原文首先利用完整的子女教育年限数据作为被解释变量,以父母的教育年限(父亲教育年限、母亲年限以及父亲和母亲的教育年限)为解释变量,并加入子女年龄和子女的性别作为控制变量,估计不存在截断数据问题的真实参数的一致估计量,并将其作为与之后的结果进行比较的基准结果。

这一基准回归模型的结果显示,父亲和母亲的教育年限对子女的教育年限都有显著的正的影响,支持了教育在代际之间存在传递性的结论。

之后,原文利用不完整的子女教育年限数据作为被解释变量(4097个样本点中,其中有874个样本点存在截断数据问题),以父母的教育年限(父亲教育年限、母亲年限以及父亲和母亲的教育年限)为解释变量,加入子女年龄和子女的性别作为控制变量,估计存在截断数据问题的参数估计值。结果显示,在存在截断数据问题的回归估计中,估计值较基准值要小,即存在截断数据问题的回归结果低估了父母教育年限对子女教育年限的影响,并且这一低估在大多数情况下是统计显著的,这与之前的分析结论是相符合的。

(二)三种计量解决方法的结果对比

 接下来,原文对三种解决截断数据问题的计量方法进行估计,并与基准的结果进行了对比。

估计和对比的结果显示,利用父母预期的教育年限法的回归结果与基准结果之间的差距最小,并且这一差距是统计上不显著的。而另外两者,截断数据回归方法和省略在校学生样本法的估计结果都大于基准的估计结果,并且这一高估大多数在统计上是显著的。这就初步说明了父母预期的教育年限法的回归结果较另外两种方法更贴近真实参数,父母预期的教育年限法比另外两种计量方法更具有有效性。

 (三)稳健性检验

在得出父母预期的教育年限法比另外两种计量方法更具有有效性的结论之后,原文了又对父母预期的教育年限法的稳健性格进行了检验。稳健性检验从两个方面进行:截断数据问题的严重程度、父母预期的质量和一般性。

进行截断数据问题的严重程度的稳健性检验,原文采用的方法是通过不断将观察的时间点前移,不断增加存在截断数据问题(不完整的教育年限数据)的样本点占总样本点的比重,直至百分之百。这一比重越大,截断数据问题的严重程度就越大。并在不同比重下利用父母预期的教育年限法进行估计,并与基准结果比较,考察当截断数据问题的严重程度增大时,父母预期的教育年限法是否还能得到较为一致的结论。

截断数据问题的严重程度的稳健性检验显示,当存在截断数据问题样本点占比达到60%——70%时,父母预期的教育年限法的估计结果才会与基准结果产生过具有统计显著性的差别。由此,这一方法在存在截断数据问题样本点占比达未到60%——70%时是稳健的。

父母预期的质量和一般性的稳健性采用的方法是对影响父母对子女预期教育年限估计误差与所关心的解释变量(父母的教育年限)进行分析。结果发现,父母对子女的预期教育年限估计与真实的教育年限之间的误差与解释变量父母的教育年限之间的非常弱相关的,这就说明了这一方法的一般性。同时,为了排除WLS数据中特殊样本群体的影响,原文还采用了PSID和NLSY数据,对父母的预期子女教育年限的影响因素进行估计,发现三个数据集之间的结论是相似的,这也支持了父母对子女教育年限的预期的具有一般性。

从以上分析可以看出,当利用存在截断问题数据集对教育的代际传递性进行实证分析时,父母预期的教育年限法是比其他两种方法更有效的方法,并且这一有效性是具有稳健性的。 

 评论

 
 
 

这篇文章作为一篇方法对比类文章,对解决阶段数据问题的三种方法给出了具体的对比。我们认为,这篇文章的独到之处在于以下三点:

(1)选择了一个非常合适的数据集并加以活用。可以看出,文章采用的WLS数据集的数据类型齐全,作者提出的三种方法都可以在数据中找到合适的变量来体现,也就适合用于估计基准模型与替代模型的结果的比较。可以说,对这一数据集的活用是整篇文章关键之处。可以说,一个真实准确合适的数据集对一篇好文章的贡献是非常巨大的。

(2)文章对三种方法对比的结果中,找到了一个最适合方法——父母预期教育年限法。这一方法并非三种方法中最复杂,最技术化的方法,但是反而是这种简单直接明了的方法能够给与我们最准确的估计,这种“简约之美”是当前纷繁复杂的计量理论中难得的。

 (3)应用预期教育年限法的关键并不在数据分析层面,而是在数据收集层面。这也提示我们在面对现实中一些计量领域内的估计问题时,不一定只从分析技术的方面加以解决,也可以从数据收集本身来解决。可以说,根据要研究的问题,对要收集数据类型进行更加深入的思索和讨论,对我们得出更准确的估计是有很大帮助的,并且是一个有效的从根本上解决问题的方法。如果在设计要收集的数据时偷工减料,使得在估计时只好用复杂的估计方法来获得准确估计,那反而可能是事倍功半的做法。

 (编辑:郭倩)

文章评论
关注我们

快速入口
回到顶部
深圳网站建设