功夫计量（Mastering 'Metrics）阅读笔记

A-A+
书评 2015-07-13 11:33:35 来源： IRID区域与产业发展研究中心作者：佚名 0

导言：虽然作者说这本书的定位，好比在MHE和Freakonomics之间坐了个空，但是如果你没有好好念过Angrist的MHE，或者念过但是不太懂，最好还是把这本书好好读读。如果你准备今后进入高校从事经济学研究和教学工作，你或许会选这本书做微观计量的教科书。

功夫计量（Mastering 'Metrics）阅读笔记

分享这本新书的笔记，其原因在于这本书并不特别值得一读。这本书的定位十分尴尬，Mostly Harmless Econometrics (MHE)的读者会觉得它太简单，而Freakonomics的读者则会觉得它太难。尽管用《功夫熊猫》和上古电视剧《功夫》包装了一下，但是显然Angrist & Pischke的文笔跟Levitt & Dubner相比，差距不可以道里计。所以如果没看过MHE，拿这本书作为计量功夫秘籍，很可能会觉得语焉不详，越看心儿越乱；而如果已经看过MHE，那么再花时间来看这本书，就物非所值了。所以考虑到有些朋友可能还没来得及（或者不准备）看这本书，我贴出自己的读书笔记，聊供参考。

本书正文部分共分六章，其中前五章分别介绍随机试验、回归、工具变量、断点回归、双重差分，所谓功夫计量的“盖世五侠”，第六章是对以上方法的综合应用。每一章都结合一个或数个实证案例来讲解，章节末尾有功夫大师介绍版块和附录版块。

第一章：随机试验

本章从potential outcomes framework讲起，选用的案例是医疗保险实验 (RAND Health Insurance Experiment, Oregon healthinsurance experiment)，结论是医疗保险覆盖使得医疗服务使用率上升，但并未明显改善健康水平。以Oregon实验为例，医疗保险使得急救服务使用次数增加10%，这与很多政策制定者的意图背道而驰：他们原本希望医疗保险能够使得先前没有保险的病患能够转而使用社会成本更低的医护服务。访谈数据进一步显示，尽管进入处理组的实验对象确实认为自己比以前更健康，但这种健康状况的改善主要来自于心理层面——医疗支出的收入占比更低、因医疗产生的债务更少，使得他们的财务压力得到缓解。

大师版块介绍发明RCT、ANOVA、MLE等等的远古大神R A Fisher。附录是关于统计推断的基本知识。（拿此书当畅销书和消遣读物的读者到此处估计就已经丢失了。）

第二章：回归

本章案例是就读私立高校（vs. 公立高校）的经济回报。（作者举了钱楠筠的例子——她同时收到了Harvard和UT-Austin的本科offer，但她选择了后者，因为UT-Austin给的奖学金更高。）所基于的文献是Dale and Krueger (2002),"Estimating the Payoff to Attending a More Selective College: AnApplication of Selection on Observables and Unobservables." QJE.

该文把申请了同一组学校、这些学校的招收标准也类似（基于SAT平均成绩）、申请结果也相同（即被同一组学校接受或拒绝）的学生匹配起来，发现选择就读私立高校的学生后来的收入水平和公立高校的学生差不多。具体做法是：将学生经匹配分成151个组后，构造各组虚拟变量。在收入水平对私立虚拟变量的简单回归中，私立虚拟变量上的系数显著为正，控制SAT成绩、家庭背景和其他人口统计学特征后仍然显著。相反，如果在简单回归中加入组虚拟变量，“私立效应”就变得不显著了，控制其他特征也不改变这一事实。

由于“匹配分组法”弃用的数据比较多，作者还采用了另一种“自我显示法”：不控制组虚拟变量，而控制每个学生申请学校的个数和这些学校的平均SAT成绩，其依据在于，在本案例中，选择性偏误的主要来源是无法观测的能力，每个学生对自己的能力有较为准确的判断，这反映在他们申请哪些学校。结果显示，一旦控制这两种能够“显示”能力的变量，不管是否进一步控制其他特征，“私立效应”稳定在0.31-0.37之间且不显著，可见“自我显示法”能够较好地解决选择性偏误。这一论断的理论支持来自经典文献Altonji, Elder, andTaber (JPE, 2005)：当控制了最重要的控制变量之后，如果关键解释变量的系数估计不再随着更多控制变量的加入而发生大幅变化，那么就说明潜在的遗漏变量偏误可能很小了。

为了理解这一点，回忆遗漏变量偏误公式：遗漏变量偏误 = 遗漏变量本身对被解释变量的影响X关键解释变量对遗漏变量的影响。如果把自己的SAT成绩作为被解释变量，可以发现私立虚拟变量与之显著相关，加入其他特征后并不会削弱其相关性，但加入能力显示变量后，这种相关性就不存在了。这就是为什么在以收入水平为被解释变量的原回归中，当控制能力显示变量后，自己的SAT成绩等变量就不再起作用了。

此外，有人会质疑，学生追捧私立高校，其实是因为在私立高校里能遇到更出色的同辈，因此私立与公立的对比是一个伪问题，重点是同侪效应。为了考察这一假说，文章将私立虚拟变量替换为学生所就读高校同班同学的平均SAT成绩，同样地，在控制了能力显示变量后，其与收入水平并无显著相关性。

大师版块介绍提出回归概念的Galton和完善多元回归思想的Yule。附录关于回归理论，是MHE第3章特别是3.1-3.2节的简写。

第三章：工具变量

案例一：charter school是不是更好（结论是肯定的），来自Angrist等关于某charter school的随机试验。所基于的文献是Angrist et al (2010),"Inputs and Impacts in Charter Schools: KIPP Lynn." AER. 由于获得就读资格的抽签是随机的，但入学却不是随机的（有些抽中的家庭并没有就读charter school，而另一些没有抽中的家庭也设法入学了），所以需要用IV方法：用是否抽中作为是否入学的IV。

作者将合格工具变量所需满足的条件总结为三条：（1）能解释关键解释变量的变动（2）与影响被解释变量的潜在遗漏变量不相关（3）仅通过关键解释变量影响被解释变量

如此估计出来的效应究竟是关于谁的？作者引出了local average treatment effect (LATE)on compliers的概念，并提到经典文献Imbens and Angrist(1994, ECMA)以及Angrist, Imbens, andRubin (1996, JASA)。注意到，此例中有四类学生，不管是否抽中都会入学（always-taker）、不管是否抽中都不入学（never-taker）、抽中则入学未抽中则不入学（complier）、抽中不如学未抽中则入学（defier），并且通常假定defier不存在。IV方法估计出来的效应是关于complier的，而无法提供关于always-taker和never-taker的信息。由于处理组中同时包含complier和always-taker，因此LATE和average treatment effect on the treated (ATT) 并不是一回事。

案例二：对施暴者从轻发落是否会助长家庭暴力的再发生（结论是肯定的），来自一项关于处置家庭暴力的实验，接警的警员随机收到关于是否对施暴者从轻发落（不予逮捕）的指示，但警员的实际行动可能与指示有出入。所基于的文献是Angrist (2006),"Instrumental Variables Methods in Experimental Criminological Research:What, Why and How," Journal of Experimental Criminology.

这也是个nonrandom compliance的例子。该例子的特点是，由于不存在always-taker（即一旦警员收到逮捕指令，不会对施暴者从轻发落），LATE反映的就是ATT。

案例三：子女数量（family size）对长子/女受教育程度的影响（结论是并无负面影响），用来说明2SLS对简单的Wald估计在两方面的推广（多个IV情形以及包含控制变量情形）。所基于的文献是Angrist, Lavy, and Schlosser (2010),"Multiple Experiments for the Causal Link between the Quantity and Qualityof Children," JLE.

该文为family size找到了两个IV：（1）第二胎是否为双胞胎；（2）前两胎性别是否相同。

作者强调了一种检验exclusion restriction的方法：如果first stage effect很弱，那么reduced form effect一定很弱，因为reduced form effect =first stage effect * LATE。反之，如果在first stage effect很弱的子样本中发现了较强的reduced form effect，则说明exclusion restriction很可能不成立。因此可以通过构造这样的子样本来进行检验。

大师版块介绍IV方法的提出者Philip G Wright。

附录关于IV理论。再次强调了考察reduced form effect的重要性：因为它只是OLS而已，不会受到弱工具变量有限样本偏误的影响，它若很弱，就能表明因果关系不存在。"If you can'tsee it in the reduced form, it ain't there."

第四章：断点回归

案例一（Sharp RD）：美国合法饮酒年龄是21岁以上，数据表明21周岁生日当月死亡率激增。对死因数据的分析也表明死亡率激增可能确实是由于饮酒所致。所基于的文献是Carpenter and Dobkin(2009), "The Effect of Alcohol Consumption on Mortality: RegressionDiscontinuity Evidence from the Minimum Drinking Age," AEJ: Applied.

具体而言，此例中的被解释变量是死亡率，treatment variable是是否达到合法饮酒年龄，running variable是年龄（按月计）。作者介绍了常用的两种估计方法：多项式法和非参法。

作者强调，RD的好处在于，treatment status由running variable唯一决定，因此不会发生遗漏变量偏误。作者还强调，RD尽管也是一种回归，但与回归有重要差异：回归的本质是conditional on controls，treatment近似随机，因此可以对treated和control outcomes进行对比；而在RD中，在任何running variable取值下都无法同时观察到treated和control outcomes，因此其validity取决于extrapolation（局部性）。

案例二（Fuzzy RD）：同侪效应。美国有一种exam school，需要进行入学考试。（该案例的fuzzy之处在于有些学生上了分数线但没入学，有些被一所exam school拒绝但去了其他exam school）。所基于的文献是Abdulkadiroglu,Angrist, and Pathak (2014), "The Elite Illusion: Achievement Effects atBoston and New York Exam Schools," ECMA.

具体而言，本例中的被解释变量是中学数学成绩（Y），关键解释变量是同班同学的小学数学成绩（X_bar）。在简单回归中，将Y回归在X_bar和自己的小学数学成绩上，发现效应显著。在fuzzy RD中，结构方程右边包含X_bar和running variable（入学考试成绩）；第一阶段回归右边包含treatment status（是否超过分数线，即IV）和running variable。此时发现同侪效应并不显著。尽管此IV很有可能通过peer quality以外的渠道影响成绩（不满足exclusion restriction），但这倾向于高估真实效应，因此反而强化结论。

有意思的是，这篇文章2011年7月以NBER工作论文的形式面世，一个月以后，用同样数据研究同样问题的另一篇文章也以NBER工作论文的形式正面撞车，最终，前者上了ECMA，却把后者挤到了AEJ，详见Dobbie and Fryer (2014),"The Impact of Attending a School with High-Achieving Peers: Evidence fromthe New York City Exam Schools." AEJ: Applied. 这两篇文章互相引用了对方，并且都有同样一句话：“本文是用RD方法分析exam school的两项同时进行的独立研究之一……”

大师版块介绍RD的提出者心理学家Donald T Campbell。

第五章：双重差分

案例一：密西西比州北部属于第8联储区（圣路易斯联储），南部属于第6联储区（亚特兰大联储），大萧条时期两个联储的货币政策风格不同，结论表明在扩张性货币政策下，银行倒闭数更少。所基于的文献是Richardson and Troost(2009), "Monetary Intervention Mitigated Banking Panics during the GreatDepression: Quasi-Experimental Evidence from a Federal Reserve District Border,1929-1933," JPE.

案例二：美国历史上不同州的最低合法饮酒年龄不同，再次考察其对死亡率的影响。所基于的文献是Carpenter and Dobkin(2011), "The Minimum Legal Drinking Age and Public Health," JEP.

本例中的关键解释变量是每个州每年允许饮酒的18-20岁人群比例。文章发现该比例越高，死亡率越高。

作者强调了在此类研究中控制individual-specific linear trend的重要性。

大师版块介绍现代流行病学之父John Snow在1855年一项关于霍乱病因的研究，使用了DD方法。附录介绍聚类标准误。

第六章：华山论剑之教育回报率

第一回合：Mincer (1974)回归：控制experience及其平方项。

能力引起的遗漏变量偏误可能为正，也可能为负——拥有艺术、运动、企业家才能的人很有可能放弃教育。

第二回合：Griliches (1977,ECMA)用IQ控制能力。但IQ不能解决问题，请注意，此处对能力的准确定义应该是“赚钱的潜能”，显然非IQ所能涵盖。

bad control问题（详见MHE 3.2.3）：（1）bad control（例如职业）上的效应也是教育回报率的一部分；（2）bad control会导致选择性偏误——假定我们研究上大学的回报，并且是否上大学随机指定，再假定存在蓝领、白领两类工作，大学毕业生更有可能从事白领工作，因此，即使在原来的实验设计中，处理组（上大学）和控制组（未上大学）之间是平衡的，当额外控制职业之后，反而不平衡了，因为我们相当于是在比较上过大学的白领和未上大学的白领，而后者可能是能力尤其突出的群体，这将导致上大学的回报被低估；（3）发生在treatment之后的变量往往是bad control（比如用考试成绩来作为能力的代理变量）。

第三回合：Ashenfelter and Krueger (1994, AER)以及Ashenfelter and Rouse (1998, QJE)的双胞胎研究。但有可能因为受教育水平具有测量误差而导致attenuation bias，且（在双胞胎研究中）当被解释变量为差分时，这一偏误更为严重——这是更一般化结论的特例：控制变量越多，attenuation bias越严重。这组文献的解决办法是：数据中每对双胞胎各自报告了对方的教育水平，因此可以用对方报告的自己的受教育水平作为自己报告的受教育水平的IV。

第四回合：Acemoglu and Angrist(2001), "How Large Are Human-Capital Externalities? Evidence fromCompulsory-Schooling Laws," NBER Macroeconomics Annual 2000. 用各州童工法对义务教育年限的规定作为受教育水平的IV。（在此例中，first-stage和reduced-form回归都是DD型的。）

第五回合：Angrist and Krueger(1991, QJE) 用出生季度作为教育水平的IV。

第六回合：Clark and Martorell(2014), "The Signaling Value of a High School Diploma," JPE. 用fuzzy RD来研究学历的价值。此例中的running variable为高中毕业考试成绩；treatment (IV)为毕业考试是否通过；关键解释变量为是否拿到高中毕业证书；被解释变量为毕业考试7-11年后的工资水平。结论表明，所谓的sheepskin effect并不存在。

功夫计量（Mastering 'Metrics）阅读笔记

天津大学马寅初经济学院2022年预聘教

北京大学国家发展研究院招聘事业编制

北大汇丰智库研究实习岗位招聘启事

20人看过

22人看过

24人看过

20人看过

7人看过