中国工业企业数据库的使用现状和潜在问题

A-A+
方法 2015-11-03 10:04:30 来源：《世界经济》作者：聂辉华、江艇（人大经济学院）、杨汝岱（北大经济学院） 0

提要：在经验研究中，企业级的微观数据正受到越来越多的重视。中国工业企业数据库成为海内外学者研究中国企业行为和绩效的主要数据库之一。但是该数据库存在样本匹配混乱、变量大小异常、测度误差明显和变量定义模糊等严重问题，忽视这些问题可能会导致研究结果错误。本文介绍了该数据库的基本情况和使用现状，指出了该数据库的若干缺陷，并根据现有研究提供了若干改进建议。

关键词：企业数据工业企业微观计量制造业生产率

一、引言

数据是经验研究的细胞，因此数据质量的好坏直接决定了经验研究的活力。最近十多年来，国际经济学界越来越重视使用微观面板数据（longitudinal micro-level data）的研究。相对于宏观数据或行业数据，微观的企业数据或个体数据的优势是非常明显的：第一，微观面板数据包含了更多信息，例如企业的所有制、规模和出口等状态，这些信息对于企业行为研究是必不可少的；第二，微观面板数据同时包含了时间维度和个体维度，有助于解决计量经济学中的个体异质性问题，更容易保证估计的一致性；第三，微观面板数据增加了观测值个数，使得估计更有效率。对于产业组织理论、企业理论、公司金融、国际贸易、收入分配和劳动供给等研究领域来说，经验研究的数据主要就是微观数据。

伴随微观计量经济学的引入和国内外微观数据库的开放，中国经济学者越来越重视微观数据的开发和使用，并生产了很多基于微观数据的研究成果。一些中国数据库甚至被全世界各国学者使用，这一方面表明中国问题越来越受到国际经济学界的重视，另一方面也表明中国数据的质量得到了越来越多的认可。特别是，相当多海内外学者使用了“中国工业企业数据库”（Chinese industrial enterprises database），其研究成果广泛发表在包括《American Economic Review》（如Song等，2011）、《Quarterly Journal of Economics》（如Hsieh和Klenow，2009）和《经济研究》等国际和国内著名学术期刊上。作为一个由中国国家统计局收集的数据库，它的优点是样本大、指标多、时间长。但是，它毕竟不是一个由学术机构发布的数据库，因此在很多方面还不太符合学术研究的严格要求，其缺陷包括样本匹配混乱、指标存在缺失、指标大小异常、测度误差明显和变量定义模糊等严重问题。我们认为，如果研究者没有察觉到这些数据缺陷，并且采取有效的方法缓解或消除这些缺陷，那么就会对经验研究的结果产生负面影响，甚至会导致错误的结果。而错误的结果对于理论研究和经验研究来说，不仅浪费了时间和精力，而且可能会产生误导作用。鉴于此，我们认为有必要详细地、严谨地讨论中国工业企业数据库的基本情况、使用现状，指出其存在的问题，并尽可能提供解决问题的建议。我们希望，本文的分析不仅有助于潜在使用者了解该数据库的研究现状和未来方向，而且有助于他们更准确地使用该数据库，从而推进相关领域的研究。当然，作为该数据库的使用者之一，我们并不能保证我们全面地熟悉了该数据库，并且我们对问题的分析不可避免地包含了一定的研究倾向。

二、数据库基本信息

我们首先简单地描述数据库的基本情况。中国工业企业数据库由国家统计局建立，它的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。该数据库的全称为“全部国有及规模以上非国有工业企业数据库”，其样本范围为全部国有工业企业以及规模以上非国有工业企业，其统计单位为企业法人。这里的“工业”统计口径包括“国民经济行业分类”中的“采掘业”、“制造业”以及“电力、燃气及水的生产和供应业”三个门类，主要是制造业（占90%以上）。这里的“规模以上”要求企业每年的主营业务收入（即销售额）在500万元及其以上，2011年该标准改为2000万元及其以上。基于上述统计口径的数据库自1998年开始采集，但多数学者使用的工业企业数据库涉及的年份在1999－2007年之间。由于该数据库的主要成份为制造业企业，在统计口径上与其它国家的产业分类比较一致，而且一些变量（例如资本、研发投入和出口交货值）更容易度量，因此使用者通常析出该数据库中的制造业企业。制造业的统计口径包括从农副食品加工业、食品制造业到工艺品及其它制造业、废弃资源和废旧材料回收加工业等30个大类（二位数行业），对应于国民经济行业分类与代码（GB/T4754—2002）中的代码13－43（没有38）。为了保持企业样本的完整性，同时与现有研究具有可比性，我们以1999－2007年全部国有及规模以上非国有工业企业作为我们分析该数据库的主要样本。

1999－2007年中国工业企业数据库包括了200多万个观测值，每年的样本企业数量从1999年的大约16万家逐年递增到2007年的大约33万家。在9年样本期内，总共有大约55万家企业出现，包括上市公司。显然，这是一个巨大的非平衡面板数据。由于企业关闭、改制、重组等各种原因，只有4万6千多家企业（约占样本企业总数的8%）连续出现在整个样本期间。该数据库样本占据了中国工业企业的绝大部分比例。根据具有可比性的2004年第一次全国经济普查年报，当年工业企业销售额为218442.81亿元。而中国工业企业数据库当年全部样本企业的销售额为195600亿元，约占全国的89.5%。目前，除了经济普查数据库，中国工业企业数据库是可获得的最大的企业级数据库。表1（略）描述了1999－2007年企业总数和国有、集体、民营、外资企业（含港澳台企业）的份额变化。可以看出，国有和集体企业的比例在显著减少，从1999年的三分之二下降到2007年的不足十分之一，而民营企业的比例从不足20%迅速增加到超过70%。该表从一个侧面反映了中国市场经济结构的剧烈变动。

事实上，工业企业数据库也是最全面的企业数据库。该数据库包括企业的两类信息，一类是企业的基本情况，另一类是企业的财务数据。企业的基本情况包括：法人代码、企业名称、法人代表、联系电话、邮政编码、具体地址、所属行业、注册类型（所有制）、隶属关系、开业年份和职工人数等指标。企业的财务数据包括：流动资产、应收账款、长期投资、固定资产、累计折旧、无形资产、流动负债、长期负债、实收资本、主营业务收入、主营业务成本、营业费用、管理费用、财务费用、营业利润、利税总额、广告费、研究开发费、工资总额、福利费总额、增值税、工业中间投入、工业总产值和出口交货值等指标。全部指标大约为130个。特别是，2004年为第一次全国经济普查年，因此在数据库中当年的企业指标还包括了不同学历（研究生、本科、大专、中专、高中、初中及以下）、不同职称（技术职称和技师等）的男职工和女职工的相应数量，此外还包括了企业是否加入工会以及加入工会的人数等其它年份所没有的信息。

三、数据库使用现状

由于工业企业数据库的独特优势，近几年来每年都有大量的海内外经济学者使用该数据库撰写和发表论文，主题涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸易、劳动经济学和区域经济学等学科。下面，我们简要介绍工业企业数据库在上述经济学分支中的使用现状。一方面，我们希望这有助于感兴趣的研究人员了解人们在不同领域已经用该数据库做了什么，还可以做什么；另一方面，我们希望这有助于感兴趣者了解现有研究者是如何做这些研究的。当然，囿于篇幅和精力，我们不可能囊括所有使用该数据库的文献，而是将目光聚焦于国内外的主要学术期刊或者流传较广的英文文章。

1、生产率

在所有使用该数据库的相关研究文献中，企业生产率是最受关注的主题。因为生产率是最重要的效率度量，正如克鲁格曼（Krugman，1997）所言：“生产率不是一切，但是长期来看生产率近似于一切。”而且，对于计算企业生产率而言，工业企业数据库提供了加总数据所不具有的独特优势。利用工业企业数据库中提供的销售额或经济增加值（表示Y）、固定资产（表示K）和职工人数（表示L），采取相应的价格指数进行平减，可以计算出每个企业的劳动生产率和全要素生产率（total factors productivity，简称TFP）。鉴于劳动生产率不能反映资本的效率，因此多数文献以TFP作为生产率的度量。又因为制造业口径与国际产业分类更具可比性，所以现有文献在计算TFP时几乎都以制造业企业为样本。在计算TFP时，一些学者采取了传统的索洛残差法（Solow residual），例如谢千里等（2008）、Hsieh和Klenow（2009）；一些学者采取了主流的OP方法（Olley和Pakes，1996），例如张杰等（2009）、余淼杰（2010）、聂辉华和贾瑞雪（2011）、杨汝岱和熊瑞祥（2011）、Brandt等（2012）；一些学者采取了LP方法（Levinsohn和Petrin，2003），例如周黎安等（2007）；一些学者采取了随机边界方法（SFA），例如刘小玄和李双杰（2008）。

2、国际贸易

与生产率研究密切相关的是国际贸易，更具体地说，是考察企业出口与生产率的关系。根据著名的企业异质性假说（Melitz，2003），生产率高的企业会倾向于选择出口，即生产率和出口是正相关的。工业企业数据库包含了企业出口交货值，但无法区分一般贸易和加工贸易企业。利用工业企业数据库，一些学者检验了这一假说对于中国企业是否成立。张杰等（2009）利用1999－2003年的制造业企业数据发现，出口有利于企业提高TFP，即存在出口的“学习效应”。而李春顶（2010）利用1998－2007年的样本发现，出口企业的平均TFP或劳动生产率低于内销企业，他认为这是“生产率悖论”。此外，赵伟等（2011）发现劳动生产率与出口选择是负相关的，但TFP有时与出口选择是正相关的。这似乎表明，利用该数据库文献研究还没有明确地支持企业异质性假说，但Lu（2010）对此提供了一个理论解释。还有一些学者利用工业企业数据库做了相关的研究。例如，余淼杰（2010）发现，贸易自由化（降低关税）会提高出口企业的TFP；包群等（2011）发现，制造业企业出口后对其员工收入的改善并不明显；杨汝岱和郑辛迎（2011）发现行业的垂直专业化程度对企业员工工资有差异化影响。

3、外商直接投资

中国加入WTO已经十周年了，外商直接投资（FDI）究竟在中国的经济发展中扮演了什么样的角色？亓朋等（2008）利用1998－2001年的制造业企业数据，考察了外资企业对内资企业TFP的溢出效应，发现在行业内溢出效应不显著，行业间和地区间均存在正的溢出效应。罗雨泽等（2008）使用2000年和2002年的制造业企业数据，发现外商投资企业对本行业和本地区的内资企业有显著正的溢出效应。有趣的是，路江涌（2008）利用1998－2005年的制造业企业数据，发现外资企业对内资企业的溢出效应随地理距离而递减，在本市内溢出效应为正，在全国范围内为负，并且对国企为负，对民企为正。Du等（2011）发现，外资企业对内资企业的溢出效应主要是通过前向或后向产业关联实现的，横向产业关联没有产生显著的溢出效应；而且，来自港澳台的外资企业和来自外国的外资企业对内资企业的影响也不相同。Xu和Sheng（2011）也得到了类似的发现。Sheng等（2011）还发现，FDI通过后向产业关联提高了内资企业的出口价值，通过同行业的示范效应提高了内资企业的出口倾向。Chen等（2011）发现，外资企业具有明显的工资溢价，并且对内资企业的工资有抑制作用，从而加剧了企业之间的工资不平等现象。

4、研发

技术创新是企业生产率的重要源泉之一，因此企业的研究开发（R&D）行为也备受关注。关于R&D的文献主要分为两类：第一类是研究R&D或者企业创新的决定因素，主要是检验“熊彼特假说”；第二类是研究企业的R&D对绩效的影响。聂辉华等（2008）利用2001－2005年的制造业企业数据，分析了发现企业的研发密度（度量创新）与规模、市场竞争之间均呈倒U型关系，而且尽管国有企业的研发密度比民营企业的更高，但是研发的效率更低。Hu等（2009）发现FDI和企业改制对于促进企业研发密度有正面作用。陈林和朱卫（2011）使用2005－2006年的工业企业数据，根据国有经济比重区分行政进入壁垒高的行业和行政进入壁垒低的行业，发现在前一类行业中创新与市场结构之间是倒U型关系，“熊彼特假说”成立，但是在后一类行业中相反。Chesbrough和Liang（2007）以制造业中的半导体行业为例，发现市场导向会影响企业R&D的投资回报，即全球市场导向的企业比国内市场导向的企业能够获得更高的R&D回报。戴觅和余淼杰（2012）发现，出口前的R&D投资能够促进企业在出口后的生产率提高。

5、民营化

中国国有企业改革的主要成效之一，就是大量的国有企业进行了转制，即从百分之百的国有企业变成了国有控股企业或者民营企业。这一点明显地反映在国有工业企业的实收资本成份变化上。Tong（2009）利用1998－2003年的工业企业数据，发现市场竞争的加剧、FDI集中度的上升以及预算约束的硬化是国企民营化的主要动因，而且绩效相对好的国企更有可能民营化。Bai等（2009）研究了国企民营化的影响，发现民营化增加了销售额和劳动生产率，而这主要是通过减少管理费用来实现的。Dougherty等（2007）发现，民营化通过提高企业的赢利能力和生产的地区专业化水平提高了企业的生产率。Lu等（2010）发现，集体企业的私有化导致了销售成本的上升，但是也导致了管理费用的下降。

6、公司金融

由于中国工业企业数据库包含了丰富的财务指标，因此很多学者用它研究企业的投资、融资和避税行为。Cai和Liu（2009）提出了一个有趣的问题：竞争是否会加剧公司规避所得税？他们识别避税程度的方式是，比较企业报告的利润和根据会计规则计算的利润之间的差额。使用2000－2005的工业企业数据，他们发现竞争会加剧企业的避税行为。Cull等（2009）认为，中国的银行贷款（loan）和商业信用（tradecredit）之间存在一种替代关系，业绩差的国企会通过商业信用将银行贷款再配置给企业客户，而业绩好的民营企业比业绩差的民营企业更有可能扩展商业信用。余明桂和潘红波（2010）利用2004－2007年的工业企业数据发现，企业（特别是私有企业）会将授予客户的商业信用作为产品市场竞争的手段，这验证了商业信用的竞争假说。Guariglia等（2011）发现，民营企业的内部融资（现金流/总资产）是企业增长的重要约束条件，而国有企业则不受此类约束。

7、产业集聚

利用企业层面的数据，我们可以得到行业或地区层面的加总数据，这可以反映中国工业的产业集聚现象。使用1998－2005年的制造业企业数据，Lu和Tao（2009）考察了中国制造业集聚（用EG指数衡量）的决定因素，发现地方保护主义（国有企业的雇佣比例）是阻碍产业地区集聚的主要因素。另外一些学者考察了产业集聚对企业的影响。Li等（2011）发现产业集聚对企业规模有显著的正面影响。Lin等（2011）发现，产业集聚和企业生产率之间存在一种倒U型关系。Yang和He（2011）发现贸易通过信息和分工影响到出口企业的地理集聚。

8、宏观政策的微观影响

利用工业企业数据库，学者们还可以研究宏观政策对企业微观行为和绩效的影响，并且以经验研究的方式为宏观政策分析提供微观基础。聂辉华等（2009）利用面板双重差分模型（DID），发现2004年实行的增值税转型政策显著地促进了企业的固定资产投资和劳动生产率，但是也减少了企业的雇佣人数。袁渊和左翔（2011）用DID方法研究了2003－2005年间浙江省“扩权强县”政策对企业增长的影响，发现这一政策确实提高了县域企业的销售额增长率和资产增长率。彭方平和连玉君（2010）利用2000－2007年的工业企业数据，发现短期内提高利息的宏观政策会导致企业的生产成本提高，从而导致通货膨胀，此即货币成本。Song等（2011）推断，金融歧视政策导致高效率企业的储蓄率上升和快速的增长，并进而导致巨额的外汇储备和贸易逆差，他们然后用1998－2007年的工业企业数据对此进行了验证。

9、其它

与工业企业数据库有关的其它经验研究，主要聚焦于就业问题。方明月等（2010）利用1999－2005年的工业企业数据，采取系统GMM（广义矩估计）方法比较了不同所有制企业的产出的微观就业弹性，发现国企的就业弹性低于民营企业的就业弹性。张光南等（2010）利用1998－2006年工业企业数据加总得到各省的基础设施、产出和就业数据，计算了基础设施对产出和就业的弹性。Dong和Xu（2009）讨论中国公共部门和私人部门之间的劳动力流动对中国经济增长的贡献。

四、数据库潜在问题

中国工业企业数据库为微观计量经济学研究贡献了不可或缺的素材，但是这个数据库并非完美无缺，而是问题重重。作为使用者，我们发现了工业企业数据库存在样本错配、指标缺失、指标异常、样本选择和测度误差等诸多问题。如果忽视这些问题，经验研究的结果可能不稳健，甚至可能是错误的。现有文献部分地发现了这些问题，并且提供了部分解决方法。下面，我们在现有文献的基础上，结合我们的使用经验，将工业企业数据库的潜在问题归纳出来，并且力所能及地提供解决问题的建议。

1、样本匹配问题

对于一个多年企业数据来说，整理数据的第一步就是构建一个以企业ID和年份为两维的面板数据。这通常不是一个问题，但是对于中国工业企业数据库来说却是一个非常棘手的问题。因为在该数据库中，难以找到一个识别每个样本企业的唯一特征来进行编码。通常的做法是，根据企业代码、企业名称、法人代表姓名、地址、邮编、电话、行业代码、主要产品名称、开业时间等基本信息来识别不同的样本点是否来自同一家企业。但是因为这些基本信息在申报时没有统一格式，在缺乏有效的智能模糊匹配手段的情况下，精确匹配的可操作性不强。这其中，企业代码和企业名称的准确性相对较高，可以作为我们进行匹配所依据的主要信息，比如Brandt等（2012）就是先根据相同的企业代码识别同一家企业，然后再根据相同的企业名称进行识别，最后再参考其它基本信息。这种序贯识别法假定企业代码的准确性最高，企业名称准确性其次，也就是说共享同一企业代码的样本点必然被识别为同一企业，反过来，被识别为同一企业的各样本点可能拥有不同的企业代码。在本数据库中，不但存在同一企业更改企业代码的情况（例如在发生改制或重组之后），更重要的是，还存在不同的企业共享企业代码的情况（也许是统计失误）。企业名称这一变量也存在类似问题。很多企业在改制、重组或者扩张时更改了企业名称。例如，中国有不少企业先是叫“XX厂”，然后改名叫“XX有限责任公司”，接着又叫“XX股份有限公司”。有时企业名称中的地理位置也略有差异，例如从“XX市机电厂”变成“XX机电厂”。如果按照企业名称进行精确匹配会错误地识别出“过多”的企业。

我们建议的做法是：将企业按企业代码和企业名称分别进行两次分组，然后考察同一名称组下的企业是否分属不同的代码组。若是，则将这些不同代码组内的所有企业都归为一组（对每一名称组都依此进行操作，不断重新归组，可以称之为“交叉匹配”）；若新组内没有年份重复的观测值，则将这一组样本点识别为同一家企业；若新组内存在年份重复的观测值，则进入下一步人工识别。在人工识别阶段可能存在多种情况，需要根据数据特征和基本信息进行综合判断。例如，同一组内的样本点可能属于同一家企业，只是其中某些年份有两个观测值，这两个观测值只需要保留一个，另一个完全重复或关键变量均缺失。同一组内的样本点也可能属于不同企业，但其中可能存在企业代码登记错误的情况，此时需要参照企业名称、法人代表姓名、地址、行业代码、销售额或注册资本等关键变量的数量级等信息进行分类，确定哪些样本属于同一家企业。我们发现，使用交叉匹配方法后，大约有10%的观测值（大约20万个）属于名称相同但法人代码不同或者相反的情况。显然，如果忽视匹配问题会严重地影响样本的真实性和准确性。

除了企业匹配存在一些障碍，产业匹配也有一些问题。使用者必须注意到，2002年前后统计局使用了两种产业分类标准：2002年及其之前的年份为GB/T4754—1994，2002年之后为GB/T 4754—2002。两种行业分类标准在两位数行业上没有差异，在三位数行业上有一些差异，在四位数行业上有较大差异。杨汝岱、郑辛迎（2011）和杨汝岱、熊瑞祥（2011）将1994GB四位数行业分类对应到2002GB三位数行业分类，这是一种可供参考的做法。

2、指标缺失问题

工业企业数据库每年的统计对象和口径有所不同，这导致一些重要指标在若干年份缺失。首先，有些来源的工业企业数据库直接将2004年的经济普查数据与其它年份混编在一起，而没有和其它年份进行匹配。这导致2004年的数据缺少工业总产值、工业增加值、出口交货值和研究开发费等重要指标。与此同时，和2004年相比，其它年份又缺少关于工会、男女职工的学历和技术职称等指标。因此，使用者在分析数据之前，应该先查看2004年数据和其它年份数据之间的指标差异。

其次，2003年前后的指标也有一些不同。例如，2001年之前的数据不包括研发费用。有些来源的1999－2003年工业企业数据库没有“工业增加值”，也没有“应收账款”，但是有“应收账款净额”。根据会计准则，应收账款净额＝应收账款总额－坏账准备期末余额，因此两者不能简单地比较。在缺失工业增加值的年份，使用者可以根据会计准则估算工业增加值：工业增加值＝工业总产值－工业中间投入+增值税。在没有工业总产值的年份（例如2004年），估算公式为：工业增加值＝产品销售额－期初存货+期末存货－工业中间投入+增值税。例如，刘小玄和李双杰（2008）就采取了这种估算方法。我们用第一个公式估算了2005－2007年的工业增加值，发现平均而言估算值略小于报告值（表2）。当使用者用工业增加值来计算生产率时，应该注意到这种差别。

需要特别指出的是，尽管工业企业数据库提供了企业的出口交货值，但据此只能判断企业是否出口，而无法区分出口类型是加工贸易还是一般贸易。对于劳动密集型的加工贸易企业而言，其劳动生产率和全要素生产率很可能低于一般贸易。另外，加工贸易是发展中国家的特殊现象。如果不区分两类出口企业，简单地将全部出口企业的效率与内销企业的效率相比，那么得到出口企业的平均效率低于内销企业也就不足为奇了。事实上，Dai等（2011）将工业企业数据与海关数据匹配，在剔除了加工贸易企业之后，发现“生产率悖论”并不存在。

3、指标异常问题

尽管工业企业数据库包含了130多个指标，但是有相当多的指标存在异常值。异常值的存在使得很多观测值无效，因此在进行计量回归前必须予以剔除。我们注意到，Cai和Liu（2009）使用了比较全面的剔除方式，并且被较多的研究者所借鉴。第一步，他们剔除了关键指标（例如，总资产、职工人数、工业总产值、固定资产净值和销售额）缺失的观测值；第二步，他们剔除了不满足“规模以上”标准的观测值，即固定资产净值低于1000万元，或者销售额低于1000万元，或者职工人数少于30人的观测值；第三步，他们剔除了一些明显不符合会计原则的观测值，包括总资产小于流动资产，总资产小于固定资产净值，或者累计折旧小于当期折旧的观测值；第四步，他们剔除了关键指标的极端值（前后各0.5%）。

以1999－2007年为例，我们分析了指标异常问题。首先，我们发现，在总共2048833个观测值中，我们剔除了销售额、职工人数、总资产或固定资产净值缺失的观测值5900多个，约占全部观测值的0.3%。其次，我们根据谢千里等（2008）的做法，剔除了职工人数少于8人的观测值28000多个（这些企业缺乏可靠的会计系统），约占总数的1%。然后，我们剔除了总资产小于流动资产，总资产小于固定资产净值，或者累计折旧小于当期折旧的观测值200多个。最后，我们剔除了销售额低于500万元的观测值176500多个，约占总数的9%。经过了上述四个步骤，我们总共剔除了大约20万个观测值，约占总数的10%。尽管进行了上述剔除，但是我们仍然发现有不少观测值属于异常值。例如，如果按照Bai等（2009）的标准，利润率低于0.1%或者高于99%的观测值均为异常值，那么这部分“异常值”还有大约43万个，约占总数的23%。或者我们使用一种比较宽松的标准，会发现实收资本小于或等于0的异常观测值有1万1千多个，约占总数的6%。因此，即便做了上述剔除，使用者仍然需要剔除计量方程的关键变量或参数所对应的异常值。

4、测度误差问题

国家统计局在收集工业企业数据时，不是一次性交给企业一份报表，而是让企业通过年报和定期上报的方式将数据报告给统计局，然后统计局再进行汇总。事实上，企业上报系统至少包括四套表格：综合年报表、综合定报表、基层年报表和基层定报表。这意味着，由于统计时间或者统计口径不同，即使对同一个指标，企业在不同时间上报的数值也可能不一样。另外，很多规模不大的企业仍然缺乏可靠的会计系统，或者为了避税而瞒报、甚至错报有关指标，这些都会导致测度误差问题。

以研发费为例。在2001－2007年（不含普查年份2004年），在总共140多万个观测值中，研发费显示为0的观测值有120多万个，占总数的89%。研发费报告为0的有三种情况：（1）企业没有研发支出，因此研发费确实为0；（2）企业不清楚，任意地报告0；（3）企业没填写此项，统计人员直接赋值0。如果是第一、二种情况，那么这更可能发生在中小企业身上。于是，我们剔除了销售额低于3亿元的中小企业，又剔除了出口企业，发现在剩下的2万8千多个观测值中，研发费显示为0的仍然有2万多个，比例超过70%。这提醒研究者注意两点：第一，如果绝大多数中小企业没有研发费，并且这是真实的情况，那么在分析企业研发支出（或创新）的决定因素时，最好使用Tobit截断模型（例如聂辉华等，2008），因为这比最小二乘法（OLS）回归更可能得到一致估计；第二，如果我们无法区分第二和第三种情况，那么研发费这一指标的准确性和真实性值得怀疑，此时用工业企业数据库来分析研发的决定因素或者研发绩效可能是不恰当的。

存在明显测度误差的其他指标主要是利润和增加值。由于企业报告的利润和增加值与企业的税负正相关，因此企业在监管不力的前提下可能会低报或误报这两个指标。事实上，Cai和Liu（2009）根据会计准则估算了企业的利润（＝工业总产值－中间投入－财务费用－工资－当期折旧－增值税），然后发现在2000－2005年间，估算利润率均值为0.1431，而企业报告的利润率均值为0.0515，后者比前者少了三分之二以上。此外，根据我们前面对2005－2007年间工业增加值的估算，可以发现估算的工业增加值要略小于报告的工业增加值。

另一个不属于经典测度误差但是与此有关的问题是虚假指标问题。在1999－2007年间，根据注册类型，有大约五分之一的观测值（大约40万个）属于外资企业（包括港澳台商投资企业和外商投资企业）。这一比例之高超乎我们的直觉，因为众所周知的事实是，外资企业可以享受税收各种税收优惠。进一步分析发现，这些企业虽然登记为外资企业，但是在其实收资本份额中，有6%的样本的港澳台资本或外商资本金额为0，其中有一半左右的登记注册号明确标明了外资身份（例如注明“企合津总字第XX号”）。这有两种可能，一是这些企业以前是外资企业，但是变更了实收资本之后没有及时变更登记注册类型；二是这些企业错误地填报了注册类型。剩下的94%的“外资企业”，我们无法确认其真实身份，也难以排除其中的假外企。

5、样本选择问题

在样本选择方面，工业企业数据库的一个突出问题是，它包括了全部的国有工业企业，但是只包括了规模以上的非国有工业企业。因此，当使用者要对比国有企业和非国有企业的行为及绩效时，最好将规模以下的国有企业样本剔除。而当使用者在研究产业集聚问题时，可能会低估非国有企业的集聚程度（Lu和Tao，2009）。但规模以上的样本并非都是随机的。在1999－2007年间的总共200多万个观测值中，只有大约8%的企业每年都存在，有大约22%的企业在最后三年都存在。一个企业某年不在样本中，可能是因为当年销售额小于500万元，也可能是因为破产、重组或者更改名称等原因，还有可能是被漏报。在这种情况下，我们难以严格地界定企业的“进入”和“退出”，因此研究者在用这个数据库分析企业动态学时必须力争解决或减缓这个问题。另外，该数据库中包含了企业所在地的详细信息，使用者可以识别出企业是否处于经济特区或经济开发区。因为经济特区或经济开发区的企业具有自身的特点，这种区分有助于减少企业在比较生产率、产业集聚、利润率以及融资成本等方面的样本选择问题。还有一个比较棘手的问题是，统计局对企业的统计口径是“法人企业”，而不是“企业集团”或“工厂”。因此，有很多属于同一个企业集团的企业会被认定为不同的企业，而多个工厂的差别则会被掩盖在企业内部。

6、变量定义问题

分析中国的企业不可能忽略企业的所有制。我们注意到，现有文献在识别企业的所有制时通常采取两种方式：注册类型或实收资本。这两种识别企业所有制的方法其实是有差别的。前者表示企业在工商局登记注册时的类型，后者能够表示企业当时的真实控股类型。我们不妨将注册类型为“国有、国有联营、国有与集体联营、国有独资公司”这几类企业定义为“I类”国有企业，同时根据实收资本将国有资本比例超过50%的企业定义为“II类”国有企业。在1999－2007年工业企业数据库中，在剔除了实收资本为异常值的观测值之后，I类国企有245376个观测值，II类国企有252629个观测值，后者比前者多3%左右，两者重合的观测值大约占I类国企的84%，这意味着至少有15%的国企虽然注册类型是国企，但是已经不是真正的国企了。由于控股比例更能及时地反映企业的所有制类型，因此我们建议使用者最好使用实收资本比例来定义企业所有制。外资企业的识别也存在类似的问题。根据我国的法律，外资企业的投资比例原则上不低于25%。尽管有大约五分之一的观测值的注册类型显示为外资企业，但是其中有10%的观测值的港澳台商投资或外商投资比例低于25%。一些研究者以外商的实收资本比例是否超过25%作为识别外资企业的方法（例如路江勇，2008）。

除了所有制类型，一个难以准确定义的变量就是“资本”。理论上，资本是固定资产存货和投资流量的加总。多数文献的做法是，将资本定义为固定资产原价或者固定资产净值，然后采取永续盘存法来计算投资Iit=Kit-(1-d)Kit-1，其中I表示投资，K表示当期资本存货，d表示折旧率）。这种算法意味着第一期的投资变量会缺失。折旧率的选取通常是5%、10%或15%。此外，还应该采取不同的价格指数对产值、资本、投资和中间投入等变量进行平减。我们必须提醒使用者的是，不同的资本定义方法、折旧率以及价格平减指数会得到不同的结果。Brandt等（2012）提供了比较详细的说明和操作程序。

（本文发表于《世界经济》，2012年第5期，引用请注明。结尾和参考文献省略，请查看原文。图片来自网络。）

中国工业企业数据库的使用现状和潜在问题

天津大学马寅初经济学院2022年预聘教

北京大学国家发展研究院招聘事业编制

北大汇丰智库研究实习岗位招聘启事

6人看过

10人看过

24人看过

5人看过

14人看过