2  Chapter 2: Data & Variables

2.1 数据来源与样本选择

2.1.1 数据库选择

本研究使用 CSMR 数据库(China Stock Market & Accounting Research),这是目前中国资本市场研究最权威的数据库之一,包含完整的财务报表、公司治理、股票交易等数据。

选择 CSMAR 的理由: - 数据完整性好:覆盖 A 股市场所有上市公司 - 数据质量高:经过多重校验和审计 - 时间跨度长:满足面板数据分析需求 - 更新及时:确保数据时效性

2.1.2 数据来源表

本研究使用的数据表包括:

数据表 主要内容 用途
资产负债表 总资产、总负债、固定资产等 构造 Lev、Tang、Size
利润表 净利润、营业收入等 构造 NPR、Growth
现金流量表 折旧、摊销等 构造 NDTS
股权性质文件 实际控制人信息 构造 SOE
行业分类文件 证监会行业代码 行业控制变量
ST 变动文件 特别处理公司标识 样本筛选
货币供应量 M2 同比增长率 宏观控制变量

2.1.3 样本选择标准

2.1.3.1 初始样本范围

  • 时间范围:2011-2025 年
  • 初始观测数:178,837 个
  • 初始公司数:5,075 家

2.1.3.2 样本筛选流程

2.1.3.3 筛选标准说明

1. 剔除金融保险行业

  • 行业标准:证监会行业分类代码以 ‘J’ 开头
  • 包括行业:银行、保险、证券、信托等
  • 剔除原因
    • 金融企业资本结构具有特殊性(高杠杆经营)
    • 财务报表结构与一般企业不同
    • 不适用于一般资本结构理论

2. 剔除 ST/PT 公司

  • ST 公司:特别处理公司(财务状况异常)
  • PT 公司:特别转让公司(暂停上市)
  • 识别方法:历史 ST 记录追踪
  • 剔除数量:643 家公司,29,283 条观测
  • 剔除原因
    • 财务困境企业融资行为异常
    • 避免极端值影响回归结果
    • 保证样本代表性

3. 剔除杠杆率异常值

  • 异常定义:Lev > 1(资不抵债)或 Lev < 0
  • 剔除数量:12 条观测
  • 剔除原因:财务数据异常或错误

4. 剔除关键变量缺失

  • 关键变量:Growth(成长性)等控制变量
  • 剔除数量:4,373 条观测
  • 剔除原因:保证回归分析的完整性

2.1.4 最终样本特征

  • 观测数:144,960 个
  • 公司数:4,433 家
  • 年份数:15 年(2011-2025)
  • 数据类型:平衡面板数据

2.2 变量定义与构造

2.2.1 被解释变量:资本结构(Lev)

2.2.1.1 定义与计算

\[Lev_{it} = \frac{\text{总负债}_{it}}{\text{总资产}_{it}}\]

2.2.1.2 理论依据

资产负债率是衡量资本结构最常用的指标: - 直观性:直接反映债务融资比例 - 可比性:不同规模企业可以比较 - 理论相关性:直接关系到税盾效应和破产成本

2.2.1.3 衡量标准

  • Lev < 30%:保守融资策略
  • 30% ≤ Lev < 60%:适度融资策略
  • Lev ≥ 60%:激进融资策略

2.2.2 核心解释变量:盈利能力(NPR)

2.2.2.1 定义与计算

\[NPR_{it} = \frac{\text{净利润}_{it}}{\text{总资产}_{it}}\]

2.2.2.2 理论依据

净利润率(ROA)是衡量企业盈利能力的核心指标: - 优序融资理论:盈利能力强的公司内部资金充足 - 权衡理论:盈利能力强的公司更容易获得债务融资 - 信号传递:高盈利可能传递积极信号,降低融资成本

2.2.2.3 经济含义

  • NPR > 0:盈利企业
  • NPR < 0:亏损企业
  • NPR 波动:反映盈利稳定性

2.2.3 调节变量

2.2.3.1 1. 产权性质(SOE)

定义:国有企业虚拟变量

识别方法: - 股权性质代码:包含 ‘1100’(国有控股) - 实际控制人关键词:国资委、财政、国有、State 等

分类: - SOE = 1:国有企业 - SOE = 0:民营企业

理论意义: - 融资约束差异 - 预算软约束 - 政策性负担

2.2.3.2 2. 企业规模(Size)

定义与计算

\[Size_{it} = \ln(\text{总资产}_{it})\]

理论依据: - 信息不对称:大企业信息更透明 - 抵押能力:大企业资产更多 - 融资渠道:大企业融资渠道更广 - 破产风险:大企业更分散

规模分组: - 小规模:Size < 中位数 - 大规模:Size ≥ 中位数

2.2.4 控制变量

2.2.4.1 1. 资产有形性(Tang)

定义与计算

\[Tang_{it} = \frac{\text{固定资产净额}_{it}}{\text{总资产}_{it}}\]

理论依据: - 抵押价值:有形资产可充当抵押品 - 资产结构:影响债务融资能力 - 行业特征:资本密集型行业 Tang 较高

2.2.4.2 2. 成长性(Growth)

定义与计算

\[Growth_{it} = \frac{\text{总资产}_{it} - \text{总资产}_{i,t-1}}{\text{总资产}_{i,t-1}}\]

理论依据: - 融资需求:高成长企业需要更多外部融资 - 投资机会:成长性反映未来投资机会 - 风险水平:高速增长伴随高风险

2.2.4.3 3. 非债务税盾(NDTS)

定义与计算

\[NDTS_{it} = \frac{\text{折旧}_{it} + \text{摊销}_{it}}{\text{总资产}_{it}}\]

理论依据: - 税盾替代:折旧和摊销也是税盾 - 现金流:影响企业内部资金 - 资本密集度:反映企业资产特征

2.2.5 宏观控制变量

2.2.5.1 货币供应量增长率(M2_growth)

定义:M2 同比增长率

理论依据: - 流动性环境:影响整体融资环境 - 利率水平:M2 增长通常伴随利率下降 - 政策导向:反映货币政策宽松程度


2.3 描述性统计分析

2.3.1 全样本描述性统计

2.3.2 关键发现解读

2.3.2.1 1. 资本结构(Lev)

  • 均值 39.62%:A股上市公司平均杠杆率
  • 标准差 19.42%:企业间杠杆率差异较大
  • 范围 2.4% - 90.9%:从保守到激进融资策略并存
  • 中位数 38.78%:接近均值,分布较对称

经济含义: - 整体杠杆率适中,低于发达国家水平 - 企业间差异显著,反映异质性 - 存在极端值(异常低或异常高)

2.3.2.2 2. 盈利能力(NPR)

  • 均值 3.77%:平均净利润率较低
  • 范围 -66.8% - 28.6%:盈利能力差异巨大
  • 中位数 3.66%:接近均值,分布对称

经济含义: - 整体盈利能力偏弱 - 亏损企业与盈利企业并存 - 盈利稳定性需要进一步分析

2.3.2.3 3. 企业规模(Size)

  • 均值 22.31:总资产约 50 亿元(e^22.31)
  • 标准差 1.32:规模差异较大
  • 范围 19.12 - 28.06:规模跨度大

经济含义: - 企业规模分布广泛 - 小企业与大型企业并存 - 规模差异影响融资能力

2.3.2.4 4. 产权性质(SOE)

  • 国企占比 26.9%:国有企业数量较少
  • 但国企资产规模更大:后续分析会证实

2.3.3 产权性质对比分析

2.3.4 关键发现

2.3.4.1 1. 杠杆率差异

  • 国企杠杆率(48.50%) 显著高于 民企杠杆率(36.36%)
  • 差异 12.14 个百分点
  • 显著性水平:1%

经济解释: - 国企更容易获得债务融资 - 银行系统偏好向国企放贷 - 民企面临融资约束

2.3.4.2 2. 盈利能力差异

  • 国企盈利能力(3.04%) 低于 民企盈利能力(4.03%)
  • 差异 -0.99 个百分点
  • 显著性水平:1%

经济解释: - 国企承担政策性负担 - 民企经营效率更高 - 预算软约束导致国企效率损失

2.3.4.3 3. 企业规模差异

  • 国企规模(23.17) 显著大于 民企规模(21.99)
  • 差异 1.18(约 3.2 倍资产规模)
  • 显著性水平:1%

经济解释: - 国企多为大型垄断企业 - 民企多为中小型企业 - 规模差异影响融资能力

2.3.5 相关系数矩阵

2.3.6 核心相关系数解读

2.3.6.1 1. NPR 与 Lev:r = -0.340***

中等强度的负相关关系

理论含义: - 支持优序融资理论:盈利能力强的公司杠杆率低 - 经济显著性:NPR 每增加 1 个标准差,Lev 下降约 0.066 - 统计显著性:在 1% 水平显著

2.3.6.2 2. Size 与 Lev:r = 0.520***

强正相关关系

理论含义: - 大企业杠杆率更高:大企业更容易获得债务融资 - 抵押能力:大企业资产更多,抵押能力更强 - 融资渠道:大企业融资渠道更广

2.3.6.3 3. SOE 与 Lev:r = 0.277***

中等正相关关系

理论含义: - 国企杠杆率更高:与描述性统计一致 - 产权性质影响:制度因素影响资本结构 - 融资约束:国企面临的融资约束较少

2.3.6.4 4. Tang 与 NDTS:r = 0.766***

高度正相关关系

多重共线性诊断: - 可能存在多重共线性:相关系数 > 0.7 - VIF 检验:需要进一步检验方差膨胀因子 - 模型选择:在回归中可能需要取舍


2.4 数据质量评估

2.4.1 数据完整性

  • 完整度:所有关键变量无缺失
  • 一致性:会计准则保持一致
  • 可比性:不同公司、不同期间可比

2.4.2 数据可靠性

  • 来源可靠:CSMR 数据库权威
  • 审计验证:上市公司财务报表经过审计
  • 异常值处理:通过 Winsorize 处理极端值

2.4.3 样本代表性

  • 行业覆盖:涵盖所有主要行业(除金融)
  • 规模覆盖:大中小型企业齐全
  • 产权覆盖:国企和民企都包含
  • 时间覆盖:涵盖 15 年,包含多个周期

2.5 小结

本章详细介绍了数据来源与变量构造,主要结论如下:

  1. 样本特征:最终样本包含 144,960 个观测值,4,433 家公司,时间跨度 2011-2025 年

  2. 变量构造:所有变量基于成熟的理论基础和现有文献

  3. 描述性统计

    • 国企杠杆率显著高于民企(48.50% vs 36.36%)
    • 国企盈利能力低于民企(3.04% vs 4.03%)
    • 国企规模显著大于民企
  4. 相关性分析

    • NPR 与 Lev 呈负相关(-0.340),支持优序融资理论
    • Size 与 Lev 呈正相关(0.520),支持权衡理论
  5. 数据质量:数据完整、可靠、具有代表性

下一章将报告实证结果。