2 Chapter 2: Data & Variables
2.1 数据来源与样本选择
2.1.1 数据库选择
本研究使用 CSMR 数据库(China Stock Market & Accounting Research),这是目前中国资本市场研究最权威的数据库之一,包含完整的财务报表、公司治理、股票交易等数据。
选择 CSMAR 的理由: - 数据完整性好:覆盖 A 股市场所有上市公司 - 数据质量高:经过多重校验和审计 - 时间跨度长:满足面板数据分析需求 - 更新及时:确保数据时效性
2.1.2 数据来源表
本研究使用的数据表包括:
| 数据表 | 主要内容 | 用途 |
|---|---|---|
| 资产负债表 | 总资产、总负债、固定资产等 | 构造 Lev、Tang、Size |
| 利润表 | 净利润、营业收入等 | 构造 NPR、Growth |
| 现金流量表 | 折旧、摊销等 | 构造 NDTS |
| 股权性质文件 | 实际控制人信息 | 构造 SOE |
| 行业分类文件 | 证监会行业代码 | 行业控制变量 |
| ST 变动文件 | 特别处理公司标识 | 样本筛选 |
| 货币供应量 | M2 同比增长率 | 宏观控制变量 |
2.1.3 样本选择标准
2.1.3.1 初始样本范围
- 时间范围:2011-2025 年
- 初始观测数:178,837 个
- 初始公司数:5,075 家
2.1.3.2 样本筛选流程
2.1.3.3 筛选标准说明
1. 剔除金融保险行业
- 行业标准:证监会行业分类代码以 ‘J’ 开头
- 包括行业:银行、保险、证券、信托等
- 剔除原因:
- 金融企业资本结构具有特殊性(高杠杆经营)
- 财务报表结构与一般企业不同
- 不适用于一般资本结构理论
2. 剔除 ST/PT 公司
- ST 公司:特别处理公司(财务状况异常)
- PT 公司:特别转让公司(暂停上市)
- 识别方法:历史 ST 记录追踪
- 剔除数量:643 家公司,29,283 条观测
- 剔除原因:
- 财务困境企业融资行为异常
- 避免极端值影响回归结果
- 保证样本代表性
3. 剔除杠杆率异常值
- 异常定义:Lev > 1(资不抵债)或 Lev < 0
- 剔除数量:12 条观测
- 剔除原因:财务数据异常或错误
4. 剔除关键变量缺失
- 关键变量:Growth(成长性)等控制变量
- 剔除数量:4,373 条观测
- 剔除原因:保证回归分析的完整性
2.1.4 最终样本特征
- 观测数:144,960 个
- 公司数:4,433 家
- 年份数:15 年(2011-2025)
- 数据类型:平衡面板数据
2.2 变量定义与构造
2.2.1 被解释变量:资本结构(Lev)
2.2.1.1 定义与计算
\[Lev_{it} = \frac{\text{总负债}_{it}}{\text{总资产}_{it}}\]
2.2.1.2 理论依据
资产负债率是衡量资本结构最常用的指标: - 直观性:直接反映债务融资比例 - 可比性:不同规模企业可以比较 - 理论相关性:直接关系到税盾效应和破产成本
2.2.1.3 衡量标准
- Lev < 30%:保守融资策略
- 30% ≤ Lev < 60%:适度融资策略
- Lev ≥ 60%:激进融资策略
2.2.2 核心解释变量:盈利能力(NPR)
2.2.2.1 定义与计算
\[NPR_{it} = \frac{\text{净利润}_{it}}{\text{总资产}_{it}}\]
2.2.2.2 理论依据
净利润率(ROA)是衡量企业盈利能力的核心指标: - 优序融资理论:盈利能力强的公司内部资金充足 - 权衡理论:盈利能力强的公司更容易获得债务融资 - 信号传递:高盈利可能传递积极信号,降低融资成本
2.2.2.3 经济含义
- NPR > 0:盈利企业
- NPR < 0:亏损企业
- NPR 波动:反映盈利稳定性
2.2.3 调节变量
2.2.3.1 1. 产权性质(SOE)
定义:国有企业虚拟变量
识别方法: - 股权性质代码:包含 ‘1100’(国有控股) - 实际控制人关键词:国资委、财政、国有、State 等
分类: - SOE = 1:国有企业 - SOE = 0:民营企业
理论意义: - 融资约束差异 - 预算软约束 - 政策性负担
2.2.3.2 2. 企业规模(Size)
定义与计算:
\[Size_{it} = \ln(\text{总资产}_{it})\]
理论依据: - 信息不对称:大企业信息更透明 - 抵押能力:大企业资产更多 - 融资渠道:大企业融资渠道更广 - 破产风险:大企业更分散
规模分组: - 小规模:Size < 中位数 - 大规模:Size ≥ 中位数
2.2.4 控制变量
2.2.4.1 1. 资产有形性(Tang)
定义与计算:
\[Tang_{it} = \frac{\text{固定资产净额}_{it}}{\text{总资产}_{it}}\]
理论依据: - 抵押价值:有形资产可充当抵押品 - 资产结构:影响债务融资能力 - 行业特征:资本密集型行业 Tang 较高
2.2.4.2 2. 成长性(Growth)
定义与计算:
\[Growth_{it} = \frac{\text{总资产}_{it} - \text{总资产}_{i,t-1}}{\text{总资产}_{i,t-1}}\]
理论依据: - 融资需求:高成长企业需要更多外部融资 - 投资机会:成长性反映未来投资机会 - 风险水平:高速增长伴随高风险
2.2.4.3 3. 非债务税盾(NDTS)
定义与计算:
\[NDTS_{it} = \frac{\text{折旧}_{it} + \text{摊销}_{it}}{\text{总资产}_{it}}\]
理论依据: - 税盾替代:折旧和摊销也是税盾 - 现金流:影响企业内部资金 - 资本密集度:反映企业资产特征
2.2.5 宏观控制变量
2.2.5.1 货币供应量增长率(M2_growth)
定义:M2 同比增长率
理论依据: - 流动性环境:影响整体融资环境 - 利率水平:M2 增长通常伴随利率下降 - 政策导向:反映货币政策宽松程度
2.3 描述性统计分析
2.3.1 全样本描述性统计
2.3.2 关键发现解读
2.3.2.1 1. 资本结构(Lev)
- 均值 39.62%:A股上市公司平均杠杆率
- 标准差 19.42%:企业间杠杆率差异较大
- 范围 2.4% - 90.9%:从保守到激进融资策略并存
- 中位数 38.78%:接近均值,分布较对称
经济含义: - 整体杠杆率适中,低于发达国家水平 - 企业间差异显著,反映异质性 - 存在极端值(异常低或异常高)
2.3.2.2 2. 盈利能力(NPR)
- 均值 3.77%:平均净利润率较低
- 范围 -66.8% - 28.6%:盈利能力差异巨大
- 中位数 3.66%:接近均值,分布对称
经济含义: - 整体盈利能力偏弱 - 亏损企业与盈利企业并存 - 盈利稳定性需要进一步分析
2.3.2.3 3. 企业规模(Size)
- 均值 22.31:总资产约 50 亿元(e^22.31)
- 标准差 1.32:规模差异较大
- 范围 19.12 - 28.06:规模跨度大
经济含义: - 企业规模分布广泛 - 小企业与大型企业并存 - 规模差异影响融资能力
2.3.2.4 4. 产权性质(SOE)
- 国企占比 26.9%:国有企业数量较少
- 但国企资产规模更大:后续分析会证实
2.3.3 产权性质对比分析
2.3.4 关键发现
2.3.4.1 1. 杠杆率差异
- 国企杠杆率(48.50%) 显著高于 民企杠杆率(36.36%)
- 差异 12.14 个百分点
- 显著性水平:1%
经济解释: - 国企更容易获得债务融资 - 银行系统偏好向国企放贷 - 民企面临融资约束
2.3.4.2 2. 盈利能力差异
- 国企盈利能力(3.04%) 低于 民企盈利能力(4.03%)
- 差异 -0.99 个百分点
- 显著性水平:1%
经济解释: - 国企承担政策性负担 - 民企经营效率更高 - 预算软约束导致国企效率损失
2.3.4.3 3. 企业规模差异
- 国企规模(23.17) 显著大于 民企规模(21.99)
- 差异 1.18(约 3.2 倍资产规模)
- 显著性水平:1%
经济解释: - 国企多为大型垄断企业 - 民企多为中小型企业 - 规模差异影响融资能力
2.3.5 相关系数矩阵
2.3.6 核心相关系数解读
2.3.6.1 1. NPR 与 Lev:r = -0.340***
中等强度的负相关关系
理论含义: - 支持优序融资理论:盈利能力强的公司杠杆率低 - 经济显著性:NPR 每增加 1 个标准差,Lev 下降约 0.066 - 统计显著性:在 1% 水平显著
2.3.6.2 2. Size 与 Lev:r = 0.520***
强正相关关系
理论含义: - 大企业杠杆率更高:大企业更容易获得债务融资 - 抵押能力:大企业资产更多,抵押能力更强 - 融资渠道:大企业融资渠道更广
2.3.6.3 3. SOE 与 Lev:r = 0.277***
中等正相关关系
理论含义: - 国企杠杆率更高:与描述性统计一致 - 产权性质影响:制度因素影响资本结构 - 融资约束:国企面临的融资约束较少
2.3.6.4 4. Tang 与 NDTS:r = 0.766***
高度正相关关系
多重共线性诊断: - 可能存在多重共线性:相关系数 > 0.7 - VIF 检验:需要进一步检验方差膨胀因子 - 模型选择:在回归中可能需要取舍
2.4 数据质量评估
2.4.1 数据完整性
- 完整度:所有关键变量无缺失
- 一致性:会计准则保持一致
- 可比性:不同公司、不同期间可比
2.4.2 数据可靠性
- 来源可靠:CSMR 数据库权威
- 审计验证:上市公司财务报表经过审计
- 异常值处理:通过 Winsorize 处理极端值
2.4.3 样本代表性
- 行业覆盖:涵盖所有主要行业(除金融)
- 规模覆盖:大中小型企业齐全
- 产权覆盖:国企和民企都包含
- 时间覆盖:涵盖 15 年,包含多个周期
2.5 小结
本章详细介绍了数据来源与变量构造,主要结论如下:
样本特征:最终样本包含 144,960 个观测值,4,433 家公司,时间跨度 2011-2025 年
变量构造:所有变量基于成熟的理论基础和现有文献
描述性统计:
- 国企杠杆率显著高于民企(48.50% vs 36.36%)
- 国企盈利能力低于民企(3.04% vs 4.03%)
- 国企规模显著大于民企
相关性分析:
- NPR 与 Lev 呈负相关(-0.340),支持优序融资理论
- Size 与 Lev 呈正相关(0.520),支持权衡理论
数据质量:数据完整、可靠、具有代表性
下一章将报告实证结果。