楚新元 | All in R

Welcome to R Square

虚拟变量回归模型

楚新元 / 2021-08-24


  本案例研究对象为美国1970-1995年间收入存储关系,案例来源:古扎拉蒂《经济计量学》(第4版,张涛译)例6-4,详见第145-147页。

  表 1 给出了美国1970-1995年个人可支配收入(即税后收入)和个人储蓄,单位是10亿美元。目标是估计上述时期个人储蓄(\(Savings\))和个人可支配收入(\(Income\))的函数关系。

  为了估计储蓄函数,需要在整个区间上做\(Savings\)\(Income\)的回归。如果做这样的回归,则个人储蓄和个人可支配收入在整个样本区间内保持同样的关系。但这是一个不切实际的假设。众所周知,1982年美国经历了和平时期最严重的经济衰退,当年的失业率达到9.7%,创下了自1948年以来最高的记录。类似这样的事情可能会打破个人储蓄和个人可支配收入之间的关系。为了验证,我们把样本数据分为两个时期,1970-1981年和1982-1995年,即分成萧条前后两个时期。

options(digits = 4)
library(readxl)
library(kableExtra)
data = read_xls("./data/Table6_7.xls")
data %>% 
  kable(
    caption = "美国个人储蓄和个人可支配收入(1970-1995年)",
    format = "html",
    booktabs = TRUE
  ) %>% 
  kable_styling(
    full_width = TRUE,
    font_size = 10
  ) %>% 
  add_footnote(
    label = "数据来源:总统经济报告,1997年,数据单位为十亿美元,摘自表B-28,第332页。",
    notation = "none"
  )
表 1: 美国个人储蓄和个人可支配收入(1970-1995年)
Year Savings Income D
1970 61.0 727.1 0
1971 68.6 790.2 0
1972 63.6 855.3 0
1973 89.6 965.0 0
1974 97.6 1054.2 0
1975 104.4 1159.2 0
1976 96.4 1273.0 0
1977 92.5 1401.4 0
1978 112.6 1580.1 0
1979 130.1 1769.5 0
1980 161.8 1973.3 0
1981 199.1 2200.2 0
1982 205.5 2347.3 1
1983 167.0 2522.4 1
1984 235.7 2810.0 1
1985 206.2 3002.0 1
1986 196.5 3187.6 1
1987 168.4 3363.1 1
1988 189.1 3640.8 1
1989 187.8 3894.5 1
1990 208.7 4166.8 1
1991 246.4 4343.7 1
1992 272.6 4613.7 1
1993 214.4 4790.2 1
1994 189.4 5021.7 1
1995 249.3 5320.8 1
数据来源:总统经济报告,1997年,数据单位为十亿美元,摘自表B-28,第332页。

  原则上来说,能够分别对上述两个时期进行回归。但我们可以仅估计一个形式,只需要在模型中引入一个虚拟变量,比如\(D\),1982年以前赋值为1,1982年及以后赋值为0。建立计量经济模型的表达式如下:

\[ Savings_{t}=\alpha_{1}+\alpha_{2} D_{t}+\beta_{1} Income_{t}+\beta_{2}\left(D_{t} Income_{t}\right)+u_{t} \]

  表 2 给出了回归结果。回归结果表明,差别截距(\(\alpha_{2}\))和差别斜率(\(\beta_{2}\))都是统计显著的,说明两个时期的储蓄-收入函数关系发生了改变。

fit1 = lm(Savings ~ Income, data = data)
fit2 = lm(Savings ~ D * Income, data = data)
fit1b = coef(fit1)
fit2b = coef(fit2)

library(stargazer)
stargazer(
  label = "tab:tb2",
  fit1, fit2,
  type = "html",
  title = "美国储蓄-收入关系的回归结果",
  dep.var.labels = "Savings", 
  intercept.bottom = FALSE,
  intercept.top = TRUE,
  header = FALSE,
  covariate.labels = c(
    "Intercept",
    "D",
    "Income",
    "D * Income"
  )
)
表 2: 美国储蓄-收入关系的回归结果
Dependent variable:
Savings
(1) (2)
Intercept 62.420*** 1.016
(12.760) (20.160)
D 152.500***
(33.080)
Income 0.038*** 0.080***
(0.004) (0.014)
D * Income -0.065***
(0.016)
Observations 26 26
R2 0.767 0.882
Adjusted R2 0.758 0.866
Residual Std. Error 31.120 (df = 24) 23.150 (df = 22)
F Statistic 79.100*** (df = 1; 24) 54.780*** (df = 3; 22)
Note: p<0.1; p<0.05; p<0.01

  根据表 2 结果,可以推导出两个时期的储蓄回归方程。

\[ \widehat{Savings_{t}} = 1.0161 + 152.4786 D_{t} + 0.0803 Income_{t} - 0.0655\left(D_{t} Savings_{t}\right) \]

  储蓄-收入:1970-1981年

\[ \widehat{Savings}_{t} = 1.0161 + 0.0803 Income_{t} \]

  储蓄-收入:1982-1995年

\[ \begin{aligned} \widehat{Savings_{t}} &= (1.0161 + 152.4786) + (0.0803 - 0.0655) Income_{t} \\ &=153.4947 + 0.0149Income_{t} \end{aligned} \]

  可以看出,萧条前后两个时期的边际消费倾向(MPS,即收入美增加1 个单位而增加的额外储蓄)存在显著差异。1970-1981年的MPS为8美分,而1982-1995年的MPS仅为1美分。

  案例更多内容请参阅古扎拉蒂和波特著《经济计量学精要》。