【新语丝电子文库(www.xys.org)(www.xys2.org)】 ———————————————— 关于1959-1961年中国人口非正常死亡率的计算 紫弦 数据: WWW.CPIRC.ORG.CN/YEAR.HTM 方法: Box-Jenkins ARIMA. 工具: Stata(version 6)? 简介:关于时间系列数据 时间系列数据的统计不同于平面数据,因为它违反了“独立观察”原则.即,数据点之间不关联. 比如人口增长率,它是有“历史”因数在内的.每一点数据均由历史上的数据点影响而产生.表达 如下: Y(t) = f(Y(t-1)… Y(t-p))+ f((e(t-1)…e(t-q)) 即,在某一时点观察到的数据与上一时点的数据和其余数成一定的线性关系. 其中有三种关系:autoregressiveness (AR, p), moving average (MA, q), and differencing (D). 前两种是数据的自然特征,后者为研究变量所加的因数. AR: 某一点的变量由上一点(若干点)的变量的线性关系所决定,+ 误差 Y(t)=f(Y(t-1)+ … Y(t-p))+ e MA: 某一点的变量由上一点的变量+ 线性误差,即数据成递增或递减. Y(t)=f(e(t-1) + …e(t-q)) + f(Y(t-1)) D: 数据转换成数据差(一般是为了取得”稳定”) Z(t) = Y(t)-Y(t-1) (Granger 1982; Mills 1990; Kennedy, Peter 1994; Box and Jenkins, 1978) ARIMA模型又称为(p,d,q)模型.它要解决的问题是把时间系列内可能存在的三部份分出来. 步骤: 检查数据的“稳定性”STATIONARITY, 干扰噪音WHITE NOISE, 随机飘移 RANDOM WALK. 简单的方法使用ACF,PACF.复杂的用DICKY-FULLER UNIT ROOT TEST. 中国五十年来人口死亡率的稳定性 . corrgram death -1 0 1 -1 0 1 LAG AC PAC Q Prob>Q [Autocorrelation] [Partial Autocor] ------------------------------------------------------------------------------- 1 0.7679 0.7763 31.288 0.0000 |------ |------ 2 0.6011 0.0671 50.863 0.0000 |---- | 3 0.5089 0.2013 65.187 0.0000 |---- |- 4 0.4615 0.1915 77.224 0.0000 |--- |- 5 0.4108 0.0281 86.973 0.0000 |--- | 6 0.3799 0.1305 95.499 0.0000 |--- |- 7 0.3681 0.1066 103.69 0.0000 |-- | 8 0.3976 0.2122 113.48 0.0000 |--- |- 9 0.4040 0.1120 123.83 0.0000 |--- | 10 0.3770 0.1072 133.07 0.0000 |--- | 11 0.3390 0.1879 140.73 0.0000 |-- |- 12 0.1537 0.0174 142.35 0.0000 |- | 13 0.0764 -0.0271 142.76 0.0000 | | 14 0.0538 0.0419 142.97 0.0000 | | 15 0.0291 -0.0120 143.03 0.0000 | | 16 -0.0210 0.0017 143.06 0.0000 | | 17 -0.0589 -0.0444 143.34 0.0000 | | 18 -0.0949 -0.0303 144.07 0.0000 | | 19 -0.1192 0.0092 145.26 0.0000 | | 20 -0.1376 0.0021 146.9 0.0000 -| | 21 -0.1556 0.0162 149.07 0.0000 -| | 22 -0.1636 0.0393 151.56 0.0000 -| | 23 -0.1676 0.0394 154.26 0.0000 -| | scalars: r(lags) = 23 r(q10) = 133.0685135202942 r(pac10) = .1072258069680771 r(ac10) = .3770383957401442 … r(q1) = 31.28820405678887 r(pac1) = .77628066188846 r(ac1) = .7678947240501773 matrices: r(Q) : 1 x 23 r(PAC) : 1 x 23 r(AC) : 1 x 23 如果ACF减退(t-1)少于(t)^2,说明该时间系列不稳定(NONSTATIONARY),PACF用于确定发生的位置. 上图表明AR-1过程. 确定该时间系列的特性后,可以移用于模型. 计算正常死亡率: MODEL 1, 无预设模型 (除了系列本身,没有其他变量) ARIMA regression Sample: 1949 to 1998 Number of obs = 50 Wald chi2(1) = 140.40 Log likelihood = -115.0061 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | OPG death | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------- death | _cons | 10.2055 3.696167 2.761 0.006 2.96115 17.44986 ---------+-------------------------------------------------------------------- ARMA | ar L1 | .8630276 .0728353 11.849 0.000 .720273 1.005782 ---------+-------------------------------------------------------------------- /sigma | 2.381012 .1217364 19.559 0.000 2.142413 2.619611 各参数和模型不能被否证, 平均死亡率为10.2/1000,每年以 0.863*X(t-1)递减. 2. 部分数据模型, 建立49-62年死亡率基数: 这是为了检查数据是否有”断层” ARIMA regression Sample: 1949 to 1962 Number of obs = 14 Wald chi2(.) = . Log likelihood = -39.50577 Prob > chi2 = . ------------------------------------------------------------------------------ | OPG death | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------- death | _cons | 15.05143 1.43128 10.516 0.000 12.24617 17.85669 ---------+-------------------------------------------------------------------- /sigma | 4.066985 .8935897 4.551 0.000 2.315582 5.818389 各参数和模型不能被否证, 平均死亡率为15.1/1000,数据作为理论参照用. 比较1, 常数大于模型1. 3. 干预模型1, 加入三年的因数. (1959-1961年=i1)的因数: ARIMA regression Sample: 1949 to 1998 Number of obs = 50 Wald chi2(2) = 45.87 Log likelihood = -112.9269 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | OPG death | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------- death | i1 | 3.581541 4.422667 0.810 0.418 -5.086728 12.24981 _cons | 9.991696 7.427432 1.345 0.179 -4.565803 24.54919 ---------+-------------------------------------------------------------------- ARMA | ar | L1 | .8549788 .2346809 3.643 0.000 .3950128 1.314945 ---------+-------------------------------------------------------------------- /sigma | 2.285261 .3083501 7.411 0.000 1.680906 2.889616 ------------------------------------------------------------------------------- i1参数被否证,AR-1未被否证.但整体模型不能应用— 模型常数误差大.从理论上来说,三年灾害的性质不是每年一样的. 4. 干预模型2, 单独检查1960 年的因数. (1960年=i2)的因数: ARIMA regression Sample: 1949 to 1998 Number of obs = 50 Wald chi2(2) = 323.91 Log likelihood = -73.50255 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | OPG death | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------- death | i2 | 11.01523 5.18537 2.124 0.034 .8520918 21.17837 _cons | 12.17625 7.234732 1.683 0.092 -2.003567 26.35606 ---------+-------------------------------------------------------------------- ARMA | ar | L1 | .9856633 .0551584 17.870 0.000 .8775548 1.093772 ---------+-------------------------------------------------------------------- /sigma | 1.015509 .0579471 17.525 0.000 .9019343 1.129083 ------------------------------------------------------------------------------- 各参数和模型不能被否证, 平均死亡率为12.2/1000,每年以 0.99*X(t- 1)递减.从理论上说,1960年一年灾害突出. 5. 干预模型3, 复合因数, 即,天灾+人祸. (1959-1961年=i1, 1960年=i2)的因数: ARIMA regression Sample: 1949 to 1998 Number of obs = 50 Wald chi2(3) = 915.20 Log likelihood = -58.53558 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | OPG death | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------- death | i1 | 3.414919 .4878227 7.000 0.000 2.458804 4.371034 i2 | 11.01498 2.135699 5.158 0.000 6.829089 15.20087 _cons | 12.62185 6.806975 1.854 0.064 -.7195748 25.96328 ---------+-------------------------------------------------------------------- ARMA | ar | L1 | .9930713 .0346739 28.640 0.000 .9251117 1.061031 ---------+-------------------------------------------------------------------- /sigma | .7474736 .0531545 14.062 0.000 .6432927 .8516545 ------------------------------------------------------------------------------- 各参数和模型不能被否证, 平均死亡率为12.6/1000,每年以 0.99*X(t- 1)递减.从理论上说,天灾和人祸有交叉点.不可以被否证的是i1 + i2的过程. 没有后者,前者可能不会成为数据上的重点(SIGNIFICANCE),如模型3. 讨论: X(t)=12.6+.9931(X(t-1))+ 3.41*(1959-1961) + 11.01(1960)+-.747 第五模型为最佳模型: 1. i2(60年) 与 i1 (1959-1961) 的作用没有抵消 2. WALD CHI2指数最高 3. 所有Parameters 高出被排除标准. 4. AR1与 3,4 接近. i1 coefficient = 3.41 i2 coefficient = 11.01 代入人口基数: 1959 预计死亡率为12.6+1.2=13.8+-.75 超出平均死亡率为3.41/1000 = 659940000 x 3.41/1000 = 2.25 million. 1960预计死亡率为12.6+1.4=14+-.75 (包括上年的灾害因数) 超出平均死亡率为14.43/1000 = 672010000 x 14.43/1000 = 9.41 million. 1961预计死亡率为12.6+2.4=15 +-.75 (包括上年的灾害因数) 超出平均死亡率为3.41/1000 = 662070000 x 3.41/1000 = 2.28 million. 共计 =14.21 millions 非正常死亡率不应大于 59年--3.41+.16=3.57 = 2.34MILLIONS 60 --14.43+.4=14.8 = 9.94MILLIONS 61 --3.41+.16=2.36 共计: 14.7百万. 这是上限. 另类模型 1: 检查没有1962年以后的时间系列结果. Sample: 1949 to 1961 Number of obs = 13 Wald chi2(3) = 58.76 Log likelihood = -22.02511 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | OPG death | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------- death | i | 2.391115 32.42625 0.074 0.941 -61.16317 65.9454 i2 | 11.00997 3.02551 3.639 0.000 5.080079 16.93986 _cons | 15.42306 3.372146 4.574 0.000 8.813777 22.03235 ---------+-------------------------------------------------------------------- ARMA | ar | L1 | .947171 .1420985 6.666 0.000 .6686631 1.225679 ---------+-------------------------------------------------------------------- /sigma | 1.206624 .2445913 4.933 0.000 .7272337 1.686014 Arima只能计算预计值,没有理论根据的.进一步的话要与其他时间数据做"合并." (co-integration and error correction) 1.4千万只是从50年的数据得出,这里要估算到每年下降的死亡率.如果以前13年计算,平均为 15/1000,误差为4/1000. 则59,60年的干扰因数不能成立,而60年的单独参数不变. 但从整体模型来看,13年的模型忽略了政策因数.从50年来看,毕竟人均寿命是延长了.而且i1因 数不成立,三年灾害变成了一年.另类1不合理. 再者,从18年数据看:检查文革前的系列. Sample: 1949 to 1966 Number of obs = 18 Wald chi2(3) = 126.41 Log likelihood = -30.56164 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ | OPG death | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------- death | i1 | 3.410304 1.213531 2.810 0.005 1.031828 5.78878 i2 | 11.01344 4.014267 2.744 0.006 3.145619 18.88126 _cons | 14.03495 4.467858 3.141 0.002 5.278108 22.79179 ---------+-------------------------------------------------------------------- ARMA | ar | L1 | .9683745 .0935769 10.348 0.000 .7849671 1.151782 ---------+-------------------------------------------------------------------- /sigma | 1.22361 .230663 5.305 0.000 .7715189 1.675701 i1,i2的参数与50年数据同. 上述模型没有理论依据,只是单独推算时间系列本身的特性. 理论讨论: i1,i2的形成有可能是粮食危饥,有可能是医疗原因,有可能是政策因数. Amatya Sen对孟加拉的研究表明,要防止饥馑流通渠道比生产更为重要. 政策因数是存在的.但1958年的旱灾也是事实的存在.加上要出口粮食还贷款,也造成的流通的 问题.如果加入当年的农业产量, 出口数据,相信更能说明问题:政策的因数可能在50%左右. 上述数据处理没有加上考虑“天灾”的因数. 假如59年的流通渠道如58年,则59年的i1可当为“天灾”因数(在另外的计算59年系数为3.01/1000, 而61年增加良为3.9/1000).如果我们把59,61年的参数当作”天灾,”那i2应该是纯“人祸”因数. 则非正常死亡率为11/1000(这在各模型里都一致),为700万人左右. 如果说,三年灾害非正常死亡人数在700万到14.7百万之间,应是合理,科学的说法. 任何改良模型(包括ECM)都不会超过14.7百万这一数字,因为加入的其他变量越多,i2的重要性就 越低. 关于原始数据,我查了世界银行1999年发布的数据,与CPIRC大同.而且,上述模型以五十年数据为 基础,已考虑到文革等因数. ———————————————— 【新语丝电子文库(www.xys.org)(www.xys2.org)】