量化知宏观系列之一:基于机器学习的PPI预测模型
摘要: 价格和通胀是宏观分析研究的重要组成部分,本文通过梳理常见的PPI预测方法,分析其缺陷和难点所在,尝试基于机器学习的方法解构PPI并建模预测。一、传统PPI预测有哪些方法,哪些痛点?
价格和通胀是宏观分析研究的重要组成部分,本文通过梳理常见的PPI 预测方法,分析其缺陷和难点所在,尝试基于机器学习的方法解构PPI 并建模预测。
一、传统PPI 预测有哪些方法,哪些痛点?
PPI 预测主要有三类:领先指标预测法、高频指标降频法和工业品价格合成法。
1)领先指标预测法,通过挖掘符合经济运行规律的具有领先性的指标,确定最优领先期后进行回归预测,例如CRB 工业原料指数领先PPI 2-3 个月,由于相关性和领先期不稳定,往往精度较低。
2)对高频指标做降频处理,简洁有效,生产资料价格指数与即期PPI 相关性高达0.98.由于自变量和因变量的具体构成关系不明确,导致无法调参和优化模型。
3)利用工业品价格合成PPI,逻辑关系明晰,可信度和可调试性较强,理论上拟合效果在三种预测类型中最优。此前的相应研究存在两大难点:1)生产资料价格间种类繁多,传统线性OLS 模型共线性问题严重,模型方差较大、容易过拟合,需要合适的变量筛选以确定PPI 核心驱动因素;2)统计局对PPI 分项权重披露信息较少,如何理解统计过程中的权重以及调权方式尤为重要。
二、如何理解PPI 权重和权重调整?
PPI 行业分项权重为分行业工业销售产值的比重,一般用工业行业的营收占比作为替代。统计局在计算当期PPI 同比是基于去年同期的行业权重。
1)根据统计局解释,“CPI 中每一种商品和服务的权重是根据这一类商品和服务的消费支出占整个篮子里的总支出比重作为权重的”。2019 年非洲猪瘟快速扩散,全国能繁母猪与生猪存栏双降,猪肉价格于19 年11 月和20 年2 月达到两个高位,而猪肉同比权重在20 年11 月攀至顶点的4.6%,从历史曲线来看恰好滞后猪肉价格约12 个月。PPI 和CPI 指数的编制与统计保持一致,均采用链式拉式公式,合理推断统计局在计算PPI 同比时采用去年同期(T-12 期)分行业工业销售产值的比重,在计算PPI 环比时采用上期(T-1 期)权重。
2)根据T-12 期行业营收占比加权计算的PPI 最接近实际值。我们将39 个行业分项PPI 同比按各期营收占比进行加权,其中T-12、T-11 和T-10 期与实际PPI同比的相关性均高于99.85%,但T-12 期平均偏差最小、效果最好。
三、基于机器学习的PPI 预测模型
1)数据预处理:2016 月1 月至2021 年12 月为数据始末时间,删除时间序列过短的普通硅酸盐水泥、天然橡胶。取生产资料价格月均值、计算同比得到48 个特征变量。
2)基于LASSO 筛选变量解决共线性问题。LASSO 在OLS 回归的系数上增加一个惩罚项,求得模型的稀疏化解(部分系数为零)。分割数据集后,LASSO 回归从48 个自变量中提取出9 个关键变量,剔除不显着的因子,保留了无缝钢管、柴油、汽油、石蜡、无烟煤5 个变量,模型解释力度R^2 为97.1%。
3)针对权重调整问题,我们将变量滞后12 期以拟合当期生产资料销售产值波动对下年同比权重的影响。优化后,模型解释力度上升至99.0%。这种替代方法的潜在假设是工业品价格的波动能代表工业品销售产值的变动,但供给侧改革期间,上游原材料价升量跌,因而2017 年初PPI 预测和PPI 实际值存在一定偏离。
四、模型预测2 月PPI 同比为9.1%
1)3 月4 日统计局发布了2 月下旬的流通领域生产资料价格,2 月煤炭、石油、化肥涨幅居前,系俄乌危机下大宗商品迎来新一轮上行、全球通胀压力加剧。
2)2 月无缝钢管、柴油、汽油、石蜡、无烟煤、柴油滞后项、无烟煤滞后项分别为11.0%、51.3%、41.1%、43.5%、93.6%、-10.3%、-9.5%,基于Lasso 回归的机器学习模型预测2 月PPI 为9.1%。
风险提示
俄乌冲突带来干扰、模型可能存在失效风险。
PPI,模型,预测