来源:北京金融分析师协会

* 此项目由CFA Institute及CFA Society Beijing联合推出。

The Financial Analysts Journal 创刊于1945年,是CFA Institute主办的投资管理领域专业期刊。2020年,该刊位于社会科学引文索引(SSCI)二区。本中文推介项目得到了FAJ编辑部的授权。

FAJ: 美股从不坠落……的前提

Estimating Long-Term Expected Returns

作者:Rui Ma, Ben R. Marshall, Nhut H. Nguyen, and Nuttawat Visaltanachoti, CFA

综述:郭雪薇,CFA 吕远,CFA

审校:白雪石,CFA

原文链接:Financial Analyst Journal,Vol.80,Issue 4 ( 点击文末“阅读全文”可查看 )

推荐语

本文由新西兰梅西大学金融首席教授Nuttawat Visaltanachoti(CFA持证人)、教授Ben R. Marshall、奥克兰理工大学金融教授Nhut H. Nguyen和澳大利亚乐卓博大学金融讲师Rui Ma共同完成。

长期收益率可以平滑短期市场扰动,更好地体现经济基本面和企业盈利韧性。本文通过对百年标普500数据进行研究,发现以“经总回报周期调整的市盈率(TRCAPE)”作为估值指标的三因素模型(股息率-增长-估值),在估算长期收益率方面展现出了卓越的预测力。研究显示,该模型均方误差较历史均值基准降低超30%,尤其在估算更长期的20年期收益率时表现更为精准,在市场波动加剧时准确度也更高。实证显示,将该模型应用于投资组合构建,可使夏普比率提升 50% 以上,凸显其在资产配置中的实践价值。

标普500指数经通货膨胀调整后的实际十年期收益率,在1882-2016年间始终维持在6%以上的稳健水平。如此长期稳定的回报,不难让众多市场参与者一直相信“美股从不坠落”的神话,每一次美股的下跌,都常常成为投资者逢低买入的机会,以至于“买入并持有美股”被等同于“价值投资”本身。

本文的归因来看,“美股从不坠落”的投资神话,依赖于几个大前提……

股息的稳定支撑。股息率对标普500长期收益率的贡献度从1882-1901年的69% 降至2002-2016年的30%,反映了企业资本回报策略从“高分红”向“回购驱动”的历史性转变,而股息率也从收益率主导转变为稳定器角色。2025年4月,特朗普关税推高企业成本,造成企业利润下滑、现金流紧张,股息发放承压,即便防御型行业维持分红,其可持续性亦存疑。若制造业回流,企业资本开支增加将挤占分红资金,将推动股息率长期下行。

盈利的持续增长。标普500指数每股收益(EPS)增长贡献占比则从19世纪末的25% 提升至21世纪初的47%,这和百年间美国经济增长密不可分。然而,当前高关税政策通过推升进口成本、抑制出口需求,导致企业盈利增速显著放缓。从长期结构性影响看,关税加剧全球供应链断裂,引致全要素生产率下降,叠加移民政策收紧导致的劳动力成本上升,推动实际 GDP 增速中枢下移,进而对企业盈利增长形成持续性约束。这一政策冲击既作用于短期利润表,更通过宏观经济效率损失,对企业盈利的长期内生增长构成系统性挑战。

估值的钟摆调节。在1882-2016年研究期内,受市场情绪、流动性等因素影响,周期调整市盈率(CAPE)变动对长期收益率贡献度在-112%至41%区间内剧烈波动,反映了市场预期与风险偏好的钟摆效应。当前关税政策正通过三重机制重塑估值逻辑,第一,短期恐慌传导。关税引发的市场不确定性推高风险溢价,美债收益率上行导致贴现率提升,高估值板块首当其冲;第二,资本流动重构。关税加速了去美元化,外资减持美债美股,高负债科技股面临“估值-流动性”双重压力,而现金流稳健的板块获得风险溢价补偿,估值中枢或有上移空间;第三,逻辑范式切换。投资者从“增长叙事”转向“现金流确定性”,推动市场估值锚从“PEG 比率”向“股息贴现模型(DDM)”切换,高股息资产的风险调整后估值优势逐步显现。

标普 500 的长期收益率神话本质是“股息稳定器+盈利发动机+估值调节器”的动态平衡结果,而当前关税政策正通过冲击企业现金流、压制盈利增长、重构估值逻辑,对这一体系形成多维挑战。

三因素模型的价值不仅在于量化预测,更在于揭示长期回报的脆弱性——当股息可持续性、盈利内生性、估值合理性中的任一维度出现系统性偏离,长期收益率的“稳定锚”将面临考验。在实践中,需警惕长期数据的“后视镜效应”,结合实时市场信号与结构性变化,将长期收益率作为投资框架的“锚”而非“唯一答案”。

摘 要

尽可能准确地估算长期预期收益率(Expected Return, E(R))是至关重要的。研究人员通常基于收入回报、增长率、估值或三者结合的框架(“三因素模型”,three-component model)进行估算。我们通过“赛马式”比较法,测试了不同框架及其替代变量在估算10年及20年样本外(Out-of-Sample, OOS)收益率时的表现。经总回报周期调整的市盈率(Total Return Cyclically Adjusted Price-to-Earnings Ratio, TRCAPE)的三因素模型显著优于历史均值基准,其均方误差(Mean Squared Error, MSE)改善幅度超过30%,在资产配置中应用该模型可使夏普比率(Sharpe Ratio)提升50%以上。

关键词:资产配置、长期预期收益率、周期调整市盈率(Cyclically Adjusted Price-to-Earnings Ratio, CAPE)、三因素模型、估值

01 引言

股票市场的长期预期收益率是金融领域最重要的变量之一。预期收益率E(R)的微小变动会影响企业投资决策、垄断服务对消费者的定价,乃至个人退休目标的实现。Fama和French(1988)以及Campbell和Shiller(1988)的研究为此奠定了基础。近期,Golez和Koudijs(2018)证明了多市场长期可估算性,而Atanasov等(2020)则引入周期性消费(Cyclical Consumption, CON)作为长期收益率的估算因子。尽管如此,对于长期收益率估算的研究仍远少于短期。

我们对许多用来估算长期收益率的框架和替代变量进行了一场测试比较,并将这些用来估算长期收益率的方法的表现记录下来,而这些方法很大程度上认为是相对独立的。我们证明,10年、20年的预期收益率是可以事前估算的。相对于历史均值估算,样本外估算的改进幅度高达30%。重要的是,这种改进在很长时间内都存在。

Gordon(1962)提出的股票估值模型表明,P0=D1/[E(R)-g]。换言之,今天的价格P0和下一年的股息(D1),股息的未来增长率(g),以及股票永续的要求或期望收益率E(R)有关系。将公式变形一下就可以得到E(R)=D1/P0+g。然而,我们需要重点注意的是这里的E(R)代表的是股票市场的永续期望收益率。而短期情况下有两个原因可能会导致期望收益率E(R)随着时间的变化而变化。首先是理性因素,Campbell和Cochrane(1999)提出投资者风险厌恶程度会随着时间的流逝而发生变化,这意味着需要不同程度的 E(R) 来吸引个人投资股票市场。其次是行为因素,Shiller(2016)指出有的时候心理偏差会导致投资者高估本来是低水平的预期收益率,或者低估本是高水平的预期收益率。这就意味着,在有限期间的情况下,期望收益率的表达公式最好表述为E(R)=D1/P0+g+ΔV,其中D1/P0股息率,g是增长率,ΔV是估值变化。

针对期望收益率的三个组成因子(D1/P0、g以及ΔV),学界曾经使用过一系列代理变量。不仅如此,一些研究者还会对三个因子一起使用替代变量,而其他一些研究者仅使用股息率或者估值变化的替代变量来估算期望收益率E(R)。我们通过“赛马”比较法评估了四种建模方法:单一收入变量模型(yield alone)、单一估值变量模型(valuation alone)、收入变量与增长变量联合模型(yield and growth)以及把三个变量联合使用的三因素模型。此外,我们还会探讨这些框架输入变量的不同估算方法。

本研究构建的评估框架针对文献中提出的若干关键问题进行了系统性改进。现有大多数关于长期收益率估算的论文主要依赖于样本内分析,但是正如Foster等人(1997)所指出的,这种方法容易受到数据挖掘的影响。甚者,重叠观测数据也通常会出现在样本内分析中,这样就可能导致回归分析时产生系统性偏差。尽管诸如Hansen和Hodrick(1980),Newey和West(1987),以及Hjalmarsson(2011)提出并发展了多种用来缓解偏差的统计方法,但是Boudoukh,Lsrael,及Richardson(2022)表明目前广泛使用的方法并不能在分析中将偏差消除。因此,我们将研究重点转向样本外分析法。正如Boudoukh,Israel,和Richardson(2022)提出的,样本外估算及统计量,比如MSE,不受重叠观测偏差的影响。通常来说,研究者通过检测估算收益率和真实收益率之间的相关性来评估估算收益率的准确性(e.g.,Damodaran 2022;Engle,Focardi,和Fabozzi 2016)。然而,我们分析的关注点在于平均绝对误差(MAE)和均方误差(MSE)。我们认为无论是估算收益率和实际收益率之间差异的平均幅度,还是估算收益率追踪实际收益率的程度都具有重要的研究意义。恰好,MAE和MSE可以解释前文中的两者,而相关性并不能反映估算值和平均值之间的平均差异。

本研究结果指出,由Campbell和Shiller(1988)提出的基于CAPE的估值变动值构建的三因素模型具有最优的估算稳定性。我们使用TRCAPE,用ΔVTRCAPE来表示。对1891-2020这十年进行收益率估算时,相较于历史均值模型,三因素模型可以使MAE降低16.35%,同时将样本外R²(OOS-R²)提升30.51%。值得注意的是,在资产配置应用方面,基于该预期收益率模型构建的股债组合在1891—2020年间实现了显著优化:夏普比率提升60.73%,风险价值(Value at Risk, VaR)指标改善51.85%。以TRCAPE为替代变量的三因素模型在估算20年收益率时表现最优。全样本期的OOS-R2达到37.23%,子样本期1988-2020的OOS-R2高至57.05%。但我们使用该模型而不是历史均值模型进行股票和债券的资产配置时,全样本期的夏普比率可以提升79.82%,而最近期间的夏普比率可以提升36.21%。

本研究对股票长期收益率估算领域的多项研究脉络均有所贡献。Fama和French(1988)采用单一收入回报法,证明对于2至4年的股票收益率,股息率可以解释超过25%的变动。Campbell和Shiller(1998)继续对单一估值变量模型做贡献。他们基于过去10年的平均收益率算出市盈率PE,并用PE估算未来10年股票收益率。他们还指出考虑到商业周期中的收入波动至关重要,并标明指标CAPE在估算股票收益率时是十分有效的。Bogle(1991a,1991b)引出了三因素模型并指出其10年期收益率估算结果“与实际实现的总收益率具有惊人的吻合度”。

这三种方法都取得了进展。在收入回报估算方面,学界存在明显分歧。Boudoukh,Richardson,Whitelaw(2008)和Goyal及Welch(2008)认为股息率在估算5年内的股票收益率没有太大估算能力。然而,Cochrane(2008)表示股息率对于1到25年的股票收益率估算是有重大意义的。

最近,Golez与Koudijs(2018)通过实证分析发现,在荷兰、英国和美国市场,股息率对五年期内股票收益率均具有显著估算能力。单一估值变量模型的研究主要聚焦于CAPE指标的优化和新代理变量的开发。多项研究表明,传统CAPE指标近期估算效果欠佳,这进一步推动了改进。Philips和Ural(2016)提出了几项改进方法,其中包括在计算估值比率时使用现金流而不是股票收益率。Siegel(2016)指出GAAP准则变更可能会对CAPE有影响,并建议采用可替换的收益率指标。Arnott,Chaves,和Chow(2017)认为根据宏观经济情况调整CAPE可以促使短期股票收益率估算的准确性大幅提高。近期,Philips和Kobor(2020)提出使用股票季度性收益率代替10年期的CAPE可以更好地对股票收益率进行估算。但是,Waser(2021)证实CAPE波动可由经济变量变化解释。

在估值变量的选取方面,现有研究已考察了诸多候选指标。Goyal和Welch(2008)对适用于估算1个月至5年的股票收益率的一系列变量的估算能力进行一场综合性评估。这些变量包括长期收益率、违约收益率利差、通货膨胀率、股票波动率、股息支付率、违约收益率溢价、短期国债利率、盈利价格比、期限利差、股权融资规模、账面市值比、净股权扩张率以及投资资本比率等。他们得出结论:无论是进行样本内还是样本外(OOS)估算,上述中没有一项变量具有稳定的估算能力。因此,我们并不将这些变量作为估值指标的代理变量。

近些年,一些论文研究发现了一些有效的关于估值的代理变量。Atanasov,Møller,和Priestley(2020)证实了(Cyclical Consumption, CON)作为代理变量是具有估算能力的。他们指出,经济繁荣期(衰退),消费水平增高(降低),投资者愿意(不愿意)减少消费来投资;因此导致当前股价上升(下降),期望收益率变低(变高)。他们还表示周期性消费指标(Cyclical Consumption, CON)在样本内测试中具有对股票长达五年收益率的估算能力。此外,Swinkels和Umlauft(2022)验证了被称为“巴菲特指标(Buffett Indicator, BUF)”的估值工具——该指标源自巴菲特关于“上市公司总市值与经济产出之比”的论述。研究表明,这一指标在美国及国际市场多个估算维度上均是有效的择时工具。

本研究的贡献主要体现在以下三点:首先,我们测试了四大估算框架模型的相对表现。这四大框架为单一收入变量模型(yield alone)、单一估值变量模型(valuation alone)、收入变量与增长变量联合模型(yield and growth)以及三因素模型。其次,我们进行了样本外测试,进而避免了前瞻性偏差。再次,我们在估算未来10年及20年股票收益率的时候,考虑了所有的输入变量和框架模型。

02 变量构建、数据和方法

我们对四大框架模型即单一收入变量模型(YLD)、收入变量与增长变量联合模型(或称Gordon模型),单一估值变量模型(ΔV)以及三因素模型(GOR+ΔV),进行了一场“赛马”的测试比较。我们首先从单一收入变量模型开始。该模型采用了标准的估算回归方程:

rt:t+h = α + βxt + εt:t+h 其中 t=1......,T-h(1)

rt:t+h=(1/h)(rt+1+....+rt+h),h=10或者20年,rt是标普500 t时期的对数收益率,xt代表着四大股息率:股息率(dividend yield)、总收益率(total yield)、净总收益率(net total yield)和周期调整总收益率(CATY,Straehl&Ibbotson 2017)。本文重点关注样本外分析并且追随Goyal and Welch(2008)的研究进行测试样本外估算。样本外估算始于数据可获得后的第20年。这意味着虽然收益率数据起始于1872年,但样本外估算直到1891年才开始。为了生成h期间样本外估算值,我们首先通过截止时间t的数据对公式(1)中的α和β参数进行回归估算。然后将回归估算带回到原公式(1),并利用样本内期末时点的估算变量xt来计算估算值r^t:t+h。我们继续计算,每当多增加一个观察值,我们就采用滚动窗口法(e.g.,Chiang和Hughen 2017;Gao和Nardari 2018)计算出样本外估算值的时间序列。

对于股息率和增长率联合使用法或“Gordon”模型法,我们使用传统的Gordon增长模型来计算期望收益率。这里的期望收益率等于当前股息率和整个期间内平均增长率的总和。我们使用公式(1)中提到的四个股息率。而增长率,我们则使用历史盈利增长率(earnings growth)、历史股息增长率(dividends growth)、总收益率增长率(total yield growth)、周期调整增长率(CATY growth)。

单一估值变量模型和单一收入变量模型有相似之处。我们将公式(1)中的四个股息率替换成估值变量的三个代理变量,即经总回报周期调整的市盈率(TRCAPE),由Jivraj and Shiller(2018)提出;巴菲特指标(BUF),通过美国股票市值和美国国内生产总值的比值计算得到;以及周期性消费指标(CON)(Atanasov,Møller,and Priestley 2020)。TRCAPE将经通胀调整后的实际总回报价格与过去10年平均实际盈利相除,其原理类似于周期调整市盈率(CAPE,两者相关性>0.99),但是TRCAPE考虑到了股息因素并假设在指数价格计算的时候加入股息再投资的价值。Swinkels和Umlauft(2022)表示较低的巴菲特指标(BUF)可以估算出高于历史平均水平10年期股票收益率。Atanasov,Møller,和Priestley(2020)发现总体消费水平和股市期望收益率存在负相关关系。因此,我们将周期性消费指标(CON)作为估值变化率(ΔV)的第三个代理变量。

三因素模型认为估值变化率可以解释Gordon模型中关于股票收益率解释不了的部分。换句话说,股票收益率可以通过公式YLDDiv+gDiv+ΔV(或者GORDiv,Div+ΔV)计算得到。因此,我们需要测试估值变化率的代理变量在解释Gordon模型无法解释的那部分股票收益率时的估算能力。我们将代理变量对实际估值差异进行回归拟合。这种方法相较于使用原始代理变量具有三重优势:首先原始代理变量与收益率可能存在尺度差异,而线性回归通过回归斜率系数自动调整这种尺度差异。其次,原始代理变量作为收益率的估算因子可能存在偏差,而回归的截距项可以调整这种偏差。再次,直接使用原始代理变量相对于线性回归的结果是受限的,因为它强制截距为零,且斜率为1。没有这种限制的线性回归就可以产生更低的均方误差。我们运用下面这个回归方程式来估算样本外h期间的估值变化率:

ΔVt:t+h = γ + δzt + εt:t+h 其中 t=1...T-h (2)

这里ΔV^t:t+h是真实的h期间估值变化率,由真实的h期间收益率rt:t+h减去股息收益率和历史股息增长率计算得到。估算变量zt代表着推算出ΔV的代理变量。此处共有三个代理变量,分别是经总回报周期调整的市盈率(TRCAPE)、巴菲特指标(BUF)以及周期性消费指标(CON)。为了计算出h期间样本外估值变化率的估算值,我们先通过回归到时间t的方式估算出方程(2)中的γ和δ,然后将回归估算值带回到线性方程(2),并且使用样本内期间末的估算变量zt来共同计算出估算值,标记为ΔV^t:t+h。然后我们用股息率、样本内期末历史股息增长率以及估值变化率估算值ΔV^t:t+h三者之和计算未来h年的样本外收益率。我们采用滚动扩展窗口法持续进行计算——每次回归增加一个观测值(如Chiang和Hughen 2017;Gao和Nardari 2018),以此生成样本外估算值的时间序列。具体代理变量与方法说明详见附录1。

03 结果

表1展示了汇总数据结果。分别属于1872-2020,1955-2020和1988-2020期间的平均年化收益率是10.66%、11.76%以及12.27%。纵观三个时间区间,收益率分布呈现负偏态。就峰度而言,全样本期表现为负值,但在近期子样本中转为正值。我们采用滚动窗口的方式(逐年滚动)在面板B中展示了10年期和20年期的几何平均收益率及对数收益率。需要注意的是,我们通过模型进行估算时使用的是经过年化的对数收益率。对于10年期股票收益率而言,三个时间区间的平均年化对数收益率分别是8.65%、9.4%和8.57%。另外,对于20年期股票收益率而言,三个时间区间的平均年化对数收益率分别是8.73%、9.68%和7.55%。同时,我们还采用滚动窗口(逐年滚动)的方式在面板C中展示了10年期和20年期股票的几何收益率和对数收益率的标准差。

注:本表展示了整个样本期间及子期间股票收益率的数据汇总情况。在面板A中,我们展示了股票市场收益率的均值、标准差、偏度和峰度。这里的股票市场收益率代指标普500指数的简单收益率,其中包含股息再投资。面板B(面板C)展示了以逐年滚动方式计算得到的10年期和20年期股票的几何收益率和对数收益率的均值和标准差。

在表2,我们展示了10年期股票收益率估算的结果。我们计算出MAE,其计算方式为收益率估算值和收益率实际值差异的绝对值。另一方面,我们还要计算出每一个估算模型和历史均值估算模型分别产生的MAE之间的差异。为检验该差异的统计显著性,我们运用移动区块自助法(Moving Block Bootstrap Method)进行统计推断——该方法可以有效地处理时间序列的自相关性问题。至于最佳的区块长度可以根据Patton,Politis,和White(2009)的研究方法确定。对于每一个估算模型,我们都执行1000次自助重抽样,并基于自助法得到的单侧p值判断其显著性(即,在都使用相同自助法的前提下,部分通过估算模型得到的MAE要优于历史均值模型得到的MAE)。

注:本表报告了整个样本期间、二分之一样本期间以及四分之一样本期间的10年股票收益预测结果。平均绝对误差(MAE)是指收益预测值和真实值之间差异的绝对值。平均绝对误差的差异(MAE Diff.)是指每个预测模型的平均绝对误差和历史均值模型的平均绝对误差之间的差异。对于每个预测模型,我们都生成1000个自助再抽样,并根据自助法计算单侧P值,从而报告其显著性。我们同样使用移动区块自助法来测试不同预测模型之间平均绝对误差的差异的显著性。加粗加黑的平均绝对误差是拥有最低绝对误差的第一层级模型。**和*分别代表1%和5%的显著性水平。

我们的兴趣在于判断最低的MAE(四大框架下的某个模型得到)是否显著性地小于排名第二小的MAE(四大框架下的某个模型得到)。为了得到判断结果,步骤如下:首先我们将根据15个估算模型和历史均值模型得到的16个MAE从小到大排列顺序。然后,我们利用移动区块自助法来测试最小MAE和第二小MAE之间差异的显著性。如果两者之间的差异在5%的显著性水平下是不显著的,那么我们继续测试最小MAE和第三小MAE之间差异的显著性,直到两个模型的MAE差异是统计显著的。例如,如果MAE最小和第三小的模型的MAE差异在5%的水平上是显著的,我们将MAE最小和第二小的两个模型归为第一层级模型,然后继续此过程以测试具有第三小和第四小MAE的模型的MAE差异,直到我们将所有16个模型完成分层。

我们还使用OOS-R2指标比较模型。根据Goyal和Welch(2008)的如下方法计算每个估算模型的OOS-R2:

其中MSEN是历史均值模型的均方误差,MSEA是我们的估算模型在OOS期间的均方误差。然后,我们使用Clark和West(2007)方法来测试H0:R2OOS≤0与H1:R2OOS>0。

在整个样本期和1955—2020年期间,基于TRCAPE的三因素模型具有最低的MAE。该模型在这两个期间中产生的MAE为0.0352和0.0298,明显低于同期的历史均值模型产生的MAE值0.0416和0.0406。如表2中以粗体突出显示的那样,基于TRCAPE的三因素模型的MAE在统计上并不优于仅基于净总收益模型MAE。然而,我们聚焦于基于TRCAPE的三因素模型,因为我们认为它在包括资产配置在内的所有评估指标中表现最佳。该模型生成的OOS-R2值在整个样本期、1955—2020年和1988—2020年样本期分别为30.51%、48.06%和24.21%。

我们在图1a、2a和3a中描述了使用此模型进行估算相较于历史均值模型的改进。

注:(a)显示的是以经总回报周期调整的市盈率TRCAPE作为估值变量△V代理变量的三因子模型计算得到的10年期年化收益率预测值,历史平均收益率以及实际的10年期年化收益率。(b)显示的是以经总回报周期调整的市盈率TRCAPE作为估值变量△V代理变量的三因子模型计算得到的20年期年化收益率预测值,历史平均收益率以及实际的20年期年化收益率。

注:(a)显示的是以经总回报周期调整的市盈率TRCAPE作为估值变量△V代理变量的三因子模型计算得到的10年期收益率的预测误差,以及历史均值模型产生的预测误差。(b)显示的是以经总回报周期调整的市盈率TRCAPE作为估值变量△V代理变量的三因子模型计算得到的20年期收益率的预测误差,以及历史均值模型产生的预测误差。

注:(a)显示的是两个模型之间预测误差的绝对值的分布情况:以经总回报周期调整的市盈率TRCAPE作为估值变量△V代理变量的三因子模型(黑框透明矩形)和历史均值模型(红色矩形)。(b)显示的是两个模型之间预测误差的绝对值的分布情况:以经总回报周期调整的市盈率TRCAPE作为估值变量△V代理变量的三因子模型(黑框透明矩形)和历史均值模型(红色矩形)。

在表3中,我们报告了20年估算期的等效结果。与10年估算期相比,20年估算期的MAE要低得多。例如,1988—2020年期间的平均20年估算期MAE仅为0.0155,而10年估算为0.0423。这与表1面板C中的结果一致,显示20年期回报率的标准差较低。另外,使用历史均值模型得到的20年期估算值通常也大于10年估算值。例如,在整个样本期内,基于TRCAPE的三因素模型在20年期间的MAE改进为19.79%,而10年期的MAE改进为16.35%。此外,对20年期间估算的OOS-R2通常更大。基于TRCAPE的三因素模型在整个20年估算期间的OOS-R2为37.23%,而10年估算结果为30.51%。如表3中以粗体突出显示的那样,每个框架中多个模型的MAE在统计上彼此之间没有区别。然而,与10年间隔估算一样,我们聚焦于基于TRCAPE的三因素模型,因为我们认为该模型在包括资产配置在内的所有评估指标中表现最佳。在1891—2020年、1955—2020年和1988—2020年期间,该模型估算值的OOS-R2分为37.23%、51.45%和57.05%。图1b、2b和3b描述了此模型和历史均值模型的估算收益率、估算误差和绝对估算误差。

注:本表报告了整个样本期间、二分之一样本期间以及四分之一样本期间的20年股票收益预测结果。平均绝对误差(MAE)是指收益预测值和真实值之间差异的绝对值。平均绝对误差的差异(MAE Diff)是指每个预测模型的平均绝对误差和历史均值模型的平均绝对误差之间的差异。我们利用区块移动自助法来测试平均绝对误差差异的显著性。这个方法可以解决时间序列的自相关问题。对于每个预测模型,我们都生成1000个自助再抽样,并根据自助法计算单侧P值,从而报告其显著性。我们同样使用移动区块自助法来测试不同预测模型之间平均绝对误差的差异的显著性。加粗加黑的平均绝对误差是拥有最低绝对误差的第一层级模型。**和*分别代表1%和5%的显著性水平。

Wolf(2000)提倡一种基于块自助(block bootstrapping)的统计方法,在普通最小二乘法推断无效的三种情况下为回归参数生成置信区间。第一种情况是在长期收益率回归估算中残差是相关的。第二种情况是含有先定但内生的独立变量的回归,如Stambaugh(1986)所讨论的那样。第三种情况是在估算系数的回归中,有限样本的分布存在正偏态,如Goetzmann和Jorion(1993)所记录的那样。因此,我们基于Wolf(2000)方法生成回归结果。这包括确定最佳块长度,校准所需的95%置信区间,并为每个估算回归模型生成1000个自助样本。根据Wolf(2000)的表6,我们报告了在95%置信区间下样本内回归系数。在线上补充附录表A2中,方程(1)适用于模型1至7,方程(2)适用于模型8至10。需要注意,Gordon模型仅基于收益率和历史股息增长的总和,不涉及估算回归;因此,我们无法将其包含在此框架中。

表A2结果表明,除了基于CON的单一估值变量模型和包括CON在内的三因素模型外,每个框架和代理变量回归参数在10年期间内都具有统计意义。置信上限和下限不包括零这一事实表明了这一点。此外,除了基于BUF的三因素模型外,每个框架和代理变量回归参数在20年期间都具有统计意义。同样值得注意的是,长期回归还面临着其他难以解释的挑战,例如仍然存在的市场均值回归的现象。

该表采用Wolf(2000)自助法呈现实证结果。根据Wolf(2000)表6规则,我们报告了样本内回归系数和估算系数的95%的置信区间。对于模型1-7,回归模型遵循的是第二部分的公式(1);对于模型8-10,回归模型遵循的是公式(2)。

我们还应用了两种额外的方法来验证结果的统计显著性。第一,我们在收益率不可估算的假设下进行模拟,使用独立的、与估算变量无关的模拟收益率,并根据估算变量的均值、标准差和现有估算变量之间的相关性来模拟估算变量。然后,我们从与实际月度对数收益率具有相同均值和方差的正态分布中模拟生成月度对数收益率,并基于这些模拟数据计算重叠的10年期和20年期回报。将此过程重复1000次,最终构建出1000组模拟样本。

随后,我们对样本进行上文所述的测试,并给出了1000个模拟样本中在95%置信区间的MAE和OOS-R2上限和下限值。如果给定框架的可估算性结果成立,我们预计表2或表3中该框架的MAE低于95%MAE置信区间的下限,而OOS-R2高于95%OOS-R2置信区间的上限。我们发现最好的框架和输入变量就是这种情况。例如,在表3中,基于TRCAPE的三因素模型的全样本结果显示MAE为0.0248,低于线上补充附录表A3面板B中的0.0268。同样,表A3的面板B中37.23%的OOS-R2超过了2.66%。因此,根据我们的模拟结果,这个基于TRCAPE的三因素模型的20年期回报可估算性是稳健的。

该表呈现的是在假设“收益率不可预测”的前提下,进行模拟产生的结果。首先,我们基于现有预测变量的均值、标准差及变量间的相关系数,对这些预测变量进行模拟生成。然后,我们采用与实际月度对数收益率具有相同均值和方差的正态分布生成模拟序列,进而推导出叠加计算的10年及20年期模拟收益率。最后,我们展示通过1000次模拟样本得出的平均绝对误差和样本外R2的95%置信区间。

第二,我们在收益率可估算的条件下进行模拟。我们假设收益率生成过程遵循与其估算变量之间的线性回归估算。我们进一步使用一阶自回归过程AR(1)模拟生成误差项:

其中C1表示使用真实数据计算的实际估算模型残差的自相关系数,是从均值为零且方差与实际模型残差相同的正态分布模拟的。此分析说明了正确指定的回归分析的样本外表现。我们在线上补充附录表A4中介绍了结果。

对于表A4(线上补充附录)中的模型1到4和10到15,我们使用历史数据来进行估算回归,获得样本内截距和斜率。使用估算的截距、斜率、实际估算变量和模拟et值,我们模拟了每个模型10年期和20年期的重叠回报。重复此过程,为每个模型构建1000个模拟样本,表A4显示了这1000个模拟样本中MAE和OOS-R2值对应的95%置信区间。

表A4中的结果强调了表2和表3中OOS-R2为负的几个模型,在收益率可估算的假设下,这些模型也被认为是正确的模型。例如,表2中YLDDiv模型的OOS-R2为–11.54%,在表A4面板A中的95%置信区间内。这增加了表2中的其他模型需要进一步考虑的可能性。这凸显了长期估算性研究所面临的挑战。

该表所呈现的模拟结果是以收益率在一定程度上可预测的前提下得到的。对于每一个模型,我们假设一阶回归过程遵循公式:et=c1*et-1+vt ,c1代表的是根据真实数据计算得到的实际预测模型残差的自相关系数。vt是从拥有0均值,和真实模型残差相同方差的正态分布中模拟得到。对于模型1到4、10到15,我们使用真实数据来运行预测回归,从而得到样本内截距项和斜率系数。利用预估截距项、斜率、实际预测变量和模拟et值,我们可以对每一个模型生成了叠加计算的10年期与20年期收益率。以收益率可预测的前提下,这个过程重复运行1000次。最终,我们展示出通过1000次模拟样本得出的平均绝对误差和样本外R2的95%置信区间。

此外,我们生成了对5年期收益率估算的结果,并将这些结果呈现在线上补充附录表A5中。平均而言,5年期收益率的可估算性低于10年期。5年期平均MAE和OOS-R2分别为0.0629和1.54%,而10年期分别为0.0395和9.16%。三因素模型和单一估值变量模型的表现相似。最佳模型是基于TRCAPE的单一估值变量模型,尽管它在统计上并不显著优于其他几个模型。

该表报告了整个样本期间的5年收益率预测结果。平均绝对误差(MAE)是指收益预测值和真实值之间差异的绝对值。平均绝对误差的差异(MAE Diff)是指每个预测模型的平均绝对误差和历史均值模型的平均绝对误差之间的差异。我们利用移动区块自助法来测试平均绝对误差差异的显著性。这个方法可以解决时间序列的自相关问题。对于每个预测模型,我们都生成1000个自助再抽样,并根据自助法计算单侧P值,从而报告其显著性。我们同样使用移动区块自助法来测试不同预测模型之间平均绝对误差的差异的显著性。表中粗体标注的平均绝对误差是拥有最低绝对误差的第一层级模型。**和*分别代表1%和5%的显著性水平。

综上所述,不同估算期间的结果表明,20年期收益率的可估算性最强,其次是10年期,5年期的可估算性最弱。解释造成这种情况的原因超出了本研究的范围,但我们推测模型可能会更好地估算较长期限的收益率,是因为与短期相比,模型在长期的波动性更小,噪声也更小。此外,短期收益率可能受到大萧条、石油危机或全球金融危机等难以预见的重大经济冲击的影响更大。

我们按照Goyal和Welch(2008)的方法绘制了图4a和4b,图表绘制了效果最佳的基于TRCAPE的三因素模型在10年期和20年期估算中的样本内和样本外数据的表现。该表现是根据历史均值模型与表现最好的10年或20年估算模型之间的累积平方估算误差的差异来衡量的。线条的升高表示相对于历史均值模型,基于TRCAPE的三因素模型的表现更好。图中用灰色条标记衰退期。图4a和4b表明,基于TRCAPE的三因素模型在1940年左右开始为投资者增加价值,此后一直表现良好。

注:(a)遵循Goyal和Welch(2008)的研究方法,图中的虚线和实线分别代表的是以经总回报周期调整的市盈率TRCAPE作为△V代理变量的三因子模型得到的样本内和样本外10年期收益率预测值的表现情况。上升的曲线表示三因子模型相对于历史均值模型表现更好。如果一年当中超过75%的时间都处于美国国家经济研究局界定的经济衰退期内,则该年份以灰色垂直线条标注。(b)遵循Goyal和Welch(2008)的研究方法,图中的虚线和实线分别代表的是以经总回报周期调整的市盈率TRCAPE作为△V代理变量的三因子模型得到的样本内和样本外20年期收益率预测值的表现情况。上升的曲线表示三因子模型相对于历史均值模型表现更好。如果一年当中超过75%的时间都处于美国国家经济研究局界定的经济衰退期内,则该年份以灰色垂直线条标注。

已有研究表明,收益率可估算性是随时间变化的(例如,Devpura、Narayan和Sharma2018;Jurdi2022年)。在表4中,我们报告了一段时间内不同市场状态的MAE。对于每个估算模型,我们使用Newey-West(1987)标准误进行以下时间序列回归:

其中,MAEi表示估算模型i的10年或20年平均绝对误差,MKT_STATE是我们采用的四个市场状态代理变量之一,其计算周期与MAEi相同(10年或20年)。四种市场状态变量包括市场收益率、市场波动性、Amihud(2002)非流动性比率和市场衰退指标。市场收益率和Amihud(2002)非流动性比率分别是年化平均市场收益率和年化价值加权平均股票Amihud(2002)比率。市场波动率是与MAEi同期年化收益率的标准差。市场衰退指标是通过计算美国国家经济研究局(the National Bureau of Economic Research)商业周期中处于衰退阶段的月份(在10年或20年内)的比例来确定的。

表4中的结果表明,当收益率较低时,估算往往更准确(即MAE较低)。此外,当波动性较高时,估算会更准确。估算准确性与流动性或商业周期之间没有一致的关系。商业周期的回归结果不同于短期收益率可估算性,后者在经济衰退中更强(例如,Henkel、Martin和Nadari2011)。在线上补充附录A6中,我们使用MSE作为因变量生成结果,这些结果与表4中非常相似。

注:本表展示了不同市场阶段下的平均绝对误差。对于每个模型,我们都采用Newey-West(1987)标注误来进行时间序列回归:MAEi,t=αi+βiMKT_STATE+εi,t ,MAEi代表的是预测模型i的10年或20年平均绝对误差。MKT_STATE是四个市场阶段的代理变量之一。和MAEi一样,MKT_STATE的计算期间也是10年期或者20年期。这四个市场阶段的代理变量包括市场收益率、市场波动率、阿米胡德非流动性比率以及市场衰退指标。市场波动率是年化收益率的标准差。其计算期间和MAEi一样。市场衰退指标通过计算处于由美国国家经济研究局(NBER)经济周期所划定的衰退期的月份占整个周期(10年或者20年)的比率得到。**和*分别代表1%和5%的显著性水平。

该表报告了不同市场阶段下的均方误差MSE。对于每个模型,我们都采用Newey-West(1987)标注误来进行时间序列回归:

MSEi,t=αi+βiMKT_STATE+εi,t ,MSEi代表的是预测模型i的10年或20年的均方误差。MKT_STATE是四个市场阶段的代理变量之一。和MSEi一样,MKT_STATE的计算期间也是10年期或者20年期。这四个市场阶段的代理变量包括市场收益率、市场波动率、阿米胡德非流动性比率以及市场衰退指标。市场波动率是年化收益率的标准差。其计算期间和MSEi一样。代理变量-市场衰退指标通过计算处于由美国国家经济研究局(NBER)经济周期所划定的衰退期的月份占整个周期(10年或者20年)的比率得到。**和*分别代表1%和5%的显著性水平。

在表5和表6中,我们从资产配置的角度比较了不同的模型。我们使用标准普尔500指数和美国10年期政府债券总收益指数的数据在股票和债券之间配置投资组合。我们采用均值-方差方法,并将最大化投资组合夏普比率的资产权重视为最佳投资组合权重。根据Smith(2019)的推导,我们根据两种资产的预期夏普比率、它们的历史标准差以及它们之间的历史相关性,每年计算最佳权重并重新配置投资组合。为计算标普500指数的预期夏普比率[E(R)−Rf]/σ(该比率是确定最优投资组合权重的输入变量之一),我们采用了以下数据:各估算模型的样本外(OOS)标普500收益估算值(即E(R))、来自Goyal和Welch(2008)更新数据集的历史无风险利率(即Rf),以及标普500收益的历史标准差(即σ)。因此,如表5和表6所示,各个模型的最优权重和已实现投资组合收益回报不同。

注:本表从资产配置的角度比较了不同模型的10年期预测值。我们根据标普500指数以及美国10年期国债总收益指数的数据来配置股票和债券的投资组合。我们采用均值-方差的分析方法,并且认为最优组合权重是能够将投资组合的夏普比率最大化的资产配置。遵循Smith(2019)的推断方法,我们根据两种资产的期望夏普比率,它们的历史标准差以及它们的历史相关系数来计算最优配置权重,并且每年对投资组合的权重进行调节。我们使用样本外标普500收益率预测值来计算标普500指数(该指数被用作得到最优组合权重的输入变量)的期望夏普比率。样本外标普500收益预测值由我们的预测模型计算得到。总而言之,我们的预测模型给出了不同的最优组合权重和实现组合收益率。然后,我们针对实现收益率构建了三类指标:5%的风险价值、事后阿尔法和事后夏普比率。我们采用前文所述的移动区块自助法对实现收益率进行重抽样,并检测基于预测模型得到的实现VaR值是否显著地低于基于历史均值模型得到的VaR值。同理,我们还要检测基于预测模型得到的实现阿尔法和夏普比率是否显著地大于基于历史均值模型得到的实现阿尔法和夏普比率。**和*分别代表1%和5%的显著性水平。

注:本表从资产配置的角度比较了不同模型的20年期预测值。我们根据标普500指数以及美国10年期国债总收益指数的数据来配置股票和债券的投资组合。我们采用均值-方差的分析方法,并且认为最优组合权重是能够将投资组合的夏普比率最大化的资产配置。遵循Smith(2019)的推断方法,我们根据两种资产的期望夏普比率,它们的历史标准差以及它们的历史相关系数来计算最优配置权重,并且每年对投资组合的权重进行调节。我们使用样本外标普500收益率预测值来计算标普500指数(该指数被用作得到最优组合权重的输入变量)的期望夏普比率。样本外标普500收益预测值由我们的预测模型计算得到。总而言之,我们的预测模型给出了不同的最优组合权重和实现组合收益率。然后,我们针对实现收益率构建了三类指标:5%的风险价值、事后阿尔法和事后夏普比率。我们采用前文所述的移动区块自助法对实现收益率进行重抽样,并检测基于预测模型得到的实现VaR值是否显著地低于基于历史均值模型得到的VaR值。同理,我们还要检测基于预测模型得到的实现阿尔法和夏普比率是否显著地大于基于历史均值模型得到的实现阿尔法和夏普比率。**和*分别代表1%和5%的显著性水平。

随后,我们针对实际投资组合收益生成了三项绩效指标:5%风险价值(VaR)、事后阿尔法(alpha)和事后夏普比率(Sharpe)。我们采用前文所述的移动区块自助法对实际组合收益进行重抽样,以判断基于各估算模型构建的组合的实际VaR是否较历史均值模型有显著改善。类似地,我们也检验了估算模型组合的实际阿尔法值和夏普比率是否显著高于历史均值模型。

表5的结果表明,从资产配置视角看模型存在显著收益提升。例如,在整个样本期内,基于TRCAPE的三因素模型的VaR为-7.81%,而历史均值模型的VaR为-16.21%。此外,该模型的夏普比率为0.3108,历史均值模型则为0.1933。这种优势并非仅存在于全样本期。在1988—2020年的近期子样本中,基于TRCAPE的三因素模型VaR为-4.14%,而历史均值模型为-19.12%。该模型在近期子样本中的阿尔法值为4.49%,历史均值模型仅为1.81%。

从资产配置视角看,表6所示的20年估算结果同样展现出显著收益提升。在整个样本期内,基于TRCAPE的三因素模型夏普比率达到0.3669,而历史均值模型仅为0.2040。尽管该模型在最近两个子样本期的夏普比率仍高于历史均值模型,但差异未呈现统计显著性。然而,与历史均值模型相比,基于TRCAPE的三因素模型在最近两个时期都表现出显著优越的VaR。例如,该模型的VaR在1988—2020年期间仅为-3.19%,而历史平均模型的-10.53%。

在线上补充附录图A1a和A1b中,我们展示了基于TRCAPE的三因素模型在10年期估算和20年期估算中随时间变化的股票权重。可以发现,在1937年之前几乎没有配置股票资产。自1937年起,股票配置权重呈现时变特征但始终保持正值,这一趋势持续至1981年。此后直至20世纪90年代中期,权重仍维持正值。

附录图A1a:基于10年期预测的资产配置。该图呈现的是,以TRCAPE作为△V代理变量的三因子模型在10年预测期内股票配置权重的时序变化特征。

附录图A1b:基于20年期预测的资产配置。该图呈现的是,以TRCAPE作为△V代理变量的三因子模型在20年预测期内股票配置权重的时序变化特征。

表7的面板A、B列示了股票权重的汇总统计结果。对于10年期估算,全样本期平均股票权重为47.02%。其中经济扩张期均值(50.63%)显著高于衰退期(30.77%)。中位数差异更为突出:衰退期股票权重中位数仅为2.50%,而扩张期达51.54%。在20年估算期限下,这种跨周期差异进一步扩大。全样本平均股票权重为59.32%,但衰退期均值仅29.07%,远低于扩张期的65.77%。面板B结果显示,权重常出现0%或100%极端值。20年估算中0%权重的频率差异显著:衰退期占比68.75%,而扩张期仅24%。

面板C展示了不同权重持续年限的统计特征,结果表明权重具有强持续性。例如,低于60%的权重平均维持逾7年,高于60%的权重平均维持超6年。在20年估算期限下,高权重(>60%)平均持续期长达19年。

注:在面板A和B中,我们展示了以TRCAPE作为△V代理变量的三因子模型计算得到的10年期和20年期股票配置的数据总结。在面板C中,我们展示了不同权重配置下久期的数据总结。

04 总结

准确估算股票市场的长期预期收益率对公司和个人投资者都非常重要。我们研究了不同框架和代理变量,在长历史跨度与近期时段中针对 10 年期和 20 年期样本外收益率的估算能力。我们得出了最好的方法是基于股息率、增长率和TRCAPE估值指标的三因素模型。与历史均值模型估算相比,该模型产生了实质性的改进。即便在最近时期,样本外估算解释力(OOS-R²)仍可高达30%,且基于我们模型估算的资产配置能使投资组合的夏普比率和风险价值(VaR)提升超50%。我们希望我们的结果能引起那些需要准确长期预期回报预测的人的兴趣。

结束

Financial Analysts Journal(简称”FAJ”) 是CFA协会(CFA Institute)主办的全球知名的投资管理领域专业期刊,该刊为季刊,每期发表论文4-8篇,在社会科学引文索引(SSCI)位列二区。

2021年底,CFA北京协会获得了CFA Institute期刊编辑部正式授权,邀请了一批协会内外的专家和志愿者作为推荐人/审校人,启动了FAJ研究成果推广项目。

【项目使命】本项目定位于将期刊的优秀研究成果,尤其是对中国投资实践具有启发意义的研究成果,以中文推荐和综述的形式发布在包括不限于“北京金融分析师协会”公众号的公共平台。项目的推荐人均为在金融投资实践和学术研究方面具有一定经验和成果的专业人士,因而能够较好的将来自国际市场的学术研究成果进行中国本土化转化,揭示出对我国金融市场的学习借鉴意义,吸收国际前沿学术成果,使之融入我国金融业的高质量发展和双向对外开放历史进程。

截至2025年3月,本项目已经发布研究成果54期,涉及资产配置理论前沿、ESG投资理论与实践、市场微观结构、组合构建策略、行为金融等多个领域,据不完全统计,这些研究成果的全媒体累计阅读量超过160万人次,公众号累计分享次数超5100次,包括中国人民银行主管的《金融时报》新媒体平台、财新网、新浪、凤凰等传统门户、清华金融评论、学说等学术类新媒体平台、中国保险资管业协会等行业组织公众号,都对本项目的研究成果多次关注和转载。

2024年6月5日,CFA北京协会FAJ中文推介项目作为“协会成功故事”被CFA Institute官方网站Connexions报道,分享给全球160余家CFA地方协会。