lasso回归模型应用案例「投资组合策略有哪些」
导读
1、 作为西学东渐--海外文献推荐系列报告第九十二篇,本文推荐了Lars Stentoft和Sha Wang于2019年发表的论文《Consistent and Efficient Dynamic Portfolio Replication with Many Factors》。
2、传统的复制策略通常仅以跟踪误差来反映是否对特定资产实现了较好复制。但在实际应用中,为了追求更小的跟踪误差需要对组合进行频繁地再平衡,以使各资产的配置权重维持在最优的水平,而再平衡的交易成本却会进一步侵蚀组合收益。本文提出的修正方法在LASSO模型和交叉验证过程中都加入了交易成本,从而使组合可以在保证复制收益、降低跟踪误差的同时减少交易成本。
3、首先,本文将原始LASSO模型中固定不变的惩罚系数修改为会随资产交易成本改变的惩罚项,以在LASSO模型中加入资产的交易成本。
4、其次,采用交叉验证方法计算惩罚系数时,本文在原始的误差函数中加入了再平衡的成本项,按照修正后的模型计算得到的样本外误差显示,投资者每年可以节省60个基点的成本。
5、最后,本文提出的对交叉验证方法的修正也可以广泛应用于其他存在过度拟合和交易成本的预测问题。
风险提示:文献中的结果均由相应作者通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。
1、引言
因子投资已成为一种重要的投资策略。因子投资有多种形式,其中一种是通过复制指数、共同基金和对冲基金以获得相似的收益。这种复制策略通常是从资产池中选出与一类资产或基金具有相似特征或风险敞口的特定证券,例如为了复制某一特定资产,因子投资策略首先确定资产对应的风险因子,通过配置风险因子实现对该资产收益和风险的复制。从历史上看,因子通常来源于资产定价模型,例如资本资产定价模型及其扩展模型。Fama和French(1993)构建了一个简单的因子模型,将规模和价值作为两个额外因子,这个模型流行至今。Sharpe(1992)将12种不同资产(如大/小市值股票、长/短期债券)构建成因子来解释基金收益。
如今,因子投资的应用范围更为广泛,复制工具的种类也更为多样,大量涌现的ETF也对复制策略的发展起到了至关重要的作用。2017年ETF的规模超过了4.4万亿美元,在10年间增长了5倍以上。投资者通过ETF可获得的风险敞口囊括了各种细分市场。然而,由于有5000多只ETF可供选择,如何找到与风险因子对应的ETF来实现复制是实证中面临的主要挑战。寻找正确的ETF主要存在两个困难:首先,横截面上ETF的数量远大于纵向时间维度上可获得的观察值的数量,在ETF选择上具有一定难度;其次,即使通过ETF可以完美复制目标并使跟踪误差最小化,但跟踪成本依然较大。许多研究表明,包括因子投资在内的某些投资策略的收益可能会被交易成本所抵消(de Groot,Huij和Zhou(2012)和 Polbennikov(2018))。
本文中,我们提出可以通过两个关键步骤从一个非常大的候选池中选出尽可能跟踪目标收益的资产,同时最小化投资者的总成本(包括跟踪误差和跟踪成本)。首先,为了解决从大量候选资产中选择合适ETF的问题,我们使用了LASSO方法,这种方法通过在回归中加入惩罚项使回归中相关性较小的因子系数趋于零。其次,我们在交叉验证的过程中考虑了交易成本。我们的方法可以使投资者根据自己的偏好,决定交易成本对回归的重要性,并进一步构建特定的回归方程。本文中我们采用这种方法通过ETF复制了对冲基金指数的收益,结果表明我们改进后的算法可以帮助投资者每年节约60个基点的成本。
LASSO是统计学中常用的选择变量的方法。实现LASSO需要选择一个正则化参数λ,用于惩罚模型中不相关变量的系数。当惩罚足够大时,某些系数会一直缩小到零,即这些变量会从模型中剔除。因为建模者事先并不知道最佳λ的值,所以如何选择最佳λ是建模者需要考虑的问题。历史文献中通常采用交叉验证方法来计算当样本内数据实现最优拟合时λ的值。目前已经有多篇因子投资的论文采用了这种方法,例如Chen和Tindall(2014)。
标准的LASSO模型是一个纯粹的统计学方法,可以对样本内数据实现最大程度的拟合。但当构建投资组合时,对样本内数据的拟合程度并不一定是选择因子的合理标准。尤其当我们要长期跟踪一个投资组合时,必须考虑到如何对组合实现动态跟踪以及控制跟踪成本,因此我们构建了一个成本函数来选择惩罚系数λ。
近年来,投资人配置对冲基金的意愿逐步提高,然而由于对冲基金的监管要求、高昂的管理费用以及长期的锁定期,几乎只有专业投资者可以参与对冲基金投资。此外,对冲基金的策略也不够透明,因此很难利用基金投资目标选择合适的细分资产来复制基金收益。Fung和Hsieh(1997)以及Hasanhodzic和Lo(2007)介绍了如何用因子模型来解释和复制对冲基金收益。还要注意的是,许多对冲基金的收益存在非线性的特征,考虑到这个问题,也有文献采用非线性模型对基金收益进行复制,例如Roncalli和Weisang(2012)和Amenc等人(2008),但这些非线性模型的样本外表现并不显著优于简单线性模型。
在本文的实证研究中,我们假设对冲基金暴露于一系列风险因子,并选取ETF代表各类风险因子。接着我们使用改进后的LASSO模型构建了一个由便于投资的ETF组成的复制组合,来复制对冲基金的收益。为了评估我们的模型,我们采用样本外数据分别计算了采用改进后的LASSO模型和采用标准LASSO模型构建的复制组合的成本部分(即跟踪误差和再平衡成本)。结果表明,改进后的模型中惩罚系数可以反映交易成本,表现优于标准LASSO模型,同时这个结果与再平衡的频率无关。
虽然我们在实证研究中是用ETF来复制对冲基金指数,但我们提出的方法也可以直接应用于其他因子复制策略,例如构建一个跟踪指数的ETF并使其跟踪成本最小化、或构建一个Smart Beta投资组合等。此外,我们对交叉验证方法的修正也可以为其他机器学习算法选择最优惩罚系数提供参考。
2、用LASSO进行变量选择
一种解决方法是使用LASSO回归,这种方法是使跟踪误差的平方和与惩罚项之和最小化,即采用下式估计组合权重:
其中,λ被称为正则化参数。LASSO回归在数学上相当于一个有约束的最优化求解问题(Tibshirani,1996)。约束条件的存在会使优化得到的一些变量系数为0,并且λ越大,值为0的系数越多。由于这些良好且直观的属性,LASSO已成为一个流行的变量选择方法。
通常衡量估计误差是采用样本外的预测误差,但一般是从总样本中取出一些作为伪样本外数据集,采用伪样本外数据的均方误差作为R的估计值。在进行的K组检验中选择使R最小的λ,这种选择最优λ的方法被称为交叉验证(CV),R也称为交叉验证的估计误差。如果将数据集分为2份,只用其中1份进行估计会造成对数据的浪费,交叉验证采用重复利用数据的方法构建了一系列新的数据集。一种经典的重复利用方法是N次交叉验证,它将数据集划分为N个互斥的子集,依次将每个子集作为样本外数据计算R的估计值,剩下的N-1个子集作为样本内数据进行估计。最终交叉验证的估计误差是N个R估计值的均值,而最优λ是使估计误差最小的λk 。
3、对动态误差的处理
复制投资组合时,采用标准LASSO模型得到的样本外误差通常体现为跟踪误差。跟踪误差是为了跟踪投资组合收益所产生的成本中的重要组成部分。虽然在组合构建初期可以按照最小化跟踪误差的原则计算资产权重,但资产的市值会随着市场波动发生变化,从而使实际配置权重偏离初始设定的最优权重。此外,随着新数据的出现,通过模型估计得到的最优权重也可能会发生改变。因此,投资者需要对组合进行再平衡,将资产权重调整回最佳权重。但再平衡导致的交易成本会侵蚀组合收益,在对投资组合进行回测时,投资者需要考虑组合随时间累积的交易成本。由于原始的LASSO模型没有考虑到交易成本,计算得到的结果便不是配置的最优解。
考虑到这个情况,我们对原模型的误差函数R进行了如下修正,使其不仅包含了跟踪误差,还包含了交易成本:
这里我们用均方根误差(root mean squared errors,RMSE)替代了CV中常用的均方误差(mean squared error,MSE),以使跟踪成本和跟踪误差的单位相同。接着我们将二者结合起来,得到m 1至m q区间样本外误差的计算公式:
标准LASSO模型中使用了一个固定参数λ作为惩罚项,但如果对所有ETF使用相同的λ衡量就忽略了ETF自身的交易成本。例如,如果一只ETF的交易成本适中、跟踪表现优秀,这只ETF的惩罚项应该较小、并被赋予较大权重。为了反映这种特征,我们提出了一个新的LASSO模型:
4、在对冲基金指数中的应用
复制策略的目标可以是一只对冲基金或对冲基金指数,但对单一对冲基金进行复制难度更高,因为单一基金的特质性误差可能会对模型估计造成较大干扰。因此,多数复制策略最终都是针对一组对冲基金的总体业绩进行复制,这里我们也采用了这种方法。对冲基金研究机构(Hedge Fund Research Institution,HFRI)主要发布关于对冲基金的指数,我们选择了HFRI FOF:Conservative Index作为本文复制的目标,以避免幸存者偏差。HFRI FOF指数由一组相似的对冲基金构成,指数数据来自于HFRI的月度数据库,样本区间为2010年1月至2017年9月(共93个月)。图表2展示了指数走势和收益的分布图。指数的收益分布略微左偏、肥尾(即大部分收益分布在右侧、且极端收益出现的概率高于正态分布)。
本文使用的ETF候选池包含25只ETF(具体列表见图表3)。我们主要挑选了有较长业绩记录和管理规模较大的ETF,因为管理规模大的ETF流动性更好。有些ETF与对冲基金的相关性较高但没有较长时间的业绩记录,我们也纳入了候选池。ETF的月度收益和费用比率来自于Yahoo Finance。
图表4展示了指数和25只ETF的收益特征,虽然有一些指标显示收益率可能不是正态分布,但Kolmogorov–Smirnov检验结果显示并不能拒绝原假设,即指数和25只ETF的收益率呈正态分布。最后一列为资产的夏普比率,即收益均值与标准差的比值。与指数相比,ETF的收益均值和标准差通常更大、且收益分布更对称。收益均值和标准差的分布见图表5。
为了检验样本外的跟踪表现,我们将最后3年的数据作为样本外数据。分别采用OLS模型、标准的LASSO模型、自适应LASSO模型以及本文提出的修正模型进行分析,各模型对比见图表6。正如前文所述,自适应LASSO模型允许每个变量具有不同的惩罚项。我们提出的修正主要是针对交叉验证方法,修正后训练集和验证集必须严格按照实际数据的顺序排列。这使我们得以计算随时间累积的再平衡成本,并选择惩罚项使交叉验证误差最小,这样计算的交叉验证误差同时考虑了投资成本和跟踪误差。
图表7的结果表明4种LASSO模型都显著减少了样本外数据的误差,与OLS相比误差减少了高达40%。同时我们修正后的自适应LASSO模型(C. Adaptive LASSO)相较于标准LASSO模型表现有显著提高,且这个结果不随再平衡频率的改变而变化。此外,投资者采用修正后的模型可以每年节省约60个基点的成本。
图表8展示了若投资ETF的成本增加了10倍后各模型的表现。结果表明修正后的自适应LASSO模型依然是总成本最低的。与图表7相比,随着投资成本的增加,修正后的自适应LASSO模型相对其他模型的表现更稳健。此处需要注意的是,仅仅对LASSO模型进行修正结果并不会优于标准LASSO模型,但我们对交叉验证方法的修正进一步使模型具有了稳定的优秀表现。
6、结论
本文对标准的LASSO模型进行了修正,并采用修正后的模型复制了一个对冲基金指数。我们的修正主要包括两部分:首先,我们对LASSO中的惩罚项进行了调整,使其与投资者的实际效用函数一致;其次,我们对交叉验证方法进行了修正,在其中加入了随时间累积的再平衡成本。
在复制对冲基金指数收益的实证研究中,我们发现将修正后的交叉验证方法和新的LASSO模型(惩罚项不是固定常数,而是与资产成本成正比)结合后得到的误差显著低于使用OLS模型或标准LASSO模型的误差,且这个结果不随再平衡频率的变化而改变。此外,通过对LASSO模型的修正,使用样本外数据计算,投资者可以每年节省60个基点的成本。
本文中我们仅以复制对冲基金指数为例介绍了我们修正后的LASSO模型,但我们对交叉验证方法的修正可以广泛应用于其他存在过度拟合和交易成本的预测问题。此外,我们提出的模型误差函数保留了一定灵活性,使投资者可以根据他们的效用函数灵活决定交易成本在误差函数中的占比。最后,我们的交叉验证方法也可以应用于其他机器学习算法以反映实际交易成本。
参考文献
[1] Amenc, N., W. Gehin, L. Martellini, and J. C. Meyfredi. 2008. “Passive Hedge Fund Replication: A Critical Assessment of Existing Techniques.” The Journal of Alternative Investments 11 (2): 69–83.
[2] Chen, J., and M. L. Tindall. 2014. “Hedge Fund Replication Using Shrinkage Methodologies.” The Journal of Alternative Investments 17: 26–49.
[3] Christoffersen, P., and K. Jacobs. 2004. “The Importance of the Loss Function in Option Valuation.” Journal of Financial Economics 72 (2): 291–318.
[4] de Groot, W., J. Huij, and W. Zhou. 2012. “Another Look at Trading Costs and Short-Term Reversal Profits.” Journal of Banking & Finance 36 (2): 371–382.
[5] Fama, E., and K. French. 1993. “Common Risk Factors in the Returns on Stocks and Bonds.” Journal of Financial Economics 33 (1): 3–56.
[6] Fung, W., and D. A. Hsieh. 1997. “Empirical Characteristics of Dynamic Trading Strategies: The Case of Hedge Funds.” The Review of Financial Studies 10 (2): 275–302.
[7] Hasanhodzic, J., and A. W. Lo. 2007. “Can Hedge-Fund Returns Be Replicated? The Linear Case.” Journal of Investment Management 5 (2): 5–45.
[8] MSCI. “Barra Europe Stochastic Factor Model.” MSCI Barra, 2013.
[9] Polbennikov, S. 2018. “Quantitative Credit Scorecards for Relative Value and Cross-Asset Momentum.” Barclays Quantitative Portfolio Strategy, 2018.
[10] Roncalli, T., and G. Weisang. 2012. “Tracking Problems, Hedge Fund Replication, and Alternative Beta.” Journal of Financial Transformation 31: 19–29.
[11] Sharpe, W. F. 1992. “Asset Allocation: Management Style and Performance Measurement.” The Journal of Portfolio Management18 (2): 7–19.
[12] Tibshirani, R. 1996. “Regression Selection and Shrinkage via the Lasso.” Journal of the Royal Statistical Society 58 (1): 267–288.
[13] Zou, H. 2006. “The Adaptive Lasso and Its Oracle Properties.” Journal of the American Statistical Association 101 (476):1418–1429.
风险提示:文献中的结果均由相应作者通过历史数据统计、建模和测算完成, 在政策、市场环境发生变化时模型存在失效的风险。
海外文献推荐系列第九十一期:机器交易:理论、进展和应用
海外文献推荐系列第九十期:无形资产与价值因子:你的价值因子是否过时了?
海外文献推荐系列第八十九期:最大回撤研究
海外文献推荐系列第八十八期:基于核PCA的动态市场风险信号研究
海外文献推荐系列第八十七期:利用下行波动率管理投资组合
海外文献推荐系列第八十六期:基于债券市场风险因子分析投资经理业绩
海外文献推荐系列第八十五期:基于高阶矩的风险平价方法
海外文献推荐系列第八十四期:共同基金的拥挤投资对股票收益的影响
海外文献推荐系列第八十三期:无处不在的因子动量
海外文献推荐系列第八十二期:如何设计价值投资策略
海外文献推荐系列第八十一期:基于市场转换的资产配置VS静态资产配置:让数据说话
海外文献推荐系列第八十期:对债券业绩归因模型的探索
海外文献推荐系列第七十九期:基于分层聚类的资产配置方法
海外文献推荐系列第七十八期:归因——事前和事后归因的统一框架
海外文献推荐系列第七十七期:投资组合因子配置——不仅仅是资产配置
海外文献推荐系列第七十六期:因子择时
海外文献推荐系列第七十五期:基于非参数的状态识别与预测
海外文献推荐系列第七十四期:共同基金投资者是否会高估基金极端正收益发生的概率?
海外文献推荐系列第七十三期:基于尾部风险和相关性的动态资产配置
海外文献推荐系列第七十二期:信号加权
海外文献推荐系列第七十一期:资产配置与因子配置——是否可以建立一个统一的方法?
海外文献推荐系列第七十期:从因子到资产:将因子暴露映射到资产配置
海外文献推荐系列第六十九期:如何克服海量因子库难题?—新因子的检验方法
海外文献推荐系列第六十八期:如何根据不同的经济环境进行资产配置?
海外文献推荐系列第六十七期:最差时期的最佳策略:投资组合能否抵御危机?
海外文献推荐系列第六十六期:基于市场状态转换的动态资产配置
海外文献推荐系列第六十五期:提升因子模型的定价能力
海外文献推荐系列第六十四期:盈余公告后漂移中的价格跳跃
海外文献推荐系列第六十三期:基于参数化策略的因子测试框架
海外文献推荐系列第六十二期:预测股票市场收益:分项加总的效果优于整体
海外文献推荐系列第六十一期:基于共同基金业绩分析羊群行为能否展示基金经理能力
海外文献推荐系列第六十期:基于预期收益的风险平价模型的构建与改进
海外文献推荐系列第五十九期:基于机器学习方法的宏观因子模拟投资组合构建
海外文献推荐系列第五十八期:现金指标是否比利润指标更能预测收益?
海外文献推荐系列第五十七期:如何将因子信息融入到指数基金和主动基金之中
海外文献推荐系列第五十六期:全球区域配置框架:构建全球FOF型ETF
海外文献推荐系列第五十五期:基于宏观经济因子的战术资产配置
海外文献推荐系列第五十四期:公司治理、ESG与全球股票收益关系
海外文献推荐系列第五十三期:协方差矩阵预测方法的比较
海外文献推荐系列第五十二期:如何有效利用ESG数据构建Smart Beta指数
海外文献推荐系列第五十一期:风险轮动中的风险规避
海外文献推荐系列第五十期:基于风险溢价的投资组合—一类风险分散的新方法
海外文献推荐系列第四十九期:横截面收益中的稀疏信号研究
海外文献推荐系列第四十八期:基于机构投资者交易情绪的动态资产配置研究
海外文献推荐系列第四十七期:主动投资中的 Timing 与 Sizing
海外文献推荐系列第四十六期:市场对称性及其在组合选择中的运用
海外文献推荐系列第四十五期:股票、债券和因果关系
海外文献推荐系列第四十四期:如何确定股票的联动效应?基于网络模型的择时研究
海外文献推荐系列第四十三期:ESG投资基础:ESG对股票估值、风险和收益的影响研究
海外文献推荐系列第四十二期:使用机器学习方法预测基金持
海外文献推荐系列第四十一期:防御性宏观因子择时研究
海外文献推荐系列第四十期:股票收益的周内效应研究
海外文献推荐系列第三十九期:战术性资产配置的宏观经济仪表盘
海外文献推荐系列第三十八期:宏观量化投资新基础
海外文献推荐系列第三十七期:如何预测中国股市的下行拐点
海外文献推荐系列第三十六期:行业分类方法重构的有效性研究
海外文献推荐系列第三十五期:目标波动性策略最优性研究
海外文献推荐系列第三十四期:价值投资、成长投资的基本原则及“价值陷阱”的解释
海外文献推荐系列第三十三期:因子溢价与因子择时-跨越世纪的实证结果(二)
海外文献推荐系列第三十三期:因子溢价与因子择时-跨越世纪的实证结果(一)
海外文献推荐系列第三十二期:构建纯多头多因子策略:投资组合合并与信号合并
海外文献推荐系列第三十一期:如何对分析师预期数据进行建模?-基于贝叶斯方法的研究
海外文献推荐系列第三十期:什么是质量因子
注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。
证券研究报告:《西学东渐--海外文献推荐系列之九十二》。
对外发布时间:2020年9月3日
报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)
--------------------------------------
分析师:徐寅
SAC执业证书编号:S0190514070004
电话:18602155387,021-38565949
E-mail: [email protected]
--------------------------------------