eviews简单相关系数(spss简单相关系数)

一个有效的阿尔法因子应该能够带来长期稳定的超额收益。同时,各时期要素的表现要有较好的持续性,即波动性较低。根据因素选择的组合是否有很高的胜率也是我们考察的标准之

一个有效的阿尔法因子应该能够带来长期稳定的超额收益。同时,各时期要素的表现要有较好的持续性,即波动性较低。根据因素选择的组合是否有很高的胜率也是我们考察的标准之一。同时,因素的显著变化特征也需要关注。

eviews简单相关系数(spss简单相关系数)

一般筛选因素的主要原则是:

数据的准确性和真实性数据的完整性数据来源的稳定性

通过结合多个指标来检验每个因素的有效性。指标可分为两类,即有效性指标和单调性指标。有效性指数,通过跟踪超低配置组合的表现来考察因素的有效性,包括IC、ICIR、组合胜率、月度组合收益率、一年期滚动组合收益率和组合收益的T检验概率。

XX证券研究报告《多因子系列报告之一:因子检验框架》认为,为了使检验结果更符合投资逻辑,应设置三个样本筛选规则:

剔除选股日的ST/PT股票剔除上市不满一年的股票剔除选股日由于停牌等原因而无法买入的股票

同时,在进行一系列计算之前,必须对数据进行处理,因为多因素模型面对的大部分数据都是企业财务报表数据。虽然其单元格式按照发布规范是统一的,但数据随企业基本面信息变化较大,可能存在遗漏、零值、错值、离群值等问题。

因为,数据清洗的一般处理方法如下:

删除异常值(逻辑上不应该出现的0值或负值)、缺失值删除分布特性上的特殊值(离群的极值)

由于常见的3个标准差(超出3个标准差的数据剔除)极值剔除方法是建立在样本服从正态分布的假设基础上的,我们经常会发现大部分因子值的分布不服从正态分布,厚尾分布更为常见,因此采用了更稳健的MAD(中位数绝对偏差)方法。

首先,计算因子值的中值,并将绝对中值定义为:

MAD = Median(|fi Medianf|)

MAD也叫绝对中位数离差,每个变量与中位数的差叫离差。它是单变量数据集中样本差异的稳健度量,也被认为是稳健统计量。在处理数据集中的异常值时比标准差更加灵活,可以大大降低异常值(数据噪声)对数据集的影响,对处理金融数据(尤其是基本面数据)有很大的帮助。

大于Medianf+3 * 1.4826 * MAD的值或小于Medianf+3 * 1.4826 * MAD的值被定义为异常值。在处理异常值时,需要根据因素的具体情况决定是直接剔除异常值,还是将异常值设置为上下限。后者是一种常见的方法。

单因素性能指数

然后就是数据标准化的过程。一般建议建模者选择Z-score值进行标准化处理因子数据,因为它不会改变数据的概率密度,使数据中的一些特殊关系信息得以完整保留,而只是归一化到一个区间。具体来说,用什么因子进行投资,什么因子好用或者耐用,什么因子可以放入多因子模型,需要注意如下。

因子IC(秩相关信息系数):即每个时点,因子在各股票的暴露值与各股票下期回报的相关系数(或秩相关系数)。一般来说,如果一个因子的IC绝对值高于2%,则认为该因子在优选个股阿尔法收益上有较好的结果。IC值为正,表示该因子与股票的未来收益有正相关关系,应该超配因子暴露值高的股票;反之,若IC值为负,则超配因子暴露值低的股票。因子ICIR(IC的信息比率):即因子在样本期间的平均年化收益与年化平均标准差的比值。ICIR绝对值越高,表面该因子在优选个股阿尔法收益上效果越好。另外,经统计发现,ICIR绝对值高于0.7时,阿尔法因子的选股效果通常比较明显。最佳组合收益(资金曲线序列):因子按照正向或负向,可以以升序或降序对股票进行排序,然后即可得到买入资金曲线。我们可以衡量最佳组的收益曲线,一般是分为10组后的第一组,或者最后一组。有时为了更加显著地体现收益情况,我们还会做多第一组,做空最后一组,然后观察资金曲线是否平滑。一旦产生较大的回撤,则证明在回撤点位附近的时间点存在较大的价格风险暴露。收益单调性(分层效果):通过分析各档股票组合的表现是否具备显著的单调性(显著区分好股票和坏股票),从而考察因子的有效性,包含各档累积收益率、各档相对基准累积收益率、各档平均年收益率及各档相对基准平均年收益率。一般来说,IC和ICIR值较高且为正时,各档组合的收益表现呈现单调递增的规则;IC和ICIR值较高且为负时,各档组合的收益表现呈现单调递减的规律。单因子之间的收益率相关性:部分优秀的因子同质性较高,IC值曲线呈现出高相关的特性,此时我们要做每个回归日期截面的相关矩阵分析。所以在筛选规模因子时需要有所取舍,只能保留显著性高并且相关性低的因子,最终送入多因子模型中,但是并非相关性高的因子只能选其一,比如两个高相关性的因子A和B,我们准备剔除B因子,但是它也有超额收益,所以又想保留。此时可以对两个因子A和B做线性回归,残差即为A无法解释B的部分,相当于对B因子做了一次以A因子为目标的中性化。中性化如何做呢,可以参考之前的文章高频因子低频交易,聪明钱因子模型。逻辑上的相关性也十分重要,一般用于描述同样特质的因子只选择少数几个甚至一个因子,因为量化分析本身就是放大了收益或者放大了亏损,幸存者偏差遍布模型开发的每个环节,此时做数据挖掘存在极大的风险。因子IC半衰期:因子是具有时效性的,IC作为度量因子有效性的主要指标,我们不能只看其值高低,其稳定性也值得关注。因子IC衰退,是通过观察随着滞后时间的延长,因子有效性降低的速度。研究发现,很多因子具有相对稳定的半衰期,即因子有效性降低为一半所需的时间,因而可以通过观察半衰期的长短来判断该因子的稳定情况。较为学术的描述这个观点:IC衰减是指在时间维度和横截面股票维度上预测能力的降低。计算公式是当期因子值和滞后N期的收益率做线性回归,然后绘制出当期IC和滞后1期、滞后2期、滞后N(一般限定在半年内)期的IC序列,观察其衰减到一半所用的时间。回测过程中,我们发现,常见财务基本面数据IC衰减较慢,而价量因子IC衰减较快,所以前者可以适应较长时间的持仓,后者需要频繁调仓,造成换手率较高、交易成本冲击较大。IC衰减非常缓慢,主要特点是在其周期的时间序列上,最后的IC接近或不足之前的50%水平。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/348266.html

发表回复

登录后才能评论