我们基于股票高频快照数据进行特征构建与分析,高质量的特征构建是后面进行模型训练,交易策略形成的重要基础。
我们已经将本文用到的全部源数据+源代码+Python环境打包好了,做到开箱即用,一键运行,感兴趣的朋友可以下载,自己多动手才是学习的最佳途径。在公众号后台回复“高频特征01”获取。
先看一下基础的高频数据样本,这是一份3秒频率的股票快照,包括了最新成交价,成交量,成交额,最高最低价,五档买卖挂单等信息。
我们选取了上证50的成分股及上证50ETF在某一天的数据进行分析,自变量是我们要构建的特征,因变量是我们要预测的目标。这里我们的目标是预测股票下一分钟的收益率。
先通过3秒快照的最新价,计算得到每个3秒快照的对数收益率,再对3秒的对数收益率进行20个时间窗口的滚动加和,得到pre_rtn20,就是过去20个快照的收益率,将这个收益率向后平移20个快照,得到fut_rtn20,就是每个快照的1分钟后的收益率,也就是我们要预测的目标。
我们将过去20个快照的收益率pre_rtn20作为自变量,看看股票过去1分钟收益率和未来1分钟收益率之间的关系。
先看看因子的分布情况:
特征与目标的相关性:
再做一个OLS回归分析,结果如下
OLS回归是一种线性回归分析方法,用于建立因变量与一个或多个自变量之间的关系。在进行OLS回归时,通常会输出OLSRegressionResults,其中包含了许多指标,用于评估回归模型的质量和拟合程度。以下是OLSRegressionResults的各项指标的解释:
R-squared:R平方是一个介于0和1之间的值,表示因变量的方差中有多少可以被自变量解释。当R平方为1时,表示自变量完全解释了因变量的变异;当R平方为0时,表示自变量无法解释因变量的变异。
Adj.R-squared:调整R平方是在R平方的基础上进行了调整,以考虑模型中自变量的数量。当自变量的数量增加时,R平方会自然增加,但这并不意味着模型的拟合程度更好。调整R平方通过惩罚自变量的数量,可以更准确地评估模型的拟合程度。
F-statistic:F统计量用于检验模型中所有自变量是否显著影响因变量。F统计量越大,表示自变量越显著地影响因变量。
Prob:P值是F统计量对应的概率值,用于判断F统计量是否显著。一般认为,当P值小于0.05时,F统计量显著。
coef:回归系数表示自变量对因变量的影响程度。对于一个自变量,回归系数越大,表示该自变量对因变量的影响越大;对于一个截距项,回归系数表示在所有自变量为0时,因变量的期望值。
stderr:标准误差表示回归系数的不确定性。标准误差越小,表示回归系数越可靠。
t:t值是回归系数与其标准误差之比,用于检验回归系数是否显著。一般认为,当t值的绝对值大于96时,回归系数显著。
P>|t|:P值是t值对应的概率值,用于判断t值是否显著。一般认为,当P值小于0.05时,t值显著。
[0.0250.975]:置信区间表示回归系数的真实值有95%的概率在这个区间内。一般来说,置信区间越窄,表示回归系数越可靠。
Omnibus:奥姆尼布斯检验用于检验模型的误差项是否服从正态分布。当Omnibus的值越接近0,表示误差项越接近正态分布,模型的拟合程度越好。
1Prob:P值是奥姆尼布斯检验的概率值,用于判断误差项是否服从正态分布。一般认为,当P值小于0.05时,误差项不服从正态分布。
1Skew:偏度表示误差项分布的偏斜程度。当偏度为0时,表示误差项分布对称;当偏度大于0时,表示误差项分布右偏;当偏度小于0时,表示误差项分布左偏。
1Kurtosis:峰度表示误差项分布的峰态程度。当峰度为0时,表示误差项分布与正态分布相同;当峰度大于0时,表示误差项分布更尖锐;当峰度小于0时,表示误差项分布更平缓。
1Durbin-Watson:杜宾-沃森检验用于检验误差项之间是否存在自相关。当Durbin-Watson的值接近2时,表示误差项之间不存在自相关;当Durbin-Watson的值小于2时,表示存在正向自相关;当Durbin-Watson的值大于2时,表示存在负向自相关。
以上是OLSRegressionResults的各项指标的解释。这些指标可以帮助我们评估回归模型的质量和拟合程度,并进行进一步的统计分析和推断。
本文以一个最简单的特征为例,对特征进行初步的描述和分析,后面我们会继续构建更丰富的特征,并进行分析和训练。
我们已经将本文用到的全部源数据+源代码+Python环境打包好了,做到开箱即用,一键运行,感兴趣的朋友可以下载,自己多动手才是学习的最佳途径。
感兴趣的朋友可私信我获取。
文章为作者独立观点,不代表 股票程序化软件自动交易接口观点