股票高频特征构建与分析01_ 股票程序化软件自动交易接口

我们基于股票高频快照数据进行特征构建与分析，高质量的特征构建是后面进行模型训练，交易策略形成的重要基础。

我们已经将本文用到的全部源数据+源代码+Python环境打包好了，做到开箱即用，一键运行，感兴趣的朋友可以下载，自己多动手才是学习的最佳途径。在公众号后台回复“高频特征01”获取。

先看一下基础的高频数据样本，这是一份3秒频率的股票快照，包括了最新成交价，成交量，成交额，最高最低价，五档买卖挂单等信息。

我们选取了上证50的成分股及上证50ETF在某一天的数据进行分析，自变量是我们要构建的特征，因变量是我们要预测的目标。这里我们的目标是预测股票下一分钟的收益率。

先通过3秒快照的最新价，计算得到每个3秒快照的对数收益率，再对3秒的对数收益率进行20个时间窗口的滚动加和，得到pre_rtn20,就是过去20个快照的收益率，将这个收益率向后平移20个快照，得到fut_rtn20，就是每个快照的1分钟后的收益率，也就是我们要预测的目标。

我们将过去20个快照的收益率pre_rtn20作为自变量，看看股票过去1分钟收益率和未来1分钟收益率之间的关系。

先看看因子的分布情况：

特征与目标的相关性：

再做一个OLS回归分析，结果如下

OLS回归是一种线性回归分析方法，用于建立因变量与一个或多个自变量之间的关系。在进行OLS回归时，通常会输出OLSRegressionResults，其中包含了许多指标，用于评估回归模型的质量和拟合程度。以下是OLSRegressionResults的各项指标的解释：

R-squared：R平方是一个介于0和1之间的值，表示因变量的方差中有多少可以被自变量解释。当R平方为1时，表示自变量完全解释了因变量的变异；当R平方为0时，表示自变量无法解释因变量的变异。

Adj.R-squared：调整R平方是在R平方的基础上进行了调整，以考虑模型中自变量的数量。当自变量的数量增加时，R平方会自然增加，但这并不意味着模型的拟合程度更好。调整R平方通过惩罚自变量的数量，可以更准确地评估模型的拟合程度。

F-statistic：F统计量用于检验模型中所有自变量是否显著影响因变量。F统计量越大，表示自变量越显著地影响因变量。

Prob：P值是F统计量对应的概率值，用于判断F统计量是否显著。一般认为，当P值小于0.05时，F统计量显著。

coef：回归系数表示自变量对因变量的影响程度。对于一个自变量，回归系数越大，表示该自变量对因变量的影响越大；对于一个截距项，回归系数表示在所有自变量为0时，因变量的期望值。

stderr：标准误差表示回归系数的不确定性。标准误差越小，表示回归系数越可靠。

t：t值是回归系数与其标准误差之比，用于检验回归系数是否显著。一般认为，当t值的绝对值大于96时，回归系数显著。

P>|t|：P值是t值对应的概率值，用于判断t值是否显著。一般认为，当P值小于0.05时，t值显著。

[0.0250.975]：置信区间表示回归系数的真实值有95%的概率在这个区间内。一般来说，置信区间越窄，表示回归系数越可靠。

Omnibus：奥姆尼布斯检验用于检验模型的误差项是否服从正态分布。当Omnibus的值越接近0，表示误差项越接近正态分布，模型的拟合程度越好。

1Prob：P值是奥姆尼布斯检验的概率值，用于判断误差项是否服从正态分布。一般认为，当P值小于0.05时，误差项不服从正态分布。

1Skew：偏度表示误差项分布的偏斜程度。当偏度为0时，表示误差项分布对称；当偏度大于0时，表示误差项分布右偏；当偏度小于0时，表示误差项分布左偏。

1Kurtosis：峰度表示误差项分布的峰态程度。当峰度为0时，表示误差项分布与正态分布相同；当峰度大于0时，表示误差项分布更尖锐；当峰度小于0时，表示误差项分布更平缓。

1Durbin-Watson：杜宾-沃森检验用于检验误差项之间是否存在自相关。当Durbin-Watson的值接近2时，表示误差项之间不存在自相关；当Durbin-Watson的值小于2时，表示存在正向自相关；当Durbin-Watson的值大于2时，表示存在负向自相关。

以上是OLSRegressionResults的各项指标的解释。这些指标可以帮助我们评估回归模型的质量和拟合程度，并进行进一步的统计分析和推断。

本文以一个最简单的特征为例，对特征进行初步的描述和分析，后面我们会继续构建更丰富的特征，并进行分析和训练。

我们已经将本文用到的全部源数据+源代码+Python环境打包好了，做到开箱即用，一键运行，感兴趣的朋友可以下载，自己多动手才是学习的最佳途径。

感兴趣的朋友可私信我获取。

文章为作者独立观点，不代表股票程序化软件自动交易接口观点

股票高频特征构建与分析01