上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

机器学习系列:机器学习发展历程与量化投资的展望-220805(31页).pdf

编号:89807 PDF 31页 1.19MB 下载积分:VIP专享
下载报告请您先登录!

机器学习系列:机器学习发展历程与量化投资的展望-220805(31页).pdf

1、 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 Table_Info1Table_Info1 证券研究报告证券研究报告 Table_Title 证券研究报告/金融工程研究报告 机器学习发展历程与量化投资的展望机器学习发展历程与量化投资的展望-机器学习系列之一机器学习系列之一 报报告摘要:告摘要:Table_Summary 人工智能正当时人工智能正当时 人工智能是通过研究人类活动的规律,构造具有一定智能的人工系统来模拟人类的某些思维过程和智能行为,去完成以往需要人的智力才能胜任的工作。随着科技的进步与发展,人工智能技术被广泛应用于各个领域。机器学习是人工智能的一种形式,深度学习是机器

2、学习中基于神经网络发展出的类别。机器学习作为传统量化的补充与技术革新机器学习作为传统量化的补充与技术革新 一方面,机器学习使得对海量数据的分析运用成为可能,另一方面,机器学习可以捕捉传统量化中难以发现的,数据之间的潜在关系。监督学习作为一类典型的机器学习方法,从假设空间的选择以及总体优化目标与数据集优化目标的不一致性可以引出监督学习的三大问题:估计、优化与泛化。机器学习机器学习的流程与发展历程的流程与发展历程 机器学习的一般流程包括数据获取、数据处理、模型选择、模型训练、模型评估、模型调参与模型预测。从监督学习、无监督学习、概率图模型、深度学习与强化学习这五个大类对广义的机器学习发展历程进行总

3、结与回顾,对有重要意义的经典算法进行介绍。机器学习在量化机器学习在量化投资投资研究中应用广泛研究中应用广泛 在量化选股层面的应用主要分为因子端与模型端。因子端包括因子挖掘,另类因子分析挖掘,因子合成等。模型端包括模型算法的改进、创新与运用。强化学习在算法高频交易与衍生品对冲方面也有重要的应用。作为一个示例,我们对 GAT 模型进行改进,构建 ResGAT 模型对关联收益和特有收益分别挖掘,并显示出不错的历史回测效果。未来机器学习与量化投资的未来机器学习与量化投资的展望展望 数据驱动与模型驱动将互补融合。算法的不断改进或将提升机器学习在低信噪比数据上的表现。预测对象与应用场景会更多地被关注。因子

4、挖掘将更关注本身的逻辑,而非过度挖掘。同时因子库、模型库以及策略库会更加多样化。解释机器学习与市场多种状态转换下的模型适应或模型轮换可能是未来机器学习需要关注的问题。风险提示:风险提示:模型失效风险,回测基于历史数据,不代表未来表现。Table_Date 发布时间:发布时间:2022-08-05 Table_Invest Table_Report 相关报告 仓位普遍提升,消费获更高权重布局-2022年二季度权益基金季报分析-20220723 今朝不似昨朝寒-东北金工2022年中期策略报告-20220704 东北金工:行业生命周期&动态估值下的成长价值选股-20220516 东北金工双月报:资产

5、表现回顾及市场展望 -20220502 东北金工:均衡配置或为现阶段主基调-20220425 Table_Author 证券分析师证券分析师:王琦王琦 执业证书编号:S0550521100001 021 61002390 wangqi_ 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 2/31 金融工程研究金融工程研究报告报告 目目 录录 1.导言及机器学习简介导言及机器学习简介.4 1.1.人工智能正当时.4 1.2.机器学习与人工智能.4 1.3.传统量化与机器学习.5 1.4.数学解释.6 1.5.建模的一般流程.9 2.发展历程与经典算法介绍发展历程与经典算法介绍.13 2.

6、1.监督学习.13 2.2.无监督学习.15 2.3.概率图模型.16 2.4.深度学习.18 2.5.强化学习.19 3.机器学习在量化研究中的应用与示机器学习在量化研究中的应用与示例例.21 3.1.研究概述.21 3.2.应用图神经网络预测的示例.22 4.未来与展望未来与展望.26 5.参考文献参考文献.28 6.风险提示风险提示.29 NBnWbWjZ6VqQpPtM8OdN8OsQrRmOpNeRnNxPeRqQxOaQpPuNvPrNmONZsRpO 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 3/31 金融工程研究金融工程研究报告报告 图表目录图表目录 图图 1:

7、人工智能、机器学习与深度学习的关系:人工智能、机器学习与深度学习的关系.5 图图 2:含有一个隐藏层的神经网络:含有一个隐藏层的神经网络.7 图图 3:拟合与过拟合示意图:拟合与过拟合示意图.8 图图 4:监督学习的三大问题:监督学习的三大问题.9 图图 5:机器学习的建模流程:机器学习的建模流程.9 图图 6:K 折交叉验证折交叉验证.12 图图 7:监督学习发展:监督学习发展.13 图图 8:线性判别分析:线性判别分析.14 图图 9:KNN 示意图示意图.14 图图 10:SVM 示意图示意图.15 图图 11:随机森林示意图:随机森林示意图.15 图图 12:无监督学习发展:无监督学习

8、发展.15 图图 13:概率图模型发展:概率图模型发展.17 图图 14:状态空间模型:状态空间模型.17 图图 15:深度学习发展:深度学习发展.19 图图 16:强化学习发展:强化学习发展.20 图图 17:强化学习示意图:强化学习示意图.20 图图 18:训练集与数据集划分:训练集与数据集划分.22 图图 19:Res-GAT 模型架构模型架构.24 图图 20:Res-GAT 策略的分层回测策略的分层回测.25 图图 21:Res-GAT 策略与策略与 Benchmark 的对比回测的对比回测.25 表表 1:回测结果:回测结果.25 请务必阅读正文后的声明及说明请务必阅读正文后的声明

9、及说明 4/31 金融工程研究金融工程研究报告报告 1.导言及机器学习简介导言及机器学习简介 1.1.人工智能正当时 1956 年,人工智能(Artificial Intelligence,AI)的概念在计算机达特茅斯会议上被提出。AI 赋予机器像人一样思考,并做出反应的能力。它的本质是通过研究人类活动的规律,构造具有一定智能的人工系统来模拟人类的某些思维过程和智能行为,去完成以往需要人的智力才能胜任的工作。如今,大数据、GPU 和复杂算法的出现与进步,大大加速了人工智能的发展。2016年,由 DeepMind 开发的 AlphaGo 以 4:1 战胜了韩国棋手李世石,让人工智能备受关注,掀起

10、了人工智能的浪潮。这一新兴学科凭借其广阔的发展前景吸引了众多研究者,目前已经在计算机视觉、自然语言处理、金融科技等领域中得到了广泛的应用,并取得了丰硕的成果。在金融科技领域,人工智能的创新应用包括信用评分、智能数据、智能投顾等等。可以根据投资者的资金、风险偏好及市场现状,辅助传统的投资顾问为客户快速制定智能化、个性化的投资方案。在量化投资领域,它能够依靠历史经验和海量的市场信息较为准确地预测出市场的走势,构建最优的投资组合;通过对舆情等复杂的文本数据进行研究和分析,提取出会对资产价格产生影响的有效信息.虽然目前大多的人工智能只擅长某一特定领域的问题,尚属于弱人工智能,但是已经极大地改变了人们的

11、生活,并且不少机构正在研究可以像人类一样听说读写甚至具有情感与思考的强人工智能。在这个互联网和大数据时代,人工智能的蓬勃发展早已成为必然趋势。在未来,它也会在金融领域中不断创新,推动金融业的前进,创造出无限可能。本篇报告作为机器学习系列的开篇,将着重介绍机器学习的概述与发展,以及其在量化投资上的应用与经验,最后总结面临的挑战并对未来做出展望。1.2.机器学习与人工智能 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 5/31 金融工程研究金融工程研究报告报告 图图 1:人工智能、机器学习与深度学习的关系:人工智能、机器学习与深度学习的关系 数据来源:东北证券 机器学习(Machine

12、 Learning)是人工智能的一个子集,人工智能的范畴还包括自然语言处理、语音识别等方面。机器学习任务主要包括监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、概率图模型(Probabilistic Graphical Model)和强化学习(Reinforcement Learning)。监督学习的训练中数据是有标签的,即每一个输入变量都有对应的输出变量。模型旨在通过建立输入变量和输出变量之间的关系,来预测输出变量。可以根据输出变量的类型对监督学习进行划分。如果输出变量是定量的,那就是回归问题;如果输出变量是定性的,那就是分类问题

13、。无监督学习中,数据集并没有对应的标签,可粗略划分为聚类(Clustering)和降维(Dimensionality Reduction)。概率图模型以 Bayes 学派为主。强化学习是让模型以“试错”的方式在一定的环境中学习,通过与环境交互获得对应的奖励,目标是使得到的奖励最大化,例如交易策略的学习。深度学习(Deep Learning)是机器学习众多算法中的一类,它通常建立在神经网络(Neural Network)之上。通过构建深度神经网络(DNN),计算机可以对大量、复杂、高维的数据进行学习。2012 年,AlexNet 网络的出现展现出深度学习的强大能力,让其成为了机器学习算法的热点问

14、题,开始迅速发展。之后又涌现出了变分自编码器、GAN、ResNet 等热门算法,在图像识别和自然语言处理等领域有非常不错的表现。1.3.传统量化与机器学习 在投资研究与投资决策中,与依靠投资者经验及主观分析来做出投资决策的主观投资不同,量化投资通过对数据的分析建模,依靠指标与模型做出客观的投资决策。在很大程度上,量化投资避免了投资者的主观意愿与情绪对投资收益带来的潜在不良影响。同时,数据、方法以及模型的客观性为投资决策提供了更科学、更可靠的参考依据。然而,传统量化投资在实践当中面临着越来越多的困难。首先是高维度的数据带来的分析困难,研究人员无法同时处理接收并分析海量的数据。在信息维度爆炸式增长

15、的今天,若仅仅依靠研究人员能够处理分析的有限数据,已经很难从市场上获利。其次是对市场中不合理定价或指标的不合理偏移的识别困难。本质上,量化投资的 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 6/31 金融工程研究金融工程研究报告报告 获利来源于市场中的不合理或非理性因素,通过有效的指标识别相应的投资机会,执行投资决策使不合理归为合理,使非理性归为理性,市场会为这种行为支付溢价。随着量化投资参与者的不断增加,市场中不合理因素的持续时间会越来越短,靠人为构造指标捕捉发现这种投资机会的难度也会越来越大。机器学习,或者更广义的人工智能,在很大程度上弥补了传统量化的缺陷。一方面,机器学习框

16、架对张量(Tensor)的处理更为高效,领域内丰富的学术研究积淀、优化算法的不断提升以及硬件设备如 GPU、TPU 的算力支持使得对高维数据的分析、处理运用成为可能。另一方面,机器学习通过非线性的方式,去寻找和挖掘因素与结果之间的潜在关系,对数据与数据之间变化模式进行识别,这种模式可以是确定性的,也可以是某种分布。机器学习可以更加敏锐地捕捉由市场中不合理或非理性因素带来的投资机会,例如,用大量指标综合识别股票池中被低估的、或具有一定成长潜力的股票进行买入,在未来赚取收益;在一些指标如波动率(Volatility)异常变动时,机器学习模型往往可以对这种非理性变动及时识别并给出信号,指导投资者的投

17、资决策。1.4.数学解释 本节我们规范地介绍最为典型的机器学习问题监督学习(Supervised Learning)。监督学习研究特征与标签之间的隐含关系。我们以下均使用机器学习研究的标准记号。假设和分别是取值为和的随机向量(Random Vector),表示特征(Feature),表示标签(label)。我们认为和存在某种关系,即和的联合分布(Joint Distribution)满足(,)。监督学习即是通过数据集估计出最优的分布,来得到最优的条件分布(|),从而近似确定和的关系。为了简便起见,我们接下来假设和之间具有某种确定性的关系=()+,其中:m是某种确定性的函数,定义为估计误差。为了

18、去估计函数,我们构造了一个假设函数空间(Hypothesis Space),然后从 中选择与最为接近的函数作为我们的最优估计。例如,令=1,并且令 =:()=1(),此时假设函数空间由一组基函数(Basis Function)=1,线性生成。如果进一步令=2,1()=1且2()=,则监督学习问题退化为多元线性回归问题。当假设函数空间 =:()=(+),=:()=1(+),此时其表示由一个含有输入层(Input Layer),输出层(Output Layer)以及一个含个神经元(Neuron)的隐藏层(Hidden Layer)的神经网络所能表示的函数集。其中,是激活函数(Activation

19、Function),它为神经网络引入非线性因素。著名的 Universal 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 7/31 金融工程研究金融工程研究报告报告 Approximation Theorem 保证了当足够大(神经元足够多)的情况下,神经网络可以 估计任何一个连续函数。对比神经网络表示的假设函数空间与线性模型表示的假设函数空间,我们发现如果令 ()=(+),=1,.不难看出,二者具有相同的形式,但是区别在于,对于线性模型而言,基函数是固定的,只能通过调整权重来拟合函数,所以模型训练即为寻找最优权重;而对于神经网络而言,虽然有类似于线性模型的基函数,但基函数并非是事先

20、确定的,基函数中也含有需要优化的参数,所以此时模型的训练不仅仅是寻找最优权重,同时也包括寻找最优的基函数族。图图 2:含有一个隐藏层的神经网络:含有一个隐藏层的神经网络 数据来源:东北证券 当我们定义好了假设空间,换句话说就是选择好了模型,接下来就需要训练我们的模型,即寻找 使得与最为接近。为了更好地表述我们的优化目标,我们引入损失函数(Loss Function):来度量与的偏差。那么我们的优化目标便可以写为:min(),).记为模型当中需要被优化的参数,参数空间记为,则对于任意 ,会有唯一一组参数与之对应,这样可以被写为,同时我们的优化目标就可以被写为:min(),)=min(),).在(

21、1,2)=1 2 22时,即为的 OLS 估计。所以至此,我们将一个学习问题转变为参数估计问题,即在参数空间中寻找最优的参数,在损失函数的意义下使得对应的函数与最为接近。然而在实践中,我们通常无法计算损失函数的期望值。作为替代,我们只能在一个数据集中求得损失函数的算数平均,然后对其进行优化。给定一个含有个样本的数据集=,=1,,(,)为一组样本,其中 为样本特征,为样本标签。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 8/31 金融工程研究金融工程研究报告报告 在数据集上,我们的优化问题可以写为:min1=1(),).在数据集上做优化与前文中的期望损失最小的目标其实并不一致,它最

22、终得到的最优参数与数据集的选择有关,换言之,这里得到的最优函数仅在该数据集上取值接近。这就使得我们必须选择更大的数据集来获得一定的泛化性。当数据集太小的时候,很可能会出现过拟合(Overfitting)即和仅在该数据集上取值接近,在新的数据集上却相距甚远。过拟合的本质是当用最小化数据集上的经验损失来代替最小化期望损失时,优化目标发生了较大的偏差。减少过拟合程度,不只可以通过增大数据集的规模,还可以通过正则化(Regularisation)添加惩罚项等技术来实现。图图 3:拟合与过拟合示意图:拟合与过拟合示意图 数据来源:东北证券 作为本节的结束,与监督学习有关的几个问题值得被关注与讨论。首先是

23、估计问题(Approximation),它衡量假设空间与目标函数的距离,即整个假设空间中最优的函数选择与目标函数的距离。主要评估假设空间选择的好坏,即模型与超参数(Hyperparameter)选择的好坏。其次是优化问题(Optimisation),指通过优化算法从初值出发在假设空间中找到最优解的过程。如前文所提到的,通常在数据集上优化时,优化目标与期望损失最小化的目标并不完全一致,这就会导致优化问题得到的最优解与整个函数空间中的最优解不相同。初值、优化算法与数据集的选择会很大程度上影响在函数空间中的优化路径以及最终找到的最优解。最后是泛化问题(Generalisation),它衡量总体的优化

24、问题与在数据集中的优化问题的目标差异,即与的距离。如何降低两个优化目标的偏差,使得更接近,甚至接近目标函数来提升模型的泛化性,同样是一个值得研究的问题。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 9/31 金融工程研究金融工程研究报告报告 图图 4:监督学习的三大问题:监督学习的三大问题 数据来源:东北证券 1.5.建模的一般流程 本节同样以监督学习为例,介绍机器学习在金融数据预测分类的建模流程与经验。图图 5:机器学习的建模流程:机器学习的建模流程 数据来源:东北证券 数据获取:数据获取:为了避免过拟合,提升模型的泛化性,模型训练所需的数据集一般较大,这就需要预先对数据进行获取

25、并处理。为了提升训练的效果,我们一般要求较高的数据质量,即数据准确率高、缺失值少。数据处理:数据处理:作为准备工作中最重要的一环,数据处理很大程度上影响着最终模型的效果。首先需要进行数据清洗,将非标准化格式的数据转为标准化,统一数据的时间频率,将数据质量太低的数据样本剔除掉。对缺失值进行填充,填充方式包括值填充,截面均值填充,时间序列向前填充与向 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 10/31 金融工程研究金融工程研究报告报告 后填充,应在合适的数据类别中选用合适的填充方式。去极值处理,避免异常值对训练结果产生影响。可以在截面进行或时序维度进行,常见的方法有标准差去极值法

26、、中位数去极值法等。标准化(Normalisation)处理,通常来说,由于数据的数量级差异很大,直接使用原始数据可能会让模型的训练变得困难。数据标准化方法可以将数据拉回到同一水平线,同时保持数据的大小顺序。标准化同样可以在截面和时序两个维度上进行,常见的标准化方法包括 Z-score 法和 minmax 法等,其中 Z-score 法类似于正态分布标准化,即序列减去均值后再除以标准差;minmax 法与数据的大小范围有关,会将数据放缩到0,1。不同的标准化方式选择,对最终的训练效果也会有一定的影响。其他处理,可能对于不同的数据或不同的预测目标,会有不同的额外处理方式。比如,在因子数据的处理中

27、通常要做中性化,即行业市值中性化;一些日内的数据可能需要做重采样(Resampling)或高频数据低频化等数据融合处理;当一个序列需要剔除另一些序列带来的影响时,可能需要进行线性回归取残差处理等。特征工程,考虑原始数据中因素之间的相互作用,进行信息的融合即特征提取,避免了重复信息对训练结果的影响,在一定程度上提升了模型的有效性,可类比多元线性回归中的多重共线性的处理。特征工程一方面降低了输入数据的维度,另一方面剔除了冗余信息,使特征与特征之间相关性更低,但仍保留大量原始数据的信息。另外,人工特征工程提取的特征一般具有逻辑性与可解释性,但可能会失去一定的广泛性。在一些深度学习的应用中,通常不需要

28、人工预先做特征工程,因为特征提取一般会在网络的前几层完成,而且特征提取的方式会跟整个网络一起训练。训练集(Training Set)、验证集(Validation Set)以及测试集(Test Set)的划分。将处理好的数据集划分为训练集、验证集和测试集,在训练集上对损失函数在样本内进行优化,并输出在验证集上损失函数的平均值来评估训练效果,最后在测试集上评估模型的样本外表现。为了充分利用数据集,有时会采用滚动训练测试的方法。模型选择:模型选择:与自然语言处理(NLP)和计算机视觉(CV)不同,机器学习在金融上的建模应用多是在表格化数据上进行的。在模型选择时要匹配数据集的大小以及应用的场景,有时

29、还要考虑金融模型本身的现实意义。例如,在低频的情景中,数据相对匮乏,多数场景只需要大致把握趋势而非预测具体的值,此时就应选择相对简单的模型,会更加的稳健而且可能具有一定的解释性。通常来说,盲目增加模型的复杂度,或者错配应用场景,会导致模型难以训练或者出现过拟合。在高频数据或高维度的数据建模上,深度学习将会是一个更好的选择,在这种情形它可以显著地打败传统的机器学习模型。最后,为了确保之后建模工作的有效性,一个有用的经验是,在开始模型选择之前,需要对数据之间的关系有整体的把握,例如,可以先采用自动机器学习技术(Automated Machine Learning)对数据做试验,如 Autogulo

30、n 2。AutoML 技术通过模型集成(Embedding)同时训练多个简单的机器学习模型,再融合各个模型的结果达到较好的预测效果。AutoML 是不需要手动调参的,它的便捷性和不错的性能 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 11/31 金融工程研究金融工程研究报告报告 使我们可以将它作为一个试验模型。模型训练:模型训练:如上节,模型的训练本质上就是寻找最优的参数使得在训练集上的损失函数平均值最小。参数的优化算法中,最经典的是梯度下降法(Gradient Descent Method)。在最小化问题中,梯度的反方向便是函数值下降最快的方向。梯度下降的更新公式可以写为:+1

31、=(1=1(),),其中,是学习率(Learning Rate)即每次对参数更新的程度。从更新公式中可以看出当遍历完一次训练集时,参数才会更新一次。在凸优化问题(Convex Optimisation)上,梯度下降表现十分优越,它总能找到最优的参数。然而实际问题中非凸问题占绝大多数,依靠梯度下降的更新可能会停止在某个局部最优(Local Minimum)而非全局最优(Global Minimum)。相比于梯度下降法更新的保守性,随机梯度下降(Stochastic Gradient Descent Method)就显得十分激进。随机梯度下降的更新公式可以写为:+1=(),)=1,.可以看出参数仅

32、通过一个样本来计算梯度并更新,随机梯度下降解决了在局部最优处停止的问题,但是这种参数更新方法非常不稳定。为了将两者的优势结合起来,mini-batch 梯度下降法被提出。它既不用在全样本中计算梯度取平均,也不只在单个样本上计算梯度,它将训练集分成了个 mini-batch,在每个 batch 上计算梯度并更新一次参数。Mini-batch 梯度下降的更新公式可以写为:+1=(1=1(),).=1,.其中,表示每个 mini-batch 的大小(Batch Size)。另外,还有很多其他的参数优化算法如动量(Momentum),Nesterov 动量算法等,还有包括 AdaGrad,Adam 等

33、自适应学习率算法,详见2。在模型训练时,我们可以分别在训练集和验证集上观察损失值。一般来说,在训练集和验证集上的损失均会逐渐减小。如果观察到训练集上损失减小,但验证集上的损失长时间没有下降并处于波动状态,那表明模型目前在该数据集上无法识别潜在的关系。当在训练集上的损失减小速度变慢时,一旦在测试集上的损失有增大的趋势,则应提前停止训练,减少过拟合。通常在两个损失值均下降至平稳波动时,表明模型训练基本完成。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 12/31 金融工程研究金融工程研究报告报告 模型评估:模型评估:模型的评估需要在样本外进行,通常会计算准确率(Accuracy Sco

34、re)来衡量预测结果与真实标签的差异。例如在分类问题中可以是分类结果的正确率,数据类预测问题中可以是预测结果与真实标签的 MSE(Mean Square Error)。在样本外数据中准确率越高则说明模型表现越好。模型评估可以和模型训练同时进行,通常使用交叉验证(Cross Validation)的方法,例如折交叉验证(-Fold Cross Validation)只将原始数据集划分为训练集和测试集,再将训练集分成份,每次选择其中 1份数据对模型进行训练,并在剩余的1份上计算准确率。重复进行次训练,记录每次训练结束后在剩余数据上的准确率,最终求平均可以得到折交叉验证对模型的评价结果。图图 6:K

35、 折交叉验证折交叉验证 数据来源:东北证券 模型调参:模型调参:即超参数搜寻(Hyperparameter Tuning),超参数指模型训练开始之前便设定的参数,例如学习率,或者深度学习中的全连接层(Fully-Connected Layer)层数,每层的神经元数量等等。超参数搜寻可以帮助我们找到一个较好的模型架构(Architecture)。在最初训练时,初始的模型架构一般是由经验确定的,主要来自于前人在类似项目中的研究。在超参数搜寻时,一般会采用网格化搜寻方式,即遍历给出的超参数组合来设定模型并训练。可以结合交叉验证,比较每组超参数组合下的模型在交叉验证下的准确率,选择最优的超参数。模型预

36、测:模型预测:在最终确定了较优的模型架构之后,会在样本外数据即测试集上做预测评估,可以在测试集上计算准确率对模型的样本外表现进行评价。在应用于因子合成或收益预测等方面的模型中,一般可以依据模型的输出做出交易策略,然后对策略进行分层回测,评价最终的收益表现。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 13/31 金融工程研究金融工程研究报告报告 2.发展历程与经典算法介绍发展历程与经典算法介绍 我们本节简要介绍机器学习几大分支的发展历程,并列举其中一些经典的、具有重要意义的算法与模型。2.1.监督学习 图图 7:监督学习发展:监督学习发展 数据来源:东北证券 1936 年 Fish

37、er 提出线性判别分析(Linear Discriminant Analysis),亦称 Fisher 判别分析,与之前被提出的主成分分析(PCA)不同,它是一种有监督的数据降维与分类算法。其基本思想是,将高维数据投影到低维的线性空间中,使得投影后的组内样本点更加集中,而组与组之间更加分散。1950 年左右,朴素贝叶斯分类器(Naive Bayes Classifier)被提出并应用,它基于最基本的贝叶斯理论,假设特征相互独立,根据贝叶斯公式(Bayes Formula)利用先验信息去计算样本被分类到每一个类别的概率。1958 年感知机(Perceptron)作为神经网络的前身,它结合了当时对

38、脑细胞的研究以及机器学习的成果,首次被提出并用于图像识别。但由于种种不合预期的原因,例如无法识别多种类的模式等,当时对神经网络的研究进程也因此停滞。同年,逻辑回归(Logistic Regression)也是当时分类问题研究上的重要成果。其基本思想是,用广义线性模型去预测样本被分类到每个类别的概率。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 14/31 金融工程研究金融工程研究报告报告 图图 8:线性判别分析:线性判别分析 图图 9:KNN 示意图示意图 数据来源:东北证券 数据来源:东北证券 1967 年 K 近邻算法(KNN)被提出,本质上就是根据现有的带标签的数据集,去确定

39、最优的 K 值,使得新样本的类别由与它最近的 K 个样本的类别所决定。相比于逻辑回归,KNN 是非参数模型,由数据驱动可能更能反应实际。1986 年反向传播算法(Backpropagation)被提出,即一种数值计算方法论,通过链式法则来计算损失函数对于模型中参数的偏导数。这对于之后神经网络的发展起到了奠基作用。1990 年前后,决策树(Decision Tree)的三种算法 ID3,C4.5,CART被提出。作为树分类器,它有着很强的可解释性。简单便捷、易于理解等优点使其被广泛应用于各个领域。1995 年,作为增强学习(Boosting)的一个重要算法,AdaBoost 被首次提出,它是一种

40、自适应的增强分类器,逐步选择分类效果好的弱分类器并计算权重,同时调整各数据的权重使无法被弱分类器分类的数据权重更大。集成各弱分类器的能力,很大程度上提高了模型精度。同年,著名的支持向量机(SVM)算法也被提出。SVM 希望在线性可分的数据集上寻找最优的超平面使得距离两个类别最近的样本(支持向量)与超平面的距离之和最大,通过凸优化的方法求解最优超平面。后来的软间隔方法(Soft Margin)对于分错样本提供了一个容忍度,核方法(Kernel Method)将低维空间中线性不可分的数据映射到高维空间使其线性可分,使 SVM 能够被应用于非线性分类。SVM 的可解释性,算法的有效性以及背后强大的理

41、论支持,使其成为当时最为流行的机器学习算法。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 15/31 金融工程研究金融工程研究报告报告 图图 10:SVM 示意图示意图 图图 11:随机森林示意图随机森林示意图 数据来源:东北证券 数据来源:东北证券 2001年,将集成学习的Bagging与决策树相结合而诞生的随机森林(Random Forest),很大程度上增强了决策树的分类效果。树与树之间没有关联,多个随机性的引入使之不容易过拟合。实现简单,训练速度快,无需额外的特征选择等优点使其被广泛应用于分类与回归。2009 年距离度量学习出现,例如去学习距离度量而非直接使用欧式距离,在

42、KNN 中这种方法提升了模型的准确度。同时,这种想法也推动了学术界在新领域的研究。2.2.无监督学习 图图 12:无监督学习发展:无监督学习发展 数据来源:东北证券 无监督学习起源于 1901 年 Pearson 的主成分分析(PCA),这是一种经典的线性降维方法。其思想是通过对协方差矩阵的特征值分解或 SVD 分解,通过对特征值排序选取相应的特征向量,将高维特征映射到低维上,达到降维的目的。降维可以在效率层面带来大幅提升,所以 PCA 被广泛地应用到数据预处理之中。直到 1998 年,降维算法出现了较大的创新,PCA 首次与核方法结合在一起,首先将数据集通过核函数(Kernel Functi

43、on)映射到高维空间,然后在高维特征空间中做 PCA。相比于传统的 PCA,核 PCA 对于更一般的,线性不可分的数据集有更好的降维效果。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 16/31 金融工程研究金融工程研究报告报告 2000 年,始于局部线性嵌入(Locally Linear Embedding)的流形学习(Manifold Learning)引领了降维算法的新浪潮。流形(Manifold),即高维空间中局部具有欧式空间性质的曲面。局部线性嵌入假设每个数据点可以被其邻域内的数据点线性表出,当被映射到低维空间时,局部线性关系依然保持,由此可以得出在低维特征空间中数据点的

44、结构。2008 年 t-SNE 被提出,同样作为非线性降维方法,它可以更好地捕获高维数据的复杂流形结构,同时也被广泛用于数据可视化。t-SNE 通过高维数据空间中的点与点的距离以及距离分布的密度函数构建相似度矩阵,再将高维数据映射到低维空间,使得所有数据点到其余点的相似度与对应低维空间中相似度的 KL 散度(KL Divergence)总和最小。无监督学习的另外一个应用方面就是聚类。聚类,即在不给定样本标签的前提下,利用样本特征对样本进行分类。最早的聚类算法是 1963 年出现的层次聚类算法(Hierarchical Clustering),其思想是计算不同类别的相似度类创建一个有层次的嵌套的

45、树。1967 年出现 K 均值(K-means)算法,想法是在数据集中随机选择类别中心,然后将数据集中每个中心的 K 近邻归为该类,再更新类别中心为类别数据中心,重复以上过程直至收敛。另外,最优的 K 值可以通过肘方法(Elbow Method)确定。作为当时非常知名的聚类算法,它与它之后的改进算法被应用于图像压缩,种类识别等各个领域。1977 年,著名的 EM 算法出现,它包括求期望步骤与最大化似然函数步骤。被广泛用于聚类和带有缺失数据的极大似然估计问题。直到 2000 年左右,一类基于图论(Graph Theory)的聚类算法,谱聚类(Spectral Clustering)被提出。它将数

46、据集看成一个无向权重图,每个数据点是图的顶点,边的权重按照点与点的距离确定,距离越近权重越高。谱聚类的思想是进行切图使得子图与子图之间边的权重和尽可能低,子图内部边的权重和尽可能高。谱聚类相比于传统算法更加有效,尤其是对于稀疏数据的处理;另外由于过程中还进行了降维,所以它很大程度上降低了高维数据的聚类复杂度。2.3.概率图模型 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 17/31 金融工程研究金融工程研究报告报告 图图 13:概率图模型概率图模型发展发展 数据来源:东北证券 最简单的概率图模型是 1950 年代提出的朴素贝叶斯模型(Naive Bayes Model),模型具有

47、一个非常强的假设,朴素贝叶斯假设,即样本特征满足条件独立性。在这个假设下,利用贝叶斯公式对整个模型进行求解。与之类似的一类模型为高斯混合模型(Gaussian Mixture Model),高斯混合模型弱化了朴素贝叶斯假设,它引入了隐变量并假设在隐变量给定下,特征的条件分布为 Gaussian。高斯混合模型与朴素贝叶斯模型均为生成模型。1960 年出现了隐马尔可夫模型(Hidden Markov Model,HMM),它属于生成模型,也是一类状态空间模型(State Space Model)。与高斯混合模型不同的是,隐变量由单个随机变量变为了一个序列,并且 HMM 有着两个假设:齐次 Mark

48、ov 性,即隐变量序列满足 Markov 性;观测独立性,即观测变量仅与对应的隐变量相关,观测变量之间相互独立。HMM 中观测过程(Observation Process)与信号过程(Signal Process)均为离散分布的随机过程,HMM 的动态特征由信号变量到信号变量和信号变量到观测变量的转移概率矩阵描述。卡曼滤波器(Kalman Filter)与 HMM 具有相同的概率图表示,它是一种状态空间模型,同时它也是线性高斯模型,即信号更新以及信号到观测均为线性形式,且条件概率服从高斯分布。图图 14:状态空间模型:状态空间模型 数据来源:东北证券 请务必阅读正文后的声明及说明请务必阅读正文

49、后的声明及说明 18/31 金融工程研究金融工程研究报告报告 1974 年,马尔可夫随机场(Markov Random Field)出现,马尔可夫随机场是一类无向图,而 1985 年出现的贝叶斯网络(Bayes Network)是一类有向图。它们对于之后更复杂算法的提出起到了奠基的作用。同样在 1985 年左右,玻尔兹曼机(Boltzmann Machine)出现。玻尔兹曼机是一类引入了隐变量的马尔可夫随机场,它将模型中的随机变量分为观测变量与隐变量,并假设这些随机变量的联合分布为一类指数族分布。玻尔兹曼机是一类基于能量的无向图,当系统达到稳定时,模型中的转移概率可以被估计。1986 年左右,

50、由于玻尔兹曼机的复杂性,受限玻尔兹曼机(Restricted Boltzmann Machine)被提出。它在玻尔兹曼机的基础上增加了条件独立性,即观测变量之间无连接,隐变量之间也无连接,隐变量仅与观测变量相连。2001 年,条件随机场(Conditional Random Field)被提出,条件随机场不同于之前的生成模型,它是一类判别模型。在给定观测变量的条件下,其余随机变量组成一个马尔可夫随机场,即为一个无向图。条件随机场相比于状态空间模型,它打破了齐次 Markov 性的假设。2.4.深度学习 1958 年感知机的诞生以及 1986 年反向传播算法的出现,为深度学习奠定了基础。1989

51、 年卷积神经网络(CNN)首次被提出,相比于多层感知机(MLP),共用卷积核的方式很大程度上减少了模型中需要被训练的参数,最初的模型架构并不复杂,但在图像识别等方面拥有较普通的前馈神经网络(Feedforward Neural Network,FNN)更好的表现。2000 年,一类非常重要的循环神经网络(RNN),长短期记忆神经网络(LSTM)被提出。在原始的 RNN 上做出改进,通过输入门、输出门与遗忘门对信息进行汇聚与处理,保留了一部分长期信息,在一定程度上缓解了梯度消失和梯度爆炸等问题。在序列数据的建模上,LSTM 相比于之前的网络结构有着更好的表现。然而,由于当时算力不足,更深的网络结

52、构往往很难训练,梯度消失问题依然没有被解决,另外就是一直被人诟病的网络的可解释性,所以在当时有着坚实理论推导的 SVM 算法一直占据主导。2009 年,深度信念网络(DBN)与深度玻尔兹曼机(DBM)先后被提出,其中 DBM是多个受限玻尔兹曼机(RBM)相连构成的无向图,而 DBN 是在最远离可视层处为 RBM,其余层为贝叶斯信念网络的混合模型。在当时 DBN 被当作预训练模型,有着不错的表现。同年,图神经网络(GNN)出现,通过顶点、边和全局的信息汇聚对属性做变换,但不改变图的结构,可以被用于关系预测、顶点分类等问题上。直到 2012 年,AlexNet 的出现才使得神经网络重新进入人们的视

53、野,并逐渐成为机器学习算法的热点。AlexNet 是一个基于 CNN 的网络架构,它在图像识别方面,相比于当时最先进的机器学习算法有着显著的提升。从此,CNN 被广泛应用于计算机视觉的各类问题。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 19/31 金融工程研究金融工程研究报告报告 图图 15:深度学习发展:深度学习发展 数据来源:东北证券 2013 年,一种深度生成模型,变分自编码器(VAE)被提出。不同于自动编码器(AE),它将输入变量通过近似推断网络编码为隐变量的概率分布而非确定值,然后再利用生成网络还原原始数据的概率分布。实际上,编码器用神经网络得到隐变量的近似概率分布去

54、拟合其真实的分布,通过最小化 KL 散度实现。2014 年,作为深度生成模型中最热门的算法,生成对抗网络(GAN)被提出。GAN通过判别器与生成器对抗学习,在各种生成式任务上发挥出强大的威力。另外,一类循环神经网络 GRU 被提出来解决长期记忆和反向传播中的梯度等问题。GRU 相比于 LSTM,参数更少易于训练,在不过度牺牲模型有效性的前提下,拥有更高的计算效率。同年,在自然语言处理领域一类重要的模型架构 seq2seq 被提出。它融合了 RNN 与编码器解码器的架构,在序列转换例如机器翻译等领域有着广泛的应用。2015 年,ResNet 出现,它在基于 CNN 的网络架构中加入了残差连接,很

55、大程度上缓解了由于网络架构的加深而导致的模型性能下降以及难以训练的问题。ResNet 这样的网络架构,在图像识别上相比于在当时其它先进的模型,有着更好的表现,并被广泛应用于计算机视觉领域,同时也启发后续研究在 ResNet 的基础上改进。2017 年,具有里程碑意义的模型 Transformer 被提出。与之前的序列预测模型不同,Transformer的编码器和解码器不再使用 RNN类模型,它使用注意力机制(Attention)作为信息提取与汇聚的单元,同时在编码器和解码器上均使用了残差连接。Transformer 在自然语言处理方面有着非常好的表现。2018 年,BERT 被提出。BERT

56、是一类双向的基于 Transformer 块的序列预测模型,它可以利用两侧的信息来预测中间的信息,它在自然语言处理的各种问题上都有应用,模型表现非常好。BERT 作为预训练模型,被广泛应用到自然语言处理任务中,在此之前,预训练仅大量出现于计算机视觉领域。2.5.强化学习 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 20/31 金融工程研究金融工程研究报告报告 图图 16:强化学习发展:强化学习发展 数据来源:东北证券 图图 17:强化学习示意图:强化学习示意图 数据来源:东北证券 最基本的强化学习建立在马尔可夫决策过程(Markov Decision Process,MDP)上,

57、当模型的动态特征已知时可以按照动态规划(Dynamic Programming,DP)进行迭代求解。1988 年,时间差分算法(Temporal-Difference Method,TD)被应用于价值函数的迭代计算,它与类似的蒙特卡洛算法(Monte Carlo Method,MC)一样并不需要预先知道动态特征。本质上它们均可以看作是 DP 的近似算法。1989 年,经典的强化学习算法 Q-学习(Q-learning)被提出,它类似于 DP 中的价值迭代算法,但无需预先知道动态特征。基本思想是将状态动作价值函数 Q 编制为一个 Q 表,按照每一步得到的经验按一定的学习率更新 Q 表,更新时第一

58、步的动作按照一个设定的策略选取,下一步的动作按照贪心策略(Greedy Strategy)选取,与原策略不同,所以是离轨的(Off-policy)。重复以上步骤,最终得到最优策略对应的Q 表。1994 年,SARSA 算法被提出,与 Q-learning 不同的是,SARSA 是同轨的(On-policy),即更新时下一步的动作依然按照原策略进行选取,它相对于 Q-learning 更加保守。2013 年前后,深度学习与强化学习的结合,深度 Q 学习(Deep Q-learning)出现。它用神经网络去拟合 Q 函数,抛弃了传统 Q-learning 的 Q-表,使它可以处理较大的 请务必阅读

59、正文后的声明及说明请务必阅读正文后的声明及说明 21/31 金融工程研究金融工程研究报告报告 状态空间与动作空间,或者连续的状态空间。以 Deep Q-learning 为代表的深度强化学习被广泛用于游戏、机器人、自动驾驶等各个领域。2014 年左右,一些基于策略的(Policy-based)优化算法被提出。与之前的基于价值的(Value-based)算法不同,它整体评估一个策略,然后基于评估进行优化。它与深度学习联系紧密,被广泛应用于各个领域。3.机器学习在量化研究中的应用与机器学习在量化研究中的应用与示示例例 3.1.研究概述 机器学习在量化研究中有着广泛的应用,本节简略对应用做出概括与分

60、类并给出一些具有代表性的例子。在量化选股层面,机器学习主要在因子端与模型端做出贡献。近年来,基于机器学习的因子挖掘算法层出不穷,如借助遗传规划(Genetic Programming)算法通过输入基础因子与算子构造并挖掘新的有效因子。传统量价类因子以及财务因子已经难以满足量化投资对于Alpha的追求,另类数据作为传统因子的补充正逐渐成为Alpha收益的来源之一。另类数据的分析与挖掘在很大程度上依赖于机器学习,如采用机器学习算法对消费数据、网络推文、新闻舆情等非传统内容进行研究和分析,参考12,构建另类因子,挖掘出对股票价格产生影响的有效信息,有时能取得比传统因子更好的效果。相比与传统的等权因子

61、合成,或 IC 加权因子合成,机器学习提供了非线性的因子合成方法。例如 Xgboost,卷积神经网络以及循环神经网络等考虑了因子之间的差异性以及交互作用的方法,致力于发现数据背后隐藏的非线性关系,在一些场景中可能更有优势。机器学习模型有时也被用于组合优化,例如13中分别 应用 了传 统的 强化学 习算 法 Q-learning 以及 循环 强化 学习(Recurrent Reinforcement Learning)进行风险资产与无风险资产的配置以及优化。高频领域相对于低频,数据集的规模大幅扩大,并且高频数据之间可能存在着相对稳定的可识别的模式,这意味着机器学习在高频领域可能有着更好的表现。在

62、算法与高频交易中,传统的基于随机最优控制的模型,往往需要对市场当中的变量进行建模并描述为一组随机微分方程(SDE),在 SDE 的条件下通过调整控制过程(Control Process)去优化一个期望效用(Expected Utility)。由于交易本身与强化学习问题设定的相似性,强化学习也被用于建立交易模型。例如14中通过基于 LSTM的循环强化学习模型构建了算法交易策略。另外,在高频数据低频化方面,机器学习也有一定的应用,如15中将 Rough Path Theory 中的概念 Signature 与循环神经网络结合为 LogSig-RNN,它善于处理高波动性的序列,在每一小段中做信息的融

63、合汇聚,接下来通过 RNN 进行预测。在衍生品的对冲方面,16利用 Q-learning 在 BlackScholes 假设下,不考虑交易成本,构建了衍生产品的对冲策略。17提出了深度对冲(Deep Hedging)的概念,这是一种完全数据驱动的方法,在不对市场模型有额外假设的前提下,通过循环强化学习构建了衍生品的对冲策略,并且可以推广到衍生品组合以及复杂的场外衍生品中。在金融数据生成方面,18通过对生成对抗网络(GAN)族模型的改进,成功学习到标的资产价格与其隐含波动率的分布,并可用于在非参数的情况下对期权价 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 22/31 金融工程研究

64、金融工程研究报告报告 格以及标的价格的模拟生成。3.2.应用图神经网络预测的示例 作为机器学习系列中的策略初探,同时也为了更深入地介绍机器学习在量化投资的应用流程,我们这里给出了一个应用图神经网络的研究示例(仅为研究示例并不作为投资策略),后续还需要进一步的研究,其基础框架可参考9和10。资产的价格变动一方面受到宏观中观因素或行业本身的影响,另一方面也受到资产自身的驱动因素影响,所以在一定程度上,其可以看作共有因素与特有因素的映射。在选股方面,传统的机器学习或者深度学习算法更加注重对单个资产时序信息的挖掘,即用股票过去一个时间段内的因子去预测或分类,这样往往会忽略股票与股票之间的影响,即某些共

65、有因素的影响。图神经网络相比与传统的序列预测模型,更善于挖掘不同样本之间的联系。受到10的启发,我们提出了带残差连接的图注意力网络(ResGAT),其是对图注意力网络(GAT)9进行改进,使用 GAT 去提取关联信息,再加入一个前馈神经网络去提取特有信息,两个模块通过残差连接。我们基于 ResGAT 利用 Alpha101 11对中证 500各成分股进行收益率预测,并在一定程度上构建了有效的选股策略,在回测区间内得到了较好的结果。数据处理:数据处理:由于 Alpha101 因子起始时间的原因,我们选择 2016 年 1 月 1 日至 2022 年 1 月 1 日中证 500 成分股每只股票对应

66、的 Alpha101 因子值(日频)作为特征数据,同样通过每个交易日每只股票的收盘价计算出未来一日收益率作为标签。由于缺失值数量较少,我们使用均值进行填充,然后对数据进行标准化处理。我们将每日 500 只股票的特征数据以及对应的标签作为一个样本,以便通过图神经网络挖掘其关联信息。将 2016 年 1 月 1 日至 2020 年 1 月 1 日的样本作为训练集,2020 年 1 月 2 日至 2022 年 1 月 1 日的样本作为测试集。图图 18:训练集与数据集划分:训练集与数据集划分 数据来源:东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 23/31 金融工程研究金融工

67、程研究报告报告 模型架构:模型架构:ResGAT 网络模型主要分为关联信息挖掘模块与自有信息挖掘模块。前者为一个图注意力网络(GAT),将样本矩阵输入到网络中,通过线性变换得到每只股票的特征信息,其构成空间中的点,点之间有边进行连接。=,.首先要确定每条边的权重,对于任意两个点即两只股票的特征信息与,通过一个带激活函数的线性层表示特征之间的相似度,股票通过对所有与之相连的股票特征求相似度,再通过 softmax 函数映射到 0 到 1 之间即得到权重。=(,),=expexp.接下来用边的信息去更新点的信息,即与该点相连的其余点按照边的权重对点的特征求加权和,如下式。=().事实上,我们一般使

68、用多头注意力机制(Multi-head Attention Mechanism),即通过多个注意力层重复如上操作,最后将结果进行拼接,得到考虑股票关联信息之后的股票特征。之后将其分别输入到两个不同的全连接层中,第一个是预测层得到可由股票间的关联信息或共有因素解释的收益率 1,第二个输出为可用来解释关联信息的因子值,其形状与相同。1=1(),=1().另一个模块是股票的自有信息挖掘模块,由一个前馈神经网络构成。残差 表示可用来解释自有信息的因子值,将 输入到该预测网络中,输出结果为可由股票自身特有信息解释的收益率 2。最后将两个收益率相加得到最终的预测收益率。2=2(),=1+2.流程图由下所示

69、:请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 24/31 金融工程研究金融工程研究报告报告 图图 19:Res-GAT 模型架构模型架构 数据来源:东北证券 模型中的所有参数均可以被训练,训练过程使用 mini-batch 的方式,损失函数选择均方误差 MSE,优化器选择 Adam。回测结果:回测结果:我们按照模型的预测结果构建了基本的选股策略进行回测,每个交易日用模型得到中证 500 成分股未来一日预测收益率,按照预测值排序,选择持有数值最大的 10%,按照市值占比确定持仓比例。回测区间为 2020 年 1 月 2 日至 2022 年 1 月 1 日,交易费用按双边万分之三计算

70、。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 25/31 金融工程研究金融工程研究报告报告 图图 20:Res-GAT 策略的分层回测策略的分层回测 数据来源:东北证券,wind 图图 21:Res-GAT 策略与策略与 Benchmark 的对比回测的对比回测 数据来源:东北证券,wind 表表 1:回测结果:回测结果 期末净值期末净值 年化收益年化收益 夏普比率夏普比率 最大回撤最大回撤 年化超额收益年化超额收益 ResGAT 1.7690 35.25%1.361 0.168 13.45%GAT 1.5537 26.28%1.084 0.179 5.69%数据来源:东北证券

71、基线为中证 500 指数,对比模型为仅用于提取关联信息的 GAT 模型。分层回测图是指对 ResGAT 模型构造的策略进行分层测试。在对比回测图中,基于模型 ResGAT 的策略回测期末净值为 1.7690,年化收益率为 35.25%,最大回撤为 0.168,夏普比率为 1.361;基于对比模型 GAT 的策略,回测期末净值为 1.5537,年化收益率为26.28%,最大回撤为 0.179,夏普比率为 1.084。两者均优于基线且基于 ResGAT 的策略更优。可以看出,我们的 ResGAT 模型能够很好地处理关联信息,可以在一定程度上挖掘并处理共有信息和特有信息,最终得到收益率的预测,指导选

72、股策略交 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 26/31 金融工程研究金融工程研究报告报告 易。4.未来与展望未来与展望 从更高的角度来看,在量化投资中,我们可以将方法论(Methodology)简略分为三类:(1)模型驱动(Model-driven Method):这里模型驱动指数学模型驱动,具体指在假设条件下,用严格的数学理论与数学模型进行建模并应用,部分依赖于闭形式解(Closed-form Solution)的导出,或数值算法(Numerical Algorithm)的运用。数学模型的优势在于简洁优美,解释性强。然而优美的性质来自于简化的假设,虽然在领域内越来越多

73、的研究在于探索并改进放松假设后的结果,但是这依然无法改变纯数学模型难以描述真实关系的事实。数学模型在量化金融领域,大部分集中在等价鞅测度(Equivalent Martingale Measure)下衍生品的定价与对冲(Pricing&Hedging)以及对市场(Market Dynamic)以及波动率的建模,主要运用从随机分析(Stochastic Analysis)到 Rough Path Theory 等的各类数学理论成果。另外在统计套利(Statistical Arbitrage)方面,通过协整分析研究两种标的的关系,通过一些均值回复(Mean-reversion)过程对现象的建模,指

74、导未来的交易。在高频交易方面,在随机最优控制(Stochastic Optimal Control)的强大理论支持下,依靠模型的算法交易(Algorithmic Trading)策略不断涌现。一般而言,数学模型驱动的交易都需要用市场数据对模型进行校准(Calibration),然而模型校准工作有时是难以进行的,尤其是对于较新的数学模型,因为仍然需要大量的理论支持和数值优化算法支持。(2)数据驱动(Data-driven Method):数据驱动指不去事先假定或选择数学模型,通过数据集学习后,直接通过输入数据而得到结果的方法,例如,深度神经网络通常不假设数据与数据之间的显性关系,通过复杂的非线性

75、网络对潜在的关系进行挖掘从而完成建模。所以通常数据驱动方法也被称为无模型方法(Model-free Method),需要重申的是,这里的模型仍然指数学模型,目前的深度学习方法大部分属于数据驱动,而相对较传统的统计机器学习(Statistical Machine Learning)则介于数据驱动与模型驱动之间。数据驱动解决了模型驱动的大部分问题,首先它摆脱了显式的模型限制,在建模时无需进行过多的假设,这意味着无需事先对数据关系设定特定的模型,同时也避免了繁琐的理论推导,大大降低了应用门槛。在复杂的数据关系上,数学建模相对困难,模型的数值求解也难度很大。而数据驱动方法可能能够很好地捕捉这种非线性的

76、变动关系,在强大的优化算法和算力支持下,数据驱动方法即使在样本外,也可能具有很好的表现。但是,包括深度学习在内的数据驱动方法其实是一个黑箱,研究人员很难理解内部复杂计算过程反映出的数据关系,较差的可解释性仍然是数据驱动方法的弊病。(3)模型与数据驱动结合:为了结合模型驱动与数据驱动方法的优势,研究人员可以在拥有坚实理论背景的数 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 27/31 金融工程研究金融工程研究报告报告 学模型中加入由数据驱动的部分,即在一项研究过程中,将一些理论上无法解决或难以解决的部分交给机器学习去完成。例如,在一些最优控制(Optimal Control)问题中

77、,导出的 HamiltonJacobiBellman 方程难以求解,尤其是在一些高维度的情况下,这时候3利用广义FeynmanKac定理将其转化为倒向随机微分方程(BSDE),接下来用深度神经网络对其进行数值求解。同样也可以利用数学模型的理论和思想去改进数据驱动方法,换句话说,可以通过在理论的启发下构造出更加合理、更加有效的网络架构,如4中考虑了动力系统(Dynamic System)的 Euler 差分格式,构造出了一类新的网络结构 PolyNet,它在不加宽网络深度和宽度的前提下,比一阶差分格式的 ResNet 有更好的表现;或者给出更加高效的参数优化算法,如5中提出了一种基于 Pontr

78、yagins maximum principle的深度学习训练方法,避免了基于梯度的优化方法在 saddle points 附近收敛缓慢的问题。总之,我们的第一个结论是:数据驱动的机器学习方法与模型驱动的数学方法在未数据驱动的机器学习方法与模型驱动的数学方法在未来将互补融合。来将互补融合。尤其是在量化研究中,我们不应将自己局限于某种围墙之中,应该接纳一切有效的方法论,融会贯通。机器学习在投资中具有广泛应用,不仅仅来自于机器学习构建的程序化交易策略,更重要的是机器学习模型得到的结果可以作为投资人员的参考,即辅助主观投资。然而,机器学习在量化投资实践过程中也存在着一些局限性或挑战,但我们同时也给出

79、了未来的展望。首先,一般而言金融数据的信噪比较低,并且数据与数据之间难有一个固定的模式。算法和训练方法的不断改进或许会提升机器学习在低信噪比数据上的表现算法和训练方法的不断改进或许会提升机器学习在低信噪比数据上的表现,例如一些数据降噪算法的改进,在未来或许可以从金融数据中更好地提取有预测意义的信息;一些改进的训练方法如在训练时加入噪声进行对抗训练6,可能会让模型更加稳健。预测对象与应用场景预测对象与应用场景会更多地被关注,会更多地被关注,因为它们在很大程度上决定着模型的表现。例如,一些序列预测模型如 LSTM 低频时表现不佳,但是可能在高频的场景中就会有不错的表现;又或者在在直接预测收益率时效

80、果一般,但转而用在预测波动率时,又会有不错的效果,如7。在机器学习用于 Alpha 因子挖掘时,得到了因子解释性较差。为了避免这种先挖掘再解释的困境,未来的因子挖掘会更加关注因子之间本身的逻辑,而非过度挖掘。未来的因子挖掘会更加关注因子之间本身的逻辑,而非过度挖掘。一个自然的想法是,在一些有逻辑关联的因子中进行,尝试构造一些新的算子,控制挖掘出因子的复杂度,来提高因子的可解释性。基于机器学习的量化策略有时会被质疑同质性过高,会抱团加速市场上涨或下跌的现象。然而量化策略的本质便是获取异质性收益,因为当出现大量策略同质时,这个策略很快就会失效,这就会促使研究人员研发新的策略。量化投资是极力避免同质

81、性策略的,未来因子库、模型库以及策略库会更加多样化未来因子库、模型库以及策略库会更加多样化。另外,由于反转策略的存在,基于机器学习的量化投资并不会大规模加速原有的市场趋势。机器学习模型的可解释性差一直是为人诟病的。在未来,机器学习与其他工具的结合将会是一种趋势,来增加模型的可解释性。另外,可解释机器学习可解释机器学习将会是一个值将会是一个值 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 28/31 金融工程研究金融工程研究报告报告 得研究的课题得研究的课题,可参考8。模型的失效会为策略带来较大的回撤。策略有效性的持续时长一直是难以回答的问题。一方面,机器学习模型的滚动训练或定期更新

82、可能会在一定程度上缓解策略突然失效的问题。另一方面,市场的多种状态转换下的模型适应或模型轮换可能是未市场的多种状态转换下的模型适应或模型轮换可能是未来机器学习需要关注的问题之一。来机器学习需要关注的问题之一。正如开篇所说,人工智能正当时,我们对其在量化投资上的应用持乐观态度,我们期待未来越来越多新的理论、算法和应用在机器学习领域大放异彩。最后我们以英国统计学家 George E.P.Box 的一句话结束本文,警惕并激励领域内的研究,“All models are wrong,but some are useful.”-George E.P.Box 5.参考文献参考文献 1 I.J.Goodfe

83、llow,Y.Bengio and A.Courville.Deep Learning,MIT Press,Cambridge,MA,USA,2016.2 N.Erickson,J.Mueller,A.Shirkov,H.Zhang,P.Larroy,M.Li,and A.Smola.Autogluon-tabular:Robust and accurate automl for structured data.arXiv preprint arXiv:2003.06505,2020.3 J.Han,A.Jentzen,and W.E.Solving high-dimensional part

84、ial differential equations using deep learning.Proceedings of the National Academy of Sciences,115(34):85058510,2018.4 X.Zhang,Z.Li,C.C.Loy,and D.Lin.Polynet:A pursuit of structural diversity in very deep networks,2016.5 Q.Li,L.Chen,C.Tai,and W.E.Maximum principle based algorithms for deep learning.

85、CoRR,abs/1710.09513,2017.6 F.Feng,H.Chen,X.He,J.Ding,M.Sun,and T.-S.Chua.Enhancing stock movement prediction with adversarial training,2018.7 G.Rodikov and N.Antulov-Fantulin.Can LSTM outperform volatility-econometric models?arXiv e-prints,page arXiv:2202.11581,Feb.2022.8 C.Molnar.Interpretable Mach

86、ine Learning.2 edition,2022.9 P.Velickovic,G.Cucurull,A.Casanova,A.Romero,P.Lio,and Y.Bengio.Graph attention networks,2017.请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 29/31 金融工程研究金融工程研究报告报告 10 W.Xu,W.Liu,L.Wang,Y.Xia,J.Bian,J.Yin,and T.-Y.Liu.Hist:A graph-based framework for stock trend forecasting via mining conc

87、ept-oriented shared information,2022.11 Z.Kakushadze,G.Lauprete,and I.Tulchinsky.101 formulaic alphas.SSRN Electronic Journal,2016.12 T.Gupta,E.Leung,and V.Roscovan.Consumer spending and the cross section of stock returns.The Journal of Portfolio Management,2022.13 X.Du,J.Zhai,and K.Lv,Algorithm tra

88、ding using Q-learning and recurrent reinforcement learning,2009.14 D.Lu,Agent inspired trading using recurrent reinforcement learning and LSTM neural networks,2017.15 S.Liao,T.Lyons,W.Yang and H.Ni,Learning stochastic differential equations using RNN with log signature features,2019.16 I.Halperin,Ql

89、bs:Q-learner in the Black-Scholes(-Merton)worlds,arxiv(2017),https:/arxiv.org/abs/1712.04609.17 H.Buehler,L.Gonon,J.Teichmann and B.Wood,Deep hedging.Quantitative Finance 19,12711291(Feb.2019).18 H.Ni,L.Szpruch,M.Wiese,S.Liao and B.Xiao,Conditional Sig-Wasserstein GANs for Time Series Generation,202

90、0.arXiv:2006.05421 cs.LG.6.风险提示风险提示 分析基于历史数据与模型,存在模型失效风险,历史数据回测结果不代表未来表现。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 30/31 金融工程研究金融工程研究报告报告 研究研究团队团队简介:简介:Table_Introduction 王琦:帝国理工学院数学与金融荣誉硕士,南开大学统计学学士。2021 年加入东北证券任金融工程首席分析师,研究方向为金融工程。曾任职于兴业财富资产管理有限公司,任 FOF 投资经理。李严:中山大学统计学本科、复旦大学应用统计硕士,主要研究基金产品、行业轮动方向,2020 年加入东北证券

91、,现任东北证券研究所金融工程组研究助理。贾英:伦敦大学学院金融数学荣誉硕士,厦门大学数学与应用数学本科。2022 年加入东北证券,研究方向为金融工程、因子选股。现任东北证券研究所金融工程组研究人员。张栋梁:复旦大学金融硕士,南京大学金融学本科。2022 年加入东北证券,研究方向为因子选股,现任东北证券研究所金融工程组研究助理。重要重要声明声明 本报告由东北证券股份有限公司(以下称“本公司”)制作并仅向本公司客户发布,本公司不会因任何机构或个人接收到本报告而视其为本公司的当然客户。本公司具有中国证监会核准的证券投资咨询业务资格。本报告中的信息均来源于公开资料,本公司对这些信息的准确性和完整性不作

92、任何保证。报告中的内容和意见仅反映本公司于发布本报告当日的判断,不保证所包含的内容和意见不发生变化。本报告仅供参考,并不构成对所述证券买卖的出价或征价。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的证券买卖建议。本公司及其雇员不承诺投资者一定获利,不与投资者分享投资收益,在任何情况下,我公司及其雇员对任何人使用本报告及其内容所引发的任何直接或间接损失概不负责。本公司或其关联机构可能会持有本报告中涉及到的公司所发行的证券头寸并进行交易,并在法律许可的情况下不进行披露;可能为这些公司提供或争取提供投资银行业务、财务顾问等相关服务。本报告版权归本公司所有。未经本公司书面许可,任何机构和

93、个人不得以任何形式翻版、复制、发表或引用。如征得本公司同意进行引用、刊发的,须在本公司允许的范围内使用,并注明本报告的发布人和发布日期,提示使用本报告的风险。若本公司客户(以下称“该客户”)向第三方发送本报告,则由该客户独自为此发送行为负责。提醒通过此途径获得本报告的投资者注意,本公司不对通过此种途径获得本报告所引起的任何损失承担任何责任。分析师声明分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格,并在中国证券业协会注册登记为证券分析师。本报告遵循合规、客观、专业、审慎的制作原则,所采用数据、资料的来源合法合规,文字阐述反映了作者的真实观点,报告结论未受任何第三方的授意或影响,特此

94、声明。投资投资评级说明评级说明 股票 投资 评级 说明 买入 未来 6 个月内,股价涨幅超越市场基准 15%以上。投资评级中所涉及的市场基准:A 股市场以沪深 300 指数为市场基准,新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为市场基准;香港市场以摩根士丹利中国指数为市场基准;美国市场以纳斯达克综合指数或标普 500 指数为市场基准。增持 未来 6 个月内,股价涨幅超越市场基准 5%至 15%之间。中性 未来 6 个月内,股价涨幅介于市场基准-5%至 5%之间。减持 未来 6 个月内,股价涨幅落后市场基准 5%至 15%之间。卖出 未来 6 个月内,股价涨幅落后

95、市场基准 15%以上。行业 投资 评级 说明 优于大势 未来 6 个月内,行业指数的收益超越市场基准。同步大势 未来 6 个月内,行业指数的收益与市场基准持平。落后大势 未来 6 个月内,行业指数的收益落后于市场基准。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 31/31 金融工程研究金融工程研究报告报告 Table_SalesTable_Sales 东北证券股份有限公司东北证券股份有限公司 网址:网址:http:/http:/ 电话:电话:-06860686 地址地址 邮编邮编 中国吉林省长春市生态大街 6666 号 130119 中国北京市西城区锦什

96、坊街 28 号恒奥中心 D 座 100033 中国上海市浦东新区杨高南路 799 号 200127 中国深圳市福田区福中三路 1006 号诺德中心 34D 518038 中国广东省广州市天河区冼村街道黄埔大道西 122 号之二星辉中心 15 楼 510630 机构销售联系方式机构销售联系方式 姓名姓名 办公电话办公电话 手机手机 邮箱邮箱 公募销售公募销售 华东地区机构销售华东地区机构销售 阮敏(总监) 吴肖寅 齐健 李瑞暄

97、2 周嘉茜 周之斌 陈梓佳 chen_ 孙乔容若 屠诚 康杭 丁园 华北地区机构销售华北地区机构销售 李航(总监) 殷璐璐 温中

98、朝 曾彦戈 王动 wang_ 吕奕伟 孙伟豪 闫琳 陈思 chen_ 徐鹏程 张煜苑 华南地区机构销售华南地区机构销售 刘璇(总监)0755-3397

99、5865 liu_ 刘曼 王泉 王谷雨 张瀚波 zhang_ 邓璐璘 戴智睿 王熙然 wangxr_ 阳晶晶 yang_ 张楠淇 1

100、3823218716 王若舟 非公募销售非公募销售 华东地区机构销售华东地区机构销售 李茵茵(总监) 杜嘉琛 王天鸽 王家豪 白梅柯 刘刚 曹李阳 曲林峰

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(机器学习系列:机器学习发展历程与量化投资的展望-220805(31页).pdf)为本站 (微笑泡泡) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部