报告预览

AI算法研究系列：量化行业配置策略梯度算法-240605（15页）.pdf

编号：164391

PDF DOCX 15页 1.11MB 下载积分：VIP专享

下载报告请您先登录！

AI算法研究系列：量化行业配置策略梯度算法-240605（15页）.pdf

1、证券研究报告|金融工程专题 1/15 请务必阅读正文之后的免责条款部分金融工程专题报告日期：2024 年 06 月 05 日量化行业配置：策略梯度算法量化行业配置：策略梯度算法 AI 算法研究系列算法研究系列核心观点核心观点本文本文利用强化学习领域中的策略梯度类算法改进量化行业配置模型，从特征提取、样利用强化学习领域中的策略梯度类算法改进量化行业配置模型，从特征提取、样本构造，和参数更新多个方面进行优化，提供一个风险收益性价比更本构造，和参数更新多个方面进行优化，提供一个风险收益性价比更优优的周频价量行的周频价量行业配置策略业配置策略。基于价值的算法实现行业轮动的得与失基于价值的算法

2、实现行业轮动的得与失强化学习算法在因子挖掘、收益预测、投资组合构建，和交易执行等多个投资环节均有应用。在前期研究中，我们以强化学习中的时序差分算法作为切入点，对指数择时和行业配置进行了实践。在跟踪行业配置模型过程中，权益市场行情经历了较大波动，模型效果也受到了一定挑战，在年初 2 月 2 日、2 月 5 日仅 2 个交易日就出现了约 4.7%的超额回撤，之后超额恢复增长趋势，但其波动水平明显上升。这一回撤引出了策略模型亟待解决的问题如何降低风格突变对策略模型的扰动。周频调仓使信号的敏感度下降，在市场风格出现日级别单边偏移的情况下被动承受亏损；另一方面，由于我们在指数择时和行业配置中使用的奖励

3、（reward）是和未来 5 日收益率高度正相关的指标，亏损期间的负反馈将直接影响模型学习的方向，并且当市场风格恢复时，模型又需要新的时间重新调整适应。在这种情况下，强化学习框架所带来的动态适应成了双刃剑，即使得策略模型能在不同的局部最优间平滑过渡，又使得短时间的行情扰动影响策略模型所接收到的市场反馈。策略梯度类算法如何提升行业轮动策略的风险收益比：策略梯度类算法如何提升行业轮动策略的风险收益比：策略梯度类算法在决策过程中，不再对行业进行打分判断，即不再评估每个行业的配置价值，而是调整策略模型配置该行业的概率，通过一段时间行业配置的收益反馈调整行业配置的概率分布。在市场风格出现日级别单边偏移的

4、情况下，直接修改每个行业的配置价值的模型大概率会被动承受亏损；另一方面，原有配置模型中使用的奖励（reward）是和未来 5 日收益率高度正相关的指标，亏损期间的负反馈将直接影响模型学习的方向，并且当市场风格恢复时，模型又需要新的时间重新调整适应。在这种情况下，修改行业配置的概率分布，而非修改行业配置得分，能有效避免短时间的行情扰动对决策的影响。优化后的行业配置策略回测表现如何优化后的行业配置策略回测表现如何：整体上来看，补充了价量形态的视觉信息，使用任一策略梯度算法均能有效提升其组合收益。经过预训练对比，表现最优的模型为依据 SAC 算法构建的配置模型产生的行业组合，在 2021 年 6 月

5、以来（统计至 2024 年 4 月 30 日）年化超额收益在 16%以上，相较于常见宽基指数（中证 800）的超额收益或在 22%以上。策略表现相较于此前的基于价值算法构建的模型，有效降低了回撤和波动率水平。风险提示风险提示本报告构建的策略框架中所提及的交易均指模拟交易，回测结果是基于历史数据的统计归纳，收益风险指标不代表未来，模型力求自适应跟踪市场规律和趋势，但仍存失效可能，不构成投资建议，须谨慎使用。分析师：陈奥林分析师：陈奥林执业证书号：S02 相关报告相关报告 1 资产荒下的演绎：红利行情未结束 2024.05.26 2 政策利好提振预期，地产板块估值修复 2

6、024.05.23 3 低估值修复：由红马到地产 2024.05.19 金融工程专题 2/15 请务必阅读正文之后的免责条款部分正正文目录文目录 1 研究背景研究背景.4 1.1 用强化学习算法实现择时策略和配置模型.4 1.2 策略梯度类算法提供优化思路.6 2 利用策略梯度类算法实现行业轮动利用策略梯度类算法实现行业轮动.7 2.1 价量数据预处理.7 2.2 价量数据的视觉信息提取.8 2.3 利用策略梯度算法训练模型.8 3 回测实验回测实验.9 3.1 回测设置.9 3.2 预训练/样本内.9 3.3 优化后的策略梯度行业配置模型.11 4 总结和展望总结和展望.12 5 风险提示

7、风险提示.13 参考文献参考文献.14 aVfYcWdX9WfYfVeUaQbP8OpNpPnPrNlOpPtNlOpPtN8OnNuNwMtQpNuOrMvN金融工程专题 3/15 请务必阅读正文之后的免责条款部分图表目录图表目录图 1：利用 DQN 实现指数择时的模型.4 图 2：行业配置模型业绩表现（2019.01 至 2022.12）.4 图 3：利用双网络 DQN 实现行业配置的模型结构及工作原理.5 图 4：行业配置模型业绩表现（2021.06 至 2024.04）.5 图 5：择时及配置策略中使用的算法在强化学习体系中的归类.6 图 6：价量数据标准化及特征工程.8 图 7：

8、不同配置模型在预训练区间的累积净值表现.10 表 1：价量数据预处理及收益率特征.7 表 2：不同配置模型的样本内表现对比（2016.01 至 2021.05）.9 表 3：预训练中最优配置模型表现逐年统计（SAC 模型+VI）.9 表 4：验证集上的配置模型收益表现（2021.06 至 2024.04）.10 表 5：优化后的配置模型与原模型相较于指数基准的超额回撤对比.11 表 6：策略回测使用的超参数列表.11 表 7：原模型行业配置情况（2024/4/30 之后）.12 表 8：策略梯度算法模型行业配置情况（2024/4/30 之后）.12 金融工程专题 4/15 请务必阅读正文之后的

9、免责条款部分 1 研究背景研究背景我们在前期研究中探索了强化学习领域中的时序差分算法在行业配置中的应用，从算法视角对行业配置进行了补充，构造了周频跟踪的行业配置策略。本文将回顾前述模型在实战中遇到的问题，讨论并测试通过策略梯度类的强化学习算法实现行业配置模型，进一步提升行业配置策略的业绩表现。1.1 用强化学习算法实现择时策略和配置模型用强化学习算法实现择时策略和配置模型强化学习算法在因子挖掘、收益预测、投资组合构建，和交易执行等多个投资环节均有应用。在前期研究中，我们以强化学习中的时序差分算法作为切入点，对指数择时和行业配置进行了实践。（1）利用 DQN 实现指数择时：基于日频价量构建择

10、时信号，在宽基指数上表现不俗，沪深 300/中证 500/中证 1000 指数上的择时年化超额收益分别为 5.73%/12.65%/15.60%（2019 至 2022 年），并迁移至申万一级行业指数进行了测试，在没有进行超参数调优（有别于微调 fine-tuning）的情况下在 11/31 个行业指数上依然能够实现 10%以上的年化超额，表明择时策略框架具备有效性和泛化能力。详细请参见报告量化投资算法前瞻：强化学习。图1：利用 DQN 实现指数择时的模型资料来源：浙商证券研究所图2：行业配置模型业绩表现（2019.01 至 2022.12）资料来源：Wind，浙商证券研究所 -1.201

11、.22.43.64.8-5.00%0.00%5.00%10.00%15.00%20.00%电子农林牧渔商贸零售通信食品饮料计算机交通运输综合房地产电力设备建筑装饰纺织服饰美容护理银行机械设备国防军工环保非银金融建筑材料汽车基础化工传媒公用事业钢铁有色金属石油石化家用电器医药生物社会服务煤炭轻工制造年化超额收益率平均月度调仓金融工程专题 5/15 请务必阅读正文之后的免责条款部分图3：利用双网络 DQN 实现行业配置的模型结构及工作原理资料来源：浙商证券研究所图4：行业配置模型业绩表现（2021.06 至 2024.04）资料来源：Wind，浙商证券研究所（2）在指数择时基础上，引入交叉

12、注意力机制，进一步得到行业配置模型：通过时序神经网络实现单行业价量特征提取，再结合交叉注意力机制捕捉行业间的联动关系，依据双网络 DQN 算法实现更新，由模型可得到每期行业配置观点，整体模型的工作原理如图 3所示。经过预训练得到的模型在 2021.06 至今（统计至 2024.04.30）相较于中证 800 年化超额收益为 17.75%，组合累积收益情况见图 4。详细模型请参见报告强化学习在行业配置端的应用。在跟踪行业配置模型过程中，权益市场行情经历了较大波动，模型效果也受到了一定挑战，在年初 2 月 2 日、2 月 5 日仅 2 个交易日就出现了约 4.7%的超额回撤，之后超额恢复增长趋势，

13、但其波动水平明显上升。这一回撤引出了策略模型亟待解决的问题如何降低风格突变对策略模型的扰动。周频调仓使信号的敏感度下降，在市场风格出现日级别单边偏移的情况下被动承受亏损；另一方面，由于我们在指数择时和行业配置中使用的奖励（reward）是和未来 5 日收益率高度正相关的指标，亏损期间的负反馈将直接影响模型学习的方向，并且当市场风格恢复时，模型又需要新的时间重新调整适应。在这种情况11.11.21.31.41.51.61.70.50.60.70.80.911.11.21.31.41.5策略/中证800（相对强度）策略净值超额收益（右轴）组合收益中证800金融工程专题 6/15 请务必阅读正文之后

14、的免责条款部分下，强化学习框架所带来的动态适应成了双刃剑，即使得策略模型能在不同的局部最优间平滑过渡，又使得短时间的行情扰动影响策略模型所接收到的市场反馈。本文将通过回测实验探索行业配置策略的优化方法，通过使用策略梯度类算法，并修改回测逻辑实现行业配置模型的迭代升级。1.2 策略梯度类算法提供优化思路策略梯度类算法提供优化思路强化学习的目标是为智能体（agent）找到一个最优的行为策略行为策略从而获取最大的回报。策略梯度方法的主要特点在于直接对策略进行建模并优化。不同于此前使用的 Q 学习，是基于价值的方法，模型学习如何正确评估每种动作的价值，从而实现决策。简单阐述策略梯度方法的工作原理即

15、为，如果某一动作使得最终回报提高，那么增加这个动作出现的概率，反之，减少这个动作出现的概率。因此在策略梯度类算法中，策略在策略梯度类算法中，策略评估的是动作对于回报的影响，没有考虑状态或者其他因素；策略调整的是动作出现的概评估的是动作对于回报的影响，没有考虑状态或者其他因素；策略调整的是动作出现的概率，而不再给具体的动作打分率，而不再给具体的动作打分（评估动作价值，区别于基于价值的算法，如之前使用的DQN）。策略通常被建模为由参数化的函数(|)。累积回报（目标函数）的值受到该策略的直接影响，因而可以采用很多算法来对进行优化来最大化回报，也就是目标函数。本文选取了 3 种经过优化并且在工业领

16、域已验证有效的策略梯度算法：近端策略优化算法（PPO），使用熵正则化的演员-评论家算法（SAC），和深度确定性策略梯度算法（DDPG，以下均使用英文缩写指代）。PPO 通过使用代理损失函数来近似 KL 散度，在训练效率和计算开销之间取得了良好的平衡。SAC 是一种基于最大熵理论的演员-评论家算法，通过引入熵的概念来鼓励策略的探索性，同时采用软更新值函数来提高训练的稳定性。DDPG 是基于 Q 学习的演员-评论家算法，与传统的随机策略梯度方法不同，它采用确定性策略（即给定状态下总是产生同一个动作），在连续动作空间问题中更为高效。本文所使用的策略梯度算法在强化学习体系中的分类如图 4 所示，以便于

17、读者理解各算法之间的联系和区别。其中，DDPG 算法是 Q 学习与策略梯度的结合，我们将通过回测实验来对比各算法在行业配置中的有效性。图5：择时及配置策略中使用的算法在强化学习体系中的归类资料来源：浙商证券研究所金融工程专题 7/15 请务必阅读正文之后的免责条款部分本文将在第 2 章中结合每种算法介绍行业配置中的价量特征、策略的夏普比率等指标与强化学习语境中的状态、动作、奖励等的对应关系。2 利用利用策略梯度类算法策略梯度类算法实现实现行业轮动行业轮动本章将详细介绍基于策略梯度算法的行业配置模型的设计与实现。我们在前期研究成果中的指数择时和行业配置模型上进行了优化，本文将依次介绍数据

18、预处理，单元，以及按照不同策略梯度算法更新模型参数的流程。2.1 价量数据预处理价量数据预处理我们以周频调仓的行业配置策略为目标，没有使用财报或分析师报告中的月频或季频更新的数据，以市场中多方交易者博弈的结果，也就是日频价量数据作为主要输入特征。在对日内价量进行处理时，原模型保留了日频价量的全部信息（OHLC+Volume），进行时序上的标准化，即滚动窗口 z-score，其中价格数据统一使用收盘价历史数据进行 z-score，保留了日内价格之间的相对关系。尽管这种处理方法一定程度上保留了历史信息，但受限于 2 个回看窗口的时间步长（计算 z-score 的区间窗口，和输入模型的价量数据回看

19、窗口）。另一方面，经过 z-score 标准化的价量指标只表达目前的价格或成交量相较于历史处于何等水平，并不体现价格或成交量的变化趋势。因此，我们引入不同时间维度的价格趋势信息作为补充。本文借鉴 Wood,K.等人在趋势预测模型中的特征处理方法（详见 2024/3/28 外发报告含交叉注意力机制的趋势预测模型），使用波动率调整后的收益率作为输入特征，即：其中回看时长为，1,21,63,126,252，()是资产 i 在 t 时刻的波动率，计算窗口为过去 60 个交易日，而,()是资产 i 在过去时间区间内的收益率。经过预处理之后，合并后的价量特征如表 1 所示。表1：价量数据预处理及收益率特

20、征特征说明收盘价时序 z-score 标准化成交量时序 z-score 标准化日内收益率 np.log(close/open)向上振幅 np.log(high/open)向下振幅 np.log(open/low)调整后过去 1 日收益率 1,调整后过去 1 个月收益率 21,调整后过去 3 个月收益率 63,调整后过去半年收益率 126,调整后过去 1 年收益率 252,资料来源：浙商证券研究所金融工程专题 8/15 请务必阅读正文之后的免责条款部分 2.2 价量数据的视觉信息提取价量数据的视觉信息提取在日频价量数据的基础上，按照一定的结构对输入数据进行表征学习（repres

21、entation learning），即通过模型去学习特征的向量化表达。机器学习算法的表现不仅取决于算法的正确使用，也依赖于数据的质量和特征的有效表达。针对不同类型的数据，不同表达方式会导致有效信息的缺失，也会影响算法的有效性。因此合理设计表征学习模型，将输入数据转化为更具分辨率的表征向量，剔除噪音或冗余信息，对提升算法表现有正向作用。在收益率和标准化价量数据之外，我们借鉴技术分析或 K 线形态分析方法，并训练模型来实现图像信息捕捉。利用标准化后的日频价量信息作为二维图像信息，即时间维度价量特征维度的一个灰度图。本文使用卷积神经网络对行业指数日频价量形态进行表征学习，经过卷积层和全连接层的视觉

22、信息，将和 2.1 中的收益率特征拼接组成完整的特征向量。图6：价量数据标准化及特征工程资料来源：浙商证券研究所经过以上特征提取，对任一交易日 t 可得到资产 i 的表征向量，再使用时序表征模型按照日期顺序进行编码。本文采用长短期记忆（LSTM）网络与用于历史状态的时序注意力机制结合，用时序神经网络递归过程中得到的每个历史隐含状态来增强最终的向量表征，并增加时序注意力（historical attention），能够更充分地捕捉到行业指数自身特征的时序相关关系。本文沿用 LSTM-HA 作为行业指数时序特征提取模型。2.3 利用策略梯度算法训练模型利用策略梯度算法训练模型行业配置策略中的

23、状态、动作、奖励如何设置？我们沿用了之前的配置策略中的设置方法，用各行业指数的在一段时间内的行情数据作为状态；策略函数所生成的动作是按照策略所选的行业通过调仓实现等权持有；单步奖励仍使用扣除手续费的收益计算，连续 M 步的回报则使用该序列对应的夏普比率目标函数计算。在演员-评论家结构的算法中（PPO 和SAC），我们对 Critic 网络不再进行结构上的调整，使用算法原本的全连接网络（FC2）结构。金融工程专题 9/15 请务必阅读正文之后的免责条款部分 3 回测实验回测实验 3.1 回测设置回测设置本文以申万一级行业指数作为行业投资标的，实现相应的配置策略，通过回测实验来分析策略框架的可行

24、性及有效性。本文使用 2016 年初至 2021 年 5 月的行业指数数据作为预训练区间，在此数据集上依据不同算法或特征工程组合训练相应的行业配置模型，根据风险调整收益等指标选取最优的模型结构。使用 2021 年 6 月至今（统计至 4 月 30 日）作为验证集，按时间顺序遍历并继续更新模型，得到调优后的行业配置模型的近期表现。在预训练阶段，模型在训练数据上会进行多幕遍历或重复小批次学习，根据不同算法进行操作，每一幕（episode）模型都会按照时序将所有样本进行遍历。而在观测数据上，则完全模拟实际场景，按照时序遍历样本做出预测。3.2 预训练预训练/样本内样本内根据 1.3 节中每种策略梯

25、度算法实现行业配置模型的参数更新，每隔 5 个交易日生成配置行业组合并统计未来 5 日收益得到回测结果；此外，我们对比了增加视觉信息（VI）前后每种算法下的策略模型表现。由表 5 可知，这部分信息增量确实带来了策略性能上的提升。表2：不同配置模型的样本内表现对比（2016.01 至 2021.05）累积收益年化收益年化波动率最大回撤夏普比率行业等权基准 18.62%3.33%21.27%-35.19%0.26 PPO 模型 97.71%13.95%21.58%-30.10%0.71 SAC 模型 110.93%15.38%21.48%-28.36%0.77 DDPG 模型 125.8

26、6%16.90%21.38%-24.77%0.84 PPO 模型+VI 180.49%21.85%21.60%-25.35%1.02 SAC 模型+VI 252.73%27.32%21.72%-24.12%1.22 DDPG 模型+VI 197.14%23.21%21.61%-24.02%1.08 资料来源：浙商证券研究所表3：预训练中最优配置模型表现逐年统计（SAC 模型+VI）年份 2016 2017 2018 2019 2020 2021 收益率(%)基准-4.80 1.52-31.16 29.77 29.87 16.68 组合 5.60 23.32-12.16 54.89 69.20

27、 70.41 波动率(%)基准 26.42 12.50 21.84 20.52 23.24 19.34 组合 26.64 13.82 22.22 21.68 23.45 18.10 最大回撤(%)基准-23.47-11.67-34.54-17.12-14.30-11.36 组合-22.88-9.66-24.12-15.70-12.72-6.59 夏普比率基准-0.05 0.18-1.60 1.37 1.24 0.89 组合 0.34 1.58-0.49 2.13 2.36 3.04 资料来源：Wind，浙商证券研究所金融工程专题 10/15 请务必阅读正文之后的免责条款部分图7：不同配置

28、模型在预训练区间的累积净值表现资料来源：浙商证券研究所在策略梯度算法中，综合样本内和验证集上表现最好的是利用 SAC 构造的行业配置模型，因此选择 SAC 算法来实现最终的行业配置模型。收益角度来看，策略模型每年均跑赢行业等权基准，不同年份表现有一定差异，但相较于前期价值模型有明显改善。原模型在 2018 年相对收益为谷值，而改进后的模型自2016 年以来相对收益呈上升趋势。整体上配置策略相较于基准指数的收益提升较明显，回撤控制效果较好。在行业等权基准回撤幅度最大的 2018 年（回撤幅度为-34.54%），行业配置多头的最大回撤相应为-24.12%。因配置策略仅持有 5 个行业，而等权基

29、准持有全行业实现了风险分散，但从年化波动率角度，行业配置多头相较于基准并未有明显增大，部分年份略有缩小，整体上持平。本文保留了增添视觉信息前后的最好模型，分别是基于 DDPG 的配置模型和基于 SAC和视觉信息补充的配置模型，在验证集上进行了回测（注：不含多幕训练，仅按照时间顺序进行一次遍历和更新），以避免所选择的最优模型是预训练阶段过拟合的结果。表4：验证集上的配置模型收益表现（2021.06 至 2024.04）累积收益年化收益年化波动率最大回撤夏普比率原模型 11.31%3.88%21.89%-27.09%0.28 DDPG 23.70%7.86%18.57%-22.00%0.

30、50 SAC+VI 27.34%8.98%18.61%-20.86%0.56 原模型/等权 38.57%12.31%9.28%-7.99%1.30 DDPG/等权 53.99%16.61%7.36%-3.33%2.13 SAC+VI/等权 58.53%17.82%6.83%-2.44%2.44 原模型/中证 800 58.27%17.75%12.17%-11.01%1.41 DDPG/中证 800 75.89%22.26%10.13%-8.52%2.04 SAC+VI/中证 800 81.07%23.53%9.60%-8.40%2.25 资料来源：Wind，浙商证券研究所 00.511.522

31、.533.54基准PPOSACDDPGPPO_VISAC_VIDDPG_VI金融工程专题 11/15 请务必阅读正文之后的免责条款部分由上述结果可知，局部形态的视觉信息提取，结合 SAC 策略梯度算法，实现了对周频行业配置策略的优化。此外，我们对比了配置组合相较于行业等权基准和宽基指数中证800 的超额收益。原模型相较于中证 800 的超额夏普比率高于其相较于行业等权基准的对应夏普比率，也从侧面说明模型本身对于选择截面上相对较优的行业挖掘能力不足从侧面说明模型本身对于选择截面上相对较优的行业挖掘能力不足；而改进后的配置模型，相较于等权基准的超额收益更高、跟踪更加稳定，配置能力更强。超额回撤方

32、面的对比，也体现了基于策略算法的量化配置策略对于短时异常波动的抗对于短时异常波动的抗扰能力扰能力。表5：优化后的配置模型与原模型相较于指数基准的超额回撤对比基于价值算法（DQN）的行业配置策略梯度算法的行业配置+VI 回撤幅度回撤开始回撤结束回撤恢复周期/天回撤幅度回撤开始回撤结束回撤恢复周期/天 11.01%2023/12/5 2024/2/7 尚未尚未结束结束 101 8.40%2024/1/4 2024/2/7 2024/3/20 55 7.61%2022/4/6 2022/4/26 2022/5/30 39 4.33%2022/4/11 2022/4/26 202

33、2/5/30 36 6.17%2021/9/15 2021/9/29 2021/11/26 53 3.25%2022/12/26 2023/1/19 2022/2/14 37 6.08%2023/6/20 2023/8/31 2023/10/26 93 2.90%2022/1/13 2022/1/21 2022/2/8 19 5.69%2022/9/7 2022/10/10 2022/11/9 46 2.57%2024/4/3 2024/4/16 尚未结束 18 资料来源：Wind，浙商证券研究所表 5 中对比了原模型（基于价值，双网络 DQN 算法）和优化后表现最优的策略梯度模型（基于策略

34、，SAC 算法，补充局部信息）回撤幅度最大的 5 次历史表现。在我们最关注的 2023 年底至 2024 年 2 月初的行情中，原模型超额回撤自 2023 年 12 月开始，在今年02/07 达到净值最低点，至今尚未达到新高，时间跨度已达 100 交易日以上。相比之下，同时期下的策略梯度模型已在今年 03/20 实现回撤修复，最大回撤幅度 8.40%也明显小于原模型（11.01%），恢复周期为 55 个交易日，可见短时间内或个别样本的异常反馈，对动作（配置行业）分布概率的影响，要小于其对动作价值的影响。3.3 优化后的优化后的策略梯度行业配置模型策略梯度行业配置模型依据预训练结果，我们选择

35、SAC 来实现最终的行业配置模型，并采用了价量特征和视觉特征组合的特征提取方案。在没有额外数据信息的情况下，基于改进后的价量特征结合视觉信息，基于策略梯度算法构建的配置模型产生的行业组合，相较于指数基准有明显的超额收益。并且相较于此前基于价值算法所构建的模型，也有效降低了回撤和波动率水平。优化后的模型中各模块使用的超参数列表列于表 6。表6：策略回测使用的超参数列表 z-score 回看区间 500 交易日波动率计算区间 63 交易日预训练幕数 episode 50 是否使用早停 early-stop 是模拟次数/智能体数量 100 小批次抽样数量 64 多步预测 M-step 20 学

36、习率 0.0005 金融工程专题 12/15 请务必阅读正文之后的免责条款部分视觉信息特征工程 Seq(Conv2d(kn=2),ReLU,Conv2d(kernel=3),ReLU,ReLU(Linear(50,64),Linear(64,32)Critic 网络结构 Seq(Linear(lookback*#features,256),BatchNorm(256),Linear(256,128),BatchNorm(128),Linear(128,#actions),SoftMax)资料来源：浙商证券研究所表7：原模型行业配置情况（2024/4/30 之后）调仓日期行业 1 行业 2

37、行业 3 行业 4 行业 5 2024-05-27 石油石化银行有色金属家用电器公用事业 2024-05-20 煤炭石油石化家用电器有色金属银行 2024-05-13 银行公用事业煤炭石油石化有色金属 2024-05-06 煤炭银行公用事业石油石化家用电器资料来源：Wind，浙商证券研究所表8：策略梯度算法模型行业配置情况（2024/4/30 之后）调仓日期行业 1 行业 2 行业 3 行业 4 行业 5 2024-05-27 机械设备银行非银金融家用电器公用事业 2024-05-20 煤炭石油石化家用电器交通运输银行 2024-05-1

38、3 家用电器煤炭社会服务钢铁有色金属 2024-05-06 家用电器有色金属公用事业社会服务轻工制造资料来源：Wind，浙商证券研究所结合新旧模型最近的行业配置观点，策略梯度模型对于煤炭及石油石化行业的观点相较于原模型已出现明显变化。我们也将持续跟踪两种不同模型的样本外表现，以更好的观测不同行情下的策略表现，寻找更优的量化行业配置方案。4 总结和展望总结和展望我们在前期研究中探索了强化学习领域中的时序差分算法在行业配置中的应用，从算法视角对行业配置进行了补充，构造了周频跟踪的行业配置策略。通过时序神经网络实现单行业价量特征提取，再结合交叉注意力机制捕捉行业间的联动关系，依

39、据时序差分算法实现更新，由模型可得到每期行业配置观点。在跟踪行业配置模型过程中，权益市场行情经历了较大波动，模型效果也受到了一定挑战，在年初出现了约 4.7%的超额回撤，之后超额恢复增长趋势，但其波动水平明显上升。这一回撤引出了策略模型亟待解决的问题如何降低风格突变对策略模型的扰动。金融工程专题 13/15 请务必阅读正文之后的免责条款部分本文将通过回测实验探索行业配置策略的优化方法，通过使用策略梯度类算法，并修改回测逻辑实现行业配置模型的迭代升级。在特征工程方面我们也进行了补充，在收益率和标准化价量数据之外，我们借鉴技术分析或 K 线形态分析方法，并训练模型来实现图像信息捕捉。通过预训练筛

40、选，我们选择业绩表现最优的 SAC 算法，来实现最终的行业配置模型，并采用了价量特征和视觉特征组合的特征提取方案。本文再次从算法视角构建的行业配置策略，与主观投资逻辑相关性低。通过算法模型挖掘的行业配置信号，如何与行业中观指标组合，即算法视角与主观视角如何融合，是行业配置策略未来优化值得尝试的方向。5 风险提示风险提示本报告构建的策略框架中所提及的交易均指模拟交易，回测结果是基于历史数据的统计归纳，收益风险指标不代表未来，模型力求自适应跟踪市场规律和趋势，但仍存失效可能，不构成投资建议，须谨慎使用。金融工程专题 14/15 请务必阅读正文之后的免责条款部分参考文献参考文献 1 Silver

41、,D.(2015).Introduction to Reinforcement Learning with David Silver.Retrieved 2021-10-25,from https:/ 2 Bengio,Y.,Courville,A.,&Vincent,P.(2012).Representation Learning:A Review and New Perspectives.arXiv(Cornell University).https:/doi.org/10.48550/arxiv.1206.5538 3 Deng,Y.,Bao,F.,Kong,Y.,Ren,Z.,&Dai

42、,Q.(2017).Deep direct reinforcement learning for financial signal representation and trading.IEEE TNNLS 28,3(2017),653664.4 Kieran Wood,Sven Giegerich,Stephen Roberts,and Stefan Zohren.Trading with the momentum transformer:An intelligent and interpretable architecture.arXiv:2112.08534,2021.5 Hessel,

43、M.(2017,October 6).Rainbow:Combining Improvements in Deep Reinforcement Learning.arXiv.org.https:/arxiv.org/abs/1710.02298 6 Schulman,J.,Wolski,F.,Dhariwal,P.,Radford,A.,&Klimov,O.(2017,July 20).Proximal Policy optimization Algorithms.arXiv.org.https:/arxiv.org/abs/1707.06347 7 Lillicrap,T.,Hunt,J.,

44、Pritzel,A.,Heess,N.,Erez,T.,Tassa,Y.,Silver,D.,Wierstra,D.(2015).Continuous control with deep reinforcement learning.arXiv.org.https:/arxiv.org/abs/1509.02971 8 Haarnoja,T.,Zhou,A.,Abbeel P.,Levine,S.(2018).Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Ac

45、tor.arXiv.org.https:/arxiv.org/abs/1801.01290 9 Haarnoja,T.,Zhou,A.,Hartikainen,K.,Tucker,G.,Ha,S.,Tan,J.,Kumar,W.,Zhu,H.,Gupta,A.,Abbeel,P.,Levine,S.(2018Dec).Soft Actor-Critic Algorithms and Applications.arXiv.org.https:/arxiv.org/abs/1812.05905 金融工程专题 15/15 请务必阅读正文之后的免责条款部分股票投资评级说明股票投资评级说明以报告日后

46、的 6 个月内，证券相对于沪深 300 指数的涨跌幅为标准，定义如下：1.买入：相对于沪深 300 指数表现20以上；2.增持：相对于沪深 300 指数表现1020；3.中性：相对于沪深 300 指数表现1010之间波动；4.减持：相对于沪深 300 指数表现10以下。行业的投资评级：行业的投资评级：以报告日后的 6 个月内，行业指数相对于沪深 300 指数的涨跌幅为标准，定义如下：1.看好：行业指数相对于沪深 300 指数表现10%以上；2.中性：行业指数相对于沪深 300 指数表现10%10%以上；3.看淡：行业指数相对于沪深 300 指数表现10%以下。我们在此提醒您，不同

47、证券研究机构采用不同的评级术语及评级标准。我们采用的是相对评级体系，表示投资的相对比重。建议：投资者买入或者卖出证券的决定取决于个人的实际情况，比如当前的持仓结构以及其他需要考虑的因素。投资者不应仅仅依靠投资评级来推断结论。法律声明及风险提示法律声明及风险提示本报告由浙商证券股份有限公司（已具备中国证监会批复的证券投资咨询业务资格，经营许可证编号为：Z39833000）制作。本报告中的信息均来源于我们认为可靠的已公开资料，但浙商证券股份有限公司及其关联机构（以下统称“本公司”）对这些信息的真实性、准确性及完整性不作任何保证，也不保证所包含的信息和建议不发生任何变更。本公司没有将变更的信息和建

48、议向报告所有接收者进行更新的义务。本报告仅供本公司的客户作参考之用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告仅反映报告作者的出具日的观点和判断，在任何情况下，本报告中的信息或所表述的意见均不构成对任何人的投资建议，投资者应当对本报告中的信息和意见进行独立评估，并应同时考量各自的投资目的、财务状况和特定需求。对依据或者使用本报告所造成的一切后果，本公司及/或其关联人员均不承担任何法律责任。本公司的交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新

49、的义务。本公司的资产管理公司、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。本报告版权均归本公司所有，未经本公司事先书面授权，任何机构或个人不得以任何形式复制、发布、传播本报告的全部或部分内容。经授权刊载、转发本报告或者摘要的，应当注明本报告发布人和发布日期，并提示使用本报告的风险。未经授权或未按要求刊载、转发本报告的，应当承担相应的法律责任。本公司将保留向其追究法律责任的权利。浙商证券研究所浙商证券研究所上海总部地址：杨高南路?729 号陆家嘴世纪金融广场?1 号楼?25 层北京地址：北京市东城区朝阳门北大街?8 号富华大厦?E 座?4 层深圳地址：广东省深圳市福田区广电金融中心?33 层上海总部邮政编码：200127 上海总部电话：(8621)80108518 上海总部传真：(8621)80106010

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（AI算法研究系列：量化行业配置策略梯度算法-240605（15页）.pdf）为本站（拾起）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

AI算法研究系列：量化行业配置策略梯度算法-240605（15页）.pdf

AI算法研究系列：量化行业配置策略梯度算法-240605（15页）.pdf

AI算法研究系列：量化行业配置策略梯度算法-240605（15页）.pdf