《计算机行业专题研究:金融+AI发展路径与商业落地探索-230420(20页).pdf》由会员分享,可在线阅读,更多相关《计算机行业专题研究:金融+AI发展路径与商业落地探索-230420(20页).pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、金融金融+AI+AI发展路径与商业落地探索发展路径与商业落地探索请务必阅读报告末页的重要声明证券分析师:钱劲宇 执业证书编号:S02证券研究报告|行业专题研究计算机行业评级 强于大市强于大市(维持评级)2023年4月20日2投资要点核心观点:核心观点:金融金融+AI+AI的落地形态:的落地形态:底层为通用大模型+行业数据集+智算中心的行业底座,中间层为经过训练和微调的行业大模型,上层为基于行业大模型的各类行业应用。金融金融+AI+AI的应用场景:的应用场景:可应用于智能客服、投顾、营销、风控、运营、投研、投行、量化交易、低码研发等多个场景。金融信息化企业金融信息化企业+A
2、I+AI的结合形式:的结合形式:基于大模型的深度学习框架、算力云、硬件部分由合作伙伴提供;金融信息化企业负责行业模型、标准层、插件层、应用层等相关生态建设。海外来看,金融行业大模型已在Morgan Stanley、Stripe、Bloomberg等多家企业应用;国内来看,同花顺I问财、iFind等产品已有相关行业模型赋能。建议关注:建议关注:证券证券ITIT:恒生电子、同花顺:恒生电子、同花顺银行银行ITIT:长亮科技、宇信科技:长亮科技、宇信科技保险保险ITIT:中科软:中科软风险提示风险提示:国内大模型及金融行业模型推进不及预期;细分场景应用研发不及预期等。国内大模型及金融行业模型推进不及
3、预期;细分场景应用研发不及预期等。PWjXiXOXlZgVnOtQnPaQdN7NnPpPtRnOfQnNrNeRpNnM7NoOyRvPtPxOvPoOqR3 AI发展路径的变化:小模型时期:判别式AI大模型初期:以Transformer为代表的预训练生成式AI大模型商业化时期:Chatgpt、文心一言等商业化产品推出。商业模式商业模式 OpenOpen AIAI:订阅、生态嵌入、API调用 GoogleGoogle:MaaS、生态嵌入 文心一言:文心一言:生态嵌入、API调用(文心千帆)图表:国内外大模型发展路径及商业模式落地现状国内外大模型发展路径及商业模式落地现状资料来源:艾瑞咨询,华
4、福证券研究所4金融行业大模型落地形态及IT建设方法变革通用大模型(预训练)+行业数据(语料)+智算中心(算力集群)金融行业大模型应用A应用B应用C应用D行业底座中间层应用层开发团队开发团队大模型模型1-N场景工程其他定制开发AIAI服务服务微调构建以通用大模型+行业数据集+智算中心的行业底座,通过数据清洗、标注等过程,对预训练模型进行训练和微调,形成行业大模型,最终结合行业模型的能力对外输出各类细分场景应用。开发侧仅需对大模型进行微调,由大模型进行数据处理,模型设计、参数调优等过程,显著降低人力成本,相对传统研发范式复用性更高。以大模型为核心,效率及效能业务不受业务增多影响。图表:金融行业大模
5、型落地形态及IT建设方法资料来源:华福证券研究所整理5能力子能力客服 投顾营销舆情风控运营 投研 投行量化交易低码研发问答/助手外呼/质检/陪练文档处理生成/撰写打标签文本抽取摘要/总结审核搜索NL2XNL2SQLNL2APINL2大屏/驾驶舱/工作台代码原型图转前端代码代码助手大模型在金融领域的核心能力与应用场景(以证券为例)图表:大模型在证券领域的核心能力与应用场景能力构建:能力构建:问答/助手(外呼/质检/陪练)、文档处理(生成/撰写、打标签、文本抽取、摘要/总结、审核)、搜索、NL2X(NL2SQL、NL2API)、代码(原型图转前端代码、代码助手)可应用于智能客服可应用于智能客服、投
6、顾投顾、营销营销、风控风控、运营运营、投研投研、投行投行、量化交易量化交易、低码研发等多个场景低码研发等多个场景。资料来源:华福证券研究所整理6应用层(数据安全、专业用户)插件层行业标准层金融大模型通用大模型深度学习框架算力云供应商硬件供应商非数据安全应用金融信息化企业提供合作伙伴提供金融信息化企业与大模型常见的结合形式资料来源:华福证券研究所整理7OpenAI百度文心百度文心清华清华ChatGLMMeta-LLaMaPalmOPT是否支持中文是是是有限支持是否是否开源否否是是否是是否支持精调是是是是是是参数规模GPT3(175B)260B130B7-65B540B125M-175BToken
7、s规模GPT3(300B)300B400B1.4T780B180B模型结构Multi-taskMulti-taskGLM-styleGPT-styleGPT-styleGPT-style金融行业通用大模型选型选型指标:是否支持中文选型指标:是否支持中文、是否开源是否开源、支持精调支持精调、模型生态是否完善模型生态是否完善、是否支持私有化部署是否支持私有化部署资料来源:互联网架构师,华福证券研究所8海外大模型在金融领域的应用Morgan Stanley使用使用GPTGPT-4 4技术组织庞大的知识库技术组织庞大的知识库,帮助其一万多名财务顾问解决问题帮助其一万多名财务顾问解决问题。痛点:痛点:公
8、司内容库包含十万页的知识和见解,分布在许多内部网站上,财务顾问需要浏览大量信息才能找到特定问题答案。GPTGPT-4 4方案:方案:使用由Chatgpt提供支持的高级聊天机器人,财务顾问通过访问该机器人,就可以获取经过内部知识库训练过的Chatgpt回答。对于对于MorganMorgan StanleyStanley,大模型的价值主要体现在三个部分:大模型的价值主要体现在三个部分:第一部分是 GPT4 的“几乎瞬间访问、处理和合成内容的非凡能力”。它基于 Internet 上的大量文本进行训练,并在单词、句子、概念和想法之间建立关系。第二部分是摩根士丹利的智力资本。摩根士丹利创立有一个独特的内
9、部内容存储库,后续将通过 GPT-4 进行处理和解析,并受公司内部控制的约束。第三部分是公司人员:摩根士丹利就 GPT-4 进行了培训,每天有 200 多名员工查询相关系统并提供反馈,尽可能实现由内部聊天机器人完成全面搜索财富管理内容。图表:Morgan Stanley与GPT-4资料来源:21世纪经济报道,AI科技评论,华福证券研究所9海外大模型在金融领域的应用Stripe2323年年3 3月月,StripeStripe与与OpenAIOpenAI达成战略合作达成战略合作,StripeStripe 将帮助将帮助 OpenAIOpenAI 将其开创性的将其开创性的 ChatGPTChatGPT
10、 和和 DALLEDALLE 生成人工智能技术商业化生成人工智能技术商业化,同时同时 StripeStripe 还会将还会将 OpenAIOpenAI 的新自然语言技术的新自然语言技术 GPTGPT-4 4 融入其产品和服务中融入其产品和服务中。GPTGPT-4 4赋能:基于赋能:基于GPTGPT驱动的驱动的StripeStripe DocsDocs 帮助用户简化操作帮助用户简化操作,更快获取所需信息的方法更快获取所需信息的方法。这一改进将允许开发人员在 Stripe Docs 中向 GPT-4 提出自然语言查询,GPT-4 将通过总结文档的相关部分或提取特定信息来回答。将极大降低开发人员的学
11、习成本,把有限的时间都花在更重要的构建过程当中。未来,Stripe 也将携手 OpenAI,持续为广大客户和企业提供行业领先的科技成果,共同应对“新时代”下的机遇和挑战,实现多方共赢。图表:Stripe与GPT-4资料来源:Stripe,华福证券研究所 自研语言大模型自研语言大模型,开创垂直开创垂直+通用混合训练范式通用混合训练范式2023年3月30日,Bloomberg推出了拥有拥有500500亿参数亿参数的语言大模型(LLM),专门针对各种金融数据进行了训练,以支持金融行业内的各种自然语言处理(NLP)任务。基于 LLM 的生成式人工智能(AIGC)已经在许多领域展示了令人兴奋的新应用。然
12、而,金融领域的复杂性和独特的术语保证了特定领域的模型。BloombergGPT 代表着这项新技术在金融行业的开发和应用迈出了第一步。该模型将协助彭博改进现有的金融 NLP 任务,例如情感分析情感分析、命名实体识别命名实体识别、新闻分类和问答新闻分类和问答等。此外,BloombergGPT 将释放新的机会来整理 Bloomberg Terminal 上可用的大量数据,以更好地帮助公司的客户,同时将 AI 的全部潜力带入金融领域。十多年来,彭博一直是人工智能、机器学习和自然语言处理在金融领域应用的开拓者,支持大量多样的 NLP 任务,这些任务将受益于新的金融感知语言模型。彭博研究人员开创了垂直垂直
13、+通用通用的混合训练方法,将金融数据与通用数据集相结合金融数据与通用数据集相结合,以训练一个模型,该模型在金融基准上取得一流的结果,同时在通用 LLM 基准上保持有竞争力的表现。10图表:彭博发布自研大模型Bloomberg GPT海外大模型在金融领域的应用Bloomberg GPT资料来源:彭博新闻,华福证券研究所 构建千亿级令牌金融训练数据集构建千亿级令牌金融训练数据集彭博的 ML 产品和研究小组与公司的 AI 工程团队合作,利用公司现有的数据创建、收集和管理资源,构建了迄今为止规模最大的专业领域数据集之一规模最大的专业领域数据集之一。作为一家金融数据公司,彭博的数据分析师在四十年的时间里
14、收集和维护了金融语言文件。该团队从这个广泛的财务数据档案(包括金融新闻金融新闻,报告和分析报告和分析,公司财报公司财报,经济数据经济数据,交易数据交易数据)中提取数据,创建了一个由英文财务文件组成的 3630 亿令牌的综合数据集亿令牌的综合数据集。该训练数据集使用 3450 亿个令牌公共数据集进行扩充,以创建一个包含超过 7000 亿个令牌的大型训练语料库。使用该训练语料库的一部分,训练了一个500 亿参数的纯解码器(decoder-only)因果语言模型。由此产生的模型在现有的特定于金融的 NLP 基准、一套彭博内部基准以及来自流行基准的广泛类别的通用 NLP 任务(例如,BIG-bench
15、 Hard、知识评估、阅读理解和语言任务)上得到验证。11图表:3450亿令牌公共数据集来源图表:3630亿令牌综合数据集来源海外大模型在金融领域的应用Bloomberg GPT资料来源:BloombergGPT:A Large Language Model for Finance,华福证券研究所 擅长金融任务擅长金融任务,性能远优于同规模模型性能远优于同规模模型Bloomberg GPT在金融领域的相关任务中表现出较高的性能和专业性。同时,模型在预训练阶段就已经学习到了大量金融知识,使得在后续的微调任务中能够更快地适应特定场景。使用内部特定的评估标准与模板对模型进行多个任务评估,发现Bloo
16、mberg GPT在金融任务(Finance-Specific)上的表现明显优于现有的类似规模的开放模型(GPT-NeoX、OPT-66B、BLOOM-176B)。此外,模型在金融任务上的表现远高于在一般任务(General-Purpose)上的表现任,但其处理一般任务的性能仍不输于同规模模型。12图表:同规模模型性能对比图表:用于评估金融任务模板图表:模型评估标准海外大模型在金融领域的应用Bloomberg GPT资料来源:BloombergGPT:A Large Language Model for Finance,华福证券研究所 结合结合Bloomberg自身优势自身优势,赋能多种金融应
17、用场景赋能多种金融应用场景Bloomberg需要特定的查询语言从自身数据库中调用金融数据。得益于训练集积累了大量历史查询记录,BloombergGPT将根据用户需求自动生成查询语言,降低Bloomberg金融数据库的使用门槛。基于丰富的新闻文章训练集,BloombergGPT可以赋能新闻应用程序,协助记者完成如撰写新闻标题等日常工作,极大地提高用户工作效率,减少内容编辑等琐碎工作,将更多时间聚焦于核心内容。受益于金融垂直领域知识的训练优化,BloombergGPT可以更加准确地理解并回答金融世界的问题,例如在询问公司CEO的问题上,相较于其他同规模模型,BloombergGPT的回答取得了最高
18、的准确率。因此,BloombergGPT可以便利金融业的知识获取,帮助从业人员快速获得相对准确的结果。13图表:查询语言自动生成图表:撰写新闻标题图表:回答各公司CEO海外大模型在金融领域的应用Bloomberg GPT资料来源:BloombergGPT:A Large Language Model for Finance,华福证券研究所国内大模型在金融领域的应用同花顺GPT 加速布局人工智能加速布局人工智能从2012上线问答功能开始,同花顺围绕智能金融科技以及其他人工智能服务技术,发布了多种AI产品。在金融科技方面,通过深度学习与自然语言处理等人工智能方法,对于数据、事件、结论等信息进行自动
19、化处理和分析,赋能了iFind、问财、舆情监控、智能投顾、智能投研等产品。在其他人工智能服务方面,同花顺的AI开放平台提供数字虚拟人、智能金融问答、智能语音、智能客服机器人、智能医疗辅助等40余项人工智能产品。2020-2022三年,公司研发投入占比不断增加,主要投入方向就是人工智能技术应用。目前同花顺已在探索大模型落地应用场景,未来基于庞大的金融端数据资源与C端客群优势,将在AI大模型、AIGC领域持续进行技术攻关,有望在国内率先落地金融GPT。14资料来源:同花顺,华福证券研究所0%5%10%15%20%25%30%35%0246812022研发费用(左轴,亿元)研发
20、费用销售百分比(右轴,%)图表:同花顺研发费用及占销售百分比人工智能iFindi问财智能投顾智能投研数字虚拟人舆情监控智能语音智能客服 同花顺业务场景中的大模型同花顺业务场景中的大模型1.1.问答:问答:同花顺问答业务主要是“同花顺问财”,用户每日问句数量大约为1000万条,累计不同问句约5亿条,需求量比较高。问财前几年用的深度学习模型TextCNN做通用语义识别准确率为88%,应用了预训练大模型后,准确率显著提升至92.96%。再加上更多的数据进行迭代,可进一步提升效果。2.2.对话:对话:同花顺对话业务分为面向C端的智能投顾以及面向B端的智能客服、智能营销机器人。智能投顾业务要基于用户画像
21、,理解用户语义;智能客服与营销机器人也需要有多轮对话能力与意图识别能力。公司已在使用基于BERT的预训练模型赋能智能对话,下一步使用基于GPT-3架构的大模型可提升复杂意图理解能力与准确度。15资料来源:同花顺,华福证券研究所图表:语义分类模型效果对比模型类型模型准确度优化提升常规深度模型TextCNN88%-大模型Electra-small92.96%-4.96%Mengzi-base94.16%-1.20%Electra-small98.54%数据迭代4.38%对话对话智能投顾智能营销智能客服图表:同花顺对话业务场景国内大模型在金融领域的应用同花顺GPT 同花顺业务场景中的大模型同花顺业务
22、场景中的大模型3.3.信息抽取:信息抽取:信息抽取可用于知识图谱构建和金融数据库构建两个方面,这在风控、投研、投顾、银行理赔等场景都非常重要。从研报、新闻资讯中自动提取因果关系的三元组(因-影响-果)能够用于搭建金融知识图谱,以此进行推理决策。同花顺用Char Embedding+LSTM抽取时,F1值(衡量模型精度)不到70%,用自研BERT模型,F1值可达到77%4.4.舆情监控:舆情监控:同花顺的舆情监控系统“同花顺企洞察”,可以自动识别公司正负面新闻。大模型让机构名称识别准确度提升17.25%,舆情风险识别准确度提升同样提升17.25%,并且使用的是参数较少的tinybert,后续还有
23、优化空间。16资料来源:同花顺,华福证券研究所图表:事件论元抽取模型效果对比模型类型模型类型模型模型准确度准确度召回率召回率F1F1提升提升常规深度模型Char Embedding+LSTM79.44%62.34%69.86%大模型HexinBERT79.08%76.14%77.58%7.72%ROBERTa-base79.98%76.69%77.82%0.24%Mengzi-Fin-base81.45%75.72%78.48%0.66%图表:舆情风险识别示例国内大模型在金融领域的应用同花顺GPT 金融领域大模型综合应用场景金融领域大模型综合应用场景智能投研智能投研智能投研的关键在于高效处理信
24、息,光速挖掘投资线索,智能辅助成果生产,沉淀投资逻辑。大模型+大数据可从多个方面赋能智能投研。前文提到的问答能力提升有利于智能搜索,提高信息搜集效率;信息抽取能力提高有利于动态推演产业链、事件推演,智能识别事件影响因子与利空/利好公司,找到投资逻辑;舆情监控能力提高有利于风险识别,热门事件跟踪与推送。除此之外,大模型还可以赋能智能研报生成,减少研究院机械系工作时间;赋能智能财务预测,通过大模型找出关键因子,进行实时预测,保证时效性与准确性。未来进一步结合大模型,金融领域的摘要生产、金融预测、金融推荐能够提升研究院资源整合能力与工作效率,提高智能投研价值。17资料来源:同花顺,华福证券研究所图表
25、:芯片产业链动态推演图表:智能周报示例国内大模型在金融领域的应用同花顺GPT18投资建议&风险提示 建议关注:建议关注:证券证券ITIT:恒生电子、同花顺:恒生电子、同花顺银行银行ITIT:长亮科技、宇信科技:长亮科技、宇信科技保险保险ITIT:中科软:中科软 风险提示风险提示:国内大模型及金融行业模型推进不及预期;细分场景应用研发不及预期等。国内大模型及金融行业模型推进不及预期;细分场景应用研发不及预期等。分析师声明及一般声明分析师声明本人具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度,独立、客观地出具本报告。本报告清晰准确地反映了本人的研究观点。本人不曾因
26、,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。一般声明华福证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料,该等公开资料的准确性及完整性由其发布者负责,本公司及其研究人员对该等信息不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,之后可能会随情况的变化而调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不
27、一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。在任何情况下,本报告所载的信息或所做出的任何建议、意见及推测并不构成所述证券买卖的出价或询价,也不构成对所述金融产品、产品发行或管理人作出任何形式的保证。在任何情况下,本公司仅承诺以勤勉的职业态度,独立、客观地出具本报告以供投资者参考,但不就本报告中的任何内容对任何投资做出任何形式的承诺或担保。投资者应自行决策,自担投资风险。本报告版权归“华福证券有限责任公司”所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。
28、未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。未经授权的转载,本公司不承担任何转载责任。19特别声明及投资声明评级特别声明投资者应注意,在法律许可的情况下,本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易,也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。投资者请勿将本报告视为投资或其他决定的唯一参考依据。投资评级声明备注:评级标准为报告发布日后的612个月内公司股价(或行业指数)相对同期基准指数的相对市场表现。其中,A股市场以沪深
29、300指数为基准;香港市场以恒生指数为基准;美股市场以标普500指数或纳斯达克综合指数为基准(另有说明的除外)。类别评级评级说明公司评级买入未来6个月内,个股相对市场基准指数涨幅在20%以上持有未来6个月内,个股相对市场基准指数涨幅介于10%与20%之间中性未来6个月内,个股相对市场基准指数涨幅介于-10%与10%之间回避未来6个月内,个股相对市场基准指数涨幅介于-20%与-10%之间卖出未来6个月内,个股相对市场基准指数涨幅在-20%以下行业评级强于大市未来6个月内,行业整体回报高于市场基准指数5%以上跟随大市未来6个月内,行业整体回报介于市场基准指数-5%与 5%之间弱于大市未来6个月内,行业整体回报低于市场基准指数-5%以下20