《数字金融服务行业AIGC在中国财富管理行业的应用前瞻:AIGC时代来临智能投顾空间广阔-230926(19页).pdf》由会员分享,可在线阅读,更多相关《数字金融服务行业AIGC在中国财富管理行业的应用前瞻:AIGC时代来临智能投顾空间广阔-230926(19页).pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、国泰君安证券股票研究数字金融服务增持评级:2023.09.26上次评级:增持AIGC时代来临,智能投顾空间广阔细分行业评级一AIGC在中国财富管理行业的应用前行业专题研究刘欣琦(分析师)李艺轩(分析师)品1-38032033liyixuan023724gtjas.证书编号S0880522120003S0880515050001相关报告本报告导读:在AI大模型的赋能下,中国智能投顾市场有望受益于客户付费意愿提升而快速增势将为胜负手长,具备数据和算法优势的厂商有望获得更多市场份额,推荐同花顺和东方财富。2023.07.17数字全融服务IT投入有望提升,助力行摘要:业行稳
2、致远中国智能投顾未来市场空间广阔,预计到2025年将达到215亿元人2023.06.11民币。我们认为通过借助AI大模型的能力,未未智能投顾能够为客数字全融服务阿拉丁:助力贝某德成为领先的资管巨头户提供更多的精准信息以及更深层次的逻辑分析内容,并且AI大模2023.03.10型的应用有望大幅提升智能投顾产品的用户体验,预计客户未来对数字金融服务Manue:数字化服务平于智能投顾产品的付费率将有较大提升,进而推动我国智能投顾市台,助力高盛再腾飞场空间的增长。假设到2025年,中国的智能投顾渗透率提升至美国2023.03.01当前20%的水平,对应渗透率为0.0068%,中国智能投顾市场空间有数字
3、金融服务行业空间长坡厚雪,市场格局多强鼎立望达到215亿人民币2022.0605证券研究报告AI版智能投顾有望面向B端财富管理机构落地先行,赋能机构或投顾等渠道方,进而间接服务C端客户。在当前技术条件的限制下,将AIGC技术直接应用在智能投顾的C端场景具有较高的安全合规风险,如信息泄露风险高、部分C端客户缺乏专业判断可能导致高风险决策等。AIGC技术以2B2C模式赋能智能投顾是一种比较安全有效的落地方式。AIGC技术在智能投顾B端场景中的风险较低,能有效提升投顾服务效能,解决当前投顾人员缺口大、精细化投顾服务难、投顾成本高的痛点。预计未来由金融信息服务商充当AI大模型技术提供方,券商等财富管理
4、机构作为技术应用方,并且将自身数据与AI大模型进行有效结合,以此来提升投顾的工作效率和客户的服务体验。我们认为具备数据和算法优势的厂商有望打造出使用价值更高的智能投顾产品,进而获得更多市场份额。目前我们认为在金融AI大模型领域起到关键性作用的是数据和算法,而并非算力,因为高质量的数据和算法的送代调优将大幅降低对算力的需求,能够在很大程度上抵消相关国家对于算力设备出口限制带来的负面影响。从海内外的实践经验看,高质量的数据往往来自丰富的业务场景和数据治理能力,算法上的优势则主要来自于人才团队及其管理机制。投资建议:推荐在金融相关语料获取和技术人才团队上具备优势的同花顺(300033.SZ)和东方财
5、富(300059.SZ),未来其有望通过将垂直大模型能力整合到自身的智能投顾产品中,预计客户对其产品的付费意愿将有快速提升,相比将获得更多市场份额。风险提示:AIGC技术发展不及预期;行业竞争持续加剧风险;科技领域政策监管持续收紧风险;AI引发各种法律与伦理问题。请务必阅读正文之后的免责条款部分#page#国泰君安证券行业专题研究目录1.中国智能投顾未来市场空间广阔,预计到2025年有望达到215亿元31.1.2022年中国智能投顾市场空间预计为82亿元,与海外发达市场有显著差距.1.2.预计中国智能投顾市场空间将受益于客户付费意愿的提升实现2.AIGC在智能投顾领域有望以2B2C模式落地先行
6、,间接服务C端客户.2.1,当前AIGC直接应用在智能投顾C端场景有较高的安全合规风险2.2.AIGC有望先以2B2C模式帮助投顾提高服务效能.3.具备更多数据积累和算法优势的企业有望获得更多智能投顾市场份额113.1,借助AI大模型打造智能投顾产品的关键在于数据和算法113.2.数据积累优势往往来自于丰富的业务场景和数据治理能力.143.3.算法优势往往来自于优秀的人才团队及其管理机制.175.风险提示.18请务必阅读正文之后的免责条款部分20f19#page#国泰君安证券行业专题研究1.中国智能投顾未来市场空间广阔,预计到2025年有望达到215亿元2022年中国智能投顾市场空间预计为82
7、亿元,与海外发1.1.达市场有显著差距国际证监会组织(IOSCO)于2017年发布的金融科技研究报告将智能投顾定义为运用云计算、大数据、智能算法等技术,根据客户不同的投资需求、风险偏好,为其提供自动化、智能化、定制化的投资组合管理服务。在国内,2011年起施行的证券投资顾问业务暂行规定规定投资顾问业务的服务行为仅限于提供投资建议和辅助投资决策,不包括接受全权委托管理,因此目前中国智能投顾行业的市场主体主要是通过提供金融信息和软件工具来辅助客户进行投资决策。虽然国内市场主体不能直接提供自动化、基于算法的投资管理服务,但根据定义我们认为智能投顾的范嗨也包括金融机构将数字技术应用在理财服务流程,进而
8、再为客户提供智能化、自动化和个性化的资产配置、账户咨询、理财规划等与财富管理相关的各类线上服务。图1智能投顾发展历程顾服务线上化数据来源:智能投顾:国际经验与中国实践,国泰君安证券研究预计2022年我国智能投顾空间为82亿元,近年来迅速增长。鉴于目前我国智能投顾市场主体更多是为投资者提供金融软件信息服务,辅助其投资决策,因此本文以C端金融软件信息服务收入来表征智能投顾的市场空间。根据九方财富招股说明书中弗若斯特沙利文的调研,2017-2022E我国金融软件信息服务市场规模从32亿元增长至82亿元,CAGR接近21%。报告显示,近年来驱动我国智能投顾市场较快增长的因素包括个人可投资金融资产增长带
9、动需求上升、信息技术创新提供技术支持、有利的行业政策等。请务必阅读正文之后的免责条款部分30f19#page#国泰君安证券行业专题研究图2中国C端金融信息软件服务市场规模(亿元)90807060504030200022E数据未源:弗若斯特沙利文,国泰君安证券研究我国智能投顾市场仍处于起步阶段,与海外发达市场差距明显。以美国为例,据Statista统计,2022年美国智能投顾(roboadvisor)行业收入达363.4亿美元。按照“智能投顾市场空间=居民个人全融资产规模智能投顾渗透率”框架进行分析,中美两国智能投顾市场规模的差异主要来自于渗透率。20
10、22年,我国居民个人金融资产规模为243万亿人民币,美国居民个人金融资产规模为106.3万亿美元,按照美元兑人民币1:7.3的汇率计算,我国居民个人全融资产规模约为美国的31.32%对应中美智能投顾渗透率分别为0.0034%、0.0342%,美国智能投顾渗透率约为我国当前水平的10倍。我们认为即使考虑到监管政策的差异性,未来中国智能投顾渗透率还有较大的提升空间。图3美国智能投顾收入规模(亿美元)400363.4350300251.9250200151.615010030.6502002020212022数据来源:Statista,国泰君安证券研究请务必阅读正文之后的免责条
11、款部分4of19#page#国泰君安证券行业专题研究图4中国居民个人金融资产规模(万亿元人民币)图5美国居民个人114.124三120.0250224106.3101.2200100.090.020017580.016680.015060.010040.05020.00.0200202020212022美联储理事会,国泰君安证券研究数据来源麦肯锡财富数据库,国泰君安证券研究数据来源图6中美智能投顾渗透率比较0.0400%0.0342%0.0350%0.0300%0.0221%0.0250%0.0200%0.0150%0.0150
12、%0.0108%0.0070%0.0100%0.0034%8:8839880.0033%0.0027%0.0020%0.0023%0.0050%0.0000%2001720212022一一智能投顾渗透率:中国智能投顾渗透率:美国数据未源:Sualisla,友肯锡财富数据库,美联储理事会等,回泰君安证券研究预计中国智能投顾市场空间将受益于客户付费意愿的提1.2.升实现快速增长目前的金融信息服务产品大多基于技术指标来辅助投资者选择投资标的,但随着投资者认知程度提升,我们认为未来仅提供基于归纳法的技术指标类智能投顾产品难以满足客户需求,越来越多的投资者会倾向于基于信息与逻辑进行
13、投资。请务必阅读正文之后的免责条款部分5of19#page#国泰君安证券行业专题研究图7人是如何做投资决策的?基于信息和逻辑以及对交易方式的理解有息(与众不同的信息)信息不对称价值价格分析优势交易方式交易规则(与众不同的逻辑)套利成本竞争优势套利风险市场微观结构交易心理与情数据来源:国泰君安证券研究AIGC发展有望为客户提供更精准的信息和逻辑,更好地满足客户需求。1)AIGC可以为投资者生成信息,帮助投资者获取更多经验。以GPT为例,GPT模型基于自然语言处理的Transformer模型,通过对数据进行深度学习算法的训练,学习金融领域的专业术语、市场趋势、投资策略等知识,为投资者提供更加准确、
14、有效的信息。2)AIGC可以为投资者提供逻辑,帮助投资者更加理性思考。Google在论文Chai-出思维链(ChainofThought,CoT)能显著提升大型语言模型(LLM)的推理表现。思维链可以让投资者在投资决策时,按照一定的逻辑顺序进行分析,从而更加科学、理性地做出决策。GPT等模型可以根据已经生成的文本作为上下文,逐步构建一个思维链,从而形成投资逻辑。例如,在生成投资结论时,ChatGPT会根据已经生成的文本和投资目标,自动调整投资逻辑的结构和内容,从而使得生成的投资结论更加符合实际情况和投资需求。图9ChatGPT为投资者提供信息与逻辑图8ChatGPT的工作原理门8串较为稳定福入
15、为46.5亿路戏机系列总体来说,微软作为一家规模商大、实力维厚的科技公司,未来的增长趋势看好。效据来源:ChaGPT官网,国泰君安证券研究ChatGPTAIGC发展还有望全方位提升智能投顾的客户体验。AIGC为智能投顾带来了更强大的数据处理和分析能力,提供了更加个性化和智能化的投资建议。1)AIGC使得智能投顾更加便捷易用。大语言模型具备出色的自然语言处理和生成能力,可以进行自然流畅的对话,投资者可请务必阅读正文之后的免青条秋部分6of19#page#国泰君安证券行业专题研究以使用自然语言与大语言模型进行交互。2)AIGC使得智能投顾能够提供更加个性化和定制化的投资服务。大语言模型可以通过分析
16、投资者的投资偏好、风险承受能力和时间周期,生成针对每位投资者特定需求的投资组合建议和资产配置策略。3)AIGC使得智能投顾能够更全面、准确地评估投资机会和风险。大语言模型可以处理海量的金融数据和相关信息,从各种数据源中提取关键信息、分析市场趋势,并基于这些分析结果提供投资建议和决策支持。4)AIGC使得智能投顾能够更灵活地应对市场波动和变化。大语言模型具备高速的数据处理和分析能力,可实时监测市场数据和投资组合状况,捕提市场机会和风险警示,并快速响应市场变化。AIGC发展有望驱动智能投顾渗透率较快提升,预计2025E行业市场规模达215亿元。AIGC赋能下的智能投顾更具交互性、可靠性和透明度,提
17、高了投资者的投资决策效果,有望驱使更多客户对于智能投顾的需求和付费意愿增长,进而带动我国智能投顾渗透率提升。根据麦肯锡金融业白皮书:2023年3月后疫情时代财富管理重启增长,到2025年中国居民个人金融资产规模有望达到315万亿。在渗透率预计上,至2025E,我国渗透率提升至美国当前水平的20%,对应渗透率为0.0068%。则2025E行业市场规模有望达215.21亿元,22-25CAGR为38%。AIGC在智能投顾领域有望以2B2C模式落地先行,2.间接服务C端客户2.1.当前AIGC直接应用在智能投顾C端场景有较高的安全合规风险2023年7月,国家网信办等部门发布生成式人工智能服务管理暂行
18、办法,对AIGC服务实行包容审慎和分类分级监管,坚持发展和安全并重,对AIGC的合规性与安全性提出了更高要求。该办法指出:提供和使用生成式人工智能服务不得侵害个人信息权益,应当提高生成内容的准确性和可靠性,提升生成式人工智能服务的透明度。基于办法规定,智能投顾C端场景更加应当谨慎使用AIGC技术,在当前技术条件的限制下,将AIGC技术直接应用在智能投顾的C端场景具有较高的安全合规风险。首先,AIGC在智能投顾C端场景的数据使用量大,信息泄露风险高。智能投顾C端场景强调AIGC功能的多样性,以满足客户多元而分散的需求,因此需要AI大模型涵盖不同金融领域的大量多样化且高质量的数据并进行广泛训练。在
19、数据使用量过大的情况下,数据的审核难度较高,容易产生数据安全风险,包括但不限于敏感数据泄露、违规采集数据等。在使用智能投顾服务的过程中,如果客户提供给AI大模型的数据被用作进一步选代的训练数据,那么私人数据将作为模型权重记录在模型中,在与其他客户交互的过程中,AI大模型可能会泄露客户涉及个人隐私、财务安全等敏感问题的隐私数据,因而存在一定的请务必阅读正文之后的免青条教部分70f19#page#国泰君安证券行业专题研究安全风险。同时,AI大模型本身也可能受到恶意用户的攻击,恶意用户可以通过查询大语言模型来获取其他用户的隐私信息,从而产生严重的安全合规问题。图10AI大模型数据泄露的潜在路径Dat
20、aLanguage Modelouuu ssn KianbXXXTrairssppes.sn KonbIndividualsInstitutionXXX数据来源Challengesand Remedies to Privacy arnd Security inAIGC其次,AIGC生成内容的随机性可能会成胁C端客户的财产安全。AIGC的训练机制决定了模型输出的内容是一个概率问题,具有一定的随机性,输出错误答案的概率仍然存在。当前技术仍无法完全控制大模型生成的内容,其中可能包含虚假和欺骗性的内容,此类内容会影响信息的准确性,并可能对用户的决策产生负面影响。在智能投顾C端领域,AIGC生成内容的不
21、可控性可能会造成巨大风险。客户进行资产配置需要基于准确的信息,如果AIGC生成的投资建议与事实不符,将可能给用户带来错误的指导,造成无法弥补的经济损失,使得客户的财产安全暴露在极大的风险之中。最后,AIGC可能存在“技术黑箱”问题,C端客户难以自行判断并充分信任其生成内容。智能投顾C端客户在使用模型时可能无法获得AI决策所使用的信息且难以充分了解其投资逻辑,部分客户由于缺少专业知识和相关经验,很难自行判断AIGC生成结果的可信度。这将可能导致客户做出高风险决策,成肤客户的财产安全,具有很高的安全合规与监管风险。与此同时,AIGC缺之透明度也可能导致客户对智能投顾的不信任和不安感。据Statis
22、ta统计,2021年超过70%的全球零售投资者对人工顾问的信任度高于机器顾问。这种由不透明造成的不确定性和不信任将持续到整个用户体验中,并影响随后的交互,大大降低智能投顾的服务效能。请务必阅读正文之后的免责条款部分8of19#page#国泰君安证券行业专题研究图11当前绝大部分零售投资者更加信任人工顾问数据来源:,国泰君安证券研究Statista,2.2.AIGC有望先以2B2C模式帮助投顾提高服务效能AIGC技术以2B2C模式赋能智能投顾是一种比较安全有效的落地方式。AIGC在智能投顾B端环境下所关注的功能是特定且有限的,场景相对比较获小,数据和训练结果相对可控。加之B端场景的使用者,即机构
23、专业投顾人员,有足够的知识与经验对AIGC的生成内容作出判断,可以对缺乏准确性的内容进行人工把关和修改,监管难度和安全合规风险都相对较小。因此,AIGC有望面向B端财富管理机构落地先行,赋能机构或投顾等渠道方,进而间接服务C端客户。我们认为AIGC技术面向财富管理机构落地的路径将可能有以下四种:1)将大模型的能力直接应用于机构的客户端APP,完全面向用户。2)在应用层下的API层提供类似于OpenAI模型的API调用服务,以适应不同场景并降低交易成本。3)本地化部署,针对金融领域开发小型模型,考虑到机构的本地化需求和成本控制,帮助解决内部问题。4)联合训练模式与券商合作,客户提供数据用于模型训
24、练,AIGC技术提供方提供算法和计算资源,训练出包含客户专业知识的模型,以适配客户内部环境。这些方案各有利,但是我们认为在当前的环境下,采取后三种路径落地的可能性更高。目前财富管理机构也函需借助AI能力来提升服务效能:1)扩大客户服务覆盖面。我国现有专业投顾数量不足,再加上长尾市场爆发,许多客户仍在专业服务范围之外。我国2022年市场投资者数量共计21213.62万,而投资顾问人员仅有74570位。理论上计算,每位投资顾问需要服务2943位A股投资者,才能覆盖庞大的客户群体。长期以来,机构和高净值个人投资者是重点服务对象,海量长尾客户得到的产品和服务较为单一,其财富管理需求长期未能得到满足。A
25、IGC有望助力投顾服务覆盖长尾客户,扩大客户服务面。2)提升客户服务深度。2022财富管理业务发展报告显示,过去一年证券公司对投顾方向进行细分的改革需求大幅增加。但在投顾人员超负荷覆盖客户群体的情况下,很难满足碎片化、个性化的理财需求,如果对客户的了解无法深请务必阅读正文之后的免责条款部分9of19#page#国泰君安证券行业专题研究入,精细化服务也无从谈起。AIGC有望助力投顾服务实现需求的精准匹配,提升客户服务深度。3)降低投顾成本。传统投顾服务以线下一对一人工服务为主,其管理费用和运营成本较高。而AIGC技术与人工服务结合的方式将具有“一对多”的特性,在一定的规模效应下投顾服务成本可以被
26、大幅降低。AIGC有望助力财富管理机构降低投顾成本,实现降本增效。图13AIGC赋能智能投顾满足长尾用户需求2500021214传统投质服务于20%的高净值客户7777465013398m13000900O5000200202021202220%数据来源:国泰君安证券研究数据来源:中国结算,国泰君安证图14证券公司对投顾方向进行细分的改革需求大幅增加02021年选择率3862%改革薪础机制2022年选择3632469对投顾方向进行细分5556%5517%增加产品销售的KP权重5043%向资产配置方向引导5586%强化基金投顾产品
27、销售力度5171%强化以客户为中心的财富管理转型意识8077%数据未源:新财富未来AIGC赋能下的智能投顾或施行以投顾从业人员为主,智能投顾为辅的模式。AIGC赋能下的智能投顾将侧重“顾”的角色,帮助投顾从业人员进行基础信息收集、初步方案设计、投资收益检测等事务性工作。由金融信息服务厂商充当AIGC技术提供方,券商等财富管理机构作为技术应用方,并且将自身数据与AI大模型进行有效结合,以此来提升投顾的工作效率和客户的服务体验,让投资者获取更多专业投资建议和投资陪伴。从长期看,金融信息服务厂商有望在2B2C的业务基础上,在合规管理的前提下,逐步完善自身的智能投顾AIGC模型,为直接面向C端客户提供
28、服务做必要的准备。请务必阅读正文之后的免责条款部分10of19#page#国泰君安证券行业专题研究3.具备更多数据积累和算法优势的企业有望获得更多智能投顾市场份额3.1.借助AI大模型打造智能投顾产品的关键在于数据和算法当前算力、算法和数据是人工智能产业发展的三个核心要素。在这里,数据是指训练算法和实现算法所需的信息,可以是事实、图像、声音、文本等,是人工智能发展的前提;算法主要指用系统的方法描述解决问题的策略机制,包括机器学习、深度学习、自然语言处理等,能够决定AI大模型的效率和准确性;算力主要指的是计算机硬件资源,包括处理器、内存、存储等,共通过提供强大的计算资源,支持人工智能算法的训练、
29、推理和预测,处理大规模的数据集,优化和调参模型。图15当前做好AI大模型的必备三要素:数据、算法和算力皖算力数据算法5中数据来源:国泰君安证券研究目前市场上主流观点认为,AI大模型在垂直领域落地时,算力、算法和数据三者缺一不可,但是我们认为当前数据和算法的重要性远远大于算力,而并非相反,主要原因有三:1)伴随数据规模的增长和数据质量的提升,AI大模型所需的算力就越少。2020年1月OpenAI 在论文Scaling Laws for Neural LanguageModels中提出了大型语言模型(LLM)的缩放定律,OpenAI指出随着数据规模的指数增长,模型在测试集上验证的损失是线性下降的,
30、即模型的性能是线性提升的。请务必阅读正文之后的免责条款部分11of19#page#国泰君安证券行业专题研究图16随着数据规模指数增长,模型在测试集上验证的损失线性下降4.21L=(D/5.4.1013)-0.0953.9363.33.027108109Dataset Sizetokens数据未源:ScalingLawsforNcuralLanguageModcs,国泰君安证券研究高质量的训练数据是大模型训练与调优的关键因素。以GPT家族的进化史为例,从GPT-1到GPT-4,模型的整体架构相似,而训练数据的规模与质量有很大不同。GPT-1使用的训练数据是4.8GB未经过滤的数据,GPT-2使用
31、了40GB经人类过滤的数据,GPT-3更是从45TB的原始数据中清洗出了570GB的高质量海量训练数据,ChatGPT/GPT-4也是使用了高质量人工标注数据与人类对齐。图17GPT进化的模型架构相似,而数据的规模与质量不断提高x mz5*6数据来源:Data-centricArtificial Intelligence:ASurvey,国泰君安证券研究AI大模型在垂直领城落地时,高质量的精品数据同样重要。MetaAI发布的论文LIMA:LessIsMoreforAlignment指出,基于GPT的生成式大语言模型,在预训练阶段对海量数据的无监督学习以学习通用表示,最终得到通用大模型。在垂直领
32、域落地时,需要在预训练后进行微调和对齐来挖掘和激活语言模型能力。MetaAI在LLaMA-65B的基础上,只用了1000个精心准备的样本数据进行微调就足以让模型产生高质量的内容。2)随着算法增强与创新,AI大模型所需的算力就越少。2020年,麻省理工学院计算机科学与人工智能实验室(CSAIL)的科学家证明了改进算法在提高计算硬件性能方面的重要性。对于大型计算问题,43%的算法系列的同比改进等于或大于备受推崇的摩尔定律带来的收益。对于大数据问题,算法改进带来的收益尤其大,因此近几十年来算法进请务必阅读正文之后的免青条教部分12of19#page#国泰君安证券行业专题研究步的重要性不断增加。随着问
33、题增加到数十亿或数万亿个数据点,算法改进变得更加重要,AIGC技术方将越来越需要转向算法等领域来提高性能。OpenAI2020年的一篇报告指出,2012年到2019年,神经网络架构从头开始训练到AlexNet级别性能所需的算力下降了44倍。结果表明,随着算法改进,算法效率提高,AI模型使用相同的计算能力可以完成更多任务,带来更多收益。人工智能的算法效率可以定义为减少训练算法完成某项任务所需的算力,如果算法需要尽可能少的资源(即几乎不需要任何计算时间和内存)来解决特定问题,则该算法是高效的。算法越高效,软件要做的工作就越少,所需的算力越少。图187年后达到AlexNet性能所需的计算量减少了44
34、倍201014数据来源:OpenAI,国泰君安证券研究注:任意给定时间的最低计算点以蓝色显示,所有测量点以灰色显示。3)获得算力资源较为容易,但是较难获得最前沿的算法和大规模高质量的训练数据。在算力领域,虽然2022年8月起,美国政府限制英伟达向中国出口A100和H100芯片,但是国内公司仍然可以选择购买性能略逊的A800和H800芯片进行训练,或者购买华为异腾芯片等国产替代品,再或者可以从阿里云等第三方租借算力资源。在资金允许的范围内,公司基本可以得到需要的算力补充,算力资源的相对稀缺性较低,不成为训练AI金融大模型的核心障碍。在算法领域,目前AI技术的论文与代码开源程度较高,可以基于Tra
35、nsformer模型进行算法研究,国内公司可以采用相似的模型架构,但真正在全球领先的公司OpenAI的关键模型并不开源,API接口也不向中国地区开放,国内短期内也无法有公司能够达到OpenAI的水准。因此虽然国内正在进行“千模大战”,实际上国内公司在算法领域的竞争较为同质化,并且是在较低维度开展竞争,所研发的算法离真正的“好用”、“解决实际问题”还有相当长的距离,这可能会对最终请务必阅读正文之后的免青条秋部分13of19#page#国泰君安证券行业专题研究AI大模型的商业产品化落地造成阻碍在数据领域,AI大模型落地时,往往会遇到数据量较少、特定领域数据稀缺的情况,而形成中文的优质数据库、语料库
36、需要公司长期的积累沉淀,大规模高质量的数据是助力AI模型训练与调优的关键,也是厂商借助AIGC打造优秀智能投顾产品的关键。数据积累优势往往来自于丰富的业务场景和数据治理能3.2.力数据优势主要有两个构成因素:1)丰富的业务场景2)数据的治理能力,前者决定了初始语料的多察,后者决定了多少语料可以被提取成可供模型训练的高质量数据。要做好金融大模型,借助AIGC打造优秀智能投顾产品,就需要积累涵盖多个业务场景的丰富语料数据,包括金融市场数据、金融会话数据、交易数据、用户行为数据、金融新闻和评论、经济报告和研究、金融法规和政策文件等场景的语料数据。表1金融大模型需要不同场景的语料积票数据类别应用包括股
37、票市场、外汇市场、基金市场、债券市金融市场数据场、宏观经济等数据,有助于模型理解市场状况,预测市场走势。包括在金融终端上投资者之间、投资者与智能投顾机器人、顾问等进行的会话数据,金融会金融会话数据话数据通常是海量且实时产生的,有助于模型保持时效性。包括在金融终端上进行金融交易活动的数据交易数据有助于模型的风险管理以及对市场情绪的分析。包括用户在金融终端的交互行为数据,可以用用户行为数据于分析用户需求和偏好,从而优化产品和服务。包括金融新闻、市场评论、专家分析等文章,金融新闻和评论这些文本可以帮助模型了解金融市场的事件。趋势和影响因素。包括经济学家、研究机构和金融分析师发布的报告和研究,涵盖宏观
38、经济、行业分析、公司经济报告和研究财报等内容,这些文本可以给模型提供更深入的金融知识和洞察力。包括金融监管机构发布的法规、政策文件,以金融法规和政策及与金融合规相关的规定,这有助于模型理解文件金融市场的法律框架和合规要求。数据来源:国泰君安证券研究将上述初始语料数据转换为可供训练的数据通常分为以下几步:1、数请务必阅读正文之后的免责条款部分14of19#page#国泰君安证券行业专题研究据清洗:初始语料可能包含噪声、错误或不一致的数据。数据清洗是指对数据进行预处理,包括去除重复项、处理缺失数据、纠正错误等,以确保数据的质量和一致性。2、标注和标准化:对于自然语言文本,需要对语料进行标注和标准化
39、。标注是指对文本进行语义和结构的标记,例如词性标注、命名实体识别等。标准化是指对文本进行规范化如拼写纠正、词形还原、句法分析等,以便模型能够更好地理解和处理文本。3、分词和词向量化:对于文本数据,需要将句子或段落进行分词,将其划分成词语的序列。然后,将词语转换为向量表示,通常使用词嵌入技术,将词语映射到高维向量空间,以便于模型处理和学习语义关系。4、数据增强:数据增强是指对训练数据进行扩充,以增加数据样本的多样性和数量。常用的数据增强技术包括通过同义词替换、句子重组等对文本数据进行变换。5、数据划分:为了训练和评估模型,需要将数据划分为训练集、验证集和测试集。训练集用于模型的参数训练,验证集用
40、于调整模型的超参数,测试集用于评估模型的性能。6、数据索引和读取;为了高效地访问和读取数据,在构建大模型时通常需要建立数据索引或使用数据加载器,以便于从存储中快速读取和获取数据。2023年3月30日,彭博社发表BloombergGPT:ALargeLanguageModelforFinance,正式推出为金融界打造的大型语言模型(LLM)一BloombergGPT,在金融任务上的表现远超过现有模型。彭博社构建了FiPile金融领域数据集,一半是金融领域的文本,一半是通用文本,其中金融领域的文本包含了金融相关网页、金融知名新闻源、公司财报、金融相关公司的出版物等金融数据,共包含了3630亿个数据
41、标签。作者在论文最后表明,BloombergGPT取得良好效果最重要的因素就是高质量的金融数据语料集。图19FinPilc金融领域数据集DocsCharsToksC/DCITT%Datasetle41e81e8FINPILE51.27%175.8861.01717.8834.923.635Web158,250886147684.962.97842.01%News10.0401.6651.6724.443765.31%2.3405.39145Filings98887802.04%12653.4434355.06861.21%Press49Bloomberg2.9967582274.600.70%
42、数据来源:BloombergGPT:ALarge Language Model forFinance,国泰君安证券研究表2FinPilc数据积累与提取方式提取方式数据类别彭博社通过网络爬虫识别包含财务相关信息的网站并收集网络内容,爬虫时侧重于具有财务金融相关网页相关信息的高质量网站,而不是通用的网络爬出。数据来源为所有媒体报道的财经新闻,并从中财经新闻筛选出与金融界相关的信誉良好的新闻来源,以保持真实性并减少偏见请务必阅读正文之后的免责条款部分15of19#page#国泰君安证券行业专题研究大多数来自美国证券交易委员会的在线数据库EDGAR,提交的文件通常是长PDF文档,其公司财报中包含财务信
43、息密集的表格和图表,并在模型中对这些数据进行处理和规范化。公司公告包含公司发布的公告,涵盖公司的公共信息。彭博社数据包括彭博社新闻、意见和分析。数据来源:BloombergGPT:ALarge Language Model for Finance,国泰君安证券研究3.3.算法优势往往来自于优秀的人才团队及其管理机制算法优势往往来自于优秀的人才团队。人才是人工智能产业的核心竞争力,算法的领先离不开优秀人才团队的贡献,需要庞大的队伍投入不断突破算法的极限。优秀的人才因队往往拥有高层次的人员构成,需要大量高端人才进行高价值产出。由AMiner和智谐研究发布的ChatGPT团队背景研究报告显示,Cha
44、tGPT研发团队中,本科、硕士和博士的占比分别为33%、30%、37%,其中博士学历占比最高,且各学历的人数占比相对均衡。图20ChatGPT团队学历分布博士研究生618硕士研究生本科/学士3390%10%20%E40%数据未源:智谱研究,回泰君安证券研究优秀的管理机制是吸引高端人才、建设优秀人才团队的关键。优秀的管理机制能够充分调动人才的积极性和创造性,为人才实现自身价值提供高效平台。AI行业具有强烈的马太效应,如果公司自身没有人性化的管理制度、创造性的激励机制、强大的实力背景,于人才而言便是“巧妇难为无米之欢”。中国信息通信研究院发布的中国人工智能产业创新人才竞争力报告(2023年)显示,
45、百度、腾讯、华为三家大厂占据产业人才竞争力前3,这意味着拥有优秀管理机制、人才聚集度高的公司能够在AI人才的争夺和储备中占据优势。请务必阅读正文之后的免责条款部分16of19#page#国泰君安证券行业专题研究图21中国AI产业人才排名分数情况85.5908n的943n71.9m42.4中酒数据来源:中国人工智能产业创新人才竞争力报告(2023年),国泰君安证券研究4.投资建议推荐在金融相关语料获取和技术人才团队上具备优势的同花顺(300033.SZ)和东方财富(300059.SZ),未来其有望通过将垂直大模型能力整合到自身的智能投顾产品中,预计客户对其产品的付费意愿将有快速提升。表3:推荐公
46、司估值表BPS股票价格P/E评级证券代码证券简称2022A2023E2022A2024E2023/9/252024E2023E同花顺增持300033.SZ146.403.5846.4831.9734.703.154.220.6323.7525.7624.13300059.SZ东方财富15.200.640.59增持数据来源:Wind国泰君安证券研究首先,两家公司在C端金融信息服务领域具有广泛的活跃用户,在金融语料的获取能力方面遥遥领先于同行,并且各自深耕数据业务领域有较长时间,具备较强的数据治理能力。图22同花顺与东方财富APP的MAU分别名列市场一二且大幅领先于同业3500.02500.000
47、000S1000.00500.002022.口同花顺东方财富口大智慧口泓乐财富通口国泰君安君弘小方平安证券e海通财口广发证券易淘金靖蜓点金数据来源:易观千机,国泰君安证券研究单位:万人请务必阅读正文之后的免责条款部分17of19#page#国泰君安证券行业专题研究其次,算法研发和更新选代主要依靠高端人才,目前同花顺和东方财富分别拥有40名和4名博士学历及以上人才,在高端人才积累上也大福领先于同业。图23同花顺和东方财富拥有的博士人才数量行业排名前列45404035302520510同花顺恒生电子东方财富大智慧指南针财富趋势顶点软件数据未源:各家公司2022年报,国泰君安证券研究另外,目前两家公
48、司也在人才的招募上具有优势。除固定薪副外,两家公司会对高端人才发放期权或者股票作为额外激励,提高人才进行成果产出的动力。同花顺在人才招募上的优势更为突出,其与杭州市余杭区合作共建了同花顺人工智能研究院博士后科研工作站,主要招蔡从事人工智能前沿理论及算法研究、信息科学与金融领域的交叉研究等方向的人才。根据2022年7月公布的杭州市余杭区服务保障高层次人才创新创业政策实施细则,全职博士后在站期间与设站单位签订事业单位聘用合同或企业劳动合同可享受两年最高30万元的生活补贴以及最高50万元的出站留余杭(来余杭)补助,这意味着地方政府在很大程度上解决了高端人才安家落户的顾虑,提升了公司招聘高端人才的吸引
49、力。5.风险提示AIGC技术发展不及预期;行业竞争持续加剧风险;科技领域政策监管持续收紧风险;AI引发各种法律与伦理问题。请务必阅读正文之后的免责条款部分18of19#page#国泰君安证券行业专题研究本公司具有中国证监会核准的证券投资咨询业务资格分析师声明作者具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,保证报告所采用的数据均来自合规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响,特此声明。免责声明本报告仅供国泰君安证券股份有限公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而
50、视其为本公司的当然客户。本报告仅在相关法律许可的情况下发放,并仅为提供信息而发放,概不构成任何广告。本报告的信息来源于已公开的资料,本公司对该等信息的准确性、完整性或可靠性不作任何保证。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌。过往表现不应作为日后的表现依据。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告中所指的投资及服务可能不适合个别客户,不构成客户私
51、人咨询建议。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议。在任何情况下,本公司、本公司员工或者关联机构不承诺投资者一定获利,不与投资者分享投资收益,也不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。投资者务必注意,其据此做出的任何投资决策与本公司、本公司员工或者关联机构无关。本公司利用信息隔离墙控制内部一个或多个领域、部门或关联机构之间的信息流动。因此,投资者应注意,在法律许可的情况下,本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易,也可能为这些公品开屏卫工“血“关置变是务专群提到的公司的董事。市场有风险,投资需谨慎
52、。投资者不应将本报告作为作出投资决策的唯一参考因素,亦不应认为本报告可以取代自己的判断。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。本报告版权仅为本公司所有,未经书面许可,任何机构和个人不得以任何形式翻版、复制、发表或引用。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“国泰君安证券研究”,且不得对本报告进行任何有性原意的引用、删节和修改。若本公司以外的其他机构(以下简称“该机构”)发送本报告,则由该机构独自为此发送行为负责。通过此途径获得本报告的投资者应自行联系该机构以要求获悉更详细信息或进而交易本报告中提及的证券。本报告不构成本公司向该机构之客户提供的
53、投资建议,本公司、本公司员工或者关联机构亦不为该机构之客户因使用本报告或报告所载内容引起的任何损失承担任何责任。评级说明评级说明1.投资建议的比较标准增持相对沪深300指数涨幅15%以上投资评级分为股票评级和行业评级。谨慎增持相对沪深300指数涨幅介于5%15%之间以报告发布后的12个月内的市场表现为股票投资评级比较标准,报告发布日后的12个月内的中性相对沪深300指数涨幅介于-5%5%公司股价(或行业指数)的涨跌幅相对同期的沪深300指数涨跌幅为基准。减持相对沪深300指数下跌5%以上2.投资建议的评级标准转康明显强于沪深300指数报告发布日后的12个月内的公司股价行业投资评级中性基本与沪深300指数持平(或行业指数)的涨跌幅相对同期的沪深300指数的涨跌幅。减持明显弱于沪深300指数国泰君安证券研究所上海深圳北京地址上海市静安区新闸路669号博华广深圳市福田区益田路6003号荣超商北京市西城区金融大街甲9号金融场20层务中心B栋27层街中心南楼18层邮编2000432电话(021) 38676666(0755)23976888(010)83939888请务必阅读正文之后的免责条款部分19of19#page#