《从金融市场数据到金融数据市场-夏青博士.pdf》由会员分享,可在线阅读,更多相关《从金融市场数据到金融数据市场-夏青博士.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、从金融市场数据到金融数据市场恒生聚源,吴震操/夏青数据市场、数据智能与数据要素关于恒生聚源耕耘金融数据领域23年,为银行、证券、基金、资管、金融科技、监管等专业机构提供投资、交易、财富、投研和风险领域的专业数据、洞察和工具。目录金融市场数据和金融数据市场金融市场数据和金融数据市场数据运营的挑战和应对从大数据时代到大模型时代数据要素的探索金融市场:通过资金流动实现社会资源的最佳配置人民银行人民银行商业银行商业银行政府政府金融市场金融市场投资机构投资机构(证券证券、基金基金、保险保险、资管等资管等)企业企业、单位单位个人个人流动性工具、公开市场操作定向扶持纳税纳税发债投资交易投资交易薪酬贷款、存款
2、贷款、存款投融资投资金融市场规模(资本市场,机构间市场)人民银行人民银行CFETS银行间市场银行间市场公开市场一级交易商公开市场一级交易商贷贷款款中债登中债登上清所上清所国债国债地方债地方债企业债企业债金融债金融债非金融企业债务融资工具非金融企业债务融资工具上市交易托管托管机构间拆借市场机构间拆借市场商业银行商业银行货币投放信托、金租等信托、金租等非银非银中小银行、农中小银行、农村金融机构村金融机构实体经济实体经济非银融资非银融资贷款贷款上市公司上市公司优质信用企业优质信用企业(发债企业)(发债企业)债券、拆借债券融资债券融资证券公司证券公司交易所市场交易所市场(沪沪深北深北)基金基金/资管资
3、管公司公司机构机构/个人个人投资者投资者基金基金理财理财股票股票2012.3万亿万亿机构间市场机构间市场交易所债券212.4 万亿万亿企业信贷余额企业信贷余额资本市场资本市场224.5万亿万亿债券、拆借公开市场操作释放资金SLF、MLF等公开市场操作G9货币对外汇交易拆借、质押、回购等释放资金IPO、定增、定增*数字为2022年国务院和国家统计局数字金融数据市场:以数据流动性助力金融流动性全球金融数据市场规模约为2600亿人民币,CAGR 7%;中国约100亿人民币,CAGR 20%数据提供者数据消费者社区、授权许可、商业合同、收集和分发的基础设施终端、DataFeed、API、数据库、模型、
4、算法、服务存储、一致化、存储、一致化、智能分类、增值智能分类、增值分析分析交易所券商研究机构银行新闻社企业机构间市场/OTC政府、央行和监管银行私行和财富管理券商政府和监管机构企业央行资管机构第三方内容提供商第三方内容提供商确权获取治理分发增值赋能决策决策知识知识数据和信息数据和信息交易关系和模型金融数据公司:为金融市场参与者提供数据运营网络(Internet+专线):连接交易所和社区数据中心:市场数据接入、合作伙伴数据贡献、客户数据分发数据平台数据平台动态知识图谱实时数据处理实体关系抽取数据编审数据治理数据存储鉴权|访问|记账信息检索分析工具Data Feed:AI终端和应用终端和应用:HI
5、协作协作:PI线上沟通实时数据参考数据历史数据风险合规数据智能监控托管服务Data APIChat Bot监管合规流程应用其它其它桌面API分析平台分析平台企业画像股票研究外汇研究产业链研究债券研究基金研究宏观研究贴源接入层数据细节层数据中间层服务和应用层关键技术:大数据、实时系统、人工智能、业务建模8大数据技术人工智能(大模型、知识图谱)实时数据采集和处理业务建模(金工模型实现)架构和服务治理(架构演进、服务治理、API编排)基础设施管理(多云、组播网络、数据中心)敏捷研发能力(敏捷+云原生)数据规模数据规模增长快,资本市场和产业链每日增加大量数据异构数据异构数据融合,需要不断整合外购数据库
6、和第三方数据源非结构化数据非结构化数据接入和处理,标签繁杂、图谱关系复杂行情和资讯数据实实时处理和传输时处理和传输要求高(价格、交易、新闻、重大事件)专业客户对于用户用户体验体验和移动的需求不断增加大量数据传输下的对于高并发高并发、高可高可用用的要求目录金融市场数据和金融数据市场数据运营的挑战和应对数据运营的挑战和应对从大数据时代到大模型时代数据要素的探索从数据公司的外部视角看金融机构数据运营的挑战数据运营数据运营:从采集到交付,端到端为数据消费者及时提供高质量的数据。【准确性、时效性准确性、时效性】异构的业务系统,不断产生大量的新数据和暗数据(Dark Data)【精益性精益性】持续增加的外
7、部数据源,推高数据采购和数据采集的成本【可分析性可分析性】内外部异源数据的持续增加,推高数据治理的成本【民主性民主性】一线服务客户的员工,往往不具备主动数据分析和生产知识的能力和工具建设面向业务的数据运营服务体系,提升数字化能力一把手领军的管理体系:一把手领军的管理体系:激励各业务部门贡献、使用和提升数据一支团队一支团队:专业、专职的数据运营团队。提供业务建模、业务分析、数据建模、数仓设计、开发以及数据清洗、治理、以及服务业务的能力一个开放平台:一个开放平台:尊重现有业务架构,建立湖仓体系一套模型一套模型:参考行业标准,建立自身数据治理能力(分类、ID、主数据、元数据等),建设统一的数据标准和
8、资讯模型N N个消费能力个消费能力:提供API接口、Excel/Python、BI分析、内部终端等方式,为管理层、业务部门和一线员工提供可分析的数据价值性价值性准确性准确性精益性精益性时效性时效性可分析性可分析性民主性民主性目录金融市场数据和金融数据市场数据运营的挑战和应对从大数据时代到大模型时代从大数据时代到大模型时代数据要素的探索大语言模型:数智化的新契机智能客服智能外呼坐席培训服务质检投顾助手投顾话术推荐投顾内容质检投资建议报告撰写基金营销海报审核营销内容审核营销内容撰写舆情分析舆情搜索事件标签事件抽取法规抽取法规搜索合同信息抽取合同撰写合同审核表单识别综合检索研报撰写研报脱水研报检索研
9、报标签投行底稿生成投行底稿生成银行交易流水单识别舆情因子智能客服投顾/营销风控运营投研投行量化交易自动化报表大语言模型+金融数据:升级数据中台到知识中台语料语料准备准备微调语料微调语料目标场目标场景选择景选择大模型大模型选型选型LLaMaLLaMaChatGLMChatGLMQianwenQianwenLightGPTLightGPT评测语料评测语料金融预训练语料金融预训练语料基座基座大模型大模型继续继续预训练预训练有监督精调有监督精调金融领域金融领域大模型大模型RLHFRLHF学习学习人类偏好人类偏好大模型应用产品大模型应用产品智能智能投研投研智能智能投顾投顾插件插件RAG金融数据库金融数据
10、库预训练数据集:20年的数据积累,35003500万万 篇文本,以及100TB100TB 结构化数据。精调数据集:5656万万精调记数(专业研究员逐条梳理)AwaDB智能智能风控风控MilvusVearch大语言模型提升数据治理以宏观研究数据举例:数据来源广、格式不统一、可比性差投资品种数据股票债券期货指数海外公司概况财务数据公司行为发行类事件类资讯类行情。宏观行业数据中国宏观国际宏观地方经济行业经济企业经营财政人口经济贸易价格行业数据经营变动。研究数据宏观研究分析行业研究分析个券研究分析数据+知识私域数据尽调数据研究数据综合资讯厂商:聚源、wind、财汇各家均使用自有模型及标准业务覆盖度相对
11、综合宏观:CEIC、Haver。行业:第三方垂直领域众多厂商指标标准化程度低、交叉性强;数据源结构化程度差数据质量评估和改善数据质量评估和改善大模型可以自动检测数据中的异常值、缺失值和重复值,以及评估数据的质量和完整性。自动化数据清洗和去重过程数据标准管理数据标准管理大模型可以识别出共有的、重复使用的业务字段,作为建立数据标准的依据。根据字段业务名快速的整理出高频词根数据分类和标签数据分类和标签大模型可以根据数据的特征将其分类和标签。这有助于将数据分成不同的组,并为其制定相应的数据管理策略元数据管理元数据管理大模型可以对业务字段名进行自然语言处理,精确分词,根据词根相似性将数据标准与元数据自动
12、映射起来数据异常检测数据异常检测大模型可自动检测数据中的异常值和异常行为,从而帮助企业及时发现和处理问题主数据管理主数据管理每个主数据主题域分散在各个业务系统中。大模型可以筛选出频繁出现的数据,快速确定主数据的可靠与可信数据来源,构建完整的主数据视图目录金融市场数据和金融数据市场数据运营的挑战和应对从大数据时代到大模型时代数据要素的探索数据要素的探索数据要素的形成数据采集数据处理数据分析数据应用原始数据初级数据高级数据合法渠道数据脱敏标准化算法模型可视化数据产品数据资源数据资产经济效益权属确定劳动对象数据价值链价值加工生产要素劳动工具数据资产估值定价难点难点一:数据权属模糊数据从生产到流转的过
13、程中,可产生衍生数据及衍生数据主体,数据资产主体具有多重性难点二:数据价值体现依赖用户使用程度相同质量的一份数据,对于不同的用户而言,由于用户的使用场景或者使用能力不同,有的用户会视其为高价值数据,有的则认为是低价值数据,数据的商业价值会由于衡量标准不同而差异极大。难点三:缺乏数据资产交易机制没有公开透明的活跃的交易市场,使得数据资产的价值无法量化。行业应对的思考序号序号 趋势趋势应对思考应对思考1 1数据要素市场未来前景广阔,不仅局限在金融服务领域,而在各种行业场景中都有体现,成为提升生产效率的重要工具。充分研究、发掘当前各类进入要素市场的数据产品,研究在金融投资的应用场景和使用价值,加快在
14、另类数据领域的合作加快在另类数据领域的合作,如电力、气象数据等等,将各类可能的产业数据、公共数据引入到金融投资中。2 2健康有序的数据要素市场需要不断立法和实践需要不断立法和实践解决数据要素流通交易面临的问题,需要很长一个历史时期。需要密切关注政策变化以及立法进程,关于政府数据的开放进程、企业数据的分级管理、个人数据的隐私保护等方面,各国都在不断探索和制定相应法律规则,对于金融数据行业的合法合规、经营范围等都会产生重要影响。3 3数据交易所及背后的地方政府成为数据要素发展数据交易所及背后的地方政府成为数据要素发展的重要驱动力量的重要驱动力量,主导当前的制度创新以及部分政策制定当前还是以场外点对
15、点交易为主,但是对于场内交易需要持开放态度,主动参与各主要交易所,尽量将品牌数据挂牌,同时了解、参与交易规则和流程,尤其是数据确权等相关政策,尽量在早期掌握主动性。4 4当前各地孤立、分散的交易市场预计后续出现整合与调整。从产权保护、市场准入、公平竞争、社会信用 4个方面强化数据交易市场基础制度规则的统一,实现数据要素在全国范围内畅通流动当前点对点的场外交易转变成未来集中统一的场内交易,需要较长一个时间和过程,预计将长期共存且出现跨行业的数据服务商跨行业的数据服务商,可以提前研究跨行业提供数据服务的机会。5 5随着数据要素市场的发展和完善,公开数据交易市场的活跃,数据资产估值定价的方式逐步从成本法过渡到市场法。金融数据行业相对其他行业数据,交易更加活跃和公开,因此产品定价不同于尚未产业化的数据要素,可以直接考虑市场法估值定价市场法估值定价。