《多模态大模型在金融行业的实践和展望-周思霁.pdf》由会员分享,可在线阅读,更多相关《多模态大模型在金融行业的实践和展望-周思霁.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、多模态大模型在金融行业的实践和展望火山引擎金融解决方案总监&金融大模型负责人/周思霁目录1.海内外多模态大模型发展趋势洞察2.多模态大模型技术深度解析3.机遇与挑战,金融多模态大模型场景落地展望海内外多模态大模型发展趋势洞察大模型对各行业的影响深远、并逐渐走向多模态大模型对各行业的影响深远、并逐渐走向多模态 文生文 文生图 文生视频多模态是大模型落地发展的必经之路多模态是大模型落地发展的必经之路多模态协同更符合人类感知与表达方式多模态协同更符合人类感知与表达方式“看、听、说、读看、听、说、读”多模态数据无处不在,且加速增长多模态数据无处不在,且加速增长“据高通思科统计,据高通思科统计,2022
2、2022年,视频流量占消费互联网总流量的年,视频流量占消费互联网总流量的82%82%。”当我们在说多模态大模型时,我们在说什么?当我们在说多模态大模型时,我们在说什么?Sources:Gemini:A Family of Highly Capable Multimodal Models海内外多模态应用示例海内外多模态应用示例GPT-4VGPT-4VGeminiGeminiClaude3Claude3RunwayRunwayPicaPicaSunoSunoReminiRemini多模态理解多模态理解以Google Gemini为例,原生多模态模型能够无缝理解和推理各种形式的输入,包括文本、图像、
3、视频、音频和代码等。文生图文生图DALL-E 3适用领域:生成高分辨率、细节丰富的图像 支持复杂多主题提示,适合制作概念艺术和插画应用场景:游戏和动画制作中的概念设计 产品设计和建筑可视化 科研和教育领域的图像生成适用领域:生成富有艺术性和创意的图像 支持多种艺术风格,如写实、抽象等应用场景:艺术创作和插画设计 广告和营销视觉内容制作 个人艺术爱好者的创作工具适用领域:擅长理解和呈现复杂文本描述 生成具有创意和想象力的图像应用场景:新闻和媒体图像生成 儿童读物和故事书插图 视觉艺术创作和实验文生视频文生视频高效逼真视频生成高效逼真视频生成:利用“扩散变换器”在视频时空补丁上高效生成逼真视频。智
4、能字幕扩展智能字幕扩展:GPT技术将用户提示扩展为详细字幕,提供丰富视频上下文。捕捉细节与动态捕捉细节与动态:大量数据集训练,精准捕捉视频细节和动态变化。视频质量全面领先视频质量全面领先:在视频质量、成像、美学及动态范围方面全面超越竞品。生成质量高:生成质量高:Runway的Gen-2模型在成像和美学质量上较为领先。AIAI魔法工具魔法工具 套件:套件:提供30多种AI工具,通过文本、图像或视频生成编辑内容。多功能生成编辑:多功能生成编辑:支持多种内容生成编辑,简化数字工作流程。实时协作设计:实时协作设计:支持团队实时协作,促进创意和多元视角融合。独特艺术风格:独特艺术风格:采用动画和程式化技
5、术,使其输出具有独特个性和吸引力。擅长营销向内容:擅长营销向内容:适合重视风格化和创造性的社交媒体、市场营销和娱乐领域。易于使用:易于使用:Pika平台用户友好,让不同技能水平的创作者都能轻松探索视频生成AIAI音乐生成音乐生成AI音乐生成模型suno在发布V3版本后火爆出圈,只需要输入简单的提示词,比如音乐主题、风格、流派、歌词、音色等,Suno就能快速生成一首长达2分钟的完整音乐多模态大模型技术深度解析Sources:A Survey on Multimodal Large Language Models,p2,Figure 1多模态技术演进曲线浅析多模态技术演进曲线浅析Sources:M
6、ultimodal Foundation Models:From Specialists to General-Purpose Assistants,p29,Figure 3.2典型的文本到图像生成模型概述(截止到典型的文本到图像生成模型概述(截止到20232023年年7 7月)月)视频生成模型与产品时间线(截止到视频生成模型与产品时间线(截止到20232023年年1212月)月)Sources:a16z 转引自新智元AI 视频年大爆发:Gen-2/Pika 成时代爆款,2023 年 AI 视频生成领域的现状全盘点,华创证券典型典型MLLMsMLLMs发展时间线(截止到发展时间线(截止到202
7、42024年年3 3月)月)输入空间从文本扩展到多模态输入空间从文本扩展到多模态通过图文对进行输入空间的对齐通过图文对进行输入空间的对齐自然地通过自然地通过LLM基座以文本方式进行输出基座以文本方式进行输出MLLMMLLM技术路径概述技术路径概述编码器、连接器、LLM、生成器(多模态、可选)Sources:A Survey on Multimodal Large Language Models,p2,Figure 1多模态语义表示指令微调 多模态指令调整(MIT)多模态上下文学习(M-ICL)多模态思想链(M-CoT)LLM辅助视觉推理(LAVR)Sources:Unicoder-VL:A U
8、niversal Encoder for Vision and Language by Cross-modal Pre-training从模态平等到以语言为中心从模态平等到以语言为中心BLIP-2BLIP-2MiniGPT4MiniGPT4SOURCE:MINIGPT-4:ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELSSOURCE:BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and L
9、arge Language Models多模态生成技术路径概述多模态生成技术路径概述扩散模型 Stability Al-Stable Diffusion OpenAI-GLIDE,DALL-E2 Google Imagen&Imagen 2扩散模型 Stability AI-Stable video DiffusionGoogle-Imagen Video基于Transformer的自回归模型:Google-PartiOpenAI-DALL-E1扩散模型+Transformer架构:OpenAI-DALL-E 3基于Transformer的自回归模型:Google-VideoPoet扩散模型+
10、Transformer架构:OpenAI-Sora Google-W.A.L.T从从ViT到到DiT,多模态生成的大一统架构出现了?,多模态生成的大一统架构出现了?DiTDiTViTViT机遇与挑战,金融多模态大模型场景落地展望金融行业多模态大模型应用场景金融行业多模态大模型应用场景营销赋能智能客服、助手信息检索及总结报告生成知识助手办公助手多模态赋能企业客户服务 多意图、多轮识别文档检索、接口调用对话引导和风格化润色智能客服数据获取信息检索账户管理流程指引什么理财产品好,怎么购买?理财产品的选择主要取决于您的投资目标、风险承受能力、时间成本以及对投资品种的了解等因素。如需购买,可点击链接跳转
11、产品名称年化收益率风险等级起购金额产品AA7%R31000元产品BB3.5%R21元*多意图的统一、深度理解*检索文档、调用数据接口并进行统一回复。我能买吗?当然可以买啦!不过在投资之前,记得做足功课,选好产品,适当分散风险。保持关注,及时调整策略,祝您投资顺利!*对话润色、合规回复多模态赋能客户服务 更全面智能的服务能力我登录不了,显示这个,怎么回事?非常抱歉,由于您在登录时选择了人脸识别,但系统未能识别您的面部特征,因此无法成功登录。为了帮助您解决这个问题,请您尝试以下解决方案:调整光线:确保您所处的环境光线充足,避免在强光或阴影下尝试人脸识别。重新定位:微微移动您的头部,确保摄像头可以清
12、晰地捕捉到您的面部特征。等待片刻:有时候系统需要一点时间来适应您的面部特征,您可以稍微等待一下再进行尝试。我在买基金的时候弹出了这个,我之前都可以买的呀。非常抱歉给您带来不便,根据国家相关金融法律法规要求,用户确实需要定期进行风险评估确定风险偏好等级后才能购买理财产品。风险评估的有效期是1年,一旦过期需要重新评估后才能购买。请您理解,这是为了确保您能够持续符合我们产品的风险承受能力要求。如果您之前可以购买但现在出现了这个问题,可能是因为您的风险评估已经过期。为了解决这个问题,您可以点击页面上的“查看我的风险评估结果”按钮,重新进行风险评估。在评估完成后,您就可以正常购买基金了。参考资料:登录方
13、式包括密码、人脸识别、手势识别三种,人脸识别是调用手机的人脸识别功能进行验证,失败原因可能是因为识别时间过短、环境光线不足参考资料:根据国家相关金融法律法规要求,用户需要定期进行风险评估确定风险偏好等级后才能购买理财产品。风险评估的有效期是1年,一旦过期需要重新评估后才能购买多模态赋能客户服务 更拟人的交互形态多模态交互数字人技术将传统文本互动升级为数字人交互,把服务带到用户面前,为用户和企业主提供“面对面,有人情味儿”的专业服务。个性化形象及音色仅需要用户秒级别的音频数据即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。多模态赋能客户服务 运用全新自研语音算法MegaTTS仅需要用户
14、秒级别的音频数据即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。当数据量在10秒到5分钟之间时,MegaTTS不仅可以在任意来源的新用户的短提示下合成保同语音,而且始终优于基于Fine-tuning的基线方法(Porta speech 2)。多模态赋能营销全流程业务理解与内容洞察Prompt知识库数据飞轮转化数据回收内容分发素材生成构建营销素材生成到分发的全链路能力,使用的频次越高、时间越久,模型生成效果越好,实现生成质量提升的正循环智能图片生成,生产效率提升超300%图片生成图片风格化文案生图一张长方形的书桌上放着一台笔记本电脑,两三本书。书桌靠着窗户,桌上还有一些绿植。时间是傍晚
15、,体现出傍晚的阳光。赛博朋克风格,重金属背景替换种草平台特色生图原图小红书风格图片延展生成一张高分辨率的海滩背景图,场景是一个阳光明媚的下午,天空湛蓝,前景是细腻柔软的沙滩原图向右向下可控视频生成,生产效率提升160%,非真人素材成本节约60%结合大语言模型形成个性化、可控视频生成数字人产品介绍数字人计划书播报智能创作金融产品模板数字人名片多模态赋能智能投研年报财务辅助财务报告经营分析行情大宗交易量价分析涨跌分析行业行业预测行业排名行业对比宏观政策汇率变动货币政策财务政策上游产业链下游供货量价格收并购出货量价格消费一键查询智能分析自动总结经营分析行业对比盈利预测分析框架投研数据多模态赋能智能投
16、研 提升信息理解能力文字去水印去除水印文字、去除背景LOGO、去除背景花纹图片校正倾斜校正、图像增强表格抽取支持灵活定制各类表格抽取及分页合并;以财务三大表为例,抽取准确率95%,召回率85%。对研报、招股书、审计报告等文档的解构和识别,统一支持包括目录、表格、图片、段落、标题等信息的识别和关键要素抽取图表解读利用多模态理解技术,对K线、折线图、柱状图等图表进行理解多模态赋能智能投研 提升信息理解能力数据清洗语义分析多模态内容多种核心算法结构化理解内容投研标签输出视频关键帧音频分析视频分类模型人物视频特征元素识别品牌场景消重模型旧闻模型广告识别低质数据实体识别事件聚合音频、抽帧图片转文字情感分
17、析行业分类信源等级关键词提取企业行业事件分类企业识别情感分析产品识别行业分类行业政策核心企业环境管理节能减排环境污染自然灾害员工管理产品信息供应商客户权益公共关系行政处罚安全事故政策扶持官员变动经营治理企业形象高层动态生产销售合同订单财务风险经营异常监管关注涉诉失信资本运作债务违约视频图文音频分析多模态赋能数字员工 多模态知识检索Question+Top N匹配内容降低训练成本补充长短期记忆更新知识库大模型向量数据库ChatGPTVector Database多模态知识助手用户Question回答企业自有知识库向量化入库多模态赋能数字员工 提升业务流程效率远程视频尽调和风控智能资产巡检展望未来:多模态智能体1.规划(Plan):LLM理解用户任务的具体要求和目标。2.行动(Action&Do)阶段:任务计划生产、工具调用与执行、动态调整与优化3.反馈与迭代(Check):完成所有子任务后,评估最终结果;自我进化,以应对更复杂的任务。多模态智能体MemoryToolsActionPlanVectorDB应用元信息文献数据库专题数据集人群队列智能体设计模式生成模式从人工定义到自主规划1.模仿人类研发流程(需求思考方案设计任务分解方案开发测试验证)2.智能体自主规划落地载体:提示词、知识库、插件、工作流3.*当前自主规划流程中仍需引入人工纠偏,以保障输出稳定性