《传媒行业AIGC深度报告:新一轮内容生产力革命的起点-230302(81页).pdf》由会员分享,可在线阅读,更多相关《传媒行业AIGC深度报告:新一轮内容生产力革命的起点-230302(81页).pdf(81页珍藏版)》请在三个皮匠报告上搜索。
1、姚蕾(证券分析师)方博云(证券分析师)S0350521080006S证券研究报告2023年03月02日传媒AIGC深度报告:新一轮内容生产力革命的起点深度报告:新一轮内容生产力革命的起点评级:推荐(维持)评级:推荐(维持)请务必阅读报告附注中的风险提示和免责声明2相关报告国海证券_行业研究:元宇宙系列深度报告:下一代互联网前瞻*传媒*姚蕾2022/01/05国海证券_行业研究:元宇宙系列深度报告之二:数字虚拟人科技人文的交点,赋能产业的起点*传媒*姚蕾 2022/03/10国海传媒_行业研究:元宇宙系列深度报告之三:NFT的本质思考及破圈之路*传媒*姚蕾 2022/03/11最近一年走势相对沪
2、深300表现表现1M3M12M传媒8.51%19.59%0.33%沪深300-1.31%10.55%-9.92%-30%-25%-20%-15%-10%-5%0%5%沪深300传媒请务必阅读报告附注中的风险提示和免责声明3重点关注公司及盈利预测重点关注公司及盈利预测注:盈利预测除芒果超媒、三七互娱、完美世界、吉比特、传智教育外均来自Wind一致预期单位:元资料来源:wind,国海证券研究所股票代码股票代码股票名称股票名称2023/3/12023/3/1EPSEPSPEPE投资评级投资评级股价股价2021A2021A2022E2022E2023E2023E2021A2021A2022E2022E
3、2023E2023E300002.SZ神州泰岳6.70.20.30.333.623.719.2未评级300418.SZ昆仑万维25.21.31.01.119.225.723.1未评级300364.SZ中文在线12.30.1-0.10.290.3-52.3未评级000681.SZ视觉中国15.80.20.20.372.587.757.2未评级300058.SZ蓝色光标6.20.2-0.10.329.5-23.5未评级002555.SZ三七互娱23.01.31.41.617.616.814.4买入603444.SH吉比特366.620.418.424.117.919.915.2买入002624.S
4、Z完美世界14.50.20.70.976.520.316.7买入300413.SZ芒果超媒34.81.21.01.329.735.426.8买入003032.SZ传智教育18.60.20.50.697.738.332.5买入请务必阅读报告附注中的风险提示和免责声明4核心要点核心要点 数据数据、算法算法、算力共振推动算力共振推动AIGC发展发展,模型开源及商业化带来的产品化浪潮及通用人工智能领域的初探推动模型开源及商业化带来的产品化浪潮及通用人工智能领域的初探推动AIGC破圈破圈。AIGC传媒相关应用有望超千亿传媒相关应用有望超千亿。复盘复盘AIGC算法迭代:竞争中发展算法迭代:竞争中发展,模型
5、开源及商业化推动应用破圈模型开源及商业化推动应用破圈。2017年推出的Transformer架构的并行训练优势奠定了大模型训练的基础,以GPT为代表的预训练模型,通过使用无标注数据预训练及微调,缓解了标注数据不足的问题,并不断提升参数量级及模型通用性,ChatGPT在此基础上加入了利用人类反馈强化学习的训练方法。扩散模型取代GAN成为图像生成领域的主流模型,CLIP模型推动跨模态生成技术的发展。GPT3的商业化及CLIP及Stable Diffusion模型的开源推动文本生成、文生图产品化的浪潮。谷歌、Meta持续探索文字生成视频领域模型。国内传媒领域应用有望超千亿国内传媒领域应用有望超千亿。
6、Gartner预测至2023年将有20%的内容被生成式AI所创建;至2025年生成式AI产生的数据将占所有数据的10%(目前不到1%)。红杉预测生成式ai将产生数万亿美元经济价值。2025年,国内生成式ai应用规模有望突破2000亿,我们预测国内传媒领域应用空间超1000亿。AIGC应用于应用于文本文本、音频音频、跨模态跨模态、策略生成策略生成,在设计在设计、内容创作内容创作、广告营销广告营销、游戏游戏、企业服务等领域开启商业化企业服务等领域开启商业化,有望开启新一轮内容生产力革命有望开启新一轮内容生产力革命。文本生成:文本生成:应用于辅助写作、营销、社交、浏览器、企业级服务、心理咨询等领域。
7、代表公司Jasper.ai,通过SaaS订阅收费模式,获得B端客户认可,率先实现规模化收入;OpenAI旗下ChatGPT由于其通用性被集成至浏览器、办公自动化软件、企业级服务产品中,作为增值服务项目。音频生成:音频生成:应用于智能客服、有声读物制作、配音、导航、虚拟歌手、作曲等领域。代表公司喜马拉雅、倒映有声、标贝科技、StarX MusicX Lab等。跨模态生成:跨模态生成:包括文生图、文生视频,图片视频生成文字等应用。AI绘画代表产品Midjourney、DALL-E2、Dream studio、文心一格,主要按生成次数收费。策略生成:策略生成:应用于游戏、自动驾驶、机器人控制、智能交
8、互数字人等领域。游戏领域代表性公司腾讯AI Lab、网易伏羲、启元世界、rct.ai、超参数等。投资建议:投资建议:AIGC的快速发展源于数据、算法、算力的共振。在此基础上,AIGC的出圈源于模型商业化及开源带来的产品化浪潮,及ChatGPT在通用人工智能领域投射的曙光带来的震撼。AIGC目前在营销、社交、内容创作、游戏等领域均有应用,并开启商业化变现。随着算法迭代、算力提升,AIGC将开启新的内容生产力革命,为传媒行业发展提供新动力。基于此,我们维持行业“推荐”评级。建议重点关注三类公司:一一、拥有自有算法及模型的公司拥有自有算法及模型的公司,建议关注昆仑万维建议关注昆仑万维、神州泰岳神州泰
9、岳;二二、拥有海量内容及版权储备的公司拥有海量内容及版权储备的公司,建议关注视觉中国建议关注视觉中国、中文在线中文在线;三三、相关应用领域龙头公司相关应用领域龙头公司,重点推荐游戏重点推荐游戏、影视影视、营销板块营销板块。相关标的三七互娱相关标的三七互娱、吉比特吉比特、完美世界完美世界、芒果超媒芒果超媒、蓝色光标蓝色光标。风险提示:风险提示:技术发展演进不及预期、商业化进程不及预期、企业技术管理能力建设不足风险、企业内容审核能力不足风险、版权保护风险、新技术增加监管难度风险、技术滥用风险、核心人才流失风险、创作伦理风险、法律政策监管风险、估值中枢下移风险等。请务必阅读报告附注中的风险提示和免责
10、声明5AIGC破圈元年1AIGC应用场景2产业链及相关公司3目录1.1 AIGC破圈1.2 AIGC定义1.3 发展历程1.4 市场空间1.5 商业模式请务必阅读报告附注中的风险提示和免责声明61.1 AIGC1.1 AIGC连续破圈:连续破圈:AIAI绘画绘画/ChatGPTChatGPT相继破圈相继破圈资料来源:vcsmemo,36Kr,机器之心公众号,国海证券研究所 AIAI绘画作品获奖绘画作品获奖。2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,太空歌剧院获得“数字艺术/数字修饰照片”类别一等奖。参赛者没有绘画基础,利用AI工具Midjourney创作。ChatGPTCha
11、tGPT于于20222022年年1111月月3030日推出日推出,5 5天后用户破百万天后用户破百万,两个月后月活用户突破两个月后月活用户突破1 1亿亿,成为史上用户增长速度最快的消费级应用程序成为史上用户增长速度最快的消费级应用程序。风投及产业资本涌入风投及产业资本涌入AIGCAIGC。2021年开始,风投对AIGC的投资金额金额出现爆发式增长,2022年超20亿美元。主打AI生成文字的Jasper.ai于2022年10月完成1.25亿美元A轮融资,估值达15亿美元。AI视觉艺术创业公司Stability.ai获1.01亿美元种子轮融资,投后估值达10亿美元。据美国财经媒体Semafor报道
12、,微软预计向ChatGPT的开发者OpenAI投资100亿美元,OpenAI投后估值将高达290亿美元。图表:图表:AIGCAIGC绘画作品绘画作品太空歌剧院太空歌剧院图表:各应用程序图表:各应用程序达到全球达到全球100100万万/1 1亿用户所用时间亿用户所用时间ChatGPTApple App StoreInstagramWhatsAppFacebookTwitteriTunesWorld Wide WebMobile phoneTelephone75年16年7年6.5年5年4.5年3.5年2.5年2年2月NetflixAirbnbIwitterFoursquareFacebookSpo
13、tifyInstagramChatGPT3.5年2.5年2年13月5月10月2.5月5天图表:风投对生成式图表:风投对生成式AIAI投入金额爆发式增长投入金额爆发式增长请务必阅读报告附注中的风险提示和免责声明71.2 AIGC1.2 AIGC定义:新的内容生成方式、基于人工智能的技术集合定义:新的内容生成方式、基于人工智能的技术集合图表:内容生产方式的变更图表:内容生产方式的变更图表:从图表:从WebWeb1 1.0 0到到WebWeb3 3.0 0的内容生成方式的内容生成方式资料来源:a16z,国海证券研究所 AIGC(AI Generated Content)即利用人工智能技术自动生成内容
14、,受制于AI技术成熟度,目前AI仍为内容制作的辅助型角色(AIUGC),待技术突破,AI可真正作为内容创作者(AIGC)。AIGCAIGC是技术集合是技术集合,基于生成对抗网络GAN、大型预训练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的技术集合。相关叫法:合成式媒体(Synthetic Media),即基于AI生成的文字、图像、音频等;Gartner提出的生成式AI(Generative AI),即由人工智能自动生成新的编程、内容或商业活动,让文字、音乐、图像、视频、场景等都可由AI算法自动生成。从从PGCPGC到到UGCUGC,从从UGCUGC到到AIGCA
15、IGC。Web1.0时代“只读”模式催生出“PGC”;Web2.0时代,社交媒体兴起,人与人通过网络交互,催生出以用户生产和分享内容的“UGC”模式;Web3.0时代,内容消费需求进一步增长,个性化需求凸显,“AIGC”将成为重要的新内容生成方式。PGCUGCAIUGCAIGC单人体验小范围多人交互大范围多人交互的新兴体验元宇宙的自然社交网络生产的内容数量产能不足内容质量参差不齐AI技术发展尚未关键性突破Web 3.0时代创作内容接收内容接收内容人人平台平台PGC(Web 1.0)UGC(Web 2.0)创作内容创作内容接收内容接收内容人机器平台AIGC(Web 3.0)请务必阅读报告附注中的
16、风险提示和免责声明8阶段二:对外界环境进行干预,在改变中寻找规律1.2 AIGC1.2 AIGC定义:机器对信息认知分三阶段,从学习到超越经验定义:机器对信息认知分三阶段,从学习到超越经验资料来源:rct AI,2022AI营销白皮书,国海证券研究所 机器对信息的认知处于第一或第二阶段机器对信息的认知处于第一或第二阶段。人在遇到新问题时,会通过以往类似经历总结规律,并将新的问题套用到规律中,以推测可能的结果。相应地,机器学习基于对历史数据的归纳和学习,构建出事件模型,并将合适的新数据输入到相应的模型来预测未来。人类能够超越观察达到干预及想象阶段,而对于AI来说,目前还处于第一或第二阶段,一些复
17、杂的信息还没办法处理,人类需要将其简化后再投喂给机器处理。UGCUGC为为AIGCAIGC提供了提供了发展的数据基础发展的数据基础,AIGCAIGC满足更个性化的内容消费需求满足更个性化的内容消费需求。用户不再满足于专业团队和用户创造,对内容质量要求更高,AI在提高内容生产效率、丰富内容多样性及提供更加动态且可交互的内容上大有可为。UGC生成的规模化内容,创造了大量学习素材,帮助AI实现从学习经验到超越并重构已有经验的飞跃性转变。阶段一:对外界环境进行观察,在观察中寻找规律阶段三:在想象中对外界环境进行干预,在反事实中寻找规律AIAI被动接受数据,停留被动接受数据,停留在统计意义上对规律的在统
18、计意义上对规律的理解,无法超越已有经理解,无法超越已有经验验AIAI主动创造数据,逐渐主动创造数据,逐渐超越已有经验超越已有经验AIAI逐渐具备了想象能力,逐渐具备了想象能力,超越并重构已有经验超越并重构已有经验计算机研究了数百万量级的围棋对战数据后,就能够找出哪些对战的策略会导致更高的胜率若改变现有围棋对战中的执行策略,让计算机去进一步判断能否取得胜利让计算机在对战中去想象如果执行这一步会怎么样早期阶段现阶段未来用UGC的方式去做人设和规则,为AI“编码”人体基因。通过既定的图片或者语音来生成风格一致的内容。AI能自主创造多样的内容人脑思考过程机器学习过程机器对信息的认知三阶段请务必阅读报告
19、附注中的风险提示和免责声明91.3 AIGC1.3 AIGC为何爆发?数据、算法、算力共振为何爆发?数据、算法、算力共振资料来源:腾讯科技公众号,谷歌研究,Generative AI:A Creative New World,AI 2022:The Explosion,国海证券研究所 AIGCAIGC发展核心三要素:数据发展核心三要素:数据、算力算力、算法算法。算法持续迭代算法持续迭代。2017年推出的Transformer架构的并行训练优势奠定了大模型训练的基础,GPT为代表的预训练模型,通过使用无标注数据预训练及微调,缓解了标注数据不足的问题,并不断提升参数量级及模型通用性,ChatGPT
20、在此基础上加入了利用人类反馈强化学习的训练方法。扩散模型取代GAN成为图像生成领域的主流模型,CLIP模型推动跨模态生成技术的发展。模型商业化及开源释放创造力模型商业化及开源释放创造力。GPT3的商业化及CLIP及Stable Diffusion模型的开源推动文本生成、文生图产品化浪潮。图表:深度学习模型的发展图表:深度学习模型的发展图表:训练模型的计算量图表:训练模型的计算量(左图左图)以及以及AIAI模型模型参数量参数量(右图右图)注:计算结果15000 x为WuDao2.0中的参数数量除以GPT 1中的参数数量的比值模型类别发布年份特点影响GAN图像生成2014对输出结果的控制力较弱,容
21、易产生随机图像、分辨率比较低。-Transformer自然语言模型2017引入自注意力机制,能够基于两个单词间的关系进行建模,有效理解单词在上下文中的意思,支持并行训练,使语言模型训练效果达到新高度。自然语言理解飞跃性发展,平行训练优势逐步发展出超亿规模的大模型,ChatGPT打开AI新纪元CLIP文本-图像生成2021对文字、图像分别进行训练,不断调整两个模型内部参数,使得模型分别输出文字特征值和图像特征值并确认匹配多模态技术推动AIGC内容多样性Diffusion图像生成2022通过增加噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像,高效地解决GAN无法训练、训练不稳定
22、的问题。图像生成技术突破,AI绘画点燃AIGC请务必阅读报告附注中的风险提示和免责声明101.3 AIGC1.3 AIGC算法发展历程:早期受制于算法、算力瓶颈算法发展历程:早期受制于算法、算力瓶颈1 9 5 01 9 5 71 9 6 61 9 8 02 0 0 72 0 1 0人物事件沉淀积累阶段(沉淀积累阶段(1990s1990s-2010s2010s)萌芽阶段(萌芽阶段(1950s1950s-1990s1990s)受限于技术水平,仅限于小范围实验受限于技术水平,仅限于小范围实验艾伦图灵提出著名的“灵图测试”,给出判断机器是否判断机器是否具有“智能”具有“智能”的实验方法第一支由计算计算
23、机创作的弦乐机创作的弦乐四重奏四重奏依利亚克组曲完成世界第一款自然第一款自然语言聊天机器人语言聊天机器人Eliza问世80 年 代 中 期,IBM创造语音控语音控制打字机制打字机TangoraTangora,处理20000个单词世界第一部完全由人工人工智 能 创 作 的 小 说智 能 创 作 的 小 说 1the road问世微 软 展 示 全 自 动全 自 动同 传 系统同 传 系统首次提出判断机器是否是人工智能的方法,灵图被称作“人工智能”之父声龙发布了第一款消费级语音识别产品Dragon Dictate,售价高达9000美元可读性不强,拼写错误、辞藻空洞、缺乏逻辑等缺点明显基本深层神经网
24、络可以将英文语音翻译转化成中文语言阶段阶段事件事件影响影响只有文本界面,自然语言理解尚未取得真正突破连续语音的识别迅速发展,统计模型逐步取代模板匹配的方法,隐马尔科夫模型(HMM)成为语音识别系统的基础模型技术技术图形处理器GPU、张量处理器TPU等算力设备性能不断提升,互联网数据规模快速膨胀通过关键字扫描和重组完成交互任务深 度 神 经 网 路算 法(D NN)算法不断完善,语音识别技术快速发展特点特点从实验性向实用性转变,但受限于算法瓶颈,无法直从实验性向实用性转变,但受限于算法瓶颈,无法直接进行内容生成接进行内容生成资料来源:信通院人工智能成内容(AIGC)白皮书,中国移动雄安产业研究院
25、,国海证券研究所请务必阅读报告附注中的风险提示和免责声明112 0 1 82 0 2 02 0 1 92 0 1 42 0 1 72 0 2 1人物事件快速发展阶段(快速发展阶段(2010s2010s-20212021年)年)深度学习算法不断迭代,人工智能生成内容百花齐放,效果逐渐逼真至难以分辨深度学习算法不断迭代,人工智能生成内容百花齐放,效果逐渐逼真至难以分辨Ian J.Goodfellow提出生成对生成对抗网络抗网络GAN“小冰”推出世 界 首 部首 部100100%由人工由人工智能创作的诗智能创作的诗集集阳光失了玻璃窗英 伟 达 发 布StyleGan模型可自动生成高质量图片,几个月后
26、发布了StyleGan2人工智能生成画作在佳士得以43.25万美元成交,成为首首个出售的人工个出售的人工智能艺术品智能艺术品OpenAI推出DALL-E,主要应用于文本与图像交互生成内容,同年将跨模态 深 度 学 习 模 型CLIPCLIP开源开源被 广 泛 应用 在 图 像生 成、语音 生 成 等场景中DeepMind发布DVD-GAN模型用以生成连续视频阶段阶段事件事件影响影响GANCLIP模型搜集了大量数据,为输入文本生成图像/视频应用的落地奠定了基础技术技术关联文字和图像,并且关联特征非常丰富StyleGan特点特点资料来源:信通院人工智能成内容(AIGC)白皮书,机器之心Pro,腾讯
27、新闻,Denoising Diffusion Probabilistic Models,Attention is All You Need!,腾讯云,环球网,搜狐新闻,国海证券研究所DVD-GAN在图像生成方面比GAN更优,扩散模型威望大幅提升2020年,伯 克 利的 PieterAbbeel等人提出去噪扩散概率模型(DDPM)DDPMGANOpenAI 推 出 了GPT-3,拥有超过1750亿的训练参数量,被誉为“万能生成器”自 然 语 言 生 成 模 型GPT-3文本生成迎来重大突破,GPT-3庞大的运行规模使得它不仅能答题、写论文和生成代码等,还能编写曲谱、写小说等1.3 AIGC1.3
28、 AIGC算法发展历程:模型持续迭代算法发展历程:模型持续迭代Transformer架构提出Transformer架构推动深度学习算法突破发展,迸发出大模型请务必阅读报告附注中的风险提示和免责声明12井喷式发展阶段:井喷式发展阶段:20222022年年AIGCAIGC元年元年资料来源:36Kr,百度指数,华尔街见闻,谷歌研究,国海证券研究所上线于2021年10月的文本-图像模型DiscoDiffusion 开 始流行谷歌在2022年I/O大会上公布了对话式人工智能模型LaMDA2OpenAI推出文本-图 像 模 型 DALL-E2,可以从自然语言的描述中创建逼真的图像,超过150万用户测试微软
29、将DALL-E2集成到Bing搜索、Edge浏览器和新的Office中 DeepMind 推出了AI编码引擎AlphaCodeGitHub开放能够实时提供代码建议的Copilot的访问权限扩散模型是对GAN的彻底革新Stability AI推出文本-图像模型Stable Diffusion并开源以色列AI服务商 Hour One 宣布将2000万美元A轮融资用于投入研发文本-视频模型5月6月 Stable Diffusion模型助力AIGC破圈,文字生成图像取得跨越式发展8月10月Stability.ai融资1.01亿美元,估值达10亿美元 Jasper.ai 完 成 了1.25亿美元融资Op
30、enAl的大语言模型聊天机器人ChatGPT上线,建立在GPT-3.5模型之上AI图片视频服务商Runway完成5000万美元C轮融资,投后估值5亿美元11月12月4月2月小冰公司获10亿元人民币融资,估值超20亿美元 ChatGPT火爆全球注:曲线图为百度搜索指数,橙色的曲线代表AI绘画;蓝色曲线代表chatGPT,绿色曲线代表AIGC微软宣布向OpenAI投资数十亿美元(可能高 达 100 亿美元)谷歌研究院等提出了视频生成模型Dreamix1月2月1.3 AIGC1.3 AIGC算法发展历程:从模型到应用算法发展历程:从模型到应用请务必阅读报告附注中的风险提示和免责声明13 OpenAI
31、OpenAI:非盈利性转向封顶盈利性公司:非盈利性转向封顶盈利性公司,估值达估值达290290亿美金亿美金。2015年由马斯克等人创立的非盈利人工智能研究公司,启动资金10亿美金,成立初衷是与其它机构合作进行AI相关研究,并开放研究成果以促进AI技术发展,防止垄断。核心团队为CEO Sam Altman、Greg Brockman、IIya Sutskever,大都技术出身,在通用AI领域经验丰富。2019年宣布从“非盈利”性质过度到“封顶盈利性”,之后获微软10亿美元战略投资,并开启与微软在产品上的合作。据美国财经媒体Semafor报道,微软预计向ChatGPT的开发者OpenAI投资100
32、亿美元,OpenAI投后估值将高达290亿美元。资料来源:datalearner,OpenAI官网,澎湃新闻,华尔街见闻,腾讯新闻,金融界,智东西微信公众号等,国海证券研究所图表:图表:OpenAIOpenAI核心人员核心人员1.3 AIGC1.3 AIGC算法发展历程:算法发展历程:OpenAIOpenAI VS GoogleVS GoogleIIya Sutskever首席科学家Greg Brockman总裁(原CTO)Mira MuratiCTOSam AltmanCEO、创始人序号序号 日期日期融资轮次融资轮次融资金额融资金额投资机构投资机构12021年 A轮2.5亿美元-22021年
33、 种子轮延期-32020年 种子轮-Matthew Brown Companies42019年 战略融资10亿美元微软52019年 pre-种子轮-ReidHoffman 慈善基金、Khosla Ventures 62018年 天使轮-Gabe Newell、Jaan Tallinn、Ashton Eaton和Brianne Theisen-Eaton等72017年 亲友轮-82016年 亲友前轮10亿美元Elon Musk、Sam Altman、Linkdin 的联合创始人 Reid Hoffman、Paypal 联合创始人 Peter Thiel、YC 联合创始人Jessica Livin
34、gston等图表:图表:OpenAIOpenAI融资过程融资过程序号序号被投公司被投公司主营业务主营业务投资阶段投资阶段1AnysphereAI工具种子轮2Atomic Semi芯片制造种子轮3Cursor代码编辑种子轮4Diagram设计工具种子轮5HarveyAI法律顾问种子轮6Kick会计软件种子轮7Milo家长虚拟助理种子轮8qqbot.dev开发者工具种子轮9EdgeDB开源数据库A轮10Mem Labs记笔记应用A轮11SpeakAI英语学习平台B轮12Descript音视频编辑应用C轮图表:图表:OpenAIOpenAI部分对外投资部分对外投资注:数据截止到2023年1月注:数据
35、截止到2023年1月请务必阅读报告附注中的风险提示和免责声明14 OpenAIOpenAI技术发展历史技术发展历史1.3 AIGC1.3 AIGC算法发展历程:算法发展历程:OpenAIOpenAI推动推动AIAI算法模型发展算法模型发展资料来源:datalearner,机器之心Pro,国海证券研究所第 一 个 项 目OpenAIGymBeta发 布,以 开发 和 比 较 不同 强 化 学 习算法2016年4月发布GPT,一个在诸多语言处理任务上都取得了很好结果的算法,首个将Transformer与无监督预训练技术相结合的算法,其取得的效果好于已知算法2018年6月首次将生成模型从自然语言处理
36、领域拓展到其它领域:公布MuseNet,一个深度神经网络,可以用10种不同的乐器生成4分钟的音乐作品,并且可以结合从乡村到莫扎特到披头士的风格2019年4月开源一个重现强化学习算法的工具OpenAI Baselines,提供用于正确的强化学习算法实现的最佳实践发布拥有15亿参数GPT-2,基于800万网页数据、40GWebText作为训练数据。发布Microscope,一个用于分析神经网络内部特征形成过程的可视化工具2017年5月2019年2月2020年4月2021年1月发布CLIP,能有效地从自然语言监督中学习视觉概念,可以应用于任何视觉分类基准,只需提供要识别的视觉类别的名称发布DALL
37、E模型,一个120亿个参数的 GPT-3 版 本,被训练成使用文本-图像对的数据集,从文本描述中生成图像2021年1月发布InstructGPT,大量使用了人类反馈与指导,在GPT3的基础上,进一步精调,使得输出更加可控2022年1月发 布DALL E2.0,其效果比第一个版本更加逼真,细节更加丰富且解析度更高2022年4月发布Whisper,一个语音识别预训练模型,结果逼近人类水平,支持多种语言2022年9月发布ChatGPT,一个AI对话系统,可以写代码、写博客、写短剧等等2022年11月发布GPT-3模型,对于所有任务,无需进行任何梯度更新或微调,仅通过与模型的文本交互指定任务和少量示例
38、即可获得很好的效果;一个月后,发布Image GPT模型,将GPT的成功引入计算机视觉领域2020年5月请务必阅读报告附注中的风险提示和免责声明15 OpenAIOpenAI携手微软携手微软,获得获得资金支持资金支持,落地场景落地场景,借力微软云计算领域布局借力微软云计算领域布局。资金资金+算力:算力:2019年7月,OpenAI 接受了微软10亿美元的战略投资,同时将把微软的Azure作为其独家云计算供应商;2021年,微软加注投资,具体金额未公布;2023年,微软预计向OpenAI再投资100亿美元,在满足首批投资者收回初始资本后,微软将获得OpenAI75%利润,直到收回投资。业务业务协
39、作:协作:2021年,微软推出了Azure OpenAI服务预览;2022年,微软将DALL-E2模型集成到了Azure OpenAI、Microsoft Designer、BingImage Creator中。2023年1月,Azure OpenAI服务正式发布,企业可以申请访问包括GPT-3.5、Codex和DALL-E2等AI模型,之后还可能通过Azure OpenAI服务访问ChatGPT。2023年2月,微软推出ChatGPT支持的最新版本Bing搜索引擎与Edge浏览器,增加聊天写作功能。此外,微软计划将ChatGPT引入Office产品中,进一步提升市场份额。资料来源:中国新闻网
40、,搜狐新闻,Azure官网,腾讯网,微软科技公众号,Azure OpenAI服务官网等,国海证券研究所1.3 AIGC1.3 AIGC算法发展历程:算法发展历程:OpenAIOpenAI携手微软携手微软图表:图表:OpenAIOpenAI盈利后利润分配的四阶段盈利后利润分配的四阶段图表:图表:AzureAzure OpenAIOpenAI服务官网服务官网优先保证埃隆马斯克、彼得泰尔、雷德霍夫曼等优先保证埃隆马斯克、彼得泰尔、雷德霍夫曼等首批投资者收回初始资本首批投资者收回初始资本在在OpenAIOpenAI的利润达到的利润达到920920亿美元后亿美元后,微软在微软在OpenAIOpenAI的
41、持股比例将下降到的持股比例将下降到4949%,剩余的利润剩余的利润由其他风险投资者和由其他风险投资者和OpenAIOpenAI的员工分享的员工分享在利润达到在利润达到15001500亿美元后,微软和其他风险投资亿美元后,微软和其他风险投资者的股份将无偿转让给者的股份将无偿转让给OpenAIOpenAI的非营利基金的非营利基金微软将有权获得微软将有权获得OpenAlOpenAl 的利润,直至收回其的利润,直至收回其130130亿美元投资亿美元投资微软无分成微软无分成微软获得微软获得75%75%利润利润微软获得微软获得4949%利润利润微软无分成微软无分成请务必阅读报告附注中的风险提示和免责声明1
42、6资料来源:腾讯新闻,网易新闻,谷歌research官网,github,AudioLM:a Language Modeling Approach to Audio Generation,PHENAKI:VARIABLE LENGTH VIDEO GENERATION FROM OPEN DOMAIN TEXTUAL DESCRIPTIONS,国海证券研究所 2022年11月在AI年度活动上谷歌发布四项最新成果,其能够根据文本提示生成高分辨率的长视频、3D模型、音乐、代码、文字内容等。结合结合ImagenImagen VideoVideo和和PhenakiPhenaki两大模型的优势两大模型的优
43、势,推出超长连贯性视频生成模型:推出超长连贯性视频生成模型:Imagen Video是基于级联视频扩散模型的文本条件视频生成系统,即给出文本提示,就可以通过一个由frozen T5文本编码器、基础视频生成模型、级联时空视频超分辨率模型组成的系统来生成高清视频。Phenaki模型可通过一系列提示在开放域中生成所有时间段的视频,是谷歌首次以时间变量提示生成视频。LaMDALaMDA WordcraftWordcraft:在大语言模型LaMDA基础上开发的、能辅助专业作家写作的AI写文工具,帮助创作者突破“创作瓶颈”。AudioAudio LMLM:具备“长期连贯性”的高质量音频生成框架,不需要任何
44、文字或音乐符号表示的情况下,只在极短(三四秒即可)的音频样本基础上训练,可生成自然、连贯、真实的音频结果,不限语音或者音乐。文字生成文字生成3 3D D模型:模型:通过结合Imagen和最新的神经辐射场(Neural Radiance Field)技术,谷歌开发出了DreamFusion技术,可根据现有文字描述,生成具有高保真外观、深度和法向量的3D模型,支持在不同光照条件下渲染。将推出将推出BardBard对话机器人对话机器人。2023年2月,谷歌宣布将推出Bard AI聊天机器人,由谷歌大型语言模型LaMDA支持,但参数量更少,使公司能够以更低的成本提供该技术,Bard能在获得简单提示的情
45、况下生成详细答案。图表:谷歌图表:谷歌ImagenImagen模型架构模型架构图表:图表:谷歌谷歌PhenakiPhenaki模型架构模型架构1.3 AIGC1.3 AIGC算法发展历程:谷歌持续重注算法发展历程:谷歌持续重注AIGCAIGC研究研究整个架构共有7个子模型(1 个T5文本编码器、1 个基础视频扩散模型、3 个 SSR扩散模型、3 个 TSR扩散模型),共116亿个参数文本编码器将文本prompt编码为text_embedding;基础视频扩散模型以文本为条件,生成初始视频;SSR提高视频的分辨率;TSR提高视频的帧数主要包含两大部分:一个将视频压缩为离散嵌入(即 token)的
46、编码器-解码器模型和一个将文本嵌入转换为视频token的transformer模型请务必阅读报告附注中的风险提示和免责声明17图表:图表:DreamixDreamix模型应用于图像生成视频模型应用于图像生成视频资料来源:谷歌研究Dreamix:Video Diffusion Models are General Video Editors,国海证券研究所 2023年2月2日,谷歌研究院等提出了一种视频生成新模型Dreamix,受到了AI作图UniTune的启发,将文本条件视频扩散模型(video diffusion model,VDM)应用于视频编辑。核心是通过两种主要思路使文本条件VDM保持
47、对输入视频的高保真度:(1)不使用纯噪声作为模型初始化,而是使用原始视频的降级版本,通过缩小尺寸和添加噪声仅保留低时空信息;(2)通过微调原始视频上的生成模型来进一步提升对原始视频保真度。微调确保模型了解原始视频的高分辨率属性,对输入视频的简单微调会促成相对较低的运动可编辑性,这是因为模型学会了更倾向于原始运动而不是遵循文本prompt。图表:图表:DreamixDreamix模型应用于视频编辑模型应用于视频编辑图表:图表:DreamixDreamix模型原理模型原理1.3 AIGC1.3 AIGC算法发展历程:谷歌持续重注算法发展历程:谷歌持续重注AIGCAIGC研究研究将吃东西的猴子(上面
48、一排)变成跳舞的熊(最下面排),改变外观和运动,但保持对颜色、姿势、物体大小和拍摄角度的保真度,从而产生了一个时间上一致的视频“单一图像+文字”生成视频:在一个静态图像中注入复杂的运动,比如添加一个移动的鲨鱼,并让海龟游泳,在这种情况下,对物体位置和背景的视觉保真度被保留了下来“多图像+文字”生成视频:在给定主题下,能够提取给定多个图像的主题的视觉特征,然后在不同的场景中制作动画在应用程序预处理的基础上(左图),将输入内容转换为统一的视频格式。对于图像到视频,输入图像被复制并被变换,合成带有一些相机运动的粗略视频;对于目标驱动视频生成,其输入被省略,单独进行微调以维持保真度,然后使用Dream
49、ix Video Editor(右图)编辑这个粗糙的视频(首先通过采样破坏视频,添加噪声,然后应用微调的文本引导视频扩散模型,将视频升级到最终的时间空间分辨率)。请务必阅读报告附注中的风险提示和免责声明18资料来源:量子位,github,appspot,国海证券研究所1.3 AIGC1.3 AIGC算法发展历程:谷歌持续重注算法发展历程:谷歌持续重注AIGCAIGC研究研究超长连贯性视频生成模型超长连贯性视频生成模型Audio LMAudio LM刘宇昆在刘宇昆在WordcraftWordcraft撰写的短篇小说撰写的短篇小说Evaluative SoliloquiesEvaluative S
50、oliloquiesDreamFusionDreamFusion生成的生成的3D3D模型模型请务必阅读报告附注中的风险提示和免责声明191.3 AIGC1.3 AIGC算法发展历程:你追我赶,持续迭代算法发展历程:你追我赶,持续迭代资料来源:做AI做的事儿公众号,网易新闻,澎湃新闻,谷歌研究论文LaMDA:Language Models for Dialog Applications,国海证券研究所注:模型后面的数据为模型的参数数量基于自我注意力机制(self-attention)的变换器(transformer)模型:首次将其用于理解人类的语言,能够同时并行进行数据计算和模型训练,训练时长更
51、短,并且训练得出的模型可用语法解释。当时在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一。2017年6月使用了经典的大型书籍文本数据集进行模型预训练,又针对四种不同的语言场景使用不同的特定数据集对模型进行进一步训练,最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景,都取得了比基础Transformer模型更优的结果,成为了新的业内第一。2018年10月BERT(Transformers的双向编码表示模型):在机器阅读理解顶级水平测试中表现出惊人的成绩,成为NLP发展史上的里程碑式的模型成就,在同等参数规模下,BERT的效果好于GPT-1,因为双向
52、模型可以利用上下文来分析。在文本内容生成方面表现出了强大的天赋,最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型可迁移到其它类别任务中,而不需要额外的训练,由于GPT-2的性能和生成文本能力获得了很高赞誉,OpenAI又扳回一局。2019年10月T5作为一个文本到文本的统一框架,可以将同一模型、目标、训练流程和解码过程,直接应用于实验中的每一项任务,T5在摘要生成、问答、文本分类等诸多基准测试中都取得了不错的效果,一举超越现有最强模型。在一些NLP任务的数据集中使用少量样本的Few-shot方式甚至达到了最好效果,省去了模型微调,也省去了人工标注的成本,GPT-3的神经网络是在超过4
53、5TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。2021年1月有效地利用了为稠密矩阵乘法(广泛用于语言模型的数学运算)而设计的硬件例如GPU和GoogleTPU,新模型在翻译等领域获得了绝对的胜利,但模型越大,部署的难度越高,成本也越高,效率更低。使用了遮掩语言模型的训练方法。在这种方法中,模型被要求预测被遮盖的词,并通过上下文来做出预测,以用更接近人类的思考方式参与用户的查询过程,推出两个月后月活用户已推出两个月后月活用户已破亿破亿。2022年11月2018年6月2019年2月2020年5月GPT-11.17亿GPT-215亿GPT-31750亿ChatGPT约20亿tra
54、nsformer 6500万BERT 3亿T5 110亿Switch Transformer 1.6万亿2023年2月宣布将推出Bard的AI聊天机器人,由谷歌大型语言模型LaMDA支持,是LaMDA的“轻量级”版本,能够以更低的成本提供该技术,Bard能在获得简单提示的情况下生成详细答案。Bard(LaMDA)1370亿请务必阅读报告附注中的风险提示和免责声明201.4 AIGC1.4 AIGC市场空间:从决策走向创造市场空间:从决策走向创造图表:内容生成图表:内容生成及创建的及创建的评价指标评价指标资料来源:中国AI数字商业展望2021-2025,SequoiacapGenerative
55、AI:A Creative New World 不仅是降本增效不仅是降本增效,更是个性化内容生成更是个性化内容生成。AI不仅能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。根据Sequoiacap,近年来AI模型在手写、语音和图像识别、阅读理解和语言理解方面的表现逐渐超过了人类的基准水平。而且AI让所有人都能够成为“艺术家”,可无时无刻生成更有创造力、更个性化的内容。通过支持通过支持AIAI生成式生成式内容与其他产业的多维互动内容与其他产业的多维互动、融合渗透从而孕育新业态新模式融合渗透从而孕育新业
56、态新模式,为为各行各业创造新的商业模式各行各业创造新的商业模式,提供提供价值增长价值增长新动能新动能。推动内容生产向高效率和更富创造力方向发展,与多产业融合。注:内容生成及创建的评估指标根据行业公允评估方法设计,采用影谱科技AI智能影像生成引擎AGC为数测平台图表:图表:AIAI模型在语音识别模型在语音识别、图像识别图像识别、阅读理解阅读理解、语言理解等方面的表现语言理解等方面的表现请务必阅读报告附注中的风险提示和免责声明21资料来源:量子位,Gartner官网,中国AI数字商业展望2021-2025,Generative AI:A Creative New World,国海证券研究所 202
57、1年,Gartner发布了12项2022年重要战略技术趋势,生成式AI居于战略首位。Gartner预测至2023年将有20%的内容被生成式AI所创建;至2025年生成式AI产生的数据将占所有数据的10%(目前不到1%)。根据2022年红杉Generative AI:A Creative New World,未来2-3年AIGC初创公司和商业落地方案将持续增加,将产生数万亿美元经济价值。根据Gartner“2022年人工智能技术成熟度曲线”,生成式AI仍处于技术萌芽期,预计将在2-5年内实现规模化应用。根据中国AI数字商业展望2021-2025,到2025年中国生成式AI技术应用规模预计上升至2
58、070亿元,2020-2025年年均复合增长率高达84.1%。图表:图表:GartnerGartner20222022年人工智能技术成熟度曲线年人工智能技术成熟度曲线图表:中国生成式图表:中国生成式AIAI技术应用规模技术应用规模(单位:亿元单位:亿元)1.4 1.4 AIGCAIGC市场空间:市场空间:20252025年国内市场应用规模有望超年国内市场应用规模有望超20002000亿元亿元983436630250.0%93.3%62.4%49.1%28.9%20202021E2022E2023E2024E2025E生成式AI技术应用规模(亿元)yoy注:生成式 AI 应
59、用规模的统计口径为应用生成式AI技术生成的数字内容的市场规模,统计方式 为数字内容市场规模乘以生成式 AI 渗透率,以上规模的推导考虑国家商务局、GARTNER,第三方调研机构等多个数据源。生成式AI居于Gartner2022年战略技术首位,2030年全球市场规模有望超万亿元美元,2025年国内应用规模有望突破2000亿元。2-5年5-10年不超过2年超过10年请务必阅读报告附注中的风险提示和免责声明221.4 AIGC1.4 AIGC市场空间:国内传媒领域潜在应用空间超市场空间:国内传媒领域潜在应用空间超10001000亿元亿元图表:图表:AIGCAIGC在国内传媒领域潜在在国内传媒领域潜在
60、市场空间测算市场空间测算资料来源:艺恩,各公司公告,2022年中国游戏产业报告,Mob研究院,中国新闻网,中商产业研究院,中国演出行业协会等,国海证券研究所 AIGCAIGC市场空间市场空间=各代表性行业内容成本各代表性行业内容成本*对应的对应的AIAI辅助制作比例辅助制作比例 内容成本测算内容成本测算=各代表性行业的市场规模各代表性行业的市场规模*预计的内容预计的内容/版权成本占收入比重版权成本占收入比重。电影行业参考博纳影业投资业务毛利率(约40%)和投资方的分账比例(约38%),计算得出电影制作成本占票房的23%;在线音乐参考腾讯音乐/网易云的内容服务成本占收比,并按照二者的市场份额进行
61、加权。AIAI辅助制作的比例:辅助制作的比例:图片生成、音乐生成领域的应用相对较成熟,预计未来AI辅助生成的比例分别为65%/60%,游戏领域的AI生成主要集中在图片/音乐/NPC上,预计占比30%;AI辅助视频类(长视频/电影/IPTV+OTT)内容生成还在初始阶段,预计AI辅助生成比例较低(15%-20%);目前网络直播行业虚拟主播应用较广,预计AI辅助制作比例35%。综上,我们匡算国内AIGC市场的理论空间超1000亿元。注:电影行业市场规模参考疫情前2019年电影市场票房,AI辅助制作的比例均为匡算值内容内容20222022年市场规模年市场规模(亿元)(亿元)内容内容/版权成本占收版权
62、成本占收入比重入比重*内容成本(亿元)内容成本(亿元)AIAI辅助制作的比例辅助制作的比例AIGCAIGC市场空间匡算市场空间匡算(亿元)(亿元)*注注游戏(国内)2658.8 20.0%531.8 30%159.5 参考游戏行业的研发费用占收比20%游戏(出海)173.5 20.0%34.7 30%10.4 参考游戏行业的研发费用占收比20%电影641.0 22.8%146.1 20%29.2 参考博纳影业投资业务毛利率40%和投资方的票房分账比例38%长视频1626.3 73.8%1200.4 15%180.1 参考爱奇艺内容成本占收比74%和芒果超媒的互联网视频业务毛利率31%IPTV+
63、OTT279.9 30.8%86.2 15%12.9 参考新媒股份内容成本占收比36%、芒果超媒运营商业务毛利率74%短视频3055.0 5.0%152.8 40%61.1 参考快手内容成本占收比5%在线音乐495.0 64.4%319.0 60%191.4 参考腾讯音乐/网易云音乐的内容服务成本60%/80%图片版权264.7 31.5%83.3 65%54.2 参考视觉中国的版权费占收比32%网络文学214.0 13.4%28.7 15%4.3 参考中文在线、阅文集团的内容分销成本占收比16%/11%网络直播1936.6 50.0%968.3 35%338.9 参考直播行业主播分成比例大概
64、为5:5合计合计11344.8 11344.8 31.3%31.3%3551.3 3551.3 29%29%1042.0 1042.0 请务必阅读报告附注中的风险提示和免责声明231.5 1.5 商业模式:按调用量收费、商业模式:按调用量收费、SaaSSaaS订阅收费、增值服务、解决方案等订阅收费、增值服务、解决方案等资料来源:量子位,Deep Dream Generator官网,AX Semantics官网,新浪科技,国海证券研究所 AIGCAIGC的潜在客户主要包括的潜在客户主要包括2 2B B端内容生产公司和端内容生产公司和2 2C C端用户:端用户:2 2B B:在:在PGCPGC领域
65、实现内容创作高效化领域实现内容创作高效化,提高提高PGCPGC活跃度和灵活性活跃度和灵活性。AIGC能够克服人力不足,降低内容生产成本。客户主要为资讯媒体、音乐流媒体、游戏公司、视频平台、影视制作公司等,如协助影视公司制作电影/剧集视频片段。2 2C C:在:在UGCUGC领域实现内容创作低门槛和较高专业度领域实现内容创作低门槛和较高专业度,扩充扩充UGCUGC人群人群。AIGC能够激发C端用户灵感,且不需要用户具有极强的专业知识,每个人都可以成为创作者。客户主要为画家、写手、歌手等,如协助音乐小白创作专属于个人的歌曲。国内国内AIGCAIGC商业模式尚未成型商业模式尚未成型。以写作机器人、自
66、动配音等场景为例,大部分产品仍处在免费试用的“流量吸引+平台改良”阶段。此外,部分公司将AIGC用于协助自身原有商业体系,如腾讯开发的AI Bot应用于腾讯游戏中,阿里的智能语音服务主要应用于微信,字节跳动则主要基于短视频场景研究AI赋能。通过通过APIAPI方式接入其他产品,按照数方式接入其他产品,按照数据请求量和实际计算量收费据请求量和实际计算量收费直接对外提供软件直接对外提供软件模型训练费用模型训练费用根据具体属性收费根据具体属性收费如GPTGPT-3 3对外提供API接口,采用四种模型收费如DALL-E、Deep Dream GeneratorDeep Dream Generator等
67、AI图像生成平台大多按照图像张数收费如个性化营销文本写作工具AX SemanticsAX Semantics,分普通编辑器、电商套装、定制定价三种定价方式适用于NPC训练等个性化定制需求较强的领域如版权授予(支持短期使用权、长期使用权、排他性使用权和所有权多种合作模式,拥有设计图案的版权)、是否支持商业用途(个人用途、企业使用、品牌使用等)等图表:图表:AIGCAIGC商业模式商业模式按产出内容量收费按产出内容量收费GPTGPT-3 3定价方式定价方式AX AX SemanticsSemantics定价方式定价方式Deep Dream Deep Dream GeneratorGenerator
68、定价方式定价方式版本版本 ExploreExploreCreateCreateBuildBuildScaleScale用户 入门用户普通用户VIP用户大规模生产级用户定价免费试用3个月/10万token100美元(200万token)/月,超出部分1k token/8美分400美元(1000万token)/月,超出部分1k token/6美分定制价格请务必阅读报告附注中的风险提示和免责声明24AIGC应用场景2AIGC破圈元年1产业链及相关公司3目录2.1 文本生成2.2 音频生成2.3 图像生成2.4 视频生成2.5 跨模态生成2.6 策略生成请务必阅读报告附注中的风险提示和免责声明25AI
69、GCAIGC场景一览场景一览资料来源:量子位AIGC/AI生成内容,国海证券研究所 较为广泛地实际应用、技术细节仍待进一步提升 底层技术原理基本明确,预计1-2年内将规模化应用 底层技术原理仍待完善请务必阅读报告附注中的风险提示和免责声明262.1 2.1 文本生成:基于文本生成:基于NLPNLP技术,受益于预训练语言模型突破发展技术,受益于预训练语言模型突破发展图表:自然语言处理图表:自然语言处理的两种的两种解释解释资料来源:easyai,罗兰贝格管理咨询微信公众号,央广网,国海证券研究所 自然语言处理技术自然语言处理技术(NLPNLP)是文本生成的基础是文本生成的基础。NLP探索计算机和人
70、类(自然)语言之间相互作用,研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。最早的自然语言处理研究工作是机器翻译,后逐渐向文本摘要、分类、校对、信息抽取、语音合成、语音识别等方面深入。从基于规则的经验主义到基于统计的理性主义,再到基于深度学习的方法,NLP在70年历程中逐渐发展进步。受益于预训练语言模型的突破发展,Transformer等底层架构不断精进,NLP取得跨越式提升。自然语言处理自然语言处理处理处理自然语言自然语言用计算机对字、词、句、篇章等自然语言的输入、输出、识别、分析、理解、生成等的操作和加工,实现人机间的信息交流人类社会约定俗成的,区别于如程序设计的人工语言输入
71、、输出、识别、分析、理解、生成等计算机操作过程自然语言产生自然语言产生自然语言理解自然语言理解让机器具备正常人的语言理解能力(识别人讲的识别人讲的话话)将非语言格式的数据转换成人类可以理 解 的 语 言 格 式(输出为人讲的话输出为人讲的话)模型开始像人脑一样学习,2017年以前主要是小模型阶段,2017年Transformer发布之后,模型开始尝试大量数据的训练学习,进入大语言模型阶段,在加入人工干预的反馈基础上,模型效果攀上新的台阶从数学统计的角度预测下个词的出现概率,代表模型如N-Gram等,推理过程非常直观,但是推理结果非常受数据集的影响,容易出现数据稀疏(即空值)等问题1950年,“
72、图灵测试”被提出,自然自然语言处理思想诞生语言处理思想诞生认为自然语言处理过程和人类学习认知一门语言类似,NLP停留在经验主义思潮经验主义思潮阶段阶段只能基于手写规则,处理少量数据采用基于神经网络的方采用基于神经网络的方法法采用基于统计的采用基于统计的方法方法采用基于规则的采用基于规则的方法方法1950s1950s-1970s1970s1970s1970s-2000s2000s20002000-至今至今图表:图表:NLPNLP发展阶段发展阶段释义:构成:自然语言处理自然语言处理请务必阅读报告附注中的风险提示和免责声明27 NLPNLP技术分为自然语言理解技术分为自然语言理解(NLUNLU)和自
73、然语言生产和自然语言生产(NLGNLG)两个核心任务两个核心任务,目前难点在于自然语言的复杂性使目前难点在于自然语言的复杂性使AIAI的理解程度不高以及如何生成富有的理解程度不高以及如何生成富有“人人味味”的语言的语言。资料来源:easyai,国海证券研究所图表:图表:自然语言理解层次逐渐加深自然语言理解层次逐渐加深多样性多样性歧义性歧义性鲁棒性鲁棒性知识依赖知识依赖上下文上下文N NL LU U难难点点然语言的组合方式非常灵活:字、词、短语、句子、段落等不同的组合可以表达出很多的含义同一个语言可能在不同情境下表达的意思完全不一样语言除字面意思,还有基于知识的特殊意义,如7天可以表示时间也可以
74、表示为酒店从同一个语言出发很难揣测上下文自然语言在输入的过程中,尤其是通过语音识别获得的文本,会存在多字、少字、错字、噪音等问题语音分析语音分析词法分析词法分析句法分析句法分析语义分析语义分析语用分析语用分析从语音流中区分出独立的音素,再根据音位形态规则找出音节及其对应的词素或词找出词汇的各个词素,从中获得语言学的信息对句子和短语的结构进行分析,找出词、短语等的相互关系以及各自在句中的作用找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念研究语言所存在的外界环境对语言使用者所产生的影响图表:图表:自然语言理解的五大自然语言理解的五大难点难点图表:图表:自然语言生成从低等级到高等
75、级自然语言生成从低等级到高等级图表:图表:自然语言生成的六大步骤自然语言生成的六大步骤内容确定内容确定文本结构文本结构句子聚合句子聚合语法化语法化参考表达参考表达式生成式生成语言实现语言实现决定哪些信息要包含在正在构建的文本中确定合理的组织文本的顺序将多个信息合并到一个句子里表达可能会更加流畅,也更易于阅读将多个信息通过连接词组织成自然语言选择对应领域的单词和短语组织成自然语言组合形成一个结构良好的自然语言简单的数据合并简单的数据合并将数据合并并转换为简单文本Level1Level1使用模板驱动模式来显示输出模板化的模板化的 NLGNLGLevel2Level2高级高级 NLGNLG理解意图,
76、添加智能,考虑上下文,并将结果呈现在户可以轻松阅读和理解的富有洞察力的叙述中Level3Level32.1 2.1 文本生成文本生成:难点在于自然语言的复杂性及如何生成富有“人味”的语言:难点在于自然语言的复杂性及如何生成富有“人味”的语言请务必阅读报告附注中的风险提示和免责声明282.1 2.1 文本生成:预训练语言模型发展推动文本生成:预训练语言模型发展推动NLPNLP研究研究图表:图表:TransformerTransformer整体结构整体结构资料来源:ERNIE 2.0:A Continual Pre-Training Framework for Language Understan
77、ding,Attention is All You Need!,量子位,国海证券研究所 预训练语言模型预训练语言模型(PTMPTM):在大规模无监督的语料上进行长时间的无监督或自监督预先训练,获得通用的语言建模和表示能力。应用到实际任务上时不需要做大改动,只需增加针对特定任务获得输出结果的输出层,并使用任务语料对模型进行少许训练。TransformerTransformer架构的并行化训练优势架构的并行化训练优势,促进预训练语言模型突破发展促进预训练语言模型突破发展。2017年,Google发布文章Attention is all you need,提出了解决sequenceto sequen
78、ce问题的transformer架构,引入了自注意力机制,能够基于两个单词间的关系进行建模,按输入数据各部分重要性的不同分配不同的权重,有效理解单词在上下文中的意思,支持并行训练,使语言模型训练效果达到新高度。2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力,证明了“大力出奇迹”在语言类模型上的可行性,其文本生成能力已被直接应用于Writesonic、Conversion.ai、Snazzy AI、Copysmith、Copy.ai、Headlime等文本写作/编辑工具中。4 4.输出输出1 1.输入输入3 3.DecodDecoderer
79、blockblock2 2.EncodeEncoder blockr block图表:图表:百度百度ERNIEERNIE2 2.0 0预训练语言预训练语言模型结构模型结构自注意力机制自注意力机制请务必阅读报告附注中的风险提示和免责声明292.1 2.1 文本生成:文本生成:TransformerTransformer凭自注意力机制取代凭自注意力机制取代RNNRNN图表:图表:TransformerTransformer在英语在英语-德语德语、英语英语-法语翻译精度上明显优于法语翻译精度上明显优于RNNRNN资料来源:谷歌研究,Attention is All You Need!,机器之心,国海
80、证券研究所 RNNRNN的局限:的局限:RNN模型(LSTM等)的限制在于相关算法只能从左向右或从右向左依次计算,带来了两个问题:(1)时刻t的计算依赖时刻t-1的计算结果,限制了模型的并行能力;(2)顺序计算的过程中信息会丢失,尽管LSTM等模型结构一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象,LSTM依旧无能为力。TransformerTransformer的的自注意力机制解决了自注意力机制解决了RNNRNN的两个问题:的两个问题:首先,自注意力机制可按输入数据各部分重要性不同分配不同权重;其次,自注意力机制可以为输入序列中的任意位置提供上下文,支持并行训练。并行优势允许其在
81、更大数据集上训练,促进了BERT、GPT等预训练大模型的发展。图表:图表:RNNRNN结构结构示例:“I arrived at the bank after crossing the”A.roador B.riverRNNTransformer方法:一步一步地阅读“bank”和“river”之间的每个单词,来确定“bank”的意思输入层为 X,隐藏层为 S,输出层为 O。U 是输入层到隐藏层的权重,V 是隐藏层到输出层的权重。从公式看出,隐藏层的值 S 不仅取决于当前时刻的输入 X,还取决于上一时刻的输入 Xt-1。方法:比较”bank”和其他单词,得到每个其他单词的注意力分数,获得较高注意力
82、分数的单词“river”可能就是确定的结果图表:图表:RNNRNN和和TransformerTransformer处理上的区别处理上的区别英语英语-德语德语英语英语-法法语语请务必阅读报告附注中的风险提示和免责声明302.1 2.1 文本生成:已实现大范围的商业落地文本生成:已实现大范围的商业落地图表:文本生成的图表:文本生成的技术技术场景场景资料来源:量子位AIGC/AI生成内容,PR Newswire,国海证券研究所 文本生成是AIGC实现商业落地最早的技术之一,技术发展显著提高了对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等,文本生成迎来质的
83、飞跃。现有的落地场景主要集中在应用型文本生成、创作型文本生成,重点关注闲聊型交互文本生成。技术场景技术场景分类分类细分场景细分场景特点特点发展现状发展现状未来展望未来展望国内外代表性公司国内外代表性公司应用型文本应用型文本生成生成非交互型,大多为结构化写作,有较强规律公司财报撰写、新闻简讯撰写等基于结构化数据或规范格式,在特定情景类型下的文本生成较广泛地实际应用,取得一定效果,技术还需进一步提升Narrative Science首席技术官、联合创始人Kristian Hammond预言2030年90%以上新闻由机器人完成澜舟科技、美联社Wordsmith、Narrative Science、t
84、extengine.io、AXSemantics、Yseop、Arria、Retresco、Viable等创作型文本创作型文本生成生成非交互型,大多为非结构化写作,需要一定的创意剧情续写、营销文本撰写等具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高底层技术原理基本明确,长篇幅文字内部逻辑仍然存在较明显问题、生成稳定性不足,有待技术完善未来4-5年长文本创作可能会有突破发展彩云小梦、Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy AI
85、、Rasa.io、LongShot.AI等闲聊交互型闲聊交互型文本生成文本生成交互型,要求更高理解力虚拟伴侣、游戏中的NPC个性化交互、心理咨询等社交属性,对自然语言理解要求更高有一些落地应用取得不错成果1-2年内将有明显增长小冰公司(小冰岛)、聆心智能、OpenAI、Latitude.io等请务必阅读报告附注中的风险提示和免责声明312.1 2.1 文本生成:共情聊天机器人文本生成:共情聊天机器人EmohaaEmohaa图表:图表:聆心智能三大技术优势聆心智能三大技术优势资料来源:机器之心,36Kr,聆心智能官网,国际在线,国海证券研究所 专注专注AIAI驱动的心理疗法:驱动的心理疗法:聆心
86、智能由国内NLP、对话系统领域专家黄民烈教授于2021年创办。2022年,完成数千万元天使+轮融资,由连星资本领投。在技术上,聆心智能让AI围绕认知、情绪和行为三个维度对用户进行评估和干预,以多模态对话系统为核心交互框架,通过丰富的策略设计,让AI和用户产生足够的情感链接,生成用户个人模型及千人千面的治疗方案。100100亿参数大模型亿参数大模型。聆心智能的预训练模型参数达100亿左右,位于行业前列,数据源包括公开社交媒体、专业心理健康数据及实验室在过去积累的数据。清华大学对话交互智能小组清华大学对话交互智能小组(CoAICoAI)和聆心智能共同开发了情感对话技术和聆心智能共同开发了情感对话技
87、术,提出共情机器人三阶段理论模型提出共情机器人三阶段理论模型。第一阶段先确认用户的具体问题,第二阶段通过共情、理解表达支持,第三个阶段为用户提供解决方案、出路。每一阶段都有相应的策略生成,如提供信息、直接指导、挑战、解释等。EmohaaEmohaa的陪伴的陪伴“套路套路”:确认:确认、共情共情、提供建议提供建议。2021年,聆心智能开发出中文对话预训练大模型和共情聊天机器人Emohaa,具备情绪识别、策略应对、共情表达三大特色,能够完成复杂的情感交流任务,也是目前唯一全AI模式的情绪支持对话系统。把产品具体知识融入到大模型中,比如说某款面膜适合的肤质、使用方式、功效、原料表等,都可以非常自然地
88、融入到具体的对话中。知识融合知识融合打造了32类情绪的识别系统,是业内最全的情绪识别系统;开创性地构建了基于生成式模型的情感对话系统。情感识别和表达情感识别和表达用户打造的不同类型AI物种或者虚拟人,可以有不同的个性、风格、特质,具有类人的“灵魂”。风格化、个性化风格化、个性化图表:情绪化聊天机器人图表:情绪化聊天机器人(ECMECM)系统系统图表:受到疫情困扰的用户与图表:受到疫情困扰的用户与EmohaaEmohaa的对话的对话请务必阅读报告附注中的风险提示和免责声明32资料来源:Jasper.ai官网,vcsmemo官网,AI科技评论公众号,国海证券研究所 估值估值1515亿美元亿美元,主
89、打文字生成的主打文字生成的JasperJasper.aiai成为独角兽成为独角兽。Jasper.ai成立于2021年1月,以“AI文字生成”为主打产品,通过其文字生成功能,用户可以轻松生成Instagram标题,编写TikTok视频脚本、广告营销文本、电子邮件内容等工作。Jasper.ai于2022年10月宣布完成了1.25亿美元的A轮融资,估值达到了15亿美元。Jasper.ai也已推出了图像生成产品Jasper Art。实现商业变现实现商业变现,20222022年收入翻倍年收入翻倍。Jasper.ai主要是通过SaaS付费的模式,目前分为BOSS版本、商业版本进行不同定价。公司2021年已
90、经有70000名付费客户。公司在2021年创造了4000万美元的收入,预计到2022年底,收入将达到9000万美元,同比增长了一倍以上。Jasper.ai能够实现减少花在第一稿上的80%的时间,输出高出10倍质量的产品,实现400%的投资回报率。图表:图表:JasperJasper.AIAI官网示例官网示例图表:图表:JasperJasper.AIAI产品定价产品定价2.1 2.1 文本生成:文本生成:Jasper.aiJasper.ai已实现商业变现,估值达已实现商业变现,估值达1515亿美元亿美元定价定价类型类型BOSSBOSS版本版本商业版本商业版本适用人群个人、小团队大团队、商业团队内
91、容利用AI写作的全部功能,以完整性和灵活性创建全文内容使用Jasper进行扩展所需的入门和支持等价格99美元/月(月付),82 美元/月(年付)499美元/月起,定制价格请务必阅读报告附注中的风险提示和免责声明33资料来源:How does GPT Obtain its Ability?Tracing Emergent Abilities of Language Models to their Sources,Open AI官网,国海证券研究所 能力提升来源于大算法和训练路径改善能力提升来源于大算法和训练路径改善。ChatGPT是微调后的GPT-3.5系列模型(“预训练-微调”),有1750亿
92、个模型参数,2022年初训练完成。ChatGPT还使用了“利用人类反馈强化学习”(RLHF:Reinforcement Learning from Human Feedback)的机器学习技术进行训练,可以模拟对话,回答后续问题,承认错误,质疑不正确的前提,拒绝不恰当的请求。瑕不掩瑜瑕不掩瑜,有望迭代发展有望迭代发展。ChatGPT仍存在一些局限性:1)有时会写出看似合理但错误或荒谬的回答。2)调整问题措辞,可能会获得不同的答案。3)回复过于冗长。这些问题源于训练数据的偏差,因为训练师(标注人员)更喜欢看起来更全面的更长的答案。4)无法完全拒绝不合理及不道德的请求。5)不具备网络搜索功能,只能
93、基于2021年所拥有的数据集进行回答。图表:图表:GPTGPT模型迭代对比模型迭代对比图表:图表:GPTGPT-3 3和和GPTGPT-3 3.5 5系列模型的区别系列模型的区别模型模型能力能力Open AIOpen AI模型模型训练方法训练方法GPTGPT-3 3语言生成+世界知识+上下文学习GPT-3初始版本(大部分能力已存在于模型中,表面上看起来比较弱)语言建模+遵循人类的指令+泛化到没有见过的任务Instruct-GPT初始版本指令微调+代码理解+代码生成Codex初始版本在代码上进行训练GPTGPT-3.53.5+代码理解+代码生成+复杂推理/思维链+长距离的依赖现在的Codex(G
94、PT3.5系列中最强大的模型)在代码+文本上进行训练在指令上进行微调+遵循人类指令-上下文学习-推理能力+零样本生成有监督的Instruct-GPT(通过牺牲上下文学习换取零样本生成的能力)监督学习版的指令微调+遵循人类价值观+包含更多细节的生成+上下文学习+零样本生成经过RLHF训练的Instruct-GPT(和有监督的Instruct-GPT相比,和人类更加对齐,并且更少的性能损失)强化学习版的指令微调+遵循人类价值观+包含更多细节的生成+拒绝知识范围外的问题+建模对话历史的能力-上下文学习ChatGPT(通过牺牲上下文学习的能力换取建模对话历史的能力)使用对话数据进行强化学习指令微调模型
95、模型发布时间发布时间参数参数解码器解码器层层隐藏层隐藏层批量处批量处理大小理大小训练数训练数据数量据数量特点特点GPT-12018年1.17亿1276864约5GB无监督训练+有监督微调GPT-22019年150亿48160051240GB多任务学习GPT-32020年1750亿9612288 3.2M45TB海量参数,任务难度加大【专题专题1 1-ChatGPTChatGPT】“大数据“大数据+大模型大模型+大算法”成就大算法”成就AIGCAIGC发展里程碑发展里程碑注:+表示能力的增强,-表示能力的弱化,符号个数表示增强/弱化程度请务必阅读报告附注中的风险提示和免责声明34【专题专题1 1
96、-ChatGPTChatGPT】利用利用RLHFRLHF深度学习训练,迭代出更高质量模型深度学习训练,迭代出更高质量模型资料来源:OpenAI官网 ChatGPTChatGPT是微调后的是微调后的GPTGPT-3 3.5 5系列模型系列模型,使用使用“利用人类反馈强化学习利用人类反馈强化学习”(RLHFRLHF)的机器学习技术进行训练:的机器学习技术进行训练:1 1)训练监督策略模型:训练监督策略模型:为了让GPT3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注好并给出高质量答案,用这些数据来微调GPT-3.5模型。2 2)训练奖励模型训练奖励模型(RewardRewar
97、d ModelModel):在数据集中随机抽取问题,使用第一阶段生成的模型,对每个问题生成多个不同的回答。标注者对这些结果综合考虑给出排序,使用排序结果来训练奖励模型,对多个排序结果,两两组合,形成多个训练数据对,RM模型接受一个输入,给出评价回答质量的分数。3 3)采用近端策略优化采用近端策略优化(Proximal Policy Optimization)强化学习:强化学习:利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数,把回报分数依次传递,由此产生策略梯度,通过强化学习的方式更新PPO模
98、型参数。图表:图表:ChatGPTChatGPT的训练过程的训练过程不断重复第二/三阶段,迭代训练出更高质的模型请务必阅读报告附注中的风险提示和免责声明35【专题专题1 1-ChatGPTChatGPT】应用示例应用示例资料来源:量子位,新民晚报,国海证券研究所ChatGPTChatGPT写短文、诗写短文、诗ChatGPTChatGPT做物理做物理/化学题化学题ChatGPTChatGPT写小说写小说ChatGPTChatGPT写代码写代码请务必阅读报告附注中的风险提示和免责声明36【专题专题1 1-ChatGPTChatGPT】引爆全网,用户量直冲数亿级,商业价值显现引爆全网,用户量直冲数亿
99、级,商业价值显现资料来源:腾讯网,OpenAI官网,量子位,每日经济新闻,机器之心公众号,微软科技公众号,华尔街见闻,国海证券研究所 ChatGPTChatGPT上线一周用户量达百万级上线一周用户量达百万级,商业变现初显商业变现初显。2022年11月,OpenAI上线了聊天机器人ChatGPT,能够理解自然的人类语言,并生成类似人类作答的书面文本,能写代码、改Bug、创建编程语言等。2022年11月30日-12月5日,ChatGPT用户数量已破100万;2023年1月末,推出两个月后月活已推出两个月后月活已突破了突破了1 1亿亿。2023年2月1日,OpenAI宣布推出月费20美元的ChatG
100、PT Plus订阅服务。ChatGPTChatGPT等等AIAI工具商业化开始落地:工具商业化开始落地:微软CEO纳德拉曾表示,微软正迅速推进OpenAI的工具商业化,将ChatGPT、DALL-E等AI工具整合进微软旗下所有产品中,包括且不限于Bing搜索引擎、Office全家桶、Azure云服务等等。2月推出OpenAI模型支持的最新版本Bing搜索引擎与Edge浏览器,增加可以聊天与写作的功能。2月8日,推出由ChatGPT提供技术支持的高级Teams产品,可自动生成会议记录、推荐任务或创建会议模板,这项服务6月起每月收费7美元,7月增加到10美元。推出了Viva Sales基于生成式A
101、I驱动经验的预览功能,帮助销售人员更有效地与潜在客户和消费者沟通,可以在各种场景生成推荐的电子邮件内容,比如回复询问或创建提案,比如提供与收件人相关的数据。图表:图表:TeamsTeams PremiumPremium的智能回顾功能的智能回顾功能图表:图表:TeamsTeams PremiumPremium的个性化的时间线标记功能的个性化的时间线标记功能请务必阅读报告附注中的风险提示和免责声明37资料来源:微软公众号,澎湃新闻,国海证券研究所在回复电子邮件时,Viva Sales 根据提出建议、回复询问或自身建议等类别,为卖家提供即时的建议回复。使用者只需选择符合需要的选项,系统就会生成一个回
102、复供其审阅,再根据自己的喜好进行编辑,然后发送。用户可以直接与Bing聊天机器人对话,在类似ChatGPT的聊天界面中向其提问,比如问旅行计划安排,Bing描述了一个粗略的行程,并提供了更多信息的链接。【专题专题1 1-ChatGPTChatGPT】与微软旗下产品结合示例与微软旗下产品结合示例请务必阅读报告附注中的风险提示和免责声明38图表:图表:音频音频生成的落地场景生成的落地场景资料来源:量子位AIGC/AI生成内容,标贝科技官网,环球网,国海证券研究所 音频生成主要应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,目前在众多场景已获初步发展,在部分场景已广泛应
103、用、趋于成熟。现有的落地场景集中在TTS、语音克隆、乐曲/歌曲生成。落地场景落地场景细分场景细分场景技术技术/内容内容发展现状及未来展望发展现状及未来展望国内外代表性公司(或其产品)国内外代表性公司(或其产品)示例示例TTSTTS(TextText-toto-speechspeech)智能客服、有声读物制作、语音播报、自媒体配音、导航播报等基于深度学习的端到端语音合成模式正在逐步替代传统的拼接及参数法,代表模型包括WaveNet、Deep Voice及Tacotron等 在AIGC领域已基本成熟,广泛应用于各种场景;技术上的关键突破在于如何通过富文本信息更好的表现其中的抑扬顿挫,以及基于用户较
104、少的个性化数据得到整体的复制能力喜马拉雅、倒映有声、科大讯飞、思必驰(DUI)、Readspeaker、DeepZen(IBM旗下)和Sonantic、九锤配音、加音、XAudioPro、剪映等 倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案 喜马拉雅运用TTS技术重现单田芳声音版毛氏三兄弟和历史类作品语音克隆(本质语音克隆(本质是指定了目标语是指定了目标语言的言的TTSTTS)虚拟歌手演唱、自动配音等在声音IP化的基础上,对于动画、电影以及虚拟人行业有重要意义标贝科技、Modulate、overdub、replika、ReplicaStudios、L
105、ovo、Voice mod、Resemble Ai、Respeecher、DeepZen、Sonantic、VoiceID、Descript等 标贝科技推出恐龙贝克APP,采用AI语音合成技术复刻爸妈的声音为0-6岁儿童讲故事乐曲乐曲/歌曲生成歌曲生成AI作曲以语言模型为中介,对音乐数据进行双向转化;代表模型:MelodyRNN、Music Transformer AI作曲已支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲 自动编曲功能已在国内主流音乐平台上线 难点在于音乐数据的标注。灵动音科技、网易-有灵智能创作平台、昆仑万维旗下StarX平台、Amper Music、IB
106、MWatson Music、Magenta、Loudly、Brain.FM、Splash、索尼旗下Flow machines等 2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作第十交响曲 QQ音乐成为Amper music的API合作伙伴 上海禾念推出虚拟歌手洛天依,举办线上AR演唱会AI编曲AI基于主旋律和创作者个人偏好,生成不同乐器的对应和弦(如鼓点、贝斯、钢琴等),完成整体编配人声录制通过端到端的声学模型和神经声码器完成,可以简单理解为将输入文本替换为输入MIDI数据的声音克隆技术。2.2 2.2 音频生成:音频生成:TTSTTS场景基本成熟,乐曲创作有发展潜力场
107、景基本成熟,乐曲创作有发展潜力请务必阅读报告附注中的风险提示和免责声明39图表:图表:FMFM MobileMobile资料来源:喜马拉雅,FM Mobile官网,福布斯中国,国海证券研究所索尼计算机科学实验室(CSL)在2021年9月宣布发布一款AI辅助音乐制作应用程序Flow Machines Mobile(FM Mobile),已登陆苹果App Store,可以用于iPad。FM Mobile利用AI人工智能技术辅助音乐制作,能够根据创作者选择的风格提示旋律、和弦和贝斯线,生成音乐。2021年,喜马拉雅用TTS技术完美还原单田芳声音,并首次将单田芳的AI合成音应用于风格各异的书籍,用单式
108、评书腔调,全新演绎听众耳熟能详的经典之作。喜马拉雅上已有80多部运用还原自单田芳先生声音制作的专辑。图表:图表:喜马拉雅单田芳声音重现喜马拉雅单田芳声音重现2.2 2.2 音频生成:音频生成:TTSTTS场景基本成熟,乐曲创作有发展潜力场景基本成熟,乐曲创作有发展潜力请务必阅读报告附注中的风险提示和免责声明40图表:图表:GANGAN基本结构基本结构资料来源:腾讯云,nuggets,国海证券研究所 20142014年生成式对抗网络年生成式对抗网络(GenerativeGenerative AdversarialAdversarial NetsNets,GANGAN)的提出标志着图像生成进入快速
109、发展期的提出标志着图像生成进入快速发展期。GAN由生成器和判别器两个神经网络组成,其中生成器通过输入数据试图产生欺骗判别器的真实样本,而判别器试图区分真实样本和生成样本。对抗博弈下不断提高性能,达到纳什平衡后生成器可以实现以假乱真的输出。GANGAN不需要蒙特卡洛估计来训练网络不需要蒙特卡洛估计来训练网络,GG的调整更新不直接来自数据样本的调整更新不直接来自数据样本,而使用来自而使用来自D D的反向传播的反向传播,能够更快产生样本能够更快产生样本。但可解释性差且较难训练但可解释性差且较难训练,容容易产生随机图像易产生随机图像,且图像同质化严重且图像同质化严重、分辨率较低分辨率较低。针对这些,C
110、GAN、StyleGAN被提出来解决难训练和分辨率低的问题。虽然近年来GAN在神经网络架构、损失函数设计、模型训练稳定性、模型崩溃问题上取得了突破,提升了最终图像的特定细节、内在逻辑、生成速度等,但要在实际中大规模运用还需要解决相应问题。GG是生成图片的网络是生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记做G(z)。D D是判别图片的网络是判别图片的网络,判别一张图片是不是“真实的”。它的输入参数是x(代表一张图片),输出D(x)代表x为真实图片的概率,如果为1,就代表是真实的图片,而输出为0,就代表不是真实的图片。图表:基于图表:基于GANGAN的图像翻译的图像翻译(左图为
111、左图为inputinput,右图为右图为outputoutput)2.3 2.3 图像图像生成:从生成:从GANGAN到扩散模型,图像生成技术迭代发展到扩散模型,图像生成技术迭代发展请务必阅读报告附注中的风险提示和免责声明41图表:四种图像生成模型图表:四种图像生成模型结构对比结构对比资料来源:量子位AIGC/AI生成内容,AI SUMMER,国海证券研究所 扩散模型扩散模型(DiffusionDiffusion ModelModel)解决了解决了GANGAN训练不稳定的问题训练不稳定的问题,成为新一代图像生成主流模型成为新一代图像生成主流模型。扩扩 散散 模模 型型 的的 概概 念念 最最
112、早早 在在 20152015 年年 被提出被提出,2020年,去噪扩散概率模型(Denoising Diffusion Probabilistic Model,DDPM)提出,向世界展示了扩散模型的实力,之后图像生成领域开始转向DDPM的研究。2022年,扩散模型成为图像生成领域的重要发现,有超越GAN的势头。Stable diffusion模型在2022年8月开源,此后图像生成应用遍地开花。DiffusionDiffusion模型的工作原理是通过连续添加高斯噪声来破坏训练数据模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程然后通过反转这个噪声过程,来学习恢复数据来
113、学习恢复数据。扩散模型提供了一个系统地增加噪音的过程,通过扩散模型向生成的数据和真实数据添加噪音,然后将加入噪音的数据送入判别器,这样可以高效地解决GAN无法训练、训练不稳定的问题。DiffusionDiffusion模型由正向过程模型由正向过程(扩散扩散)和反向过程和反向过程(逆扩散逆扩散)组成组成,其中输入数据逐渐被噪声化其中输入数据逐渐被噪声化,然后噪声被转换回源目标分布的样本然后噪声被转换回源目标分布的样本。相较于其他的图像生成模型相较于其他的图像生成模型(比如比如GANGAN、VAEVAE和和FlowFlow-basedbased模型模型),在所需数据更少的背景下在所需数据更少的背景
114、下,DiffusionDiffusion模型的图像生成效果有明显提升模型的图像生成效果有明显提升。图表:扩散模型的正向过程和反向过程图表:扩散模型的正向过程和反向过程训练一个生成模型x=g(z),这个模型能够将采样后的概率分布映射到训练集的概率分布。首先定义扩散步骤的马尔可夫链,以缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样本寻找一种变换h=f(x)将数据空间映射到另一个空间,新空间各个维度相互独立扩散扩散:从X0输入的真实图像,经过Diffusion模型后被渐近变换为纯高斯噪声的图片XT逆扩散逆扩散:学习逆转后的分布,逐步地恢复样本数据2.3 2.3 图像图像
115、生成:从生成:从GANGAN到扩散模型,图像生成技术迭代发展到扩散模型,图像生成技术迭代发展请务必阅读报告附注中的风险提示和免责声明422.3 2.3 图像图像生成:生成:NeRFNeRF是是3D3D建模的主流模型建模的主流模型图表:图表:NeRFNeRF的工作流程的工作流程资料来源:蓝海云GPU,量子位,Denoising Diffusion Probabilistic Models,StylizedNeRF:Consistent 3D Scene Stylization as Stylized NeRF via 2D-3D Mutual Learning等,国海证券研究所 NeRF(Neu
116、ral Radiance Field,神经辐射场)作为一种具有隐式场景表示的新型视场合成技术一经被提出便引起了广泛的关注。NeRF是一个完全连接的神经网络,可以基于部分2D图像集生成复杂3D场景的新视图。NeRF在机器人、城市地图、自主导航、虚拟现实/增强现实等领域都有广泛的应用。NeRFNeRF的优势是利用隐式表达实现照片集的视角合成效果的优势是利用隐式表达实现照片集的视角合成效果,但还存在训练速度慢但还存在训练速度慢、渲染速度慢渲染速度慢、只能用于静态场景只能用于静态场景、泛化性能差泛化性能差、需要大量视角需要大量视角、难以与难以与传统渲染管线融合等问题传统渲染管线融合等问题,目前还没有比
117、较成功的商业化应用目前还没有比较成功的商业化应用。在技术的不断完善迭代中在技术的不断完善迭代中,NeRFNeRF有望打开有望打开3 3D D建模的新市场建模的新市场。NeRF实现了从离散的照片集中学习出了一种隐式的Volume表达,然后在某个特定视角,利用该隐式Volume表达和体渲染得到该视角下的照片。隐式是连续的表达,能够适用于大分辨率的场景,而且不需要3D信号进行监督。NeRF自提出后也持续在生成范围、生成效果、所需基础数据上进行改进。例如包含光影变化效果(NeRV)、动态NeRF(HyperNeRF),接近实时生成(Instant-NGP和Instant NeRF),全场景NeRF(m
118、ip-NeRF 360)。图表:图表:NeRFNeRF的具体技术场景示例的具体技术场景示例1 1、三维重建:、三维重建:输入三维位置(x,y,z)和二维方位视角(,),利用多层感知机(MLP)网络建模输出颜色c=(r,g,b)和体素密度()2 2、渲染:、渲染:将3D点的颜色及体素密度沿着光线进行整合得到最终的2D图像像素值3 3、训练:、训练:将得到的2D图像与Ground Truth做损失进行网络优化从从2D2D到到3D3D从从3D3D到到2D2D3D3D风格迁移风格迁移(StylizedNeRFStylizedNeRF)人体重建人体重建(HumanNeRFHumanNeRF)提出2D卷积
119、网络和3D辐射场网络互学习机制,可训练得到一个可以进行风格化的神经辐射场网络可将任何单视角视频中的人体运动渲染成支持自由视点查看的3D模型请务必阅读报告附注中的风险提示和免责声明43资料来源:量子位AIGC/AI生成内容,国海证券研究所 图像生成领域的技术场景可以划分为图像属性编辑图像生成领域的技术场景可以划分为图像属性编辑、图像局部生成及更改以及端到端的图像生成图像局部生成及更改以及端到端的图像生成。其中,前两者的落地场景为图像编辑工具,而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。在图像编辑领域已获大规模应用落地在图像编辑领域已获大规模应用落地,但由于图像的生成复杂度远高于
120、文字但由于图像的生成复杂度远高于文字,在整体生成上目前仍然难以达到稳定可靠的生成高质量图像在整体生成上目前仍然难以达到稳定可靠的生成高质量图像。未来,随着底层技术原理的不断突破,有望实现规模化应用。图表:图表:图像生成的应用场景图像生成的应用场景技术场景技术场景落地场景落地场景内容内容发展现状及未来展望发展现状及未来展望代表性公司代表性公司图像属性编辑图像属性编辑图像编辑工具图片去水印、自动调整光影、设置滤镜、修改颜色纹理、复刻/修改图像风格、提升分辨率等大量应用落地,初创公司众多;未来的突破点在于引流渠道和与技术流程挂钩的产品使用体验美图秀秀(美图AI开放平台)、Radius5、Photok
121、it、Imglarger、Hotpot、Remove.bg、Skylum(Mask AI)、Photodiva图像局部生成及图像局部生成及更改更改图像编辑工具部分更改图像部分构成(如英伟达CycleGAN支持将图内的斑马和马进行更改)、修改面部特征(Metaphysics,可调节自身照片的情绪、年龄、微笑等;以Deepfake为代表的图像换脸)难以直接生成高质量的完整图像,但基于GAN的优化模型不断发展,目前也有部分应用落地。Adobe(InsetGAN)、英伟达(EditGAN)端到端的图像生端到端的图像生成成创意图像生成(NFT)功能性图像生成(海报、logo、模特图等)基于草图生成完整图
122、像、有机组合多张图像生成新图像、根据指定属性生成目标图像等底层技术原理基本明确,1-2年后规模化应用阿里鹿班、Deepdream Generator、Rosebud.ai、AI Gahaku artbre eder、nightcafe、starry ai、wombo、deepart、obvious、ZMO.ai、Datagrid、诗云科技、道子智能绘画系统等2.3 2.3 图像图像生成:图像属性编辑已大规模落地生成:图像属性编辑已大规模落地请务必阅读报告附注中的风险提示和免责声明44资料来源:NVIDIA官网,量子位,InsetGAN for Full-Body Image Generatio
123、n,EditGAN:High-Precision Semantic Image Editing,Nvidia,国海证券研究所InsetGANInsetGAN:通过组合多个局部预训练模型生成完整图像EditGANEditGAN:将图像嵌入到GAN潜在空间中,并根据分割编辑执行潜在的代码优化从而高效地修改图像。图表:图像局部变更的图表:图像局部变更的InsetGANInsetGAN和和EditGANEditGAN模型模型2.3 2.3 图像图像生成:图像局部变更模型生成:图像局部变更模型请务必阅读报告附注中的风险提示和免责声明45图表:图表:AdobeAdobe SenseiSensei示例示例资
124、料来源:量子位AIGC/AI生成内容,Adobe官网,机器之心公众号,Efficient Video Generation on Complex Datasets,国海证券研究所 视频生成原理与图像类似视频生成原理与图像类似,主流模型为主流模型为GANGAN、VAEVAE、FlowFlow-basedbased模型模型,近年来扩散模型也逐渐应用到视频生成中近年来扩散模型也逐渐应用到视频生成中。2019年,DeepMind提出了DVD-GAN模型(Dual Video DiscriminatorGAN),加入了空间判别器D-S和时间判别器D-T。GAN在视频生成中的重大突破是一组由50万段10秒
125、高分辨率YouTube视频剪辑汇编成的数据集训练,能够生成具备时间一致性的高分辨率(256 x 256像素)视频。视频生成应用场景主要集中在视频属性编辑、视频自动剪辑、视频部分编辑,前者已有大量应用落地,后两者还处于技术尝试阶段。视频编辑比图像更具挑战性,需要合成新动作,不仅是修改外观,还要保持时间一致性。图表:视频图表:视频生成的应用场景生成的应用场景技术场景技术场景 内容内容发展现状发展现状代表性公司代表性公司视频属性视频属性编辑编辑视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。大量应用已落地Runway ML、Wisecut、Adob
126、eSensei、Kaleido、帝视科技、CCTV AIGC、影谱科技、Versa(不咕剪辑)、美图影像研究院等视频自动视频自动剪辑剪辑基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。仍处于技术尝试阶段影谱科技(智能视频编辑)、Adobe(与斯坦福共同研发的AI视频剪辑系统)、IBM Watson(自动剪辑电影预告片)、Sony CSL(Flow Machine)等视频部分视频部分生成生成基于目标图像或视频对源视频进行编辑及调试,强调将视频切割成帧,再对每一帧的图像进行处理,通常包含数据提取、数据训练及转换三个步骤。仍处于技术尝
127、试阶段腾讯云(与优图实验室、天天P图联合打造的AI变脸玩法)等在几秒钟内消除视频缺陷在几秒钟内消除视频缺陷裁剪多台设备的视频裁剪多台设备的视频,而不会影响操作而不会影响操作图表:图表:DVDDVD-GANGAN模型架构模型架构2.4 2.4 视频视频生成:与图像生成类似,大量应用集中在视频属性编辑生成:与图像生成类似,大量应用集中在视频属性编辑请务必阅读报告附注中的风险提示和免责声明46图表:图表:CLIPCLIP的优势的优势2.5 2.5 跨模态生成:跨模态生成:“CLIP+“CLIP+其他模型”成为通用的做法其他模型”成为通用的做法资料来源:Openai官网,阿里云,界面新闻,国海证券研究
128、所 跨模态定义:跨模态定义:跨模态生成,指将一种模态转换成另一种模态,同时保持模态间语义一致性。主要集中在文字生成图片、文字生成视频及图片生成文字。TransformerTransformer架构的跨界应用成为跨模态重要开端之一架构的跨界应用成为跨模态重要开端之一。多模态训练普遍需要匹配视觉的区域特征和文本特征序列,形成Transformer架构擅长处理的一维长序列,与Transformer的内部技术架构相符合。此外Transformer架构还具有更高的计算效率和可扩展性,为训练大型跨模态模型奠定了基础。CLIPCLIP(ContrastiveContrastive LanguageLangu
129、age-ImageImage PrePre-trainingtraining,可对比语言可对比语言-图像预训练算法图像预训练算法)成为图文跨模态重要节点成为图文跨模态重要节点。2021年,OpenAI发布了CLIP,是一种经典的文图跨模态检索模型,在大规模图文数据集上进行了对比学习预训练,具有很强的文图跨模态表征学习能力。CLIP模型包含图像和文本的Encoder两部分,用于对图像和文本分别进行特征抽取。“CLIP+其他模型”在跨模态生成领域成为较通用的做法,如Disco Diffusion,其原理为CLIP模型持续计算Diffusion模型随机生成噪声与文本表征的相似度,持续迭代修改,直至生
130、成可达到要求的图像。图表:图表:CLIPCLIP结构结构1.CLIP在特征抽取后,分别对图文向量进行标准化,之后进行内积计算,获取样本间的相似度2.将 文 本 标 签 转 化 为 提 示“A photo of aobject”,并且使用目标图像作为输出。如果文本“A photo of a dog”于当前图像匹配度最高(具有最大的余弦相似度),即可以说明当前图像的物体是“dog”CLIP-ViT和CLIP-ResNet两类CLIP方法在12种模型27种数据集准确率和处理图像大小方面都遥遥领先尽管两种模型在ImageNet测试集上具有相同的精度,但CLIP的性能更能代表在不同的非ImageNet设
131、置下测量精度的数据集上的表现请务必阅读报告附注中的风险提示和免责声明472.5 2.5 跨模态生成跨模态生成:文字生成图像取得突破,其他领域仍有待提升:文字生成图像取得突破,其他领域仍有待提升资料来源:腾讯云,AI Tech Yun,量子位AIGC/AI生成内容,VQA:Visual Question Answering,国海证券研究所文字生成图像:文字生成图像:2021年,OpenAI推出了CLIP和DALL-E,一年后推出了DALL-E2;2022年5月,谷歌推出了Imagen和新一代AI绘画大师Parti;2022年8月,Stability Al推出Stable diffusion并宣布
132、开源。国内主流的AI绘画平台有文心一格、盗梦师、意间AI、Tiamat等。文字生成视频:文字生成视频:以Token为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。但由于视频生成会面临不同帧之间连续性的问题,对生成图像间的长序列建模问题要求更高,以确保视频整体连贯流程。按技术生成难度和生成内容,可区分为拼凑式生成和完全从头生成。图像图像/视频生成文本:视频生成文本:具体应用有视觉问答系统、配字幕、标题生成等,代表模型有METER、ALIGN等。图表:图表:DALLDALL-E E 2 2.0 0 原理原理1 1、把文本和视觉图、把文本和视觉图像联系起来像联系起来2 2、从视觉
133、语义生成、从视觉语义生成图像图像3 3、从文本语义到相应、从文本语义到相应的视觉语义映射的视觉语义映射通过CLIP文本/图像编码器将文本描述和图像映射到表示空间(CLIP模型的原理)扩散先验从CLIP文本编码映射到相应的CLIP图像编码(扩散模型)修改版的GLIDE生成模型通过反向扩散从表示空间映射到图像空间,生成众多可能图像中的一个图表:文字生成视频两种类型图表:文字生成视频两种类型拼凑式拼凑式生成生成完全从完全从头生成头生成文字文字生成生成视频视频原理:原理:基于文字(涉及NLP)搜索合适配图、音乐等素材,在已有模板参考下完成自动剪辑原理:原理:由AI模型基于自身能力,不直接引用现有素材,
134、生成最终视频特点:特点:本质为“搜索推荐+自动拼接”,门槛较低,背后授权素材库的体量、已有模版数量等成为关键因素特点:特点:处于技术尝试阶段,所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间,代表模型Cogvideo代表公司:代表公司:百度VidPress、慧川智能、Gliacloud、Synths.video、lumen5(2C)以及Pencil(2B)1 1、从问题中提取特征2 2、从图像中提取特征3 3、结合这些特征来生成答案图表:视觉问答系统原理图表:视觉问答系统原理请务必阅读报告附注中的风险提示和免责声明48资料来源:人人都是产品经理公众号,新智元,腾讯网,百度指数,各绘画平台
135、官网等,国海证券研究所 2022年AI绘画产品大量涌现,国外Disco Diffusion、Midjourney、DALL-E2、Dream studio等绘画平台接连推出,国内,文心一格、盗梦师、Tiamat等紧跟脚步。AI绘画百度搜索指数一路飙升,在2022年12月达到峰值。AIAI图像生成图像生成已开始商业落地:已开始商业落地:2 2C C端端:通过“内容付费+会员付费”模式收费。但根据6open调研,60%以上的国内AI绘画用户并未付过费,而愿意付费超100元的占比小于10%。2 2B B2 2C C:主要作为工具/功能集成到软件主体,提升用户黏性及平台活跃度。以美图秀秀为例,AI绘画
136、作为一项增值服务,引导用户付费或开通会员后使用;抖音、小红书等社交内容平台,AI绘画功能可以带动用户参与活动,拉动创作内容发布和互动率,提升社区活跃度。2 2B B端:端:可运用于广告制作等领域,根据定制化需求,快速制作广告,降低成本、时间;也可以用于影视图像、游戏场景等制作上,降低内容成本。地区地区产品产品所属公司所属公司收费形式收费形式国外国外Disco DiffusionDisco Diffusion 谷歌现阶段免费MidjourneyMidjourneyMidjourney实验室25次免费生成后,10美元/月(最多200次生成)或30美元/月(无限制生成)DALLDALL-E2E2Op
137、enAl首次50次免费生成且每月免费生成15次后,15美元(115次生成)ImagenImagen AIAI谷歌尚未明确Dream studioDream studioStability Al免费生成200张图后,10英镑(1000次生成)国内国内文心一格文心一格百度免费生成100张图后,9.9元/50张;15.9/100张;49.9元/400张TiamatTiamat退格数字公测阶段,可免费生成140张图6pen art6pen art毛线球最多免费生成100张图后,5元/10张;30元/100张,100元/400张,500元/2500张盗梦师盗梦师西湖心辰免费生成5张图后,5.5元/25张
138、,24.9元/125张;或会员制:99元/月/660张、299元/月/2160张即时即时AIAI雪云锐科技现阶段免费图表:国内外图表:国内外AIAI绘画产品绘画产品图表:图表:TiamatTiamat、盗梦师生成的盗梦师生成的AIAI绘画作品绘画作品夕阳下的摄影师夕阳下的摄影师2.5.1 2.5.1 文生图:产品涌现,商业变现以文生图:产品涌现,商业变现以2C2C为主为主TiamatTiamat盗梦师盗梦师请务必阅读报告附注中的风险提示和免责声明49文字:火星上的独行宇航员,神秘,多彩,超现实资料来源:MarkTechPost,OpenAI官网,新智元,Stability AI官网,Midjo
139、urney官网等,国海证券研究所图像生成平台图像生成平台MidjourneyMidjourneyDALLDALL-E2E2DreamstudioDreamstudio(Stable diffusion)Stable diffusion)推出时间2022年4月2022年4月2022年8月底层模型底层模型扩散模型扩散模型+CLIP+CLIP扩散模型扩散模型+CILPCILP扩散模型扩散模型+CILPCILP模型开源不开源不开源免费开源所属机构所属机构MidjourneyMidjourney实验室实验室OpenAIOpenAIStabilityAIStabilityAI功能文字生成图像、文本提示的图
140、到图(根据文本提示编辑已有图像)一次生成图片数量4张4张1-9张分辨率最多到2048*20481024*1024最多到1024*1024特点特点艺术性强,擅长环境效果,特别是科幻场景艺术性强,擅长环境效果,特别是科幻场景语义理解更加准确,风格更广泛语义理解更加准确,风格更广泛细节更丰富,艺术感强细节更丰富,艺术感强商业用途付费会员可以均可以均可以试用首次加入可获25分钟的免费GPU时间,大致可以支撑25次免费生成。首次访问可获50个免费积分,接下来每月可获15个免费积分。一次生成消耗约1个积分。首次注册可获价值2英镑的积分,支撑200次单张图免费生成。付费10美元/月(约200次生成)30美元
141、/月(无限制生成)15美元(115次生成)10英镑(1000次生成)单次生成的费用单次生成的费用0.050.05美元美元/次次0.130.13美元美元/次次0.010.01英镑英镑/次次2.5.1 2.5.1 文生图文生图:三大:三大AIAI绘画平台对比绘画平台对比请务必阅读报告附注中的风险提示和免责声明50资料来源:Stability.ai官网,Dream Studio官网,Crunchbase News,国海证券研究所图表:图表:DreamDream StudioStudio 生成的图片示例生成的图片示例图表:图表:DreamDream StudioStudio中不同分辨率中不同分辨率/处
142、理步骤的图片的定价处理步骤的图片的定价(积分积分/张张)2.5.1 2.5.1 文生图:文生图:Stability.aiStability.ai将模型开源,引爆将模型开源,引爆AIAI绘画绘画 Stability.ai成立于2020年,2022年10月宣布获得了来自Coatue、光速资本以及OShaughnessy总计1.01亿美元的种子轮投资,资金将用来面向图像、语言、音频、视频以及3D领域的AI模型开发,投后估值达到10亿美元。允许任何人在没有监督的情况下使用和构建允许任何人在没有监督的情况下使用和构建StableStable DiffusionDiffusion模型模型,未来有望通过商业
143、版本盈利未来有望通过商业版本盈利 Stable Diffusion通过引入Latent diffusion的方式来解决原有扩散模型计算代价昂贵的问题。扩散模型主要缺点是去噪过程的时间和内存消耗都非常昂贵,因此使进程变慢,并消耗大量内存。Latent diffusion通过在较低维度的潜空间上应用扩散过程而不是使用实际的像素空间来减少内存和计算成本。自8月份发布代码以来,已有超过20万开发人员下载了该代码,并使用基于Stable Diffusion算法构建的工具创建了数百万张图像。公司面向消费者的产品Dream Studio拥有来自50多个国家的100多万注册用户,总共创建了超过1.7亿张图像。
144、Dream Studio基础定价为1000积分/10美元,可以生成5000张图片,每张图片在默认设置下需花费0.2积分,此外会根据图片分辨率和处理步骤的数量来调整定价。stepssteps512x512512x512512x768512x768512x1024512x1024768x768768x768768x1024768x1024 1024x10241024x102415150.10.30.40.50.71.030300.20.50.81.01.41.950500.40.91.31.62.33.21001000.71.72.63.14.56.41501501.02.53.94.66.79.
145、5请务必阅读报告附注中的风险提示和免责声明51资料来源:Make-A-Video官网,腾讯新闻,澎湃新闻,Make-A-Video:Text-to-Video Generation without Text-Video Data国海证券研究所 2022年9月,Meta首次推出Make-A-Video,可以从给定的文字提示生成短视频,还可以从给定的视频或图像制作视频,加入到“文字生成视频”落地应用行列。“Make-A-Video”模型研究是建立在T2I(text to image)生成技术的最新进展之上的,先通过文字生成图像,再提高图像的像素,生成高分辨率和帧率的视频。“Make-A-Video
146、”相较于目前行业内的一些其他技术,具有三大优势:首先,它加速了T2V(text to video)模型的训练,不需要从头开始学习视觉和多模态表示;其次,它不需要成对的文本-视频数据;最后,其生成的视频具有多样性,审美、艺术风格等都十分丰富。图表:图表:MakeMake-A A-VideoVideo模型架构模型架构图表:图表:MakeMake-A A-VideoVideo图片图片生成视频示例生成视频示例2.5.2 2.5.2 文生视频:文生视频:MetaMeta推出推出MakeMake-A A-VideoVideo当用户输入一串文字后,系统会生成16张在时间上有连续性的64X64像素的RGB图片
147、,然后这作品图片将会通过插值模型增加视频的帧数,让前后帧之间的动作更加平滑,之后通过两个超分辨率模型,将图像的像素提升到256256像素后,再提升到768768像素,生成高分辨率和帧率的视频。图表:图表:MakeMake-A A-VideoVideo文字生成视频示例文字生成视频示例请务必阅读报告附注中的风险提示和免责声明522.6 2.6 策略生成策略生成:主要应用于游戏、智能交互数字人领域:主要应用于游戏、智能交互数字人领域资料来源:A16Z,国海证券研究所 策略生成指策略生成指AIAI基于特定问题和场景基于特定问题和场景,自主提出解决方案的过程自主提出解决方案的过程,本质是让本质是让AIA
148、I感知环境感知环境、自身状态并基于特定目标决定当下需执行的动作自身状态并基于特定目标决定当下需执行的动作,然后基于下一个然后基于下一个状态给到系统的反馈进行奖励或惩罚状态给到系统的反馈进行奖励或惩罚,最终使系统在不断的最终使系统在不断的“强化强化”过程中优化过程中优化“策略策略”。AI策略生成中普遍采用深度强化学习技术,关键是搭建能充分还原现实因素的虚拟环境及能够合理设置奖惩,在游戏、自动驾驶、机器人控制、智能交互数字人等领域有应用价值。游戏:游戏:游戏本身为AI提供了最佳的研发场景,有大量数据、贴近实际场景,比如NPC逻辑及剧情生成、游戏操作策略生成等。智能交互数字人:智能交互数字人:包含语
149、音识别、人像驱动、语音交互等算法技术,对语言理解力、实时交互的要求更高,满足三大特征“能听、能说、可互动”。智能交互数字人应用领域涉及金融、政务、教育、医疗、零售、影视等。图表:生成式图表:生成式AIAI对对不同场景的影响程度不同场景的影响程度图表:图表:AIAI在游戏领域的市场图在游戏领域的市场图请务必阅读报告附注中的风险提示和免责声明53资料来源:量子位AIGC/AI生成内容,gamelook,国海证券研究所AIAI融入游戏全生命周期融入游戏全生命周期,全方位赋能行业全方位赋能行业。游戏前期制作环节游戏前期制作环节,AI能够提高效率、降低制作成本;在游戏中在游戏中,AI既是运营者也是陪伴玩
150、家的智能伙伴,能提升游戏体验的同时维护良好运营秩序;在游戏周边上在游戏周边上,AI也在支持电竞训练分析、直播解说及集锦自动生成等更广泛的应用;在游戏营销方面在游戏营销方面,AI提升投放效率,降低人工成本,提升ROI。图表:图表:AIAI在游戏产业全链路中的研究与应用能力在游戏产业全链路中的研究与应用能力(以腾讯以腾讯AIAI LabLab为例为例)【专题专题2 2-游戏游戏AIAI应用应用】AIAI全面赋能游戏行业全面赋能游戏行业图表:图表:三七互娱三七互娱AIAI投放系统投放系统海量数据计划智能化创建优选和维护何时调整计划什么条件下关停计划何时创建计划竞价方式如何使用哪些账号投放使用什么样的
151、人群包使用哪些素材机器学习产生模型无需人工,更优的选择循环反馈请务必阅读报告附注中的风险提示和免责声明54【专题专题2 2-游戏游戏AIAI应用应用】游戏资产生成游戏资产生成AIAI生成游戏配乐,更实时、更高效。生成游戏配乐,更实时、更高效。2022年10月,动视暴雪申请了新专利,致力于探索“基于游戏事件、玩家资料和玩家反应动态生成音乐的想法”,在多人游戏中,AI将能创建与玩家的游戏环境、选择和进度相匹配的独特配乐,而不是预设的动态配乐;动视暴雪初步计划将该专利用于类似使命召唤的多人游戏中。11月,微软也提交了一项“用于合成音频的人工智能模型”的专利,通过AI为电影、电视、游戏等媒体生成声音,
152、且可以配合玩家的实时行为生成。AIAI生成生成3D3D模型,赋能开放游戏突破产能限制。模型,赋能开放游戏突破产能限制。2020年,微软上线了全球最大的仿真游戏微软模拟飞行2020,还原了全球200万个城镇和3.7万个机场,让玩家感受到真实世界里开飞机的感觉,通过与初创公司Blackshark.ai合作,借助着AI和云计算资源,从2D图像生成3D建筑模型,提高产能。创业公司Scenario 提供AI制作大批量、低成本、高精度的制作游戏资产,且整体风格仍然能保持一致。图表:利用图表:利用ScenarioScenario(AIGCAIGC创业公司创业公司)AIAI生成的游戏人物角色生成的游戏人物角色
153、、道具道具图表:图表:微软模拟飞行微软模拟飞行20202020场景场景资料来源:游研社,3DMGAME,Scenario官网,QbitAI公众号,国海证券研究所请务必阅读报告附注中的风险提示和免责声明55资料来源:量子位AIGC/AI生成内容,腾讯AI Lab,启元世界官网 2016年,谷歌旗下Deepmind推出的AlphaGO在围棋中战胜了围棋世界冠军李世石。随后,AI决策在Dota2、StarCraft2、德扑、麻将等游戏领域中均展现出了良好的实力。【绝悟】是腾讯Al Lab研发的决策智能Al,通过强化学习的方法来模仿真实玩家,包括发育、运营、协作等指标类别,以及每分钟手速、技能释放频率
154、、命中率、击杀数等具体参数,让AI更接近正式服玩家真实表现。基于“绝悟”,王者荣耀的数值平衡性偏差已经从1.05%下降到0.68%。启元世界的AI Being可应用于掉线托管、AI势力、AI Bot陪玩、智能NPC等领域,提升游戏体验。AI Being具备更高认知决策能力,表现更拟人、战斗水平更智能,不仅对3D开放世界有更全面敏锐的感知,也能更好地完成听声辨位、多人配合、索敌、绕后、找掩体、补状态等任务,已经应用到莉莉丝的FPS大作Farlight 84中。图表:启元世界游戏图表:启元世界游戏aiai解决方案解决方案【专题专题2 2-游戏游戏AIAI应用应用】游戏操作策略生成游戏操作策略生成图
155、表:王者绝悟图表:王者绝悟AIAI能力演进路线能力演进路线监督学习模型达到顶尖业余水平2018.125v5强化学习模型在固定阵容达到职业水平2019.08强化学习模型英雄池40名达到职业水平2020.041v1强化学习模型达到职业水平强化学习模型英雄池20名达到职业水平强化学习模型全英雄池覆盖2019.052020.012020.04请务必阅读报告附注中的风险提示和免责声明56资料来源:量子位AIGC/AI生成内容,雷科技,rct AI官网,逆水寒游戏官网,网易号,国海证券研究所 智能智能NPCNPC已开始应用落地:已开始应用落地:NPC(non-player character,非玩家角色)
156、指游戏中不受真人玩家操纵的角色。传统NPC对话内容及剧情需人工创造驱动脚本;智能NPC能分析玩家实时输入,动态地生成交互反应,构建几乎无限且不重复的剧情,增强体验并延长游戏生命周期。NPC逻辑自动生成技术已应用在黑客帝国:觉醒、荒野大镖客2、怪物猎人:世界等大型游戏中。网易宣布其逆水寒手游中的NPC将全面AI化,可做到深度人格养成、当玩家知心伴侣。游戏中400多名NPC都加载了网易伏羲人工智能实验室的AI引擎,有独立的性格特点和行为模式。rctrct AIAI混沌球算法提升混沌球算法提升NPCNPC交互体验:交互体验:产品:产品:个性化且动态的剧情探索、智能NPC/智能生物体/智能环境、“真人
157、”陪玩、智能动画及音效生成技术等。技术:技术:基于深度强化学习技术的AI引擎。混沌球(Chaos Box)算法能分析玩家的实时输入,动态地生成NPC的交互反应与新故事情节。在不需要任何脚本的情况下,就能控制游戏中NPC的行为逻辑,让其自发地产生非常智能的行为。图表:网易图表:网易逆水寒逆水寒手游实装游戏手游实装游戏GPTGPT图表:图表:rctrct AIAI 混沌球算法混沌球算法【专题专题2 2-游戏游戏AIAI应用应用】NPCNPC逻辑及剧情生成逻辑及剧情生成在每一个切片的混沌球里在每一个切片的混沌球里,开始和结局是确定的开始和结局是确定的,但是玩家每一次如何但是玩家每一次如何从开始到达结
158、局从开始到达结局,则是路径不明确的则是路径不明确的。这个路径只有当玩家不断的和虚这个路径只有当玩家不断的和虚拟世界里的拟世界里的NPCNPC作出交互作出交互,这些这些NPCNPC根据深度强化学习训练后的模型根据深度强化学习训练后的模型作出动态且实时的反应来推动剧情发展之后作出动态且实时的反应来推动剧情发展之后,才会被确定下来才会被确定下来。个混个混沌球是在沌球是在个具体的游戏场景中的最个具体的游戏场景中的最逻辑单元逻辑单元,定义了在场景中的定义了在场景中的与此场景下与此场景下的的为逻辑为逻辑。请务必阅读报告附注中的风险提示和免责声明57资料来源:topbots,量子位AIGC/AI生成内容,P
159、encil官网 AIGCAIGC的价值在于营销内容的快速迭代更新和更为个性化的内容物料生成的价值在于营销内容的快速迭代更新和更为个性化的内容物料生成。基于AIGC的个性化内容营销,主要是指由AI生成系统与底层的客户数据系统/营销效果反馈系统进行数据联通,实时根据相关数据调整生成需求,由AI快速迭代相关内容生成,进而提升个性化营销的效率和精准性。AIGC能够提高营销效果的关键在于基础素材收集分析、营销策略设定、技术生成、评估优化、数据回流等方面的共同发展。根据内容不同根据内容不同,可以将个性化内容营销分为图像生成和文本生成可以将个性化内容营销分为图像生成和文本生成,目前文本领域落地相对较多目前文
160、本领域落地相对较多,国外已出现不少代表性公司国外已出现不少代表性公司。图像生成:图像生成:AIAI生成商品模特生成商品模特,提高广告视觉效果提高广告视觉效果。如Rosebud AI可以自动生成不同的模特面孔以定位不同客户,实现千人千面的广告效果,利用其AI生成的模特的第一个活动增加了22的点击率;此外时尚平台Zalando的营销部门研究出一种新颖的方法,可以生成时尚模特穿着定制服装的高分辨率图像,实现不同颜色、款式的服装在不同造型、姿势的AI模特身上试穿,以供消费者参考。文本生成:文本生成:AIAI生成广告文案生成广告文案、商品描述等商品描述等。Pencil基于品牌、受众和产品的信息为营销人员
161、提供AI生成的标题和产品描述。图表:图表:ZalandoZalando营销部门的营销部门的AIAI模特图片示例模特图片示例图表:图表:PencilPencil生成的生成的广告词示例广告词示例【专题专题3 3-AIGCAIGC在营销的应用在营销的应用】个性化精准营销服务成为可能个性化精准营销服务成为可能请务必阅读报告附注中的风险提示和免责声明58资料来源:Persado官网,36Kr,搜狐新闻,techweb,国海证券研究所 Persado是一家可基于电子邮件、网页和其他营销活动创造出高效的文案,将人工智能应用于营销的创意公司。Persado不仅仅是简单的AI生成内容,更是能够跨触点、渠道和客户
162、群体来生成品牌个性化内容。2016年,Persado再获3000万美元C轮融资,由高盛领投,总融资达到6600万美元。Persado的语言分析器将营销内容拆解为语言、情绪、产品特性等几个要素不同形式的组合,其中情绪性词语在说服客户中起到了关键作用。Persado开发情绪轮来专门分析和利用情绪性的用语,系统中大约有100多万个单词和短语,人工智能会从中筛选关键字并且生成100-600个字的文案内容,文案版本可以高达16个。结合不同平台对于措辞的要求,加上用户设置的情绪要求、功能描述和格式,Persado可以高效地生成合适的文案。文案生成之后,Persado会将文章打开率、广告链接点击和转化等数据
163、记录在案,通过机器学习多版本的营销内容效果对比来不断改进自己。提高点击率提高点击率,实现精准营销实现精准营销,增加企业广告价值增加企业广告价值。经过试验测试对比,人工智能撰写的广告文案要比营销人员撰写出的文案,点击率高出450%。一份与全球财富500强的报告显示,Persado的智能语言分析器增加了112%的订单率。Persado主要客户涉及电商、零售、金融、电信、旅游等行业,包括摩根大通、花旗银行、Expedia等知名企业。图表:图表:PersadoPersado历次历次融资情况融资情况图表:图表:PersadoPersado MotivationMotivation AIAI平台平台【专题
164、专题3 3-AIGCAIGC在营销的应用在营销的应用】个性化精准营销服务落地个性化精准营销服务落地序号序号日期日期融资轮次融资轮次 融资金额融资金额投资机构投资机构12016年C轮3000万美元高盛领投,Bain Capital Ventures、StarVest Partners等原有投资者跟投22015年B轮2100万美元StarVest Partners领投,花旗银行和美国运通旗下的风投部门等参与跟投32013年A轮1500万美元Perception Companions与红杉印度领投,现有投资者Together Fund、Emergent Ventures跟投请务必阅读报告附注中的风险
165、提示和免责声明59资料来源:Pencil官网,DeepTech深科技,Rosebud官网,国海证券研究所图表:图表:PencilPencil广告营销案例与产品定价广告营销案例与产品定价图表图表:RosebudRosebud制作的制作的AIAI模特模特【专题专题3 3-AIGCAIGC在营销的应用在营销的应用】图:图:DataGridDataGrid开发的用于自动生成全身模型的开发的用于自动生成全身模型的AIAI请务必阅读报告附注中的风险提示和免责声明60AIGC破圈元年1AIGC应用场景2目录产业链及相关公司33.1 产业链3.2 国内发展现状:互联网巨头3.3 国内发展现状:相关上市公司3.
166、4 国内发展现状:代表性产业公司请务必阅读报告附注中的风险提示和免责声明61资料来源:量子位AIGC/AI生成内容,国海证券研究所3.1 3.1 产业链:中国产业链:中国AIGCAIGC行业尚未发展成型,代表公司较少,上游欠缺行业尚未发展成型,代表公司较少,上游欠缺数据供给方数据供给方(业务数据联通、素材数据收集等,(业务数据联通、素材数据收集等,如第三方营销公司、版权图库方等)如第三方营销公司、版权图库方等)数据分拆及标注数据分拆及标注创作者生态创作者生态(生物资产及内容素材提供)(生物资产及内容素材提供)底层配合工具底层配合工具(渲染引擎、混音设备等)(渲染引擎、混音设备等)上游上游文字文
167、字垂直赛道初创公司垂直赛道初创公司综合赛道初创公司综合赛道初创公司其他机构其他机构中游中游AIGCAIGC内容检测内容检测第三方内容服务机构第三方内容服务机构(如(如MCNMCN、公关公司等)、公关公司等)各类内容创作及分发平台各类内容创作及分发平台(基于(基于AIGCAIGC激发激发PGCPGC及及UGCUGC活力)活力)消费品厂商消费品厂商下游下游相关算法相关算法/模型研究机构模型研究机构相关开源算法相关开源算法嵌入嵌入/结合能力的业务平台结合能力的业务平台/业务生态业务生态图像图像音频音频第三方分发渠道第三方分发渠道内容终端生产商内容终端生产商(新闻媒体机构、金融机构等)(新闻媒体机构、
168、金融机构等)香侬慧语科技火龙果写作秘塔科技秘塔猫写作写作狐Giiso机器人北京灵动音科技阿里巴巴智能设计实验室内容设计内容设计(视觉设计、文案设计、结构设计等)(视觉设计、文案设计、结构设计等)内容制作工具内容制作工具(音频(音频/视频编辑工具、新闻采编、游戏制作等)视频编辑工具、新闻采编、游戏制作等)周边售卖周边售卖(NFTNFT、个性化产品等)、个性化产品等)运营增效运营增效(智能客服、简单决策等)(智能客服、简单决策等)个性化市场营销个性化市场营销(广告植入、品牌虚拟形象打造、各模态营销内容生成)(广告植入、品牌虚拟形象打造、各模态营销内容生成)数据梳理数据梳理(内外部数据分享及更新、数
169、据分析及算法训练)(内外部数据分享及更新、数据分析及算法训练)自动实时交互自动实时交互视频视频游戏游戏虚拟人虚拟人请务必阅读报告附注中的风险提示和免责声明62资料来源:澎湃新闻,百度AI开放平台,腾讯AI lab,新智元,36Kr,快手AI开放平台官网,bytedance AI lab,京东 AI开放平台,新浪科技,证券市场红周刊,国海证券研究所3.2 3.2 国内发展现状:互联网巨头多场景综合布局国内发展现状:互联网巨头多场景综合布局公司股票代码ChatGPT或对话机器人相关的布局AIGC相关布局百度BIDU.O计划在3月推出文心一言(ERNIE Bot),基于百度语言模型文心大模型ERNI
170、E3.0旗下百度AI开放平台拥有语言技术、文字识别、图像技术、视频技术等AI能力,旗下文心大模型涵盖NLP、CV、跨模态等多个领域;具体在绘画、写作、视频、数字人领域均有布局腾讯控股0700.HK申请的“人机对话方法、装置、设备及计算机可读存储介质”专利获授权,持续投入AI等前沿技术的研发基础研究方向包括计算机视觉、语音技术、自然语言处理和机器学习,应用探索聚焦于AI+游戏、AI数字人、AI+内容、AI+社交AI四类阿里巴巴BABA.N阿里版ChatGPT正在研发中,目前处于内测阶段,将和钉钉深度结合阿里达摩院牵头推出魔搭社区 ModelScope,社区首批上架超 300 个模型,覆盖了视觉、
171、语音、自然语言处理、多模态等AI主要领域,向所有开发者开放快手-W01024.HK正在开展大规模语言模型相关研究,并启动了相应专项,覆盖LLM模型训练、文案自动创作与生成、对话系统开发等领域旗下快手AI开放平台提供全球领先的AI技术服务,产品服务涵盖计算机视觉、计算机图形学、自然语言处理、音频技术、视频技术、知识图谱、机器学习、AR/VR/MR、多模态等核心技术领域;具体应用有虚拟人、语音识别、视频自动剪辑等京东09618.HK宣称会不断结合ChatGPT的方法和技术融入到产品服务中旗下AI开放平台NeuHubAI提供全球领先的声学、语义、对话、机器学习等多项人工智能技术,通过平台赋能至客服、
172、商业、市政、医疗等领域网易有道DAO.US已投入到ChatGPT同源技术产品的研发,未来或将推出ChatGPT同源技术产品,应用场景围绕在线教育,开始在AI口语老师、中文作文批改等细分学习场景中尝试应用布局AI多年,在神经网络翻译、计算机视觉、智能语音AI技术、高性能计算等方面具备核心技术;旗下有道智云AI开放平台提供自然语言翻译服务YNMT、光学字符识别服务OCR、智能语音服务SR&TTS三六零601360.SH计划尽快推出类ChatGPT技术的demo版产品360AI安全实验室开发了AI框架安全监测平台字节跳动未上市未布局旗下人工智能实验室研究领域涉及自然语言理解、计算机视觉、机器学习、计
173、算机图形&增强现实等;具体应用有AI写稿机器人、虚拟广播员和歌手、AI视频制作请务必阅读报告附注中的风险提示和免责声明63资料来源:百度官网,百度文心官网,澎湃新闻 2022年9月,万象百度移动生态大会召开,百度发布多项AIGC应用内容生产领域的技术和产品,尤其是“创作者AI助理团”和“百度APP数字人计划”的发布,助力内容创作驶进AIGC元年。百度百家号携手澎湃新闻、新京报等数十家权威媒体成立“AIGC媒体联盟”,推动AI普惠和赋能媒体行业,加速内容生产的智能化。【创作者创作者AIAI助理团助理团】发布发布,助力助力AIGCAIGC智能创作:智能创作:通过文心大模型、文心一格、图文转视频等技
174、术,为创作者提供“AI文案助理”、“AI插画助理”、“AI视频制作助理”,帮助创作者实现“一个人成为一支队伍”。AIAI文案助理:文案助理:基于百度文心大模型,可以根据创作者的需求快速产出不同风格的文章标题、内容段落。AlAl插画助理:插画助理:在文心一格的支持下,可以根据输入的关键词,自动“画”出十余种不同风格的画作,帮助创作者实现“配图自由”。AIAI视频制作助理:视频制作助理:利用多模态AI处理技术,实现图文自动生成视频能力,速度已可达“分钟级”,这项技术将图文到视频的创作周期缩短超3倍。图表:文心产业级知识增强大模型图表:文心产业级知识增强大模型3.2.1 3.2.1 百度:“创作者百
175、度:“创作者AIAI助理团助理团”助力助力AIGCAIGC智能创作智能创作“未来十年,AIGC将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容”百度移动生态事业群组(MEG)总经理何俊杰图表:文心一格核心系统图表:文心一格核心系统请务必阅读报告附注中的风险提示和免责声明64资料来源:文心一格官网,国海证券研究所3.2.1 3.2.1 百度:文心一格文字生成图片示例百度:文心一格文字生成图片示例请务必阅读报告附注中的风险提示和免责声明65 百度百度APPAPP数字人计划:将数字人技术与图文转视频数字人计划:将数字人技术与图文转视频、TTST
176、TS语音合成技术结合语音合成技术结合,为媒体及创作者定制真人孪生数字人为媒体及创作者定制真人孪生数字人。创作者输入文本即可生成有数字主持人口播的视频,不仅保证信息播报准确性,还具备多国语言口播、情绪识别等人格化功能,实现AI驱动24小时不停播。百家号已有部分百家号已有部分AIGCAIGC应用落地:应用落地:如图文转视频技术,只需一键授权,即可自动将图文转换成视频,让图文创作者跨越视频转型门槛,让视频创作者创作视频更高效、便捷。中国青年网官方短视频品牌“青蜂侠”就借助百家号图文转视频技术,在传播效果上,实现视频内容千万级曝光,较原图文类内容提升超10倍;在传播时效上,AI内容创作可灵活应对突发报
177、道,最快领先人工创作30分钟,快速产出传播内容。计划发布计划发布ChatGPTChatGPT竞品:竞品:百度计划在3月推出文心一言(ERNIE Bot),基于百度语言模型文心大模型ERNIE3.0,ERNIE3.0提出了一个多范式统一的大规模预训练框架,基于该框架,ERNIE3.0融合了自回归网络和自编码网络,同时由于大规模知识图谱类数据的引入,使得模型能够在理解任务、生成任务、零样本学习任务和常识推理任务上均获取优秀的表现。资料来源:百家号,百度官网,百度文心官网,新浪科技,国海证券研究所图表:百家号实现图文生成视频图表:百家号实现图文生成视频图表:数字主持人图表:数字主持人“青小霞青小霞”
178、3.2.1 3.2.1 百度:发布“数字人计划”,即将推出百度:发布“数字人计划”,即将推出ERNIE BotERNIE Bot对标对标ChatGPTChatGPT请务必阅读报告附注中的风险提示和免责声明66 腾讯AI Lab的基础研究方向包括计算机视觉、语音技术、自然语言处理和机器学习,应用探索结合了腾讯场景与业务优势,聚焦于游戏、数字人、内容和社交AI四类,技术已被微信、QQ、天天快报和QQ音乐等上百个腾讯产品使用,并探索AI与生命科学、医疗、农业、工业等行业的创新结合。AI+AI+游戏:游戏:腾讯AI Lab基于自己的多模态学习及生成能力在游戏领域进行了全流程的布局。绝悟绝悟&开悟:开悟
179、:“绝悟”是腾讯Al Lab于2017年开始研发的决策智能Al,通过强化学习方法来模仿真实玩家,让AI更接近正式服玩家真实表现。“开悟”是腾讯依托腾讯AI Lab和王者荣耀在算法、算力、实验场景方面的核心优势,于2019年牵头构建的AI多智能体与复杂决策开放研究平台。AI+AI+数字人:数字人:腾讯AI Lab自2017年起开始虚拟人研究,目标是从语音、口型、表情到全身动作都实现高度拟人,并掌握听、说、读、写、想等全方位技能。2020年推出AI虚拟人艾灵,是业内首个由AI驱动的虚拟偶像,2021年推出超写实3D虚拟人小志,可以通过输入文本来合成语音说话,还能基于文本或语音自动生成准确的口型及生
180、动自然的表情。资料来源:腾讯 AI Lab 官网,开悟AIArena官网,科技人工智能,国海证券研究所图表:腾讯虚拟人技术系统框架图表:腾讯虚拟人技术系统框架图表:腾讯图表:腾讯 AIAI LabLab应用领域应用领域图表:腾讯图表:腾讯 AIAI LabLab 研究领域及具体研究方向研究领域及具体研究方向计算机视觉计算机视觉语音识别语音识别自然语言处理自然语言处理机器学习机器学习AI+AI+社交社交AI+AI+游戏游戏AI+AI+数字人数字人AI+AI+内容内容3.2.2 3.2.2 腾讯:“腾讯:“AI+AI+游戏游戏/数字人”多场景综合布局数字人”多场景综合布局AIGCAIGC超大规模图
181、像分类/语义分割/描述生成,人像分析/检测/跟踪/识别/3D建模/生成,视频内容分析/分类/缩略/描述生成/搜索/推荐音频编解码,麦克风阵列远场信号处理,语音分离与增强,声纹识别,语音识别,语音/歌声合成,语音转换文本理解、文本生成、智能对话、机器翻译机器学习理论,元学习,联邦学习,图深度学习,生成学习,序列学习,自动化机器学习,强化学习等完善人人交互体验,探索人机交互新模式推进AI成长的理想研究场景,探索游戏与Al结合的边际满足用户、读懂世界,生成内容、引导用户打造多模态数字人,探索数字内容生成类别类别建模建模驱动驱动决策决策呈现呈现技术效果技术效果栩栩如生,栩栩如生,千面千人千面千人行为更
182、自然行为更自然语言更自然语言更自然渲染快又好渲染快又好技术平台技术平台虚拟人物建模虚拟人物建模虚拟世界建模虚拟世界建模自驱动系统自驱动系统NLPNLP系统系统AIAI渲染引擎渲染引擎技术优势技术优势低成本、高效率、支持多用户自主创作低成本、高效率、支持多用户自主创作请务必阅读报告附注中的风险提示和免责声明67资料来源:公司官网,每日经济新闻,中国新闻网,wind,同花顺财经,国海证券研究所3.3 3.3 国内发展现状:国内发展现状:AIGCAIGC相关上市公司相关上市公司领域公司股票代码AIGC相关业务综合昆仑万维300418.SZ发布了昆仑天工AIGC全系列算法与模型,并宣布模型开源。昆仑天
183、工旗下模型包括天工巧绘SkyPaint、天工乐府SkyMusic、天工妙笔SkyText、天工智码SkyCode,覆盖图像、音乐、文本、编程等多模态内容生成能力,标志着昆仑万维成为目前国内AIGC领域布局最为全面的公司之一,也是国内少数全身心投入到AIGC开源社区的公司。综合科大讯飞002230.SZ讯飞在人工智能三要素算法、算力、数据均具有深厚的积累,在讯飞布局的方向处于业界先进水平。讯飞语音合成、虚拟人相关技术等都属于AIGC,同时讯飞也积极布局基于预训练模型的文图生成、对话生成等技术方向,相关技术均达到业界领先水平,并通过AI虚拟人交互平台在媒体、金融、教育、文旅等领域赋能内容生产创作和
184、业务服务。公司于2022年1024开发者节已经正式发布了首个自研机器狗,基于机器人超脑平台,融合多模感知、多维表达、深度理解、运动智能相关算法,机器狗具备更多的AI能力,未来将在工业巡检、城市治理等行业领域中发掘更多的应用场景。综合万兴科技300624.SZ万兴播爆是公司打造的一款基于AI、数字人技术,面向电商用户提供丰富模板的视频生成工具,是公司正在探索、拓展的新一业务领域。明星产品WondershareFilmoraV12/万兴喵影2023新版本国内外同步,一次性推出全属性关键帧、AI智能抠像、AI智能降噪、调整图层、绘制遮罩、AI音乐重组、3D文字等多种全新优质特色功能。公司旗下首款AI
185、绘画软件“万兴AI绘画”正式开启公测。营销蓝色光标300058.SZ公司的AIGC布局不仅包括“分身有数”,“蓝标智播”等AI产品,也涵盖“销博特”等多人协同创作平台,销博特是一款基于云端聚焦Ai营销场景的多人协同创作平台,通过结合人工智能、统计算法和多维数据库,一键自动化生成策划案、品牌分析报告、消费者洞察等内容。过去一年,销博特的产品能力不断升级迭代,目前,已累计注册用户超60000家,覆盖10多个行业,400多个品类。2022年开始,提案中的参考场景为例已由AIGC产出完成;以数字人建模为例,2021年蓝标已实现使用图片生成模型的技术,3分钟即可生产一个模型,并且在与清华美院联合举办的国
186、际元宇宙论坛中,为每一位嘉宾生成了1对1的模型。营销遥望科技002291.SZ作为直播电商行业的数字营销先锋力量,公司一直秉持互联网技术创新发展的理念,目前拥有首款数字虚拟人孔襄、孪生主播技术及数字影棚等创新业务。公司规划在2023年发力虚拟人直播等业务,计划利用公司过往积淀的技术优势,实现高效率低成本的AIGC内容生成,使得直播时长更长,以长尾效应进一步扩大供应链竞争优势。营销因赛集团300781.SZ公司在持续探索AI技术在品牌内容营销方面的应用,并取得一些应用成果,其中也包括GPT技术。公司开发应用该项技术,早期主要是通过GPT2模型训练,探索自然语言处理技术在营销内容方面的运用,开发微
187、信公众号标题和内容文案的自动生成工具与游戏社群互动工具,应用在社群互动等营销场景上,从而减轻运营成本,提高运营效率。目前,公司的人工智能创意生成及管理平台因赛引擎,正紧跟AI的技术迭代步伐,研发应用ChatGPT等相关的技术,持续开发自然语言处理(文章撰写、标题创作、创意文本)等方面的应用,与图像和视频AIGC技术协同,提升品牌的内容营销的质量和效率。虚拟人 风语筑603466.SH公司在虚拟展厅、虚拟数字人、虚拟场景以及数字艺术创作领域均有结合AI人工智能技术的探索与应用,主要集中在AI生成艺术、AI辅助内容创意与生产等领域。公司已结合AIGC技术在文生文、文生图、文生音视频等领域进行场景应
188、用,随着AIGC技术从“通用模型”向“行业垂直”方向加速迭代,公司还将强化在3D建模和虚拟空间生成等领域的定向训练和模型优化。虚拟人 天下秀600556.SH公司创建了3D虚拟社交软件“虹宇宙”和自媒体数字藏品工具集“TopHolder头号藏家”。希望将平台多年来积累的红人资源、品牌资源、大数据体系和服务能力通过区块链、AI等前沿技术应用到Web3.0时代全新的创作者经济生态中,为内容创作者探索和打造新的展示平台和变现方式,为品牌方构建更加生动的营销场景及模式。虚拟人 芒果超媒300413.SZ围绕数字虚拟人相关技术研发与应用,推出虚拟主持人YAOYAO、小漾等;推出了“乘风破浪生日花”“光芒
189、的力量”“芒果虚拟伙伴阿芒”“花少星空下的帐篷男孩”等多款剧综IP衍生数字藏品;依托湖南广电元宇宙产品“芒果幻城”,在重点节目100道光芒中加入了“虚拟人”直播内容进行创新,在“光芒Web3.0赛道”直播大考中,聚焦于数字藏品、虚拟互动等前沿概念,节目特别策划了独具赛道特色的“虚拟人”互动直播环节,让虚拟主持人“小漾”现场与观众进行互动。虚拟人 捷成股份300182.SZ公司参股子公司世优科技数字人已经接入chatGPT,正在通过数字人自身的人设背景等相关数据集,并基于OpenAI来训练这个数字人专有大脑形成个性化模型。未来世优科技的AI数字人除了将拥有chatGPT的超强“AI大脑”通用能力
190、外,特定数字人还将具备个性化独有的人设背景表达能力。世优科技拥有包括实时驱动数字人、AI数字人、2.5D数字人、捏人等全栈数字人产品技术体系,应用于广电媒体、虚拟IP/偶像、品牌营销、电商、短视频/直播、元宇宙等。图表:国内拥有图表:国内拥有AIGCAIGC相关业务的上市公司相关业务的上市公司注:蓝色标记为重点关注公司请务必阅读报告附注中的风险提示和免责声明68资料来源:同花顺财经,wind,东方财富网,界面新闻,国海证券研究所领域公司股票代码AIGC相关业务文字果麦文化301052.SZ果麦AI创作机器人可实现通过采集互联网大数据精选文章、本地文件导入转化为自己的内容库,有机训练段落、词句、
191、文章、知识四维AI技能。机器通过持续深度学习,可以生成语句通顺、可读性强的优质内容,素材专业、多元实现一键自动成稿,保证改写后文意相同、内容相似,轻松实现底稿优化转换,达到高效孵化图书营销软文的目的。文字中文在线300364.SZ公司已推出AI主播、AI绘画和AI文字创作功能,并在研发推动更多AIGC功能落地。其中AI主播已在有声书生产中应用,根据文字故事情节的真实语境,用独创的情绪情感控制模块,结合语音深度学习合成技术,真实还原角色情感,生动模拟人声音色以塑造角色,讲述故事。AI文字创作功能已在17K小说网上线,可自动生成文字内容,作者在使用该功能时,通过针对不同的描写场景填写关键词和辅助短
192、语,即可生成对应的文字内容描写用于作品使用,目前可针对人物、物品等进行AI文字创作,并针对不同的作品类别如古风、都市等进行不同的内容适配。文字奥飞娱乐002292.SZ持股5%的公司北京光年无限科技有限公司拥有AI对话机器人产品-图灵机器人开放平台,开发者可自行快速接入并创建个性化机器人,包含聊天机器人、智能客服等,目前累计注册企业开发者超过150万。光年无限核心技术包含语义理解、人机对话、深度问答、多模态交互、语音交互、视觉交互等。文字中科金财002657.SZ中科金财WEB3.0内容制作引擎、多模态超写实数智人、全媒体智能客服(数字人智能大脑解决方案)、RPA机器人等解决方案中运用了多模态
193、输入/输出、视觉合成、知识处理等人机交互技术。公司智能客服机器人采用的是Transformer神经网络算法,形成了面向复杂NLP语义识别和内容生成的智能机器人对话系统、自动代码生成引擎、自动流程指令生成引擎。目前已实现为金融机构等的用户提供“不仅能对话、还能办业务”的新智能服务体验。公司自行研发拥有了自主知识产权的SINORPA机器人,支持快速部署、无接口对接,可在银行、证券、电商、物流等行业众多业务场景广泛应用。图像视觉中国000681.SZ公司与百度旗下的AI作画平台文心一格将在创作者赋能和版权保护等方面展开多项合作,共探AIGC内容产业发展方向。公司旗下元视觉平台有发行AI生成的数字艺术
194、品,相关业务尚处于初期阶段;鸿蒙宇宙是公司旗下“元视觉”艺术网于2022年11月发行的一款含版权AIGC数字艺术品,由摄影师宾果与AI共同完成。公司旗下“元视觉”艺术网共发行已收录入“元视觉”艺术网“AIGC”专辑的艺术作品17件,AI斯坦主题系列作品200件。游戏完美世界002624.SZ已将AI相关技术应用于游戏中的智能NPC、场景建模、AI剧情、AI绘图等方面。在研发方面,公司通过AI技术进行智能整合,为项目打通方案,满足功能要求,例如通过AI技术完成场景建模、纹理渲染等;此外公司还在游戏研发过程中使用AI绘图等技术,对于开拓设计思路与创意灵感、提升游戏研发效率起到了很好的推动作用。游戏
195、三七互娱002555.SZ三七互娱的“量子-天机”AI系统通过将人工经验转化为机器代码,不仅全面提升了发行和运营的效率,更强化了这两大业务线之间的联动。“量子”系统快速提升广告投放速度,并且实现了投放业务“724小时”的批量化与自动化。教育传智教育003032.SZ国内领先的高精尖数字化人才培养的职业教育机构,营业收入主要来源于数字化人才短期培训,包括以“黑马程序员”为品牌的现场培训和以“博学谷”为品牌的线上培训,针对的人群不仅有零基础进入数字化行业就业的学员,也有在职程序员的晋升培训,如架构师、大数据等。针对智能制造等行业的数字化转型升级,如工业机器人、集成电路等,公司已有智能机器人工业软件
196、开发等课程,公司也在持续密切关注行业的发展,并将基于市场对数字化人才的需求变化及业务发展规划进行相关课程的研发及上市。其他神州泰岳300002.SZ公司人工智能/大数据业务专注于自然语言处理(NLP)及大数据技术等的融合应用,汇集基础研究、关键技术、平台建设和行业应用于一身,致力于持续推进人工智能技术在不同行业落地,利用“智脑2.0”“语义工厂”及“中文信息(深度)处 理开放创新平台”,有效的将科研成果同产业落地工程相对接,面向公安、政府、气象、环保、金融、服务等行业提供人工 智能及大数据解决方案,形成智慧政企、智能客服、智慧园区三条核心业务线。截至2022年6月,在人工智能领域公司已申请专利
197、302件,其中291件为发明专利;已获得授权的专利118件,其中发明专利108件。其他当虹科技688039.SH公司AIGC相关技术在媒体演播室、智能媒资平台等众多场景上的应用已经较为成熟,可为电视台、新媒体、互联网、泛媒体行业等客户提供通过AI技术进行短视频、长视频的生产/加工等解决方案。包括比如:AI智能剪辑;用AIGC的方式自动生成对应短视频,极大程度上简化了流程提高了效率,保证了视频上线的时效性。其他天娱数科002354.SZ公司发挥数据、算法、场景优势,利用人脸建模、形象驱动、语音合成、语音识别、语义理解、图像处理等多项AI技术,推出MetaSurfing-元享平台,实现元宇宙人货场
198、的“批量化、短周期、低成本”制作,陆续为AMD、腾讯、百度、外研在线、匹克、沪上阿姨等各领域一线客户提供技术服务。近期,公司升级推出的“MetaSurfing-元享智能云平台”,纳入了AIGC功能模块,并接入了ChatGPT等模型,进一步实现从文本、音频等低密度模态向图像、视频、实时交互等信息密度更高模态的转化,并结合多模态智能算法,完成了AIGC互动直播功能的落地,先后在TikTok跨境电商直播、虚拟主播互动直播等场景中实践应用,并形成产品化解决方案。公司制作的虚拟数字人在语音交互功能中应用了基于AIGC技术的NLP问答技术。3.3 3.3 国内发展现状:国内发展现状:AIGCAIGC相关上
199、市公司相关上市公司请务必阅读报告附注中的风险提示和免责声明69资料来源:昆仑万维官网,中国新闻网,36Kr,中华财经网,国海证券研究所 2022年12月,昆仑万维举行AIGC技术发布会,正式发布“昆仑天工”AIGC全系列算法与模型,并宣布模型开源。“昆仑天工”旗下模型包括天工巧、天工乐府、天工妙笔、天工智码,覆盖图像、音乐、文本、编程等多模态内容生成能力,标志着昆仑万维成为国内第一个全身心投入到AIGC开源社区的公司。天工巧绘天工巧绘SkyPaintSkyPaint:采用全球第一款多语言Stable Diffusion分支模型,兼容Stable Diffusion;使用1.5亿中英双语语料,支
200、持中英双语输入实现文字生成图像,是国内为数不多的支持中英双语的文图生成模型。天工乐府天工乐府SkyMusicSkyMusic:国内第一款商用级作曲AI模型,该模型引入全局信息约束、和弦隐式表征,和弦准确率达到92.5%,远超目前行业最佳64.7%;支持中文、英文等31种语种,支持从旋律生成歌词、文案素材生成歌词,且支持全球多曲风。基于昆仑万维旗下StarMaker平台拥有大量优质作品曲库,目前面向全球音乐市场,已在美国、韩国、印尼等国家及全球180多个音视频平台发行了近20首人工智能生成歌曲,成功实现AIGC商业化。天工妙笔天工妙笔SkyTextSkyText:采用生成效果最好的开源GPT中文
201、预训练大模型,针对中文领域构建了千亿级别的高质量数据集,提供包括续写、对话、中英翻译、内容风格生成、推理、诗词对联等功能,与现有大模型的比试中排列前茅。天工智码天工智码SkyCodeSkyCode:采取全球第一款多语言开源编程大模型,支持多种主流代码语言SkyCode能够生成的代码,不仅包括使用广泛的python、Java、C等,还涵盖了php、go、swift等共计十余种编程语言,使不同语言的使用者都能来体验SkyCode强大的代码生成能力。图表:昆仑万维图表:昆仑万维AIGCAIGC布局历程布局历程图表:天工巧绘图表:天工巧绘、天工妙笔生成的作品天工妙笔生成的作品3.3.1 3.3.1 昆
202、仑万维:昆仑万维:发布“昆仑天工”发布“昆仑天工”2020年2021年4月2021年8月开始布局AIGC领域,训 练 集 群200张卡,投入数千万元,组建了二百余人的研发团队研发出百亿参数的中文GPT-3模型开始研发基于自有大文本模型的对话机器人,迅速刷新国内技术指标启动SkyMusic音乐实验室,三个月后达到人工智能领域最优效果2022年1月启动编程、图像、文 本 方 向 的AIGC产品。2022年9月天工巧绘生成作品:在太空骑马的宇航员天工妙笔生成五言诗请务必阅读报告附注中的风险提示和免责声明70资料来源:StarMaker官网,公司公告,QQ音乐,国海证券研究所 StarX是面向海外的社
203、交娱乐领域平台,其主打产品为StarMaker,最早以K歌为抓手,后切入语音房、直播、休闲游戏等在线娱乐场景。截至2022H1,StarMaker累计在102个国家音乐/音频类畅销榜排名前5,其中84个国家位列第1,累计在100个国家音乐/音频类下载榜排名前5,其中77个国家位列第1。StarX围绕“音乐+社交”的核心发展思路,在AIGC及VR/AR等领域积极探索。StarXStarX在在AIAI内容创作领域取得进展内容创作领域取得进展,StarMakerStarMaker与与AIGCAIGC互相助推发展互相助推发展,输出更多高品质内容输出更多高品质内容。旗下StarX MusicX Lab音
204、乐实验室是公司在“AI赋能”业务发展战略方向,截至2022年H1已完成首批5首完全由AI作曲的歌曲发布,已在Spotify、QQ音乐等海内外180余个音乐平台上线。从内部协同来看从内部协同来看,首先AIGC可以持续高效为StarMaker提供海量音乐作品,丰富平台内容,同时可进一步增强应用的可玩性和功能性,帮助平台内广大音乐爱好者和独立音乐人大幅降低创作门槛,有效缩短创作周期,产出更多优质内容。而StarMaker可以为AIGC提供最为高效的验证链路,助力其算法模型不断迭代优化。其次,由AI作曲的乐曲能够与公司旗下业务如元宇宙、游戏等产生协同效应,能够在提高音乐品质的同时降低使用音乐的成本。从
205、外部合作来看从外部合作来看,AIGC除满足个人用户需求外,还可以为企业用户提供音乐相关解决方案,包括生成背景音乐、伴奏配乐等泛化内容,以及为艺人和虚拟偶像定制化创作符合其调性的音乐作品等服务。StarX MusicX Lab 未来将继续依托成熟专业的全链路音乐制作和发行能力,向全球输出高质量的AI创作内容。风险提示:AIGC技术发展不及预期,市场竞争加剧,版号发放不及预期,新游上线延期,国际政治形势变动,估值中枢下移等风险。图表:图表:StarXStarX MusicXMusicX LabLab创作的音乐在创作的音乐在QQQQ音乐上线音乐上线图表:图表:StarMakerStarMaker官网
206、官网3.3.1 3.3.1 昆仑万维:昆仑万维:AIGCAIGC与与StarMakerStarMaker互相助推,协同其他业务发展互相助推,协同其他业务发展请务必阅读报告附注中的风险提示和免责声明713.3.2 3.3.2 中文在线、视觉中国:中文在线、视觉中国:AIAI赋能文字、图片等内容创作赋能文字、图片等内容创作 中文在线:拥有丰富中文版权内容中文在线:拥有丰富中文版权内容,累积数字内容资源累积数字内容资源510510万万+,与与600600余家余家版权机构合作;已在有声书版权机构合作;已在有声书、互动阅读文生图互动阅读文生图、文字创作辅助等领域有应用文字创作辅助等领域有应用。AIAI主
207、播:主播:以全球领先的神经网络设计和先进的深度学习合成器为依托,独创情绪、情感控制模块,可实现快速、低成本音色定制,AI主播每天单机生产速度超500万字,生产效率远高于人工主播,录制成本则可节约90%以上。未来,AI主播技术一方面将向“更动听”发展,加强人物区分、情绪细刻;另一方面将向“更全面”进阶,为不同小说品类量身定制主播声音。AIAI绘画:绘画:已在互动式视觉阅读平台Chapters中使用,通过文生图提升Chapters中作品的沉浸感和互动效果。AIAI文学创作:文学创作:2022年9月,与澜舟科技在文学创作辅助算法领域进行业务落地合作。AI文学创作功能已在17K小说网上线。风险提示:风
208、险提示:AIGC技术发展不及预期,海外市场拓展不及预期,市场竞争加剧,监管政策、IP开发低于或慢于预期等风险。资料来源:中文在线官网,视觉中国官网,每日经济新闻网,Chapters官网,公司公告,大众新闻,国海证券研究所图表:互动式视觉阅读平台图表:互动式视觉阅读平台ChaptersChapters图表:视觉中国图表:视觉中国“元视觉元视觉”平台的平台的AIGCAIGC专辑专辑视觉中国:拥有优质音图版权内容视觉中国:拥有优质音图版权内容,可提供可提供4 4亿张图片亿张图片、30003000万条视频和万条视频和3535万首音乐等版权素材;与百度合作提供万首音乐等版权素材;与百度合作提供AIAI辅
209、助创作服务辅助创作服务、推进版权保护推进版权保护,在在AIGCAIGC艺术作品落地艺术作品落地。素材和版权:素材和版权:与百度旗下的AI绘画平台文心一格在版权保护方面展开合作,双方在政策合规的前提下,为版权交易及保护做出正向引导,携手促进AIGC内容产业合规健康发展。AIGCAIGC艺术作品:艺术作品:旗下“元视觉”平台共发行“AIGC”专辑的艺术作品30件。AIAI辅助创作:辅助创作:在创作者赋能方面与百度合作,双方将为视觉内容创作者提供便捷、优质的AI辅助创作服务。风险提示:风险提示:AIGC技术发展不及预期,市场竞争加剧,监管政策,平台上线后表现不及预期等风险。请务必阅读报告附注中的风险
210、提示和免责声明723.3.3 3.3.3 蓝色光标:蓝色光标:AIGCAIGC营销领域应用集大成者营销领域应用集大成者 蓝色光标集团旗下销博特是基于云端聚焦蓝色光标集团旗下销博特是基于云端聚焦AIAI营销场景的多人协同创作平台营销场景的多人协同创作平台,通过结合人工智能通过结合人工智能、统计算法和多维数据库统计算法和多维数据库,一键自动化生成策划案一键自动化生成策划案、品牌分品牌分析报告析报告、消费者洞察等内容消费者洞察等内容。截止截止20222022年底年底,销博特已累计注册用户超销博特已累计注册用户超6 6万万,覆盖覆盖1010多个行业多个行业,400400多个品类多个品类。虚拟数字人:虚
211、拟数字人:2021年9月,国内首位广告公司虚拟创意人蓝零壹在公司内部上线,可在内网与其进行实时互动,并获得海报制作、slogan创策等初级创意内容服务。2022年2月,发布小元宵计划,将平台现有的分析、写作、文案、随笔以及创意等六大产品能力封装成API技术接口为虚拟数字人赋能营销创作能力。AIAI绘画:绘画:2022年11月,发布“创意画廊”,用户输入文本即可在6分钟内生成一幅抽象画作。AIGCAIGC营销套件:营销套件:2022年12月,销博特发布AIGC“创策图文”营销套件,提供创意、策划、文案、图片等内容一体化智能生成解决方案,通过AI技术助力内容营销实现实时在线、即刻生成个性化内容。风
212、险提示:风险提示:AIGC技术发展不及预期,市场竞争加剧,监管政策,平台上线后表现不及预期,人才流失风险,海外业务发展不及预期,估值中枢下移等风险。资料来源:销博特官网,蓝色光标官网,wind,同花顺,国海证券研究所图表:图表:6 6大大APIAPI赋能虚拟数字人赋能虚拟数字人图表:蓝色光标旗下销博特推出图表:蓝色光标旗下销博特推出AIGCAIGC营销套件营销套件请务必阅读报告附注中的风险提示和免责声明73资料来源:企查查,各公司官网,36Kr,量子位,百度百科,腾讯网等,国海证券研究所3.4 3.4 国内发展现状:各领域涌现出代表性产业公司国内发展现状:各领域涌现出代表性产业公司内容公司成立
213、年份具体与AIGC相关的业务/技术最新融资进程 最新融资时间 最新融资金额综合小冰公司2020全球领先的人工智能科技公司,旗下小冰框架是全球承载交互量最大的完备人工智能框架之一,在开放域对话、多模态交互、超级自然语音、神经网络渲染及内容生成领域居于全球领先。小冰产品始终是“人+交互+内容”,包括虚拟人、音频生成、视觉创造、文本创造、虚拟社交、Game AI等。A+轮2022年10亿元人民币游戏rct AI2018运用人工智能为游戏行业提供完整的解决方案,核心产品有个性化且动态的剧情探索、智能NPC/智能生物体/智能环境、“真人”陪玩、智能动画及音效生成技术等。A3轮2021年超千万美元游戏启元
214、世界2017打造了AI玩家、AI角色、AI设计师、AI指挥官等产品方案,为游戏、虚拟世界、元宇审提供高质量内容和互动体验。A轮2021年3亿元游戏超参数2019提供AI bot支持玩家陪玩、多人团队竞技(球球大作战)、非完美信息博弈AI(斗地主、德扑、麻将等)等。B轮2022年1亿美元文字澜舟科技2021认知智能公司,针对商业场景数字化转型、以自然语言处理为基础提供商业洞见类产品,主要产品包括基于预训练模型的功能引擎(包括搜索、生成、翻译、对话等)和针对垂直行业场景的SaaS产品。旗下基于孟子预训练语言模型实现的可控文本生成技术,可以完成营销文案、广告词、例句推荐、研报、小说和科普文章等文本生
215、成任务。Pre-A 轮2022年近亿元人民币文字聆心智能2021基于多模态对话生成系统,专注于针对精神心理的AI驱动的高质量数字疗法,让AI围绕认知、情绪和行为三个维度对用户进行评估和干预,生成千人千面的情绪治疗方案。开发出了中文对话预训练大模型和共情聊天机器人Emohaa。Pre-A轮2022年-图像感知阶跃2020ZMO.AI提供人工智能模特图片解决方案,通过AI 算法生成独一无二的逼真虚拟模特展示服装,能够降低商家宣传成本、提高制作效率、提升电商转化率。A轮2022年800万美元视频影谱科技2018在视频生成相关领域支持结构化视觉分析、影像自动合成技术、智能视频编辑、视频内容生产等。D轮
216、2018年13.6亿元人民币音频灵动音科技 2018产品包括针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的 LYRICA、AI作曲软件LAZYCOMPOSER。目前已与国内多家音乐平台厂商达成合作。其音乐标注团队已形成了全球最精确的华语歌曲音乐信息库。C轮2021年2亿元人民币音频标贝科技2016全球领先的人工智能语音交互服务商,基于AI+SaaS开放平台,为客户提供AI数据服务、技术能力、智能语音交互方案赋能服务,包括通用场景的语音合成和语音识别,以及TTS音色定制,声音复刻,情感合成和声音转换在内的语音技术产品;AI数据业务涵盖语音合成、语音识别、图像视觉、N
217、LP等采标服务和平台化自研工具能力。B1轮2022年数千万元人民币虚拟人倒映有声2019通过神经渲染技术快速构建AI数字分身,通过语音+图像生成技术,生成和驱动数字分身的唇形、表情、动作、肢体姿态,创造表情自然、动作流畅、语音充满情感的高拟真度数字分身IP。Pre-A轮2021年数千万元人民币国内各领域均有代表性公司,但独立运行的初创公司数量明显少于国外,大部分细分赛道的初创玩家在5家以下。图表:国内各领域代表性产业公司图表:国内各领域代表性产业公司(数据更新截止到数据更新截止到20232023年年2 2月月)请务必阅读报告附注中的风险提示和免责声明74资料来源:小冰公司官网,量子位,澎湃新闻
218、,IT之家,36Kr,国海证券研究所 小冰是全球领先的人工智能科技公司,旗下小冰框架是全球承载交互量最大的完备人工智能框架之一,在开放域对话、多模态交互、超级自然语音、神经网络渲染及内容生成领域全球领先。小冰前身是微软人工智能小冰团队,2020年7月微软拆分创立于中国的微软小冰,目前已获数十亿元融资。小冰产品始终是小冰产品始终是“人人+交互交互+内容内容”:包括虚拟人、音频生成、视觉创造(毕业作品集或然世界、为国家纺织品开发中心、万事利等数百家机构提供了图案和纹样设计)、文本创造、虚拟社交、Game AI等。商业客户已覆盖金融、零售、体育等十多个垂直领域,并提出了以“人力”的逻辑进行商业报价的
219、虚拟人商业模式。虚拟人虚拟人(AIAI beingbeing):小冰框架已孵化出数以千万计的超级自然虚拟人(AI being),既有somebody instance(专业个体),如世博会参展画家夏语冰、空中技巧国家队AI裁判与教练系统观君;也有nobody instance(普通个体),比如虚拟男友/女友;还有许多在垂直场景的AI being,如金融摘要撰稿人万小冰等。音频生成:音频生成:推出在线歌曲生成平台与歌手歌声合成软件X studio,提供业内最优质自然、多种各具特色的人工智能主播声音,辅助创作者将文字内容高品质快速音频化。文本生成:文本生成:2017年人工智能诗人小冰创作推出诗集阳
220、光失了玻璃窗。虚拟社交:虚拟社交:2021年推出了全球首个人与AI融合社交平台APP“小冰岛”,在该平台中人类用户可以创造各种AI being,并形成一个共同生活的社交网络。GameGame AIAI:2022年5月,宣布成立ICE Gamer游戏工作室,加速游戏领域布局,并推动AI being NPC的发展。AI being NPC是基于人工智能小冰框架创建、驱动的新交互主体,具备多样性、自主人格、自我意识、高自由度等特点,能够以文字、声音、影像等多模态方式与玩家真实自然地交互。图表:小冰公司融资情况图表:小冰公司融资情况图表:以图表:以NLPNLP为基础为基础,推动完成迭代发展的人工智能小
221、冰框架推动完成迭代发展的人工智能小冰框架3.4.13.4.1 小冰公司:综合赛道初创公司,覆盖多场景小冰公司:综合赛道初创公司,覆盖多场景序号序号 日期日期融资轮次融资轮次 估值金额估值金额 融资金额融资金额 投资机构投资机构12022年11月 A+轮23.08亿美元10亿元-22021年7月A轮10亿美元-领投机构:领投机构:高瓴资本跟投机构:跟投机构:北极光创投,IDG资本,纪源资本,网易资本,五源资本,Neumann Advisors32020年11月 Pre-A轮-未披露北极光创投,网易资本请务必阅读报告附注中的风险提示和免责声明75资料来源:无界AI,量子位,国海证券研究所3.4.1
222、 3.4.1 小冰公司:小冰公司:AIGCAIGC动画制作拉开帷幕动画制作拉开帷幕 首支首支AIGCAIGC动画短片公开动画短片公开,动画制作打开新篇章动画制作打开新篇章。2023年1月,Netflix宣布,其与小冰公司日本分部(rinna)、WIT STUDIO共同创作的首支AIGC动画短片犬与少年已于当日正式公开,这是Netflix动画创作者计划的第一支作品,采用rinna制作的AI辅助背景,由牧原亮太郎负责导演,用手绘Layout上色稿,并将其提交至AI,生成细节并优化背景,再对AI生成的背景图进行人力修正,通过人工智能技术绘制完整动画场景,为动画制作揭开新的未来。图表图表:首支:首支A
223、IGCAIGC动画短片动画短片犬与少年犬与少年请务必阅读报告附注中的风险提示和免责声明76资料来源:X studio官网,小冰岛APP,百度百科,国海证券研究所3.4.1 3.4.1 小冰公司:产品示例小冰公司:产品示例小冰框架内的小冰框架内的AI beingAI being歌曲创作平台歌曲创作平台X studioX studio小冰岛小冰岛小冰小冰AIAI创作的诗集创作的诗集请务必阅读报告附注中的风险提示和免责声明77投资建议:AIGC的快速发展源于数据、算法、算力的共振。在此基础上,AIGC的出圈源于模型商业化及开源带来的产品化浪潮,及ChatGPT在通用人工智能领域投射的曙光带来的震撼。
224、AIGC目前在社交、广告营销、内容创作、游戏等领域均已有应用,并开启商业化变现。随着算法迭代、算力提升,AIGC将开启新的内容生产力革命,为传媒行业发展提供新动力。基于此,维持行业“推荐”评级。建议关注三类公司:一一,拥有自有算法及模型的公司拥有自有算法及模型的公司,建议关注昆仑万维建议关注昆仑万维(拥有“昆仑天工”AIGC全系列算法与模型,旗下StarX MusicX Lab音乐实验室已实现AIGC音乐商业化,自有音乐社交平台、浏览器等AIGC落地业务场景)、神州泰岳神州泰岳(专注于自然语言处理及大数据技术等融合应用,持续推进人工智能技术在不同行业落地,形成智慧政企、智能客服、智慧园区三条核
225、心业务线);二二,拥有海量内容及版权储备的公司拥有海量内容及版权储备的公司,建议关注视觉中国建议关注视觉中国(拥有图片视频版权库、AIGC创作工具有望辅助图片创作生成及赋能旗下元视觉平台AI数字艺术品生成)、中文在线中文在线(已推出AI主播、AI绘画和AI文字创作功能);三三,相关应用领域龙头公司相关应用领域龙头公司,重点推荐游戏板块重点推荐游戏板块,当前板块估值处于低位当前板块估值处于低位,AIGCAIGC有望渗透游戏研发发行各个环节有望渗透游戏研发发行各个环节,相关标的三七互娱相关标的三七互娱、吉比特吉比特、完美世界;完美世界;影视板块推荐芒果超媒影视板块推荐芒果超媒(团队获全球顶级算法大
226、赛世界冠军,已连续举办三届“马栏山杯”算法大赛);营销板块关注营销板块关注蓝色光标蓝色光标(旗下销博特平台发布了AIGC“创策图文”营销套件)。投资建议投资建议请务必阅读报告附注中的风险提示和免责声明78 技术发展演进不及预期 商业化进程不及预期 企业技术管理能力建设不足风险 企业内容审核能力不足风险 版权保护风险 新技术增加监管难度风险 技术滥用风险 核心人才流失风险 创作伦理风险 法律政策监管风险 估值中枢下移风险风险提示风险提示请务必阅读报告附注中的风险提示和免责声明79研究小组介绍研究小组介绍姚蕾,方博云,本报告中的分析师均具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师
227、,以勤勉的职业态度,独立,客观的出具本报告。本报告清晰准确的反映了分析师本人的研究观点。分析师本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收取到任何形式的补偿。分析分析师承师承诺诺行业投资评级行业投资评级国海证券投资评级标准国海证券投资评级标准推荐:行业基本面向好,行业指数领先沪深300指数;中性:行业基本面稳定,行业指数跟随沪深300指数;回避:行业基本面向淡,行业指数落后沪深300指数。股票投资评级股票投资评级买入:相对沪深300 指数涨幅20%以上;增持:相对沪深300 指数涨幅介于10%20%之间;中性:相对沪深300 指数涨幅介于-10%10%之间;卖出:相对
228、沪深300 指数跌幅10%以上。传媒小组介绍传媒小组介绍姚蕾,传媒教育行业首席分析师,同济大学本科,香港大学硕士,从业8年,曾获新财富、水晶球、保险资产管理业最佳分析师。主要研究方向为游戏、视频、营销、潮玩、出版、教育、体育等赛道。方博云,传媒教育行业分析师,西南财经大学本科,上海财经大学硕士,从业5年,主要研究方向为影视、潮玩、营销、泛娱乐等赛道。谭瑞峤,传媒教育行业分析师,厦门大学本科,中央财经大学、哥伦比亚大学硕士,从业4年,主要研究方向为游戏、教育、出版、直播电商等赛道。杨牧笛,传媒教育行业研究助理,上海财经大学本科,福特汉姆大学硕士,从业1年,主要研究方向为游戏赛道。请务必阅读报告附
229、注中的风险提示和免责声明80免责声明和风险提示免责声明和风险提示本报告的风险等级定级为R3,仅供符合国海证券股份有限公司(简称“本公司”)投资者适当性管理要求的的客户(简称“客户”)使用。本公司不会因接收人收到本报告而视其为客户。客户及/或投资者应当认识到有关本报告的短信提示、电话推荐等只是研究观点的简要沟通,需以本公司的完整报告为准,本公司接受客户的后续问询。本公司具有中国证监会许可的证券投资咨询业务资格。本报告中的信息均来源于公开资料及合法获得的相关内部外部报告资料,本公司对这些信息的准确性及完整性不作任何保证,不保证其中的信息已做最新变更,也不保证相关的建议不会发生任何变更。本报告所载的
230、资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。报告中的内容和意见仅供参考,在任何情况下,本报告中所表达的意见并不构成对所述证券买卖的出价和征价。本公司及其本公司员工对使用本报告及其内容所引发的任何直接或间接损失概不负责。本公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行、财务顾问或者金融产品等服务。本公司在知晓范围内依法合规地履行披露义务。免责声明免责声明市场有风险,投资需谨慎。投资者不应将本报告为作出投
231、资决策的唯一参考因素,亦不应认为本报告可以取代自己的判断。在决定投资前,如有需要,投资者务必向本公司或其他专业人士咨询并谨慎决策。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议。投资者务必注意,其据此做出的任何投资决策与本公司、本公司员工或者关联机构无关。若本公司以外的其他机构(以下简称“该机构”)发送本报告,则由该机构独自为此发送行为负责。通过此途径获得本报告的投资者应自行联系该机构以要求获悉更详细信息。本报告不构成本公司向该机构之客户提供的投资建议。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本公司、本公司员工或者关联机构亦不为该机构之客户
232、因使用本报告或报告所载内容引起的任何损失承担任何责任。风险提示风险提示本报告版权归国海证券所有。未经本公司的明确书面特别授权或协议约定,除法律规定的情况外,任何人不得对本报告的任何内容进行发布、复制、编辑、改编、转载、播放、展示或以其他任何方式非法使用本报告的部分或者全部内容,否则均构成对本公司版权的侵害,本公司有权依法追究其法律责任。郑重声明郑重声明请务必阅读报告附注中的风险提示和免责声明81心怀家国,洞悉四海国海研究深圳国海研究深圳深圳市福田区竹子林四路光大银行大厦28F邮编:518041电话:国海研究上海国海研究上海上海市黄浦区福佑路8号人保寿险大厦7F邮编:200010电话:国海研究北京国海研究北京北京市海淀区西直门外大街168号腾达大厦25F邮编:100044电话:国海证券国海证券研究所研究所传媒研究团队传媒研究团队