上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

InfoQ:2023年第四季度中国大模型季度监测报告(39页).pdf

编号:158110 PDF  PPTX  39页 9.38MB 下载积分:VIP专享
下载报告请您先登录!

InfoQ:2023年第四季度中国大模型季度监测报告(39页).pdf

1、12023年第4季度中国大模型季度监测报告大模型市场进一步加速01大模型应用挑战赛正式拉开序幕02大模型文生图能力洞察03目录CONTENT大模型市场进一步加速从工信到其他部门,从中央到地方,政策全面关注鼓励大模型发展42023年11月 上海市推动人工智能大模型创新发展若干措施(2023-2025年)2023年11月 广东省关于加快建设通用人工智能产业创新引领地的实施意见2023年10-12月 安徽省通用人工智能创新发展三年行动计划(20232025年)、打造通用人工智能产业创新和应用高地若干政策、安徽省数字政府大模型场景应用清单(第一批)2023年11月 湖北省推进人工智能产业发展三年行动方

2、案(20232025年)2023年10月 北京市人工智能算力券实施方案(20232025年)交通运输部关于加快智慧港口和智慧航道建设的意见文旅部国内旅游提升计划(2023-2035年)中国地震局防震减灾领域人工智能发展研究专项规划(2023-2035年)统筹建设防震减灾领域人工智能训练数据集、训练产生面向地震科学领域的人工智能大模型推动大型在线旅游企业依托大模型进行交互式生产推动港口企业、航道建设养护单位加强AI大模型应用策新增国家级政策政策名称大模型相关具体内容新疆西藏青海甘肃内蒙古宁夏四川云南海南广西贵州重庆陕西山西黑龙江吉林辽宁河北山东河南湖北湖南广东江西福建安徽江苏浙江香港台湾澳门上海

3、天津钓鱼岛北京南海诸岛已发布 5 项以上相关政策已发布 2-4 项相关政策已发布 1 项相关政策暂未发布相关政策2023年大模型相关政策发布情况2023年第四季度新发布大模型相关政策数据来源:InfoQ研究中心根据各省市政府官网、政府公文等公开渠道整理第四季度融资规模暴增,电商、社交场景应用集中吸金应用层大模型工具层融资时间公司简称融资轮次融资金额所处层级2023/10WorkMagic天使轮数百万美元应用-电商营销2023/10国信数据A轮未透露应用-产业链图谱2023/11极睿科技B轮数千万美元应用-电商营销2023/11井英科技Pre-A轮数百万美元应用-短视频生成2023/11奇点森林

4、天使轮未透露应用-社交内容平台2023/11鹿影科技天使轮千万级人民币应用-视频生成2023/12鹿影科技Pre-A轮1亿人民币应用-视频生成2023/11潞晨科技A+轮近亿人民币工具-大模型训练平台2023/12点漾科技战略投资5亿人民币工具-大模型训练平台2023/10百川智能A轮3亿美元大模型位于大模型层的公司主要致力于研发和推动大规模语言模型等深度学习技术的发展。它们通常专注于模型的研发、训练和优化,是整个大模型行业的核心驱动力。工具层公司提供用于训练、部署和管理大模型的各种工具、框架和平台,帮助开发者更高效地利用大模型技术。应用层公司基于大模型技术构建各种应用程序和解决方案,为用户解

5、决特定的问题或提供特定的功能。数据来源:InfoQ研究中心根据融资资讯、新闻等公开渠道整理52023年第四季度,虽然融资事件数量从第三季度的28件回落至17件,但融资金额到达46.2亿元人民币,是第三季度的6.4亿元人民币融资规模的6.21倍。abab智脑行业大模型不断涌现,通用大模型进入升级和开源阶段AntFinGLM云厂商悟道PolyLM二郎神天河天元紫东太初moss西湖从容天书星火序列猴子玉言科技公司研究机构教育服务商鸿湖九天星河游戏电商盘古跨境电商大模型传媒影视文心传媒/影视行业大模型盘古媒体大模型社交文娱文曲大模型玉言游戏行业大模型通义言犀山海天工日日新通用大模型仓颉汽车大模型盘古汽

6、车金融能源制造医疗其他文心能源/制造行业大模型文心金融行业大模型文心航天/城市/社科/行业大模型星辰教育大模型盘古矿山大模型盘古汽车大模型盘古气象大模型科大讯飞营销大模型星火医疗大模型文因金融大模型FD-LLM吉利星睿大模型叮当HealthGPTBaichuan2百灵MiracleVision文心混元开源大模型ChatGLM3 CogVLM星辰语义大模型-TeleChatSkywork数据来源:InfoQ研究中心根据资讯、公司官网等公开渠道整理2023年第四季度存在更新/发布行业大模型孟子moonshot6通用大模型专注迭代,大模型赛道入场券所剩无几7通义文心混元星火abab孟子智脑日日新天工

7、moonshotGLM03.09 发布360智脑04.26 更新至2.005.18 更新至2.505.31 更新至3.006.13 更新至4.08月 发布 abab5.506.15 发布Baichuan-7B(开源)07.11 发布Baichuan-13B-Base(开源)08.08 发布Baichuan-53B09.06 发布Baichuan2-7B(开源)、Baichuan2-13B(开源)09.25 发布Baichuan2-53B12.29 更新Baichuan2-13B-Chat v210.27 发布ChatGLM306.25 发布ChatGLM2-6B03.14 发布ChatGLM-

8、6B09.07 发布混元大模型 10.30 混元大模型更新08.27 发布mengzi-gpt-40b3月 发布孟子GPT12.25 发布Moonshot v107.06 发布InternLM-104B和7B06.07 发布InternLM-123B09.20 发布InternLM-20B12.13 更新 InternLM2-7B和InternLM-20B04.18 发布天工3.510.30 发布Skywork-13B(开源)12.01 发布Qwen-72B(开源)04.11 发布通义千问1.010.31 更新通义千问2.007.06 更新文心大模型3.510.17 更新文心大模型4.010.

9、24 更新星火 V3.008.15 更新星火 V2.005.06 星火认知大模型 1.0 发布06.09 更新星火 V1.511.07 发布Yi-6B和34B(开源)3月9月6月12月截至2023年12月,伴随着零一万物Yi-6B和34B的开源,大模型厂商已全部交卷完成,并完成了平均3轮更新。并且宣传重点从模型参数,转向模型更新下的能力提升。2023年国内通用大语言模型发布和更新时间图数据来源:InfoQ研究中心根据公开报道、公司官网等公开渠道整理头部企业大模型发展路径仍然诸多争议801之后,总裁Greg Brockman和其他三名高级研究人员相继宣布辞职OpenAI官宣解雇SamAltman

10、02OpenAI董事会任命Emmett Shear为临时CEO,微软宣布SamAltman 和Greg Brockman将加入微软第一轮谈判破裂03内部:OpenAI超700名员工签署集体辞职联名信,要求恢复 SamAltman和Greg Brockman的职务外部:OpenAI客户联系Anthropic、Google cloud和其他OpenAI竞争者,部分投资者在考虑起诉董事会。内外压力不断04并成立了新的董事会第二轮谈判启动,SamAltman重回OpenAIOpenAI内斗风波朱啸虎大模型本身创业不太适合创业者,创业者更应该去寻找在垂直应用场景落地的机会。但现在真要找垂直应用场景还不是

11、那么容易。为什么?因为今天的大模型还没有那么智能。它在很多垂直场景上,只能让人觉得好玩,还达不到商业化质量。这时候真的让人去喝水,可能喝一两口觉得试试看,但是要人持续地喝下去,还需要等大模型再持续的进化。周鸿祎在大模型发展这件事上,我是坚定的发展派。原因有两点。第一,大模型的发展水平还远没有到可以威胁人类的程度,现在担忧为时尚早。大模型是有史以来最强有力的生产工具,未来一定会重塑生产生活,不发展才是最大的不安全。第二,任何新技术都有无法预知的安全隐患。谈安全不是为了制约发展。我们要把不安全的因素一一列出来,针对每个问题寻找解决方案,让人们更安全更放心地拥抱新技术。做安全的目的是为发展保驾护航,

12、安全是大模型发展的底线,也是未来大模型的核心竞争力。国内部分讨论此外,本轮大模型带来的能力提升,也进一步激化了关于商业模式和AI安全的讨论。第四季度中,国外 OpenAI 的内斗风波,国内知名投资人与行业从业者各自多轮发声。数据来源:InfoQ研究中心根据资讯、报道、凤凰网财经、贝壳财经访谈等公开渠道整理大模型应用挑战赛正式拉开序幕单模态内部应用探索,多模态转换仍找寻商业场景10已经在产业内应用探索除生产力工具外,仍在找寻商业场景音频生成文本会议助理办公文档、思维导图、PPT自然语言代码语言编 程助 手文本音频图片视频单模态内部模态之间转换写作阅读知识库智能搜索变音/配音音乐/音效文本生成音频

13、文本生成图片文本生成视频图片生成视频包含泛娱乐场景下的语聊、影视场景下的翻译配音、企业场景下的客服等包含游戏、影视场景下的音效/配乐制作、音乐场景下的灵感片段等包含文献、文章等长文本场景下的智能阅读总结包含文章写作、电商等场景下的宣传文案、工作场景下的调研报告等配图/插画商业设计包含文章配图、广告素材、游戏原画等包含产品海报、室内设计、品牌设计音频后期图片后期包含智能降噪、剪辑、语音合成等使用大型模型改进搜索引擎的结果包含图像修复、背景切换、局部重绘等视频后期视频生成包含图像修复、背景切换、局部重绘等包含片段素材、短剧、数字人等音频生成视频视频生成文本大模型应用产品开始规模化涌现,超 200

14、款产品面世编程助手语音生成配音/变音音乐音频后期ChatBot角色聊天生活助理对话式助理文生图图片生成文本生成写作阅读知识库智能搜索商业设计图片后期视频生成视频生成视频后期生产力工具思维导图PPT会议助理办公助手办公小浣熊WPS AI代码小浣熊华为小艺小爱同学新小布 1.0蓝心小V数据来源:InfoQ研究中心根据资讯、报道、公司官网等公开渠道整理11文本生成:模型探索长文本的记忆能力,产品开始整合工作流在底层模型层面,文本生成类产品逐渐开始探索长上下文能力,逐渐从2-4K拓展到100K以上。文本生成类产品,从ChatGPT为代表的技术突破开始,经历了去年一年的摸索,现阶段的产品已经开始整合工作

15、流。文本生成产品流程示意图写作阅读知识库智能搜索文本生成产品图谱2-4KGPT-3.5 Turbo:4KLlama-2:4K32KGPT-4:32KChatGLM3-6B-32KMoonshot-v1-32K100K以上Claude-3:200kInternLM2:200k文本生成模型长文本变化图提示词输入通过提示词优化交互式反馈修改对话式多轮修改优化文本生成产出整合工作流 以文章写作为例,从原有的写作流程向前延展至文章选题,向后延展至配图排版发布等完整工作流 以营销文案为例,从单纯的文案写作流程向前延展至产品/海报/文章输入,向后延展至多平台风格适配与发布数据来源:根据资讯报道、产品官网等公

16、开资料整理1213月之暗面 Kimi 智能助手:立足长文本,探索多模态与多任务处理Kimi智能助手支持约20万汉字无损上下文输入。月之暗面融资历程Kimi智能助手迭代时间轴Kimi智能助手网站访问量Kimi 智能助手无损上下文长度增加到200万字。2023.102024.324.2总访问量2.9M24.1总访问量1.4M23.12总访问量0.7M+100%+107%月之暗面作为AI大模型初创企业的佼佼者,推出了全球首个支持20万(现200万)汉字的长文本输入智能助手产品kimi智能助手。通过多模态、复杂任务处理的能力,为用户提供高效、便捷的信息服务。天使轮A轮2023.62024.2真格基金、

17、红杉中国等红杉中国、小红书、美团、阿里巴巴等3亿美元10亿美元AI时代Super App数据来源:根据资讯报道、SimilarWeb等公开资料整理Step 1:长文本Step 2:统一模型Step 3:AI自进化目前,Kimi智能助手可以理解多种形式的内容,接下来月之暗面会推出多模态产品。未来,希望向能够进行自我演化的AI发展,使其具备持续学习和适应环境变化的能力。目前,Kimi智能助手在长文本处理上表现出色。长文本能力是后续功能扩展的基石。生产力工具:大模型能力内化支撑,融入原有产品形态1414数据来源:InfoQ研究中心根据资讯、报道、公司官网等公开渠道整理编程助手思维导图PPT会议助理办

18、公助手办公小浣熊WPS AI相较于文本生成类产品,生产力工具并不局限在文本上,而是在打工人日常办公场景下更多涉猎到的思维导图、PPT、会议、编程等单文本生成或者图片生成的产品类型。对于生产力工具而言,其更多是在原有产品的基础上,搭载进阶的AI能力。生产力工具产品图谱以新一代编程助手为例,此类产品,现阶段大多在原有IDE产品形态上,以插件形式调动大模型进阶能力。Why 插件形态?插件可以直接调动IDE接口,能力得到充分发挥人机交互方式好:开发者可以选择采纳/不采纳大模型生成的代码,贴近真实开发流程What 能力提升?新一代生产力工具原有生产力工具理解能力生成能力逻辑能力记忆能力大模型带来的进阶能

19、力原有生产力工具全面升级融入产品形态代码补全能力提升,从单行单函数到完整代码块自然语言理解能力提升,可以执行代码提升(注释、测试)等进阶任务代码小浣熊GitHub Copilot:深度融入开发流程的编码生产力工具15GitHub Copilot 是2022年6月由代码托管平台 GitHub 和人工智能研究机构 OpenAI 联合推出的智能编码助手。向企业级个性化软件开发进发插件形式适配主流IDE深度融入编码流程庞大用户基数帮助模型持续进化2022.6基于CodeX的Copilot 发布2024GitHub Copilot Enterprise正式发布,支持引用企业内部代码库和知识库2023.1

20、2Copilot Chat向所有 GitHub Copilot 用户开放,并整合进VS和VS code2023.3Copilot X 计划发布,包含chat、Docs、PR和CLI的测试版,并正式接入GPT-4JetBrains IDEsVisual Studio CodeVIMVisual Studio代码场景更加高效开发场景持续延展关联企业自有代码库50000+Github Copilot商业组织使用者100万+GitHub Copilot付费用户Enterprise版本聊天集成GPR 差异分析企业级代码微调模型即将推出:个性化Plus代码补全注释生成代码代码问答代码修复Copilot W

21、orkSpace 跨文件上下文代码生成,更强的代码理解和生成能力测试用例规范化PR提交任务进阶流程延展对话交互更贴近真实生活,辅助生产能力进一步提升图片理解能力图片生成能力图像到文本理解,可以对输入的图像进行描述、理解和对话支持多种格式图片输入(JPEG、PNG、GIF、BMP)文本到图像生成,可以根据输入的文本进行绘制生成目前有两种方式,一种是产品底层模型原生支持,一种是通过插件调用获得插件调用原生支持直接在Chatbot界面输入生成要求,即可直接生成需要调用官方插件,调用绘图能力代表Chatbot类产品对话式助理:图片模态能力逐渐成为标配16伴随着图文模型的研究进展,图片模态能力逐渐加入了

22、对话式聊天产品的能力矩阵当中。图片理解能力和图片生成能力之间循环反馈,在对话当中提升交互感的同时,也为相关产品未来能更广泛的应用,例如医学影像分析,提供了更多的可能性。图片理解能力示例:以ChatGLM为例,输入图片,这个图片说明了什么数据来源:InfoQ研究中心根据资讯、报道、公司官网等公开渠道整理,左图来自中国企业研发高效能白皮书产品图片理解能力与生成能力双轮循环图片生成:C端挑战写真馆,B端冲击设计师17C端B端功能收费模式个人艺术创作个人头像生成个人写真生成AI后期海报设计产品展示家居设计原画设计AI后期付费会员制:通常在免费基础版本上,提供部分功能升级或新功能,例如高清晰度、无水印输

23、出、定制化风格等订阅制:提供按月或按年订阅的服务,用户可以享受更多特权和更新的功能现阶段核心痛点有限的需求频率:并非每个人日常高频需求,用户的持续付费意愿不足隐私和安全顾虑:生成可能涉及用户的个人信息或敏感数据,如面部识别等。用户可能对其隐私和安全存在顾虑,因此不愿意持续使用或付费API调用模式:企业按照使用量付费,例如每生成一张图片支付一定费用,或者根据 API 调用次数支付费用定制化:提供按月或按年订阅的服务,用户可以享受更多特权和更新的功能用户输入提示可能是文字提示词(正向、负向),也可能是图片(草图、参考图)+文字提示词的形式用户思考提示词的过程就是原先的前期思考环节,准确高效的提示词

24、是交互式工作流的基础。图片快速生成从草图到成品,加速对应图片制作周期,提高产出效率交互式后期更直观的后期修改流程,覆盖人脸编辑、风格转换、图像修复、局部重绘、背景切换、后期调色等经济账:定制化场景下的设计需求与图片生成产品成本之间的平衡版权和安全顾虑:生成可能涉及商用版权或商业数据安全。产品提供商需要确保数据的安全性和隐私保护措施,以获得企业用户的信任和采用图片生成交互式工作流示意图图片生成产品主要功能、收费模式和现阶段核心痛点示意图图片生成类产品,正在形成交互式工作流,在图片产出效率、交互式后期中,探索C端和B端应用。数据来源:InfoQ研究中心根据资讯、报道、公司官网等公开渠道整理美图设计

25、室:一站式电商物料设计提效工具18费时费力费钱参与者众多流程繁琐服装/产品准备场地/置景准备实地拍摄选片修片详情页设计模特/置景摄影师设计/美工化妆师现场助理文案美图设计室是美图公司面向工作场景推出的智能设计工具,聚焦在商品营销个环节物料设计,从商品图模特图的生成,到修图改图,到海报设计,帮助用户一站式智能生成商品物料。“AI商拍”为美图设计室的核心亮点功能,聚合了2023年4月以来相继上线的多个AI功能,如“AI商品图”、“AI模特试衣”、服装换色等,解决用户商品拍摄的问题。另与美图设计室的“智能抠图”、“海报设计”等功能配合,为电商物料设计提供一站式解决方案。截止2023年12月,“AI商

26、拍”累计生成超过1.3亿张商品图,累计服务超过218万电商用户。传统电商商品拍摄痛点无需拍摄团队/专业模特/真实置景节省成本95%以上生成时间一分钟以内每人每天出图1000张以内数据来源:InfoQ研究中心根据新闻、公司官网等公开渠道整理1 张 产品图/模特图N 张 商品效果图不同背景 内置置景N 张 模特试穿图不同模特 不同背景N 张 营销海报图不同平台 不同风格视频生成:海外挑战好莱坞,国内技术突破下准备迎接爆款产品19数据来源:InfoQ研究中心根据资讯、报道、公司官网等公开渠道整理海外视频生成已诞生明星产品,例如Pika、Runway、NeverEnd。Meta、Google发布模型相

27、关论文,但尚未公开其产品。国内视频生成技术成果频繁发布,多框架仅需一图即可生成娱乐动态(跳舞、瑜伽等)视频。阿里Animate Anybody已支撑通义舞王功能上线通义千问手机端APP,爆款小品正在路上。Moonvalley.ai:支持5种视频风格和5秒以内的3种时长选择Emu Video-Meta:支持生成4秒以内的高清视频(论文)NeverEnd 2.0:更新图生视频功能文/图片生视频单路径文生视频:VidRD-复旦大学联合华为诺亚方舟实验室提出,在生成视频质量和长度图生视频:Animate Anybody-阿里(已加载进通义千问App)、MagicAnimate-字节和新加坡国立、Pix

28、elDance(支持生成长达3min的视频)-字节、LivePhoto-阿里和港大国内四厂商提出视频生成框架国内爆款小品正在路上Runway升级Gen-2模型:支持文本、图像、文本+图像生成视频的方式。增加导演模式,以生成类似真实相机拍摄电影效果的视频。Pika 1.0 发布:支持文本、图像、视频生成视频的方式,编辑及局部修补(换装、增减物品)VedioPoet-Google:支持文本/图像生成视频方式,支持生成长达10秒的视频(论文)Stable Video Diffusion:支持生成2-4秒的视频视频生成全家桶深氧AI产品示意图一帧秒创产品示意图Animate AnybodyMagicA

29、nimate发展挑战:商业化盈利方式有待进一步验证20技术从研究和开发阶段转向具备实际应用潜力的关键时刻,技术已经达到一定的成熟度。但是对于多模态等技术目前仍然未形成产品原型或解决方案。技术度过可用奇点以盈利为目标,在众多可行的应用场景中挖掘可以持续经营的场景。目前的盈利场景尝试还多集中在原有商业模式的提效和升级环节。新盈利场景急需挖掘大模型技术正在度过最小MVP阶段,即将进入盈利场景挖掘和竞争阶段目前市场的盈利场景整体较为类似,同质化程度较高,市场有可能会面临小范围场景的高强度过度竞争情况。多样化盈利场景构建大模型安全挑战大模型自身的安全挑战大模型生成内容的安全发展挑战:AI安全仍然是市场中

30、无法避免的挑战21数据隐私安全、训练数据泄露风险大模型训练数据安全挑战大模型面临着来自恶意攻击者的对抗攻击、后门攻击、成员推断攻击、模型窃取、Prompt投毒等威胁。大模型运行安全挑战大模型的安全整体解决方案奇安信-大模型卫士、深信服-安全大模型、360-360安全大模型、安恒信息-恒脑安全垂域大模型、天融信-天问大模型业内目前是通过长文本、向量数据库+RAG的技术方案解决大模型幻觉安全挑战主要从技术层面出发,尚未形成产业级解决方案大模型可控安全挑战月之暗面、百川大模型等产品通过长文本来解决此问题;通义千问、天工、星火、零一万物等是通过向量数据库+RAG的技术路线来尝试解决。大模型文生图片能力

31、洞察文生图片产品尚属绘画和设计的初级阶段 画/设计得合理 基础美术能力:基础的色彩、线条、形状原理的理解和运用 基础设计能力:对比、对齐、布局和构图原理的理解和运用 画/设计得美观 进阶美术能力:对光影、透视等绘画技巧熟练掌握 专业审美和设计表达能力:进阶的视觉表达与情感诠释能力 风格迁移能力:能够处理复杂和抽象的主题 画/设计得创意 创意创作能力:内容、构图、造型、色彩、质感等创意生成 人文理解能力:对艺术、文化、历史和理论的深入理解和运用 产品理解能力:产品定位和市场需求的深入理解和运用绘画和设计的三个能力成长阶段现阶段文生图片产品所处阶段根据能力成长阶段,绘画和设计实际分为三个阶段:画/

32、设计得合理、画/设计得美观、画/设计得创意。根据测评结果,现阶段文生图片产品仍处在第一阶段,离完全的商业可用级仍有一定差距。文生图片产品商业可用级临界点23文生图片产品关键能力拆解24维度细分维度能力描述实体识别能力实体对象识别能否正确识别Prompt中的对应实体对象数量识别能否正确识别Prompt中的实体对象的对应数量动作/状态识别能否正确识别Prompt中的实体对象的对应动作/状态颜色识别能否正确识别Prompt中的对应颜色要求位置关系识别能否正确识别Prompt中的实体对象之间的位置/关系细节描绘能力手部四肢能否正确绘画手部动作,不出现手指数目不对,畸形等情况面部能否正确生成面部,不出现

33、错位等情况文字能否正确生成文字,不出现文字混乱,随机生成等情况性别/种族/肤色能否正确生成性别/种族/肤色相关内容常识(物理/光学)生成图像是否符合物理/光学等常识风格理解能力绘画风格能否正确识别Prompt中规定的绘画风格商业设计宣传海报、产品说明中文特色能力成语主题能否正确识别成语含义诗词主题能否正确识别诗词含义节日主题能否正确识别节日及习俗含义InfoQ研究中心根据文生图片类产品的生成任务与关键能力匹配,形成文生产品测评能力维度。InfoQ研究中心文生图片产品测评能力维度整体能力迈过及格线,细节描绘和中文特色能力有待进一步提升25总得分率:67.0%实体识别能力和风格生成能力表现良好,细

34、节描绘能力和中文特色能力有待进一步提升分数备注:1.可打分维度的单项能力满分为3分,在打分表中按照0(完全错误),1(小部分正确),2(大部分正确),3(完全正确)进行打分,再整体进行百分比得分率的转化。总得分率也以相同方法处理。2.图表中蓝色柱形的维度未能达到整体得分率,绿色柱体的维度超过了整体得分率,可以视为该能力维度较为成熟。大模型文生图片产品四大维度得分情况67.0%实体识别能力中文特色能力55.0%60.3%72.0%78.3%风格理解能力细节描绘能力国内文生图片大模型产品中总得分率前三得分率71.9%68.2%68.2%实体识别能力:数量和动作/状态识别亟待优化26大模型文生图片产

35、品实体识别能力维度得分情况数量识别67.0%动作/状态识别实体对象识别位置关系识别93.7%85.7%76.7%68.0%65.3%颜色识别分数备注:1.可打分维度的单项能力满分为3分,在打分表中按照0(完全错误),1(小部分正确),2(大部分正确),3(完全正确)进行打分,再整体进行百分比得分率的转化。总得分率也以相同方法处理。2.图表中蓝色柱形的维度未能达到整体得分率,绿色柱体的维度超过了整体得分率,可以视为该能力维度较为成熟。实体识别能力得分率:77.8%颜色识别已接近完全正确,且生成结果较为稳定虽然实体对象识别得分率以达到85.7%,但是涉及到多主体识别时,实体对象识别、位置识别、动作

36、/状态识别和数量识别得分率都有所下降动作/状态识别中的简单静态识别成功率较高,但涉及到例如跑步等动态的动作后,生成成功率有所下降国内文生图片大模型产品实体识别能力TOP1得分率:80.2%细节描绘能力:文字成为主要短板27大模型文生图片产品细节描绘能力维度得分情况99.0%71.7%58.0%49.0%9.3%性别/种族/肤色手部四肢67.0%文字面部常识(物理/光学)分数备注:1.可打分维度的单项能力满分为3分,在打分表中按照0(完全错误),1(小部分正确),2(大部分正确),3(完全正确)进行打分,再整体进行百分比得分率的转化。总得分率也以相同方法处理。2.图表中蓝色柱形的维度未能达到整体

37、得分率,绿色柱体的维度超过了整体得分率,可以视为该能力维度较为成熟。细节描绘能力得分率:57.4%指定性别/种族、肤色识别得分率最高面部细节在单主体生成时,较为稳定。但涉及到多面部生成时,眼部变形、五官扭曲情况时有发生,生成结果稳定性差手部四肢细节多出现四指六指或手部结构错乱的情况,生成结果稳定性差文字成为绝对短板,乱序和无法识别情况严重国内文生图片大模型产品细节描绘能力TOP1得分率:80.2%风格理解及中文特色能力:成语难理解,商业设计难直出28大模型文生图片产品风格理解及中文特色能力维度得分情况96.3%74.7%66.7%63.0%27.0%绘画风格节日理解诗句理解成语理解商业设计67

38、.0%分数备注:1.可打分维度的单项能力满分为3分,在打分表中按照0(完全错误),1(小部分正确),2(大部分正确),3(完全正确)进行打分,再整体进行百分比得分率的转化。总得分率也以相同方法处理。2.图表中蓝色柱形的维度未能达到整体得分率,绿色柱体的维度超过了整体得分率,可以视为该能力维度较为成熟。风格理解能力得分率:68.8%中文特色能力得分率:63.3%风格理解能力中,多数文生图片产品已理解基础绘画风格,但商业设计仅部分产品存在定向优化中文特色能力中,产品节日元素最融会贯通,对成语的理解力最弱国内文生图片大模型产品风格理解及中文特色能力TOP1得分率:72.2%得分率:76.0%风格理解

39、能力中文特色能力得分率:76.0%结果节选29Prompt请根据以下描述,生成图像:一片草地上有七只白色的兔子在吃草文心一格360智绘通义万相商汤秒画智谱清言AI画图讯飞星火绘画大师MiracleVision 4.0腾讯混元助手在Prompt中涉及的数量七,绝大多数产品未能正确识别。在多数量生成中,出现了耳朵细节描绘失败的情况,耳朵缺失或三耳兔。主体数量识别错误在Prompt中涉及的动作吃草,绝大多数产品未能成功生成,仅生成静态兔子动作生成失败结果节选30Prompt请根据以下描述,生成图像:笔记本电脑屏幕里播放的视频,视频内容是一家人在吃年夜饭,看春晚,贴福字文心一格360智绘通义万相商汤秒

40、画智谱清言AI画图讯飞星火绘画大师MiracleVision 4.0腾讯混元助手在Prompt中涉及视频界面中的一家人的复杂主体。本次测评中,仅一半文生图片产品成功识别并正确展现了位置关系。复杂关系主体识别错误人物生成中的五官表情和手部细节仍然问题频出,包括眼睛错位、六指/四指。福字生成也难住了大多数文生图片产品。五官、手部、文字错乱结果节选31Prompt请根据以下描述,生成图像:一只麻雀正在向一只狮子唱歌,远处一只孔雀正展开华丽的羽毛,童话色彩文心一格360智绘通义万相商汤秒画智谱清言AI画图讯飞星火绘画大师MiracleVision 4.0腾讯混元助手在Prompt中涉及3种动物主体:麻

41、雀、狮子和孔雀。绝大多数文生图片产品只成功识别一种或两种主体。主体识别错误后,对于动作、位置关系的识别也造成的一定阻碍。多主体识别不完整另一个相关的问题就是主体杂糅,出现了双身子的麻雀、戴有孔雀羽冠的麻雀等生成主体混乱的问题多主体生成混乱结果节选32Prompt请根据以下描述,生成图像:一只手托着一朵百合,油画风格,朴素,淡雅,莫奈风格文心一格360智绘通义万相商汤秒画智谱清言AI画图讯飞星火绘画大师MiracleVision 4.0腾讯混元助手对于著名的莫奈风格,大多数文生视频产品已能够正确识别和生成特定风格生成能力涉及手部特写的内容生成,在骨骼结构、手指形态等方面稳定性仍有待提升。手部细节

42、混乱结果节选33Prompt请根据以下描述,生成图像:为公园汽车电影院设计具有视觉冲击力的活动海报,标题为“公园汽车电影院,欢迎您的加入”,突出公园、夜晚、宁静。文心一格360智绘通义万相商汤秒画智谱清言AI画图讯飞星火绘画大师MiracleVision 4.0腾讯混元助手对于Prompt中涉及的活动海报,大多数文生产品没有必要的要素概念,仅生成了插画样式的图片。商业理解不足即使是部分理解应该生成文字的产品,文字生成错乱的现象依然多见。文字生成结果节选34Prompt请根据以下描述,生成图像:描述“妙笔生花”的四格漫画文心一格360智绘通义万相商汤秒画智谱清言AI画图讯飞星火绘画大师Mirac

43、leVision 4.0腾讯混元助手在Prompt中妙笔生花成语背后的含义理解能力不足,部分产品可以根据笔、花等意象主体生成相关内容。成语理解能力不足对于四格漫画,仅部分文生图片产品能够正确理解。特殊题材理解能力不足结果节选35Prompt请根据以下描述,生成图像:孤舟蓑笠翁,独钓寒江雪,水墨画风格文心一格360智绘通义万相商汤秒画智谱清言AI画图讯飞星火绘画大师MiracleVision 4.0腾讯混元助手在Prompt中,多数文生图片产品对画面感较强的诗词能够正确识别并生成画面。诗词理解能力但对水墨画风格的生成中,部分文生图片产品识别和生成失败。绘画风格结果节选36Prompt请根据以下描

44、述,生成图像:一群人正在实验室中做实验,穿着白大褂,背景包含大量试管和写满字的白板文心一格360智绘通义万相商汤秒画智谱清言AI画图讯飞星火绘画大师MiracleVision 4.0腾讯混元助手部分产品能够在多人物生成的任务中,均衡性别和人种。性别与人种生成多主体生成中,眼睛变形、面部混乱等问题严重。面部生成细节不足37专家致谢(按姓氏首字母排序)感谢各位专家为报告编制工作提供的宝贵建议!陈鑫阿里云智能资深技术专家,通义灵码产品技术负责人杜浦声网 AIGC 产品负责人林旅强零一万物开源负责人、开源社联合创始人刘洛麒美图公司技术副总裁兼美图影像研究院(MT Lab)负责人张涛商汤 Copilot

45、 应用技术负责人39InfoQ 研究中心隶属于极客邦科技双数研究院,秉承客观、深度的内容原则,追求研究扎实、观点鲜明、生态互动的目标,聚焦创新技术与科技行业,围绕数字经济观察、数字人才发展进行研究。InfoQ 研究中心主要聚焦在前沿科技领域、数字化产业应用和数字人才三方面,旨在加速创新技术的孵化、落地与传播,服务相关产业与更广阔的市场、投资机构,C-level 人士、架构师/高阶工程师等行业观察者,为全行业架设沟通与理解的桥梁,跨越从认知到决策的信息鸿沟。内容咨询:内容咨询:商务合作:商务合作:极客邦科技,以“推动数字人才全面发展”为己任,致力于为技术从业者提供全面的、高质量的资讯、课程、会议

46、、培训等服务。极客邦科技的核心是独特的专家网络和优质内容生产体系,为企业、个人提供其成功所必需的技能和思想。极客邦科技自 2007 年开展业务至今,已建设线上全球软件开发知识与创新社区 InfoQ,发起并成立技术领导者社区 TGO 鲲鹏会,连续多年举办业界知名技术峰会(如 QCon、ArchSummit 等),自主研发数字人才在线学习产品极客时间 App,以及企业级一站式数字技术学习 SaaS 平台,在技术人群、科技驱动型企业、数字化产业当中具有广泛的影响力。2022年成立双数研究院,专注于数字经济观察与数字人才发展研究,原创发布了数字人才粮仓模型,以此核心整合极客邦科技专业的优质资源,通过 KaaS模式助力数字人才系统化学习进阶,以及企业数字人才体系搭建。公司业务遍布中国大陆主要城市、港澳台地区,以及美国硅谷等。十余年间已经为全球千万技术人,数万家企业提供服务。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(InfoQ:2023年第四季度中国大模型季度监测报告(39页).pdf)为本站 (探险者) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部