上海品茶

用时:51ms

ai产业报告-PDF版

您的当前位置:上海品茶 > 人工智能 > AI产业
  • 秒针系统:2023体育营销白皮书-AI时代体育流量新玩法(45页).pdf

    AI时代体育秒针系统秒针系统Version 20231208秒针系统营销事业部体育组Contact Us M2023体育营销白皮书体育营销的笋盘时代01体育大项的营销优势02体育营销价值洼地 潮流小众运动03AI时代体育流量新玩法04体育行业舆情大数据研究方法与数据来源体育营销行业现状研究行业专家深访数据来源 秒针魔方大数据库 秒针CSI体育明星评估数据库 秒针SEI体育节目赞助价值数据库 秒针LBS大数据 其他研究机构的数据统计通过舆情大数据去洞察体育项目热度与体育营销的活力利用CSI与SEI指数去评估主流体育赛事的赞助价值与影响力秒针LBS大数据反映国民线下参与体育活动的积极性其他机构的统计数据作为分析体育运动的补充资料分析方法通过案头研究了解体育营销行业的行业基本现状体育项目的历史产出作为对特定分析模块的信息补充数据来源分析方法数据来源分析方法秒针分析师的案头研究秒针的体育项目历史产出对品牌方、资源方、平台方的体育行业专家进行深度访谈样本量:8人专家访谈主要针对体育营销行业特征、小众潮流运动营销优势、主流赛事的营销优势等方面进行深入探讨,补充进白皮书体育营销的笋盘时代疫情消散、中国体育产业将在利好的环境中再度扬帆起航体育政策支持赛事氛围浓郁国民积极参与明确到 2035 年建成“体育强国、健康中国”。在此大背景下,近年来国家陆续出台鼓励、支持体育事业发展的政策体育强国建设纲要全民健身计划(20212025 年)“十四五”体育发展规划全国体育场所总数从2019年的354.4万个增加到2023年的450.9万个疫情管制降级之后,各项滞办、待办赛事都逐一推进,基本上每月都有重大赛事,今年全年赛事氛围浓郁2023全国帆船锦标赛2023国际泳联跳水世界杯2023世界乒乓球职业大联盟中国系列赛2023苏迪曼杯世界羽毛球混合团体锦标赛第31届世界大学生夏季运动会第19届亚洲运动会 2023年中国经常参与体育锻炼的人口超5亿2023年中国体育消费规模为1.5万亿,预计2025年将增长至2.8万亿元预计2025年中国体育产业从业人口将达到800万2023-2024年,大量重要国际赛事将会在国内外举办1月2月3月4月5月6月第31届世界大学生冬季运动会澳大利亚网球公开赛亚洲羽毛球团体锦标赛自由式滑雪和单板滑雪世界锦标赛世界速度滑冰锦标赛世界短道速滑锦标赛世界花样滑冰锦标赛世界乒乓球职业大联盟中国系列赛女子冰球世界锦标赛世界斯诺克锦标赛亚洲羽毛球锦标赛世界乒乓球锦标赛法国网球公开赛世界女排联赛世界男排联赛7月8月9月10月11月12月世界游泳锦标赛女足世界杯第31届世界大学生夏季运动会世界射击锦标赛世界田径锦标赛世界羽毛球锦标赛男篮世界杯世界举重锦标赛亚洲乒乓球锦标赛第19届亚洲运动会中国网球公开赛世界体操锦标赛上海网球大师赛世界蹦床锦标赛羽毛球世界巡回赛总决赛1月2月3月4月5月6月足球亚洲杯澳大利亚网球公开赛世界花样滑冰锦标赛世界游泳锦标赛举重亚锦赛速度滑冰世锦赛世界乒乓球锦标赛室内田径世锦赛短道速滑世锦赛花样滑冰世锦赛斯诺克世界公开赛斯巴达勇士赛羽毛球亚锦赛F1中国大奖赛2024斯诺克世锦赛汤尤杯羽毛球赛中国网球巡回赛环意大利自行车赛冰球世锦赛女排国家联赛法网足球欧洲杯足球美洲杯环法自行车赛7月8月9月10月11月12月巴黎奥运会斯坦科维奇杯洲际篮球赛环西班牙自行车赛威克多中国羽毛球公开赛公路自行车世锦赛中国网球公开赛上海劳力士大师赛WTT世界杯斯诺克武汉公开赛环广西国际公路自行车赛世界羽联中国大师赛速度滑冰世界杯中国杯帆船赛举重世锦赛中国网球巡回赛年终总决赛短道速滑世界杯世界羽联巡回赛总决赛国际乒联混合团体世界杯2023年2024年主流球类运动的声量今年获得了大幅提升,体育热度显著回暖篮球跑步路亚&垂钓登山游泳足球骑行滑雪乒乓球羽毛球高尔夫潜水棒球陆冲&滑板网球排球拳击跆拳道攀岩飞盘皮划艇桨板空手道腰旗橄榄球2023体育运动声量&互动量情况05B10B15B20B25B30B跑步篮球足球乒乓球羽毛球网球主流体育运动声量对比20222023Buzz 23%Buzz 30%Buzz 52%Buzz 26%Buzz 22%Buzz 390M20M30M40M备注:信息来源于秒针大数据库,抓取时间为 2023.01.01 2023.09.30从上海体育场与Nike篮球公园的单日人流量变化可以看出消费者对于赛事的热情依旧,从消费端为体育营销提供良好的基础上海体育场赛时人流量约为10,000人/天是非赛时单日人流的15倍040008000月12日7月22日8月1日8月11日8月21日8月31日9月10日9月20日9月30日10月10日上海体育场2023年第三季度人流变化情况中超联赛:上海申花 vs 青岛海牛中超联赛:上海申花 vs 梅州客家中超联赛:上海申花 vs 成都蓉城中超联赛:上海申花 vs 上海海港上海体育场Nike篮球公园的单日人流高峰均出现在街头篮球赛事期间-2,000 4,0007月12日7月22日8月1日8月11日8月21日8月31日9月10日9月20日9月30日10月10日Nike篮球公园2023年第三季度人流情况NBA2023 街球霸王全明星赛腾讯“篮球风暴”上海站备注:信息来源于秒针LBS数据篮 球球星相关声量占50%赛事相关声量占30%主流运动的声量主要集中于赛事和体育明星50 0%排 球乒 乓 球46D%球星相关声量占44%赛事相关声量占46d%球星相关声量占64%赛事相关声量占16%足 球网 球羽 毛 球球星相关声量占38%赛事相关声量占41%球星相关声量占38%赛事相关声量占37%球星相关声量占38%赛事相关声量占23%备注:数据来源于秒针大数据库41!8r8%798#0A1pYi%主流运动项目的声量大数据中运动赛事的声量占比表现不俗,进一步推动品牌方对赞助运动赛事的关注男篮世界杯CBACUBA202324274年份赛事上海马拉松重庆马拉松无锡马拉松202320 (尚未举办)3534202221417年份赛事世界杯女足世界杯中超-6201915911年份赛事篮球赛事声量在篮球总声量中占比30%足球赛事声量在足球总声量中占比41%跑步赛事声量在跑步声量中占比31%跑步篮球球品牌方对体育赛事的赞助热情上升运动赛事在运动话题声量中占比显著备注:运动项目大数据的抓取时间跨度为2023年1月1日 2023年9月30日,来源于秒针大数据库;体育赛事赞助情况来源于百度、搜狐新闻;品牌方赞助情况表格里面的数字是比赛的赞助商数量。50P%体育明星带来的声量占比相较于运动赛事更加显著品牌方在进行体育营销的时候越来越重视对体育明星的投入我国运动员近年代言签约数量体育明星声量在相应运动总声量中占比显著备注:2023年的数据日期范围为2023年1月1日至2023年8月24日;代言统计来源于 中国青年报、艾漫数据等38b%篮球总声量的50.2%都来自球迷对于篮球明星的关注,篮球明星对于体育营销的声量贡献作用巨大足球总声量的38%都来自球迷对于足球明星的关注,足球明星对于制造体育营销的声量,增加品牌曝光度非常重要1612021年2020年852019年762018年422017年382016年222015年8不同于主流运动的声量主要来源于赛事和体育明星潮流、小众运动的声量则更多是UGC声量87UbXxrrR%UGC 声量占62%UGC 声量占58%UGC 声量占78%骑行高尔夫皮划艇登山棒球拳击滑雪UGC 声量占72%UGC 声量占72%UGC 声量占52%UGC 声量占87prUWW%UGC 声量占70%UGC 声量占85%UGC 声量占72%桨板腰旗橄榄球陆冲&滑板攀岩路亚&钓鱼潜水飞盘UGC 声量占55%UGC 声量占57%UGC 声量占57%UGC 声量占55r%备注:信息来源于秒针大数据库主流运动的社媒声量整体领先于大部分潮流小众运动,但潮流小众运动的UGC含量更高,且声量同比增长更高,两类运动各有千秋,都是体育营销的良好载体不同运动项目的声量情况与UGC声量占比情况0 0Pp0%(20.00)-20.00 40.00 60.00 80.00 100.00 120.00 140.00 160.00声量同比增幅UGC声量占比备注:信息来源于秒针大数据库,抓取时间为 2023.01.01 2023.09.30 与 2022.01.01 2022.09.30篮球足球路亚&钓鱼游泳羽毛球乒乓球网球排球跑步登山骑行滑雪陆冲&滑板潜水棒球高尔夫拳击腰旗橄榄球皮划艇攀岩飞盘桨板2023年前九个月的运动声量决定气泡大小潮流小众运动UGC声量中大部分为参与运动的分享但也有不少声量是在线讨论运动装备以及关注运动旅游UGC声量话题占比分享参与运动的常分享他的运动趣事运动装备相关运动旅游37.5 %5%备注:信息来源于秒针大数据库受到滑雪、冲浪等小众运动参与度上升的推动体育旅游的相关声量在近些年有明显上升中国的发展情况在中国都有哪些主要形式登冲浪滑雪滑沙骑骆驼骑早期的体育旅游一直以马拉松、登山等单项赛事为主体,种类单一。如今体育旅游产业结构呈现出丰富多彩的发展格局,包括草原项目、水上项目等多种类型的体育旅游产品已经开始得到市场的认可。截止2021年中国体育旅游行业市场规模达12718.8亿元,预测2026年可达到38814.5亿元。30(2A%9$&)0qFF9(!%0P0%漂流登山骑马冲浪滑雪2021-2023热门体育旅游项目声量趋势202)F%94)926I2!1%0P0%漂流登山骑马冲浪滑雪2021-2023热门体育旅游项目互动量趋势202120222023备注:信息来源于秒针大数据库体育旅游构成了部分地区经的济重要创收来源受到政府的鼓励与支持,这项产业将会在全国范围内受到重视、并持续带动地方经济发展备注:数据来源于体育旅游经济及社会影响、中国经营报、万宁发布厅从全球市场来看,体育旅游占旅游市场的平均比重是15%,发达国家则高达25%,而我国目前的占比仅为5 20年,我国体育旅游总人数达到10亿人次,总消费规模突破1万亿元,并在政府政策支持下不断扩张冰雪旅游资源集中的张家口市,冰雪旅游成为该市经济重要引擎创造就业:2022年张家口崇礼区,每4个人中就有1人从事跟冰雪相关工作,超过3万人直接或者间接进入了冰雪产业或旅游产业,其中包括了9,000人的贫困人口拉动投资:截至2022年初,张家口累计签约冰雪产业项目109个,包含价值40亿的冰雪装备研发制造项目54项推动经济:预计到2025年,张家口将接待冰雪游客1500万人次,冰雪旅游收入达到400亿元海南万宁市作为冲浪资源丰富的城市,跟上了体育旅游的风潮,努力奔向百亿级的产业集群城市万宁不断建设包含冲浪、海上低空飞行等项目的旅游产业,并于2023年一季度接待122万游客,创造20多亿的旅游收入2023年中秋国庆长假,万宁三大湾区共接待游客47万人次,实现旅游收入2.5亿元体育装备制造业同样可以从潮流小众运动发展中获取红利,年轻群体作为潮流小众运动主要参与者,其对于运动装备的积极消费态度,将极大刺激体育装备制造业的发展备注:数据来源于艾瑞咨询中国年轻人运动发展白皮书中国年轻群常消费的体育品类285.50.70G.10G.70a.30d.60%报名参加各种比赛支付运动场地费用观看体育赛事费用报名运动培训购买健康食品购买鞋服购买运动器材/配件中国年轻群体购买体育装备年均花费86.6%的户选装备时偏好型专业运动装备制造商5.9.45.2#.0%7.8%5.7%8K中国年轻滑雪爱好者运动为及消费特征消费情况平均年消费额:5429.3 元消费品类TOP5:雪具购买-67.7%雪具租赁-56.3%滑雪场票-52.6%滑雪培训课程-48%护具-43.8%消费趋势62.9%的近5年在滑雪运动上消费呈现增加势头消费增加的品类主要是雪具购买 或 租赁、滑雪场票滑雪是年轻人参加潮流小众运动时消费支出最多的运动,人均年消费达到5,429.3元,高于大部分其他运动滑雪爱好者认为更好的滑雪装备是他们提升专业水平的最主要方式,具备此类认知的爱好者占消费群体的60.7%潮流小众运动发展红利的外溢不仅仅带动了相关产业其自身具备的优质属性使得这一领域非常值得去做体育营销位处时代前沿的小众运动,一方面可以满足大众的好奇新鲜感,另一方面也是能够彰显身份的个性化标志。位处高线城市的高收入高认知人群,同时也更认同关注潮流品质运动。小众潮流赛事垂直对标于高净值人群,匹配程度高人群接受度高。在日益复苏的经济趋势和利好的政策驱动下,小众潮流有望成为尚未被重视的体育价值洼地。运动带来即刻积极的大脑反馈和长期健康的生活状态,形成正向闭环。体育大项的营销优势主流体育赛事是体育营销的传统重心,受关注度高、曝光效果好、触达人群广,刚过去不久的足球世界杯的调研数据就很好的诠释了这些特征备注:数据引述自2023年1月秒针为在世界杯投放广告的客户所做的营销效果评估报告。世界杯关注程度31.1 41.9 18.8 6.3 完全不关注不太关注一般比较关注非常关注91.8%世界杯调研收视率93.2.2%狂飙调研收视率乘风破浪3调研收视率46.7F.7X.6X.6%世界杯秉承着传统主流体育赛事的营销特征,广告营销形式丰富,赛场内外相辅相成,并且不断补充新的营销形式进入品牌营销中,为品牌方提供多样化的选择备注:数据引述自2023年1月秒针为在世界杯投放广告的客户所做的营销效果评估报告。球场-画外音广告球场-角标球场内营销球场-显示屏球场-球衣赞助球场-虚拟Logo演播室-大屏背投场外营销-球星代言场外营销-品牌赞助球场外营销(演播室&线上)演播室-主持人口播演播室-桌面摆件场外营销-官方推广NBA营销平台价值不可小觑,2023NBA季候赛总决赛的话题热度是年度体育赛事基准值的两倍,观众对节目满意度高达96%备注:数据引述自2023年7月秒针为在NBA季后赛总决赛投放广告的客户所做的营销效果评估报告。NBA2023全明星赛总决赛的节目关注与参与指数趋势NBA2023全明星赛观看与喜爱率趋势103.08112.28102.16204.04210.10188.200250week 1week 2week 3Benchmark93.35Benchmark107.22关注指数参与指数关注指数Benchmark参与指数Benchmark24%#%0 00%week 1week 2week 3Benchmark20.5nchmark92.2%调研观看率喜爱度调研观看率Benchmark喜爱度Benchmark球场内营销球场外营销(演播室&线上)NBA同样为品牌方提供了场内外多种类型的广告位供营销投放,通过在直播右下角植入购买链接的【边看边买】广告位更是为品牌直接带来了流量转化备注:数据引述自2023年7月秒针为在NBA季后赛总决赛投放广告的客户所做的营销效果评估报告。球场-场边显示屏球场-球衣赞助球场-IGE球场-虚拟地贴演播室-桌面摆件场外营销-中插广告场外营销-官方推广球场-镜外画面演播室-主持人口播演播室-大屏背投场外营销-边看边买作为主流赛事的延申贵州村超承接着主流比赛的关注度外溢红利,同样能够作为体育营销的良好载体备注:贵州村超数据来源于秒针大数据库、秒针Social X,其他信息参考清研智谈“村超”出圈,掀起贵州乡村文旅发展新浪潮擅用传播媒介积极与主流媒体合作,利用央视、新华社、人民日报、光明日报等不断扩大知名度重视自媒体平台,快速开通线上官号进行圈粉,抖音官号已经积累125万粉丝与足球名宿(范志毅等)、明星(香港明星足球队)足球评论家(韩乔生)联动,制造热点,增温宣传实力引流客群2023年村超开赛后一个月,吸引游客42万余人次,包含外地游客11.61万人次村超所在的榕江县5月接待游客107.37万人次,住宿业同比增长30.7%,环比增长89.9%,餐饮业同比增长50.5%,环比增长42.8 23贵州村超声量823234084450200000400000600000五月六月七月八月(4个月声量高达93万)村超在多个社交平台热度榜居榜首成熟的运营手段曝光度高村BA在多个社交平台热度榜居榜首平台直接下场运营通过与知名篮球KOL联动等方式,对现场赛事进行解读,打造篮球圈层的整合营销直播之外,还推出纪录片村BA“全民心”,带动更多的人了解贵州举办地的篮球文化底蕴,感受“村BA”质朴、美好的体育精神,以情感为连接、构建深度内容,引发大众情感共鸣“快手贵州村BA”直播总观看人次超3亿相关话题视频播放量达4.5亿#村BA又开打了“、”#在家乡为热爱上投“、”#村篮球队原来这么厉害“等话题斩获161个热榜知名品牌方赞助京东健康、杰士邦等品牌已经与“快手贵州村BA”进行商业合作备注:贵州村BA数据来源于秒针大数据库、秒针Social X,其他信息参考搜狐“快手村BA”贵州站出圈背后2357542490279275078834404000008000001200000七月八月九月十月(4个月声量高达150万)2023贵州村BA声量贵州村BA在声量、热度方面同样是不容忽视的体育营销载体纵观整个体育营销领域主流赛事能够为品牌方提供更广泛、更下沉、更深度、更多频次的曝光主流赛事的高关注度是提升品牌知名度的捷径多样化的广告位投放能提高品牌回想度品牌与赛事的场外联动能做更有效的观众渗透主流赛事的延申赛事为品牌提供下沉曝光渠道短视频平台传播是主流赛事与广告提升二次曝光的良好媒介体育营销价值洼地 潮流小众运动对于品牌方来说潮流小众运动的体育营销尚处于起步阶段,赞助商不饱和是常态,合作空间大传统运动2023美国职业足球大联赛新潮运动2023橄榄球CNFL常规赛美国职业足球大联赛2023赛季美国职业足球大联赛2023赛季赞助商合作商类型多达25种,涵盖方方面面CNFL,为华美橄榄球联盟简称。作为国家高水平成人业余联赛之一,也是中国最早的民间美式橄榄球联赛。2023CNFL常规赛场地内未展示出明显的赞助商广告潮流小众运动的赞助商以普通赞助商为主品牌方的赞助门槛低备注:数据来源于各小众运动的官方海报或者官方发文新潮运动赛事涌现赛事品牌赞助商大部分较为小众冲浪2023“青岛杯”冲浪公开赛锐速特 Beach Business 思德运动 板式网球2023年昆明HEAD杯板式网球邀请赛海德中国 HEAD CHINA 农夫山泉橄榄球2023首届北京腰旗橄榄球公开赛卡尔美体育 燃力士 DODOWA路亚2023岸钓之王全国巡回赛NS SHIMANO禧玛诺滑板2023第四届开封长板公开赛魔术师长板 与板 CLOUDWHEEL云轮 逆山长板皮划艇2023西青漂岛皮划艇赛乐划桨板 Maxped战马能量饮料 Molokai桨板(业余赛事)(业余赛事)(市级赛事)(业余赛事)(市级赛事)(市级时尚体育联赛)相较于传统体育而言潮流小众运动的体育营销形式更灵活多样,更适合品牌方去实现多种方式的人群触达传统运动马拉松官方赛事新潮运动越野跑赞助商以传统的展架广告版呈现(2023年哈尔滨马拉松)赞助商以传统的旗帜&横幅广告呈现(2023年上海马拉松)马拉松作为国际普及的长跑项目,历届举办赛事已较为成熟。马拉松赛事赞助品牌多以传统的实体展牌呈现。与主流平台合作,参与可得品牌产品。增加曝光率的同时,与消费者互动性更强。运动类博主社媒传播,比起传统电视转播,品牌触达率更高。越野跑作为疫情后新起的户外运动,受到年轻人的广泛关注。小众运动赛事规模还未成熟,且更易融入“互联网 体育”的全新业态。从数据角度来看,潮流小众运动的声量基本都呈现较高的涨幅,大部分运动的互动也增幅明显,这些运动在消费端的受关注度与热度直接体现了其良好的营销载体的价值声量互动量同增幅声量同增幅互动量互动量/声量21M910M 106% 59B18M796M 128% 56E6M383M 14% 13g5M102M 21% 8 4.4M173M 1% 894.4M280M 12%-24d3.9M83M 62% 1!2.4M226M 17%-141.2M29M 18%-4$1.1M28M 13%-54&0.7M21M 60% 11700.5M14M 151% 129&0.1M2M 9%-55$单位:M(百万)骑行高尔夫皮划艇登山棒球拳击滑雪桨板腰旗橄榄球陆冲&滑板攀岩路亚&钓鱼潜水飞盘备注:声量、互动量数据来源于秒针魔方大数据库,覆盖时间段为2022年1月1日 2022年9月30日、2023年1月1日 2023年9月30日.31M1,516M 84%-6P包括耐克、棒约翰等市场主要品牌在内的一些品牌已经注意到“骑行”运动所蕴含的营销价值Nike 联合RE 赞助23年的“北京城市涂鸦”骑行活动棒约翰今年在沪开设全国首家“骑行”主题餐厅骑行者小红书发帖主办方宣传照上海定西路餐厅小红书KOL宣传推广Ocean Pacific 联合 RIO赞助2022年上海“为浪而生”陆冲板比赛陆冲板小红书KOL与多个品牌合作进行产品推广RIO则在陆冲板赛事领域先人一步,率先实现营销赞助除了品牌对运动赛事的直接赞助,潮流小众运动的KOL也率先收到了运动品牌的关注AdidasOn昂跑Converse匡威Surpine松野湃主办方宣传片陆冲板玩家小红书发帖总而言之,潮流小众赛事作为体育营销的价值洼地,能够为品牌方提供更垂直、入门更低、更多样化的营销合作潮流小众赛事的垂直性是品牌方搅动圈层营销的法门成长在主流赛事的热度阴影下,营销价值鲜少被品牌方注意到,合作空间大价值洼地属性能够提供更低的经济门槛UGC含量更高的前提为线上多样化营销提供沃土不断壮大的运动声量赋予品牌方借势而上的机遇AI时代体育流量新玩法资源定位预算大小发掘体育价值洼地顶级体育资源布局品类相关垂直体育资源布局体育营销策略画布打造顶级IP赞助壁垒培养专业体育资源伏击营销社群营销Last Minute资源精准触达科学评估沉淀资产KOLKOLKOCKOC线上:定向人群饱和触达线下:场景植入运动垂直受众触达率ROI(品牌收益/转化收益)品牌&运动项目关联用户运动标签社群沉淀通过大数据表现,了解各类运动的热度与粉丝圈层情况,确定营销蓝海跨平台实现数据打通,丰富潜客兴趣标签,实现多平台触达 建设私域渠道(如 App、小程序),获得潜客更多社交层面信息 与社媒平台拓展合作,打通生态,赋予单一潜客更丰富立体的标签,赋能精准投放利用大数据与用户圈层研究的方法确定体育营销洼地 潮流小众运动热度大数据 潮流小众运动粉丝圈层研究 发现优质潜力KOL/KOC识别体育营销洼地新时代玩转体育流量的框架构想AIGC赋能营销曝光利用AIGC技术批量生成营销软文,通过KOC实现垂直受众高频次种草曝光 立足传播数据表现,结合品牌受众与KOL&KOC粉丝圈层的重合度,选择合适的KOL&KOC 利用AIGC技术,为KOL&KOC软文的生产传播提升效率,增加曝光与触达垂直兴趣人群精准触达秒针大数据平台秒针运动行业知识图谱秒针消费者圈层研究秒针AIGC能力数据治理数据储存数据安全人工智能识别体育营销洼地、优化潜客精准触达、AIGC赋能营销曝光是新时代玩转体育流量的三驾马车与主流赛事的体育营销合作必不可少,是品牌增加曝光的最直接的方法,潮流小众赛事则能够帮助品牌精准触达潜客,是不能被忽视的价值洼地主流赛事潮流小众赛事与主流赛事的合作,是体育营销的基建工程受益于主流赛事拥有庞大粉丝群体,品牌认知会获得广泛传播“积极、拼搏”是不少品牌希望从体育营销中获得的形象标签,主流比赛能很好满足大部分品牌的营销需求与潮流小众赛事的合作,是体育营销的精确制导潮流小众赛事粉丝群体更加垂直潮流小众赛事更能吸引个性鲜明、热衷尝试的受众,为品牌提供良好的营销基础从运动的社会热度、热度增幅、赛事成熟度、运动赛事合作难度等维度去筛选出体育营销的价值洼地潮流小众运动舆情声量声量增幅赛事成熟度整体合作难度价值洼地属性强弱路亚&垂钓20.9M72%骑行12.3M119%羽毛球4.4M26%高尔夫3.8M16%棒球3.3M123%陆冲3.3M12%网球2.7M22%桨板0.4M184%腰旗橄榄球0.1M54%非常一般体育营销需要从价值洼地中选择最适合品牌的潮流小众运动进行合作,圈层研究能够很好的赋能选择 适合品牌:有明确的目标人群倾向的品牌营销活动 选择依据:圈层的 性别 x 年龄 x 地域 x 收入 等 输出:目标人群覆盖最多、浓度最高的圈层根据品牌目标人群(TA)匹配性选择 适合品牌:对TA没有具象化的要求,希望寻找最具影响力的圈层,进行大面积的品牌传播营销活动 选择依据:圈层的规模、声量、增长率 输出:当前声量最高,规模最大,增长力最快的圈层根据圈层影响力选择 适合品牌:对营销活动的直接转化和销量要求高,希望传播能直接带货 选择依据:圈层对制定品类/品牌的讨论量、讨论占比 输出:对目标品类关注最多、讨论最多的圈层根据品类相关性选择因共同兴趣、爱好、价值观、社会属性等共性特征而集聚,形成具有一定文化认同感或共性目标的社群或部落,即圈层圈层的定义与圈层营销的执行手段进行潮流小众运动营销的品牌一般都目标明确,更适合这项原则社交媒体内容设计更注重兴趣导向,对运动社群可以结合数据做进一步细分,找到最适合目标人群的兴趣场景专业运动赛事APP运动小程序报名入口品牌A祝贺XXX夺冠赛事夺冠时刻赛场广告牌伴随各类赛事兴起,新的运动线上入口涌现,品牌可抓住机遇精准触达兴趣受众除了直接触达潜客,KOL的带货营销也必不可少,潮流小众运动的KOL同样需要进行分级,而KOC做为越来越受关注的资源,则非常考验营销者的群控技术行业特征粉丝多元性不显著较显著单圈层多圈层KOL层级特征T1超头部T2头部T3肩部T4腰部T5(KOC)尾部制造&迅速引爆话题种草品类广泛扩大传播声势&加强背书种草品类较专调动参与度&深化认知种草品类精专击破圈层&深度种草跨圈层种草能力初现二次传播&口碑裂变类朋友圈种草小红书抖音微博转化效率转化效率转化效率AIGC技术可以被用来赋能KOC渠道实现品牌的高频曝光,并且能够统一每一篇营销软文的质量AIGC在营销物料上的应用AIGC赋能KOC软文生产的流程文本生成 结构化写作:新闻稿 非结构化写作:故事情节续写 辅助性写作:文本润色 闲聊机器人 文本交互游戏图像、视频、文本间跨模态生成 文字生成图像 文字生成演示视频 文字生成创意视频 图像/视频到文本:视觉问答系统视频生成 视频属性编辑:删除特定主体 视频自动剪辑 视频部分编辑:视频换脸等图像生成 图像编辑工具:去除水印 创意图像生成:生成画作 功能性图像生成:生成海报AIGCAIGC生产内容专业团队二次加工初次内容初次内容多样化内容推送KOLKOL用户发布关于我们 秒针系统是明略科技旗下专注于营销实效管理的专业品牌,将营销实效管理拆分成流量实效、内容实效和用户实效三大能力,通过测量、洞察、优化,形成营销实效闭环,为企业提供一站式营销数字化服务。帮助品牌突破现有瓶颈,引发营销生产力的大爆发,帮助广告主实现千人千面营销的测量、洞察和优化。扫码咨询 体育营销相关干货/咨询

    浏览量0人已浏览 发布时间2023-12-12 45页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 华为:2023矿山智能化暨矿山大模型最佳实践白皮书(35页).pdf

    践行深度用云矿山智能化暨矿山大模型最佳实践白皮书编 委 主 任编 委 顾 问编委会委员编 写 成 员责 任 编 辑李 伟 邹志磊刘 健 王立才 韩 硕 蒋旺成 郭振兴 刘 维 尤 鹏 胡玉海 王 飞徐加利 刘 波 曹怀轩 胡立全 项 凌 杨加元 赵 强 陈文丰 顾兴勇 贡 青赵金娥 张 浩 高 桢 张 硕 潘临安 李吉宗 李 杨 谭 伟 曾祖祥 王 宁 张强豪 刘汝琪 高 昊 陈 航 陈泽腾 周志获 王 军 贺 帅蒙俊秀 王 瑞编制委员会P R E P A R A T I O N C O M M I T T E E(排名不分先后)炭行业作为我国重要的传统能源行业,其智能化建设直接关系我国国民经济和社 会智能化的进程,将人工智能、工业物联网、云计算等ICT技术与现代煤炭开发利用深度融合,对提升煤矿安全生产水平、保障煤炭稳定供应具有重要意义。但当前煤炭行业智能化建设工作依然存在资金投入不足、技术标准不一、技术装备落后、研发平台不健全、高端人才匮乏等问题,导致智能化建设滞后于其他行业。同时,传统人工智能开发模式局限于特定的行业场景、特定的数据,面临碎片化、定制化、门槛高等问题,导致无法大规模复制的挑战。近年来,山东能源集团投入200多亿元进行矿井智能化建设,9对国家级智能化示范矿井全部通过验收,在煤矿智能化建设路上走在了全国前列。2022年山东能源集团与华为公司成立联合创新中心,重点围绕煤炭开发利用重大科技需求,叠加双方科学技术、应用场景、行业双跨专家等优势资源,在智能化煤矿建设、煤矿安全管控等领域形成了一批可复制推广的解决方案。山东能源集团引入华为云Stack构建集团总部训练、生产单位边缘推理的云边协同架构,满足“数据不出企”的要求,基于盘古大模型实现人工智能开发模式从“作坊式”到“工业化”的升级迭代,探索出一套可复制的工业化人工智能生产方案,初步实现煤炭行业从人工管理到智能化管理、从被动管理到主动管理的转变。当前,山东能源集团已在兴隆庄煤矿、李楼煤业、济二煤矿等单位开发和实施首批场景应用,实现实时优化工艺参数、识别故障与异常、审核作业规范,以广播提醒、设备联动等方式实现了自动处置闭环,形成了一批应用成果。未来,我们将在盘古视觉大模型和盘古预测大模型的基础上,采用盘古自然语言和多模态大模型,进一步做深决策智慧、企业管理智能化能力。我们将在矿业智能化的基础之上,辐射能源集团其他五大业务板块,加速全产业智能化建设,坚持开放合作、与“巨人”同行,持续深化与华为在技术、管理、文化等方面的交流合作,基于华为云Stack云边协同方案,将盘古大模型复制推广到其他行业,打造行业领先的AI应用平台,深度用云,让行业客户都拥有自己的专属大模型,加速行业智能升级!李伟山东能源集团 党委书记 董事长煤02序言P R E A M B L E前言 1956年达特茅斯会议首次提出人工智能概念以来,人工智 能一直在业界广泛应用。2022年,生成式人工智能系统为代表的大模型,在多项测试中超越人类平均水平,推动了人工智能领域的新一轮创新浪潮。2019年,华为立项研发盘古大模型,历时三年,投入大量人力物力。盘古大模型致力于深耕行业,打造多领域行业大模型和能力集,积极开展行业合作,持续提升在行业领域的专业性,助力行业实现智能升级。2022年,华为与山东能源集团有限公司(以下简称山东能源)及旗下公司云鼎科技股份有限公司(以下简称云鼎科技)达成了战略合作关系,把盘古大模型应用于煤炭行业,在山东能源实现了华为云盘古矿山大模型(以下简称矿山大模型)的落地实践,加速了山东能源的智能化发展。本白皮书全面总结了矿山大模型在山东能源的实践经验,从趋势、方案、运营、商业等方面阐述了我们的实践思路和方法,同时辅以具体的落地场景,期待为各行各业使用大模型提供参考。目前,矿山大模型的实践还在持续开展,我们还将探索自然语言处理、多模态等形态大模型在煤炭行业的应用,随着未来实践的深入,我们的认识也将进一步深化,对白皮书存在的不足之处,欢迎大家批评指正。F O R E W O R D自03目录D I R E C T O R Y1.1 大模型引领人工智能发展方向1.3 面向大模型的配套建设已经起步1.2 大模型深入行业,引发范式变革大模型跑步进入展开期各行业迎来发展新范式012.1 矿山智能化正稳步推进2.3 矿山智能化现状挑战2.2 矿山企业确立智能化发展战略2.4 矿山大模型基于1 4 N架构推动矿山智能化升级盘古大模型为行业而生赋能矿山转型升级023.1 关键实践措施阐述3.3 数据安全和模型安全实践3.2 矿山典型业务场景的建设实践矿山大模型最佳建设实践032706-0910-1314-2324-2728-3132-334.1 目标与挑战4.3 专业服务体系建设实践4.4 模型运营管理实践4.2 运营组织体系建设实践矿山大模型最佳运营实践045.1 拓展创新利益联结机制,协同共生、合作共赢5.3 实现战略、组织匹配,标准动作推动落地5.2 面向煤炭行业构建三种矿山大模型落地途径矿山大模型最佳商业实践056.1“大一统”模式构筑企业智能化基座6.3 通过持续运营,释放大模型的价值与潜力6.4 开放思维合作共赢,赋能伙伴成就客户6.2 模型与业务适配,大小模型协同发展矿山大模型为“AI for Industries”提供最佳实践指导06大模型跑步进入展开期各行业迎来发展新范式大模型跑步进入展开期各行业迎来发展新范式大模型跑步进入展开期各行业迎来发展新范式大模型跑步进入展开期各行业迎来发展新范式大模型跑步进入展开期各行业迎来发展新范式各行业迎来发展新范式各行业迎来发展新范式各行业迎来发展新范式各行业迎来发展新范式各行业迎来发展新范式06近年来,人工智能技术发展迅猛,大模型在人工智能发展方向上发挥了重要的引领作用。大模型以其巨大的模型参数规模、大数据预训练和对强大计算能力的需求而著称。通过对大量数据集的预学习,大模型展现出卓越的模型精度和泛化能力,为众多领域提供了革命性的解决方案。以自然语言大模型为例,大模型在处理自然语言任务时表现出了惊人的能力。当模型参数规模达到600多亿时,大模型在翻译和数学能力方面表现出色。当模型参数增加到1300亿时,大模型具备了上下文学习和处理复杂任务的能力。而当模型参数增加到5300亿时,大模型展示出知识组合和情感感知的能力。大模型的智能化表现不仅仅局限于特定的任务。它还实现了从感知理解到生成创造、从专用到通用的全面智能化探索,为我们带来了无尽的创新空间,引领了一场方兴未艾的科技革命和产业变革。国内外多款生成式自然语言大模型的火热出圈,让大众对大模型能进行对话、写诗、作画等任务不再陌生,但这只是大模型应用的冰山一角。大模型只有深入到工业制造、金融科技、生物医药、科学研究等众多行业领域开展应用,才能真正发挥其巨大潜力。面对行业垂直领域的复杂任务,单一形态的大模型显然难以胜任,这就需要多种形态的大模型,来应对行业不同场景。1.1 大模型引领人工智能发展方向1.视觉大模型视觉大模型(以下简称CV大模型)基于海量图像、视频数据和独特技术构筑的视觉基础模型,赋能行业客户,利用少量场景数据对模型微调即可实现特定场景任务。以煤炭行业为例,视觉大模型在出厂前经过上亿视频、图像数据的预训练,提高了模型的泛化性和精度,让矿山碎片化的长尾场景模型从“作坊式”开发,走向基于一个大模型的持续“工业化”生产,极大的降低了长期运营成本。2.预测大模型预测大模型是面向结构化类数据,基于基础模型空间,通过模型推荐、融合两步优化策略,构建图网络架构的AI模型,实现生产工艺优化、供应链调度优化等场景的最优参数控制。仍以煤炭行业为例,预测大模型结合了采集的原煤检验、精煤检验和生产过程数据,实现模型的自动选择和预测方法的自动优化,最终得到重介质洗选方案的最优化参数,下发到生产自控系统,有效保证了产品质量。1.2 大模型深入行业,引发范式变革073.自然语言处理大模型自然语言处理大模型(以下简称NLP大模型)利用大数据预训练,结合多源丰富知识,通过持续学习吸收海量文本数据,不断提升模型效果。在实现行业知识检索回答、文案生成、阅读理解等基础功能的同时,具备代码生成、插件调用、模型调用等高阶特性。以政企场景为例,NLP大模型帮助政企客户脱离“文山会海”的困扰。利用其阅读理解和文案生成能力,实现15种公文规范化生成,公文撰写从原先耗时周级降至天级,同时原先会议流水账被改写成标准会议议程;利用其语义搜索能力,实现最佳文档资料推荐,海量公文查找从天级降至分钟级。4.多模态大模型多模态大模型融合语言和视觉跨模态信息,实现图像生成、图像理解、3D生成和视频生成等应用,面向产业智能化转型提供跨模态能力底座。以金融行业7*24小时智能自助服务场景为例,多模态大模型结合音视频通话、电话语音、文字交互形式,摆脱单一固定类型的限制,用多模态情感计算替代打分评价,获取客户真实有效的反馈,完善客户的情感分析,实现对客户意图、行为的全方面判断,针对不同客户打造“聊得来”的个性化智能客服,实现精准化、个性化、有温度的金融服务。5.科学计算大模型科学计算大模型采用AI数据建模和AI方程求解的方法,从海量的数据中提取出数理规律,使用神经网络编码微分方程更快更准的解决科学计算问题。以气象领域为例,华为云为行业提供盘古气象大模型,在四十多年的全球天气数据上训练深度神经网络,能够提供全球气象秒级预报,其气象预测结果包括位势、湿度、风速、温度、海平面气压等,由欧洲中期预报中心和中央气象台等实测验证,其在精度和速度方面超越传统数值预测方法。1.人工智能已上升为国家战略,配套政策逐步完善人工智能作为驱动第四次工业革命的重要引擎,深刻影响着经济、产业和各技术学科的发展。为此,世界主要国家纷纷把人工智能在社会各领域的创新发展提升到国家战略地位。2017年,中国发布了新一代人工智能发展规划,旨在构筑人工智能发展的先发优势。2023年,中国发布了生成式人工智能服务管理暂行办法,办法为大模型的产业创新提供了政策导向和法律保障,也为产业监管提供了科学合理和平衡适度的框架。2.人工智能算力网建设,提供基础的算力底座大模型时代,算力是重要生产力,在“东数西算”战略的推动下,智算中心、超算中心和一体化大数据中心已成为国家新基建的重要部分。2022年6月,“中国算力网”一期工程“智算网络”正式上线,以“鹏城云脑”为枢纽节点,跨域纳管了20余个异构算力中心,汇聚算力规模超3E Flops,建成全国智能算力互联体系,实现算力与AI开源服务向全国用户开放。1.3 面向大模型的配套建设已经起步083.数据要素治理探索转向,将促进数据价值释放“十四五”大数据产业发展规划 强调,推动行业数据资产化、产品化,数据要素治理的探索逐渐转向规范数据资源的市场化流通。2023年,国务院组建了国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用。这些举措将为大模型的发展提供必要的生产资料。4.人工智能进入“百模大战”的新时代科技部新一代人工智能发展研究中心发布的中国人工智能大模型地图研究报告显示,我国研发的大模型数量位居全球第二,目前中国10亿参数规模以上的大模型已发布79个,进入“百模大战”的新时代,充分体现了我国在大模型领域的创新实力和发展潜力。盘古大模型为行业而生赋能矿山转型升级10过以上举措,持续推动智能化建设提档升级。煤炭行业推进智能化建设,依赖人工智能技术的支持,但传统单场景小模型方案存在诸多问题,制约了矿山智能化、规模化建设的发展。以矿山智能应用的业务视角分析单场景小模型方案,存在以下问题:模型可移植性差。传统模式针对一个矿山开发的模型无法直接复用到其它矿山,在一个生产单位训练的模型,转至其它单位应用时准确度明显下降,模型泛化性不足,难以规模化复制。工况变化,精度满足度低。人工智能模型需要响应行业应用的快速变化,工况发生变化时模型的精度、性能、可扩展性等指标无法满足实际生产需求。数据安全风险。传统模式的算法训练需要将煤矿的数据导出到线下开发环境进行训练,过程中数据安全保障困难,存在数据泄露等安全风险。1.政策推动矿山智能化发展煤炭行业按照“四个革命、一个合作”能源安全新战略推进高质量发展。2020年2月,中国发布关于加快煤矿智能化发展的指导意见,明确提出到2025年大型煤矿和灾害严重煤矿基本实现智能化,到2035年各类煤矿基本实现智能化,明确要求将人工智能新技术与现代煤炭开发利用深度融合,实现传统煤矿的智能化转型升级。2.示范案例引导矿山智能化迈向更高水平2023年6月,为加快煤炭行业创新成果应用,国家能源局组织遴选并发布了全国煤矿智能化建设典型案例汇编(2023年),从信息基础设施、智能掘进、智能采煤、智能露天、智能运输、智能防灾、智能洗选等7个方向提出80项智能化煤矿生产建设典型案例,积极引导煤矿智能化建设迈向更高水平。以山东能源为例,作为山东省煤炭行业的龙头企业,自2020年9月全国煤矿智能化建设现场会召开以来,为落实“深化机械化换人、自动化减人,建设一批智能化示范煤矿”要求,树牢“少人则安、高效可靠、实用实效”理念,构建了三项机制,即规划标准引领机制、科学分类建设机制、定期考核评价机制;筑牢了四大支撑,即建好平台支撑、强化技术支撑、筑牢装备支撑、夯实人才支撑;坚持了五个着力,即着力打造示范矿井、着力推进少人无人、着力提升生产效率、着力强化信息建设、着力保障生命安全健康,通2.1 矿山智能化正稳步推进2.3 矿山智能化现状挑战2.2 矿山企业确立智能化发展战略11因此,煤炭行业需要一种更安全、更高效、泛化强、易维护、泛化强的模型解决方案,以应对煤炭行业复杂多变的业务场景,从而推动煤炭行业的智能化建设。针对单场景小模型方案的问题,华为推出矿山大模型解决方案,采用“1 4 N”总体架构,以分层解耦架构为特点,结合数据安全和隐私保护技术,利用无监督或自监督学习方法,从行业数据中提取知识,以满足煤炭行业不同业务场景的智能化需求。具体架构如下图所示:2.4 矿山大模型基于1 4 N 架构推动矿山智能化升级以矿山智能应用的开发视角分析单场景小模型方案,存在以下问题:开发效率低。当前大部分人工智能开发者是采用传统“作坊式”开发,针对每个碎片化场景独立地完成模型选择、数据处理、模型优化、模型迭代等一系列开发步骤,无法积累通用知识,且不同领域的调试方法不同,导致开发周期长、效率低。开发门槛高。人工智能开发的全生命周期包括问题定义、数据接入、数据处理、特征工程、模型训练、模型评估及发布、模型管理等环节,高度依赖人工智能专家的经验和算法能力,且当前人工智能领域开发者专业水平参差不齐,缺乏规范的开发流程和高效的调优技巧,需要专业人员持续支持。1个矿山一站式AI平台图 1 支持矿山企业业务板块智能生产模式创新矿山大模型卡扣式胶带接头损坏识别人员入侵立井提升重质密控焦化配煤防冲卸压N个矿山场景化模型4大盘古大模型能力L2场景化模型专业服务辅助运营训练平台推理平台资源调度框架引擎模型部署井下生产工作流安全监察工作流智慧决策工作流经营管理工作流L1场景化工作流物体检测图像分类视频分类异常检测语义分割目标跟踪实例分割姿态估计事件检测结构化数据预测L1开发套件L0视觉大模型预测大模型自然语言大模型多模态大模型科学计算大模型视图识别:分类|检测|分割智能决策:预测|优化|决策对话问答|文案生成|代码生成图文音视频理解:生成|编辑 科学计算:药物研究|气象研究网络存储计算华为云 Stack12“1”是矿山一站式AI平台:华为云面向煤炭行业的智能化推出一站式AI平台,提供全流程的大模型训练与推理服务,具备训练算法管理、作业管理、多开发框架支持、模型统一管理、服务按需部署能力,支持GPU、CPU资源调度与统一管理,帮助用户管理全周期AI工作流,助力应用开发者快速完成模型开发与上线,使能煤炭行业创新AI业务。“4”是矿山大模型的核心能力:L0层大模型由华为已投入大量算力、人力等资源,并基于海量数据预训练而来,包含视觉、预测、自然语言处理、多模态四大基础通用能力,参数已发展到千亿级别,泛化能力强,作为矿山大模型预训练的模型底座,华为拥有完全的知识产权。以L0层大模型为基础,华为面向煤炭行业开展深度合作,把煤炭行业的海量知识,如数百万张矿山图片,结合矿山通用场景,预训练出L1层矿山大模型,包括物体检测、语义分割等开发套件。这些开发套件可以对外授权,开放使用。L1层是煤炭行业的通用模型,能够与矿山具体业务场景结合,训练出L2层场景化模型。“N”是一系列应用于矿山具体业务场景的专属模型:通过遴选、调研矿山业务领域,选择合适类型的L1场景化工作流(以下简称工作流)。在获得授权情况下,可以选择合适的L1层开发套件(以下简称开发套件),否则工作流只能调用预制的开发套件。工作流定义了训练L2层场景化模型的整体流程,实现L2层场景化模型可视化、向导式的训练。L2层场景化模型的生产层面,会根据用户的模型大小需求,从预训练模型中抽取满足需求的模型结构和权重。然后根据数据特点,在抽取后的模型上进行算法调优,生产可分发、部署的推理模型。矿山大模型的优势在于它不仅能有效提升样本训练效率、降低样本标注的人力成本,还能与矿山业务应用深度融合,通过小样本快速训练出需要的场景化模型。同时,矿山大模型具有高泛化性和移植性,能适应矿山的不同业务场景。此外,矿山大模型实现了全栈自主创新,为煤炭行业智能化建设提供了综合解决方案。矿山大模型最佳建设实践14大型矿业集团在建设矿山大模型的过程中面临诸多挑战。由于下属矿山企业信息化程度不同、基础建设各异、技术团队能力参差不齐、对大模型的认识尚且不足,且矿山大模型作为新生事物,缺少行业内的标杆参照,这些因素都增加了建设过程的难度。在山东能源实践中,为了确保实践成功,我们提出以下关键措施:3.1 关键实践措施阐述1.做好顶层设计,集团中心统建,矿山边缘应用通过在(山东能源)集团层面集约化建设统一的矿山大模型,可以统一思想,通过顶层设计明确项目建设的权责,从全局视角拉通业务与技术,明确目标与措施,协同内部资源,实现多元知识的融合,构筑共享的AI能力,支持集团决策和运营,促进集团业务转型和创新发展。具体的规划设计如下图:图2 客户基于盘古矿山大模型,一站式开发场景模型6大业务创新集团总部中心训练盘古矿山大模型华为云 Stack一站式AI平台生产单位边缘推理AI边缘计算站点40 场景AI辅助煤流运输安全监管皮带跑偏识别人员入侵检测采煤转载装运异常AI智能控制卡扣式胶带接头的AI监测煤仓运行异常状态监控违规穿越皮带检测皮带发烟发火检测煤量分级估计皮带堆煤检测皮带异物检测卡堵预警水煤检测穿仓预警穿仓检测人员摔倒识别巡检合规性监测劳动保护用品穿戴规范性监测关键岗位行为状态监护人员误入危险区域皮带跑偏识别违规穿越皮带检测皮带堆煤检测人员摔倒识别煤量分级估计车辆检测皮带异物检测皮带发烟发火检测掘进安全智能监管其他行业可复制场景敲帮问顶动作监测危险区域人员安全监控临时支护有效性监测截割部落地监测顶板支护作业监测人员摔倒监测煤矿限员立井提升多绳摩擦提升系统尾绳运行监测立井提升井底堆煤监测人员出入井统计人员跟随检测防冲监管焦化煤炭智能洗选重介选煤分选密度智能控制选煤煤泥水浓缩加药智能控制采煤转载装运异常AI智能控制焦化配煤智能应用防冲卸压施工孔深监管关键岗位行为状态监护巡检合规性监测架空乘人装置规范性监控劳动保护用品穿戴规范性监测人员误入危险区域9大专业智能化采煤掘进防冲主运辅运提升安监洗选焦化模型部署样本反馈非正常即异常边学边用云边协同15云边协同是规划的显著特点,在中心实现统一的人工智能开发、训练和运维,训练获得的推理模型被分发部署到位于生产单位的边缘节点,以支撑业务场景应用。在AI服务推理过程中,在边缘节点完成数据获取、推理识别、告警处置的业务闭环,并可通过接口将异常样本回传到中心云,中心接收、存储异常样本,定期启动再训练,生成新版本的推理模型,并重新分发到边缘,形成飞轮效应,实现AI服务的迭代优化。2.结合场景技术选型,采用试点先行策略逐步建设矿山大模型的建设,需要深入了解业务需求和应用场景,分析业务数据特点,规划选用的基模型,适配开发套件,制定可行的技术方案。如防冲卸压场景,通过现场摄像头采集的视频数据开展业务,符合CV大模型能力范畴,经实验证明,钻杆识别准确率高于钻孔识别,适用事件检测开发套件,以此为基础进一步开展场景化模型的训练工作。矿山大模型的建设不是一蹴而就的过程,首先需要全面梳理矿山智能化场景,做好场景分类;然后选取具有代表性的业务场景进行应用试点,树立标杆;最后,横向不断推动新类型业务场景试点工作开展,纵向基于试点开发的模型成果,在更多同类型业务场景中推广应用。在山东能源的实践中,梳理的智慧化场景类型超过40个。以配煤为例,作为炼焦的核心工序,对通过大模型实现降本增效需求强烈,被列为先行试点场景,试点单位也选择了源煤类型多样、业务复杂的炼焦厂,以期通过试点发现和解决各种问题和不足,从而验证大模型的成效,为更广泛的推广和应用打下基础。3.实施标准化的工作流程,有序推进业务场景智能化建设制定标准化工作流程,涵盖需求分析、设计、开发、测试和试运行等各环节,不仅有利于提高场景智能化建设的效率,也有利于(山东能源)集团评估建设所需资源,厘清工作界面,提前开展资源筹备,合理规划进度,从而保障目标达成。矿山大模型建设实践的工作流程可以参考下图:场景业务调研建议人员:解决方案架构师、矿方专家核心工作:调研矿山的业务场景现状、业务流程、业务痛点、智能化价值、现场环境等 现场工勘建议人员:解决方案架构师、算法工程师、矿方专家核心工作:开展现场工勘,输出工勘报告,如对视频点位工勘、对摄像头安装给予指导等 方案设计建议人员:解决方案架构师、算法工程师、应用开发工程师、矿方专家核心工作:开展方案总体设计,含算法模型设计、应用设计、算法对接设计、系统集成对接设计等,输出相关文档后进行三方评审 模型部署调优建议人员:算法工程师核心工作:算法模型持续训练调优 工作流开发建议人员:算法工程师核心工作:开发业务场景下的工作流 环境准备及数据采集建议人员:矿方专家核心工作:组织现场环境整改,如调整摄像头位置;采集样本数据,确保数据满足算法需求 应用开发建议人员:应用开发工程师核心工作:开展应用开发,实现与算法模型的集成对接,输出场景化AI应用的需求说明 测试联调建议人员:算法工程师、应用开发工程师核心工作:在应用与模型算法之间,完成端到端的功能联调 试运行建议人员:业务场景建设、开发、运维、应用的相关人员核心工作:制定试运行计划,保障试运行系统稳定,结合问题持续微调、优化模型算法,收集用户反馈和建议,评估、总结试运行成果等16图3 矿山大模型建设实践的工作流程将“统一标准、统一架构、统一数据规范”落到实处,进一步释放智能矿山工业互联网在行业的价值,最终实现“煤矿工人穿西装打领带采煤”。总之,大型矿业集团建设矿山大模型是实现智能化转型升级的必然选择,有助于实现安全生产和降本增效的目标。我们将通过介绍矿山大模型在煤炭开采、煤炭洗选、煤炭加工三个关键工序中典型场景的应用,详细阐述我们的具体实践。1.防冲卸压煤炭生产过程中的井下作业是煤炭开采中最具挑4.智能矿山工业互联网“三个统一”架构是确保大模型建设取得实效的关键保障近年来,华为矿山军团和大型煤炭生产企业、行业伙伴在矿山智能化建设实践中,探索出“统一标准、统一架构”的智能矿山工业互联网作为煤矿智能化的必经之路,通过“统一数据规范”充分发挥数据作为核心生产要素的价值已经成为行业普遍诉求。华为矿山军团以“少人无人、安全、高效”采矿的愿景驱动,把握工业互联网的特点,与行业共同努力,基于“三个统一”落实“七大转变”推进智能矿山工业互联网建设,将数字技术深度融合到矿山生产流程中。为此,矿山军团不仅将持续投入技术创新,也将以更开放的平台,广泛联合生态伙伴和科研院所,共同服务于矿山智能化建设。同时,华为矿山军团还将分享自身技术,与行业优秀伙伴一道积极参与标准的完善,切实3.2 矿山典型业务场景的建设实践统一接口协议统一数据格式智能物联操作系统F5GIPv6 5GWi-Fi 6IoT工业承载网矿山工业互联网平台数字平台盘古矿山大模型开发使能 数据使能应用使能 集成使能安全生产中心决策指挥中心综合集控中心经营管理中心智能运维中心矿山数字孪生图4 煤矿工业互联网架构统一标准统一架构统一数据规范华为云 Stack17图5 矿山大模型和矿企应用协同、云边协同的智能化解决方案中心云(集团)工业环网边缘节点(矿山)边华为IVS3800视频云存算检平台防冲卸压AI模型(L2层)中心训练平台矿山一站式AI平台华为产品面矿山智能应用面边缘推理模型(Atlas人工智能计算平台)人工智能应用平台(矿端)人工智能应用平台(集团端)网端井下摄像头1视频流视频流样本数据抽取模型下发故障告警上报统计数据回传异常样本回传(边用边学)告警联动设备信号数据采集井下摄像头2视频流井下摄像头视频流井下反控摄像头(矿鸿)视频流控制信号控制流井下设备广播告警样本标注异常样本标注异常样本回传(边用边学)推理结果主动推送(边用边学)视频流战性和危险性的环节,尤其是采掘施工作业。这项作业环境艰苦,且工人流动性较大,因此安全问题尤为重要。在采掘施工过程中,预防冲击地压是重中之重,钻孔卸压是一种有效的防治方法,它能显著改善煤(岩)体的应力状态,降低冲击地压的风险。在钻孔施工中,钻孔深度是防冲卸压工程最关键参数,是人工核验的重点,通过矿山大模型,对钻孔施工情况进行实时监测,对钻孔深度自动核验,对孔深不足及时告警,避免漏检、迟检,可以显著提升矿山安全生产目标。挑战传统的防冲卸压施工监管方式,采用井下录制视频、井上对视频逐个进行人工核验。这种方式无法实时查看井下施工过程,针对突发情况难以做出反应。同时,人工鉴别视频,不仅审核工作量大,效率低,还会导致漏检或误检。此外,面对大量视频资料,监管人员也难以查询和统计钻孔卸压的施工质量。这都影响了防冲卸压施工监管的效率和准确性。方案针对防冲卸压场景,我们提出了一种基于矿山大模型和矿企应用协同、云边协同的智能化解决方案,方案设计如下图:18方案中,首先从井下摄像头的视频流中抽取训练样本,这些样本包含钻机、钻杆、施工人员取杆动作等信息,并对其进行标注。接着,在中心训练平台完成防冲卸压场景化模型的训练。训练好的推理模型被下发到矿山边缘节点,以实现卸压孔施工质量的智能化核验,同时对卸压钻孔进行工程统计。推理结果将通过服务接口推送(云鼎科技)已建的人工智能应用平台,由其进行业务处理。对于不合格的卸压工程,例如孔深不足等问题,人工智能应用平台将及时对现场进行声光数字化告警,甚至直接下发控制指令,以使物联设备自动停机。在日常运行过程中,如果出现误报或未知异常等样本数据,这些数据将经过标注处理后,推送回中心训练平台,定期对模型迭代训练,并重新下发,实现边用边学。整个过程中,仅需少量人工参与。成效矿山大模型在防冲卸压场景实践中,实现了显著的效果。首先,它减少了审核工作量,降低了约80%的人工审核工作量。其次,它实现了从隔天核验变为退杆结束后实时出结果,打钻深度不足时系统会发送告警,井上冲击地压监控中心可以实时查看井下工程作业情况。最后,它的使用也十分方便,可以对所有卸压工程进行100%审核,并自动记录和跟踪识别结果,方便按照卸压工程地点和时间进行快速查找和统计。2.重介密控煤炭洗选是煤炭生产过程中的重要环节,对于清洁生产、节能减排以及提高煤炭价值具有关键作用。重介质分选法因其高效分选、强适应性和低密度分选等优点在煤炭洗选生产现场广泛应用。然而,重介分选密度控制一直是难点,过去依赖人工经验,且缺乏可靠的数据分析系统,容易导致分选指标异常、精煤回收损失,影响到选煤的经济效益。现在,通过矿山大模型实现密度控制智能化,利用预测模型推送设定密度值,能够保证产品质量并提高精煤产率。挑战重介分选系统通过对各个洗选模块的参数进行精细化控制,确保洗选质量的稳定性和可靠性。然而,选煤厂在控制参数调整方面仍面临三大挑战:一是选煤厂多,入选煤种齐全,产线结构多样,工艺基本涵盖了国内所有主导选煤工艺,因此参数调整依赖于个人经验,这导致集团整体上缺乏一致性,洗选质量参差不齐,难以统一标准;二是参数的调优过程需要大量反复迭代,导致调优效率低、成本高,三是人工经验只能提供粗略调整,无法寻找到最优的经济效益控制参数。近年来,智能化选煤厂建设在自动化、信息化方面取得了较大地提高,但在智能化方面可借鉴的成熟技术相对较少。特别是在重介分选密度控制系统利用智能化技术实现产品质量精准控制和增产提效方面,业界虽有探索,目前尚无成功案例,缺少相关经验参考。方案重介分选密度控制系统智能化的关键是构建重介密控算法模型,利用算法模型的预测能力,对生产数据实时分析,预测出最优的工艺参数组合。同时,算法模型要具备自学习能力,不断进化,在保证产品质量的前提下,实现增产提效的目标。我们的解决方案如下图所示:19重介密控模型被分为训练态和推理态两部分。训练态主要负责数据收集、样本构建、模型训练和部署等任务。推理态则负责数据预处理、算法推理、优化求解和最优参数下发等任务。在训练阶段,我们以生产机理和生产数据为基础,通过对煤质、生产工艺和生产数据的深入分析,构建出适应选煤厂需求的重介密控算法模型。在推理阶段,我们以实时生产数据为输入,包括灰分和煤量、介质入料压力、重介悬浮液密度、磁性物含量、精煤的灰分和煤量等数据,利用模型的分析预测能力,提供最优的工艺参数组合。这些参数组合再与矿端智能应用系统整合,通过生产控制系统将结果应用于生产过程中。重介密控算法模型是L2层场景化模型,它是通过L1层结构化数据预测开发套件训练生成,其底层依赖于预测大模型能力。预测大模型由两部分构成:基模型选择和图网络融合。首先,通过基本算法,产生一组候选算法和搜索空间。然后,使用超参数搜索算法来找到最佳的超参数,并将基模型输入到层次网络中进行训练。层次网络的输出会被再次用作下一次基模型选择和超参数搜索的输入。这个过程会重复多次,以便从多个基模型中得到层次网络的输出。最后,通过图神经网络对这些输出进行聚合,以得到最终的预测结果。同时,如果需要,也可以通过添加基础算法算子的方式,将其它训练好的基模型加入到预测大模型中,进行图神经网络的汇聚,而不需要修改其它的基模型和层次网络,以及图神经网络的结构。得益于此,重介密控算法模型具备强大的自学习能力。它可以吸收各种结构化生产数据,持续自我更新,迭代出新的算法模型,以适应生产条件的改变,并能够在众多选煤厂开展推广。成效重介密控场景的实践,是盘古预测大模型技术首次用于选煤生产,对重介密控参数的预测为行业首创,效果达到了国家智能化选煤厂验收办法智能分选的要求。该技术的应用有效保证了产品质量,提高了精煤产率。原煤检验数据精煤检验数据生产过程数据图6 构建重介密控算法模型模型训练:数据知识 专家知识 机理知识模型推理:智能工艺参数推荐 数据知识根据目标切换不同优化模式多目标智能优化决策数据接收数据处理模型预测模型评估模型更新控制决策 决策服务重介密控预测模型 预测服务专家知识机理知识 最优工艺参数反馈20图7 焦化配煤智能化方案数据加密脱敏业务系统库存数据销售数据运营数据机理&经验对象存储服务OBS工艺数据煤化度数据灰成分数据黏结性数据其他检验数据原料煤/配煤数据数据预处理焦化配煤模型求解模型特征工程模型构建一站式AI平台焦炭数据基本组成成分指标数据冷强和热强指标数据边侧(焦化厂)中心云焦炭质量预测配煤比例优化自动配比API接口业务智能多域协同决策人工智能使能云上数据管理数据整合3.焦化配煤焦炭是焦化行业炼焦的产物,炼焦是煤炭加工产业的重要部分。近年来,由于上游炼焦煤资源稀缺和价格上涨,以及下游钢厂对焦炭高质量和稳定性的要求提高,给焦化厂带来了巨大的成本压力。焦化厂的成本中,配煤成本占80%以上,传统配煤技术依赖人工经验,只有几个固定函数关系,实现成本和质量兼顾,具有挑战性。为了解决这些问题,我们通过矿山大模型构建人工智能配煤系统,实现了智能配煤,提高了配煤的准确性和稳定性,达到了降本增效的目标。挑战炼焦生产的炼焦煤煤种多杂,其中焦煤和肥煤品质较好,但稀缺且价格较高,占炼焦煤比重仅约 1/3。实际生产中需要通过配煤,将多煤种按适当比例配合,这直接影响到炼焦主要产品焦炭的质量。然而,焦炭质量的预测目前主要依赖于人工经验或小焦炉试验。人工经验配煤易导致质量波动,难以沉淀配煤经验。小焦炉试验时间长达1-2天,且只能做定性分析。同时,人工配煤在成本和质量之间往往难以实现最优平衡,为保证质量达标,原料煤配比趋于保守,从而增加炼焦原料成本。此外,国内煤炭资源虽丰富但地域差异明显,仅凭人工经验难以及时调整配煤结构,这限制了用煤范围的扩大。方案焦化配煤智能化核心要解决三个目标,即焦炭质量预测、配煤比例优化和自动配比,我们提出的方案与重介密控场景类似,基于预测大模型能力训练出焦炭质量预测模型,但为了快速获得配煤的最优解,还需要构建求解模型来计算,解决方案如下图所示:21部署到焦化厂边缘节点的焦化配煤业务系统,首先将运营数据、焦炭数据、原料煤、配合煤及工艺参数等结构化采集、处理、整合,然后以脱敏加密的方式上传到中心云的对象存储中,用于训练焦化配煤模型和预测焦炭质量使用,业务系统在生产过程中调用中心的API接口,实时获取焦炭质量预测、配煤比例优化和自动配比结果,以实现配煤的智能化。为获得质量和成本平衡的最优解,要考虑所有配煤场景的制约因素和动态变量的交叉及融合,非常复杂。求解模型将运筹学和AI相结合,可以根据上传数据结合配煤师配比方案高效计算出优化配比,并结合焦化配煤预测模型,生成优化前后两个方案产出焦炭的质量指标,由配煤师确认结果,并决定最终下发生产的配煤方案。成效以矿山大模型为基础建设的智能焦化配煤系统,应用于炼焦厂后,切实达到了降本增效目标,炼焦配比验证时间从1至2天缩短至1至2分钟,平均每吨配合煤成本可节约数元。同时,通过端到端的数据的打通、采集、存储,为焦化厂提供了可追溯、可分析的数据,为原料煤采购、煤种选择和煤质评估提供了数据支撑。此外,该系统还辅助了新配煤师快速上岗,扩展了老配煤师的思路,提升了煤种选择的广度。矿山大模型涉及大量的训练数据,同时也会累积众多场景化模型,这些数据和模型都是矿山企业的重要资产,围绕数据和模型的全生命周期,我们构建了安全保障方案,包括以下方面:数据采集:数据生产和采集环节的数据体量大、种类多、来源杂,需要建立数据分级分类管理制度进行管理,对敏感数据进行识别和脱敏处理。同时对数据中可能存在的含偏样本、伪造样本、对抗样本实现过滤,从而保障数据生产安全。数据传输:数据传输过程,需要采用安全传输协议,并对数据进行加密处理,保障数据传输安全。数据存储:运用高效的加密算法对数据进行加密存储,防止未经授权访问、修改或破坏数据等安全问题。部署密钥管理服务,实现密匙全生命周期安全管理。同时通过集群容灾、数据备份和硬盘保护等多种策略保障数据存储安全。数据访问:采用多因子认证机制,对用户身份进行验证和授权,防止因为数据的恶意非法访问,而导致数据泄露、窃取、滥用等严重后果。数据使用:针对数据使用的安全问题,可采用数据匿名化、数据脱敏等技术,保障数据在授权范围内被访问、处理,防止数据窃取、隐私泄露、损毁等安全问题发生。数据销毁:采用数据关联销毁、软销毁与硬销毁结合的方式,彻底销毁或删除数据,防止数据销毁不彻底、数据内容被恶意恢复等情况。模型加密防窃取:使用对称加密算法对参数文件或推理模型进行加密,使用时直接加载密文模型完成推理和训练。模型动态混淆技术防窃取:使用控制流混淆算法对模型的结构进行改造混淆,使得混淆后的模型3.3 数据安全和模型安全实践22即使被窃取,也不会泄露真实的结构和权重。在模型使用时,只要传入正确的密码或者自定义函数,就能正常使用模型进行推理,且推理结果精度无损。模型防攻击:通过对抗样本监测和对抗训练,提升模型安全性。同时,通过差分隐私训练、抑制隐私保护机制,减少模型隐私泄漏的风险。矿山大模型最佳运营实践24为更多业务应用赋能,仍需要厂商(华为)的专业支持,从技术、产品、方案方面给予专家指导。最后,矿山大模型在建设和运营期间,会沉淀、积累大量数据和模型,底层L1层大模型会不定期升级,L2层众多场景化模型需要持续构建、迭代训练和对外提供服务,需要建立起模型运营机制,以有效运营管理这些资产。为保障矿山大模型运营工作的开展,我们建立了运营组织,由集团公司(山东能源)、运营公司(云鼎科技)、华为共同组成。集团公司负责运营的总体统筹和决策,提供智能化场景支持、业务专家指导和集团政策支持;运营公司作为运营主体,负责运营的日常管理、工作开展、运营场景模型的开发和交付;华为提供辅助运营支撑,参与到运营管理中,为运营公司持续赋能,提供技术专家支撑。组织构成和责任分工如下图:矿山大模型具备巨大潜力,需要通过持续迭代和不断进化去挖掘。这就要求矿山企业必须重视对矿山大模型的持续运营,构建起常态化运营体系。日常,能够根据业务需求,快速生成满足要求的算法模型,促进矿山企业降本增效和安全生产。同时通过智能化管理,实现从事后被动管理向事前主动管理的转型,并不断扩展在众多领域的应用,以提升企业的科技影响力,促进企业数字化转型。矿山大模型在矿山开展运营实践,面临着一系列的挑战。首先,推动矿山大模型在集团(山东能源)下属众多厂矿应用,并与各领域生产经营业务深入结合,需要新建立强有力的运营组织进行保障。其次,矿山企业缺少AI专业人才,伴随矿山大模型深入应用,这需要做好运营规划,评估人才缺口,建立起有效培训机制,同时,也要注重引入外部优秀资源,帮助企业完善智能化能力。然后,随着矿山大模型不断在新场景中应用,4.1 目标与挑战4.2 运营组织体系建设实践图8 矿山大模型运营组织构成和责任分工人工智能管理中心运营中心运维中心构成单位:运营公司(云鼎)职 责:运营中心总体管理运营经理构成单位:运营公司(云鼎)职 责:运维中心总体管理运营经理构成单位:集团(山东能源)/运营公司(云鼎)/华为职 责:整体运作与管理项目管理办公室PMO构成单位:运营公司(云鼎)/华为职 责:技术团队管理和能力建设技术管理办公室TMO业务拓展组构成单位:运营公司(云鼎)职 责:场景拓展、业务协调和满意度管理等持续运营组构成单位:运营公司(云鼎)职 责:解决方案设计、技术支持、模型训练、使用、管理服务监控台构成单位:运营公司(云鼎)职 责:巡检监控、故障受理和跟踪、服务质量管理云服务运维组构成单位:运营公司(云鼎)职 责:平台运维,保障应用安全可靠运行和持续优化网络运维组构成单位:运营公司(云鼎)职 责:网络、安全运维,组网方案输出25矿山大模型并非一成不变,而是持续在进化。首先,L1层大模型是经过华为预训练而来,在系统中体现为开发套件,是训练L2层场景化模型的基础。L1层大模型会不定期迭代升级版本,以持续提升矿山大模型的能力。L1层大模型迭代更新后,需要使用新版开发套件,对已有L2层场景化模型重新训练,并下发使用,因此影响范围较大。然后,L2层场景化模型,不仅受开发套件迭在运营实践中,华为打造了一套矿山大模型专业服务体系,开展辅助运营,帮助集团(山东能源)和运营公司(云鼎科技)构建起矿山大模型的持续运营能力。具体如下图所示:专业服务具体被划分为五个类别:基础运营、产业赋能、人才培养、生态发展和运维。基础运营是矿山大模型运营的基本内容;产业赋能为矿山企业提供专项技术支持,以促进企业利用大模型的能力;人才培养包括认证体系和培训班,旨在培养和识别人才,并赋能集团和运营公司的各层人员;生态发展则是与外部建立连接,以获取外部运营支持,扩大行业视野,实现跨领域合作;运维服务可以由华为提供驻场支持,为矿山大模型的正常运行保驾护航。4.3 专业服务体系建设实践4.4 模型运营管理实践图9 矿山大模型专业服务体系运营体系规划产品运营客户运营伙伴运营安全运营数据运营运营支撑基础运营产业圈层数据圈层院士引入产业峰会展厅策划沙龙/大赛圆桌座谈生态发展人工智能总裁班工业智造专家班人工智能专家班人工智能高研班开发者培训师资培养华为云人工智能工作级开发者认证华为云人工智能入门级开发者认证人才培养客户支持及专项服务运维驻场服务运 维煤炭行业AI咨询设计矿山大模型技术支持订阅L1行业大模型开发L2场景化模型开发AI应用集成支持服务应用/模型迁移支持服务应用/模型开发支持服务一站式AI平台开发支持服务产业赋能(技术支持)运营期26代影响,为了实现边学边用,降低误识别和误告警率,并提高模型精准率,同样需要定期迭代升级。因此各层模型都需要不断迭代更新,这是运营工作的重点,需要建立工作机制进行规范。经过实践,我们建议的工作机制如下表:图10 矿山大模型工作机制规范迭代流程发起知会相关生产单位,反馈本周期内新场景样本、难例样本等数据样本收集各相关生产单位,将数据反馈给运营公司(云鼎),运营公司做好数据收集,版本归档样本标注运营公司(云鼎)将收集的样本数据,按AI场景类别,进行数据标注新增样本收集到训练数据集运营公司(云鼎)需将标注好的数据集,分类汇总,及时归纳到训练数据集启动训练运营公司(云鼎)协调好中心云训练资源后,启动训练,如果是L1大模型迭代,还需要利用新版本的开发套件全部重新训练L2层场景化模型模型评估运营公司(云鼎)需对新版本大模型进行技术评估,如果是L1大模型迭代,需验证基于此版本训练的L2模型是否能覆盖新场景、新难例数据版本归档运营公司(云鼎)对当前大模型版本修复情况进行说明,并做好归档推广使用运营公司(云鼎)应在后续L2层场景化模型训练时,据实按需选择最新版本的开发套件进行训练阶 段建议工作矿山大模型最佳商业实践28矿山大模型帮助企业智能化转型升级是一个系统工程,在商业模式上,需要符合参与各方的诉求,建立长效合作模式。以在山东能源的实践为例,山东能源、云鼎科技、华为作为实践过程中的主要参与方,梳理了各自核心诉求,清晰了各自定位,明确了各自角色职责,制定建设规划与预算,分阶段建设,对内持续拓深、拓宽智能化场景,加速智能化建设,对外形成合力,通过能力外溢,形成行业影响力,助力行业开展矿山大模型实践。矿山企业(山东能源)的定位山东能源是矿山大模型方案的投资方,其对煤炭行业的需求和痛点是实践开展的前提,同时也是实践成功的受益者。山东能源高层领导全力支持5.1 拓展创新利益联结机制,协同共生、合作共赢矿山企业(山东能源)应用盘古大模型,为数字化、智能化转型提速增效华为盘古大模型平台、算力、技术提供商第三方技术公司(云鼎科技)盘古大模型煤炭行业解决方案和服务提供商山东能源诉求深化机械化换人、自动化减人,建设一批智能化示范煤矿持续推动智能化建设提档升级云鼎科技诉求打造一流的能源行业数字化解决方案提供商成为煤炭行业的“宝信”华为诉求盘古大模型致力于深耕行业,打造煤炭、金融、政务、制造、气象、铁路等领域行业大模型和能力集,将行业知识know-how与大模型能力相结合,重塑千行万业,成为各组织、企业、个人的专家助手图11 拓展创新利益联结机制了矿山大模型的实践,关注矿山大模型的价值、商业模式和风险控制,明确将矿山大模型作为企业智能化升级转型重点建设方向;各级领导积极推动,实地考察大模型成功案例,论证技术大方29大模型的大参数、大数据、大算力特性,注定矿山大模型高投入的特性,针对行业客户特点,华为提供了三种矿山大模型落地途径:途径一:大型矿业集团企业“自己做大厨”大型矿业集团企业(山东能源)拥有庞大的数据资源,面临各类严格的行业监管,对数据安全有着较高的要求,建设私有化部署的矿山大模型可以充分利用企业数据,沉淀行业经验,提升自身智能化能力,从而在市场竞争中占据优势地位。矿山大模型在山东能源的实践过程中,山东能源在中心全套投建了华为云Stack云底座、矿山一站式AI平台,本地化部署了L1层矿山大模型,由第三方技术公司(云鼎科技)、华为共同面向业务领域建设L1场景工作流和定制行业开发套件,并训练生成L2层场景化模型,分发、部署推理模型到矿山端侧,辅助实际生产。途径二:大型矿业集团企业自加工“预制菜”不同于途径一,不支持矿山企业自主开发L1场景工作流,第三方技术公司采用华为预制的L1场景工作流和通用开发套件,帮助矿山企业完成L2层场景化模型的训练、开发,帮助矿山企业完成L2层场景化模型的训练、开发,部署推理模型到矿山端侧,辅助实际生产。途径三:中小型矿山企业“下饭馆”考虑中小型矿山企业难以承担途径一、途径二的高投入,华为构建了基于公有云运营的矿山大模型商业模式,构建煤炭行业AI算法“1 N统一大市场”,在华为公有云部署大模型基座版本,中向可持续,梳理痛点需求,选取典型落地场景;山东能源积极的态度和合作精神,为实践的成功提供了有力保障,通过实践也为煤炭行业提供新的解决方案和发展方向。华为的定位华为是矿山大模型平台的提供商,提供超大规模人工智能模型训练平台和先进的基础设施,专注矿山大模型的产品研发、升级,提供大规模算力,完成海量数据的预训练,持续开展前沿技术探索和研究,保持大模型平台的先进性。华为提供算力平台、云服务、开发套件和专业服务等完整的AI生产链,积极寻求与深耕行业的服务商合作,将行业知识know-how与大模型能力相结合,通过合作共赢,为行业客户创造价值,携手做大、做强行业市场。第三方技术公司(云鼎科技)的定位云鼎科技是矿山大模型实践的服务提供商,在实践中,云鼎科技充分发挥自己对行业深刻理解的优势,帮助华为开发矿山定制化的解决方案,并提供了专业的技术支持,使山东能源能够有效地应用矿山大模型。云鼎科技依靠华为在人工智能、大模型上的平台赋能、技术赋能,专注于打造大模型L2层场景化方案,不断挖掘煤炭行业需求,帮助山东能源用好、用深大模型,帮助华为识别实践中有价值的需求,促进盘古大模型持续的技术创新。同时在矿山大模型的实践过程中,云鼎科技以盘古大模型作为自身产品智能化的基座,孵化行业通用解决方案,深化与华为的伙伴关系,共同推进行业市场的拓展,努力向打造一流的能源行业数字化解决方案提供商迈进。5.2 面向煤炭行业构建三种矿山大模型落地途径30小型矿山企业根据自身需求,在公有云上购买训练、推理服务,订阅模型,集成到自身的智能化应用中去,完成企业智能化建设。矿山大模型的成功实践,需要矿山企业从战略、组织上做好转型准备,通过三步标准动作完成商业落地。1.组织洞察矿山大模型的商业实践是为了实现煤炭行业的数字化和智能化转型,这需要矿山企业在战略层面同样以此为目标,把智能化转型作为提高生产效率、降低成本、提升安全性的途径。以山东能源为例,山东能源构建的“三项机制、四大支撑、五个着力”是矿山大模型成功实践的基本保障。矿山大模型的实践,因为其创新性,以及对企业工作方式的深刻改变,势必面临众多挑战,需要客户高层充分理解和支持,与华为达成战略合作5.3 实现战略、组织匹配,标准动作推动落地意愿或签署战略合作协议,做好中长期规划、预算,高层参与推动,这是实践成功的重要保障。2.专项调研、公有云PoC验证大模型全面建设前,企业可以选择拨出预算开启PoC验证,验证方式可以选择在公有云开展,期间全面梳理企业人工智能建设的现状、诉求、痛点及需求,内部达成共识,明确PoC的范围、验收标准。矿山大模型在山东能源的实践中,联合团队做了充分的调研,确定了联合创新课题方向,通过PoC验证了矿山大模型小样本能力、泛化能力、样本筛选能力和新场景算法精度等。3.规划设计、集团统建大模型项目落地前,企业要通盘考虑大模型在企业中的落地、布局,做好规划预算。矿山大模型在山东能源的实践中,确认了大模型的价值后,确立了集团统建,混合云部署,二级公司、矿山边缘推理应用,云边协同的建设方向。联合华为、云鼎,完成了战略对齐,梳理了大模型的业务架构、信息系统架构、技术架构及演进思路,然后根据需求给出详细部署方案,通过了三年的预算规划。矿山大模型为“AI for Industries”提供最佳实践指导32台统一纳管,填补大模型的空白领域;二是可以与大模型融合,如预测大模型在模型融合阶段,可以加入已有的小模型算法;三是可以通过大模型训练小模型,提升小模型的能力。矿山大模型实践表明,虽然建设阶段投入了大量资源,但是建成后,仍需要通过持续运营,不断发现和解决模型存在的问题,不断优化和改进模型,推进“边用边学”,持续沉淀集团经验知识。同时,只有通过持续运营,才能将大模型与企业的各业务板块进行深度融合,实现大模型在各业务板块广泛应用。只有在广泛应用的基础上,才能充分发挥大模型的价值和潜力,才能推动企业的数字化、智能化转型的加速实现。华为云打造的盘古大模型,是为行业而生,这里的行业是千行万业,这决定了华为在深耕行业过程中,重心是为行业提供大模型的平台、算力、技术,寻求与深谙行业的伙伴合作,通过对伙伴进行平台、技术赋能,帮助伙伴构筑基于盘古大模型的方案能力、产品能力、运营能力,借助伙伴的力量,实现在行业场景下的精耕细作,为行业客户提供专业服务,助力达成企业智能化战略目标。大模型具备的泛化性能力,使其具备在不同场景下的通用性。矿山大模型通过实践,证明基于一套大模型底层框架,可以帮助集团企业实现经验、模型在内部的共享、共用。同时,通过在中心平台为二级公司开设“租户”账号,二级公司可以自行开展模型训练,通过推理模型下发,实现二级公司边端推理,这又保持了二级公司的自治性。大模型初始建设投入大,其中训练成本的占比最大,而训练平台十分适合中心化建设。集团建设统一的大模型底层框架,在中心部署大模型训练的算力平台,二级公司及产线仅需在边端部署推理机,无需独立承担数据、算法、算力的高门槛,专注于场景的智能化建设,从而实现企业智慧化建设的集约化。大模型有多种形态,包括自然语言、视觉、预测、科学计算和多模态等基础大模型,每种形态适应不同业务领域,矿山大模型实践证明,根据业务适配不同的基础大模型十分重要,需要充分考虑业务场景特点、训练数据特性、模型扩展需求等多方面因素。矿山大模型实践过程中发现,企业在AI建设方面已经累积了众多成果,这些小模型的AI成果在大模型出现后,并非是要被全面替代,而是可以继续发挥自己的价值,一是可以由一站式AI开发平6.1 “大一统”模式构筑企业智能化基座6.2 模型与业务适配,大小模型协同发展6.3 通过持续运营,释放大模型的价值与潜力6.4 开放思维合作共赢,赋能伙伴成就客户33版权所有 华为技术有限公司2023。保留一切权利。非经华为技术有限公司书面同意,任何单位和个人不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播。免责声明商标声明 、华为、是华为技术有限公司商标或者注册商标。在本手册中以及本手册描述的产品中,出现的其它商标,产品名称,服务名称以及公司名称,由其各自的所有人拥有。本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在本文档基础上做出的任何行为承担责任。华为可能不经通知修改上述信息,恕不另行通知。扫码了解更多扫码获取电子版

    浏览量0人已浏览 发布时间2023-12-11 35页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • AI终端行业专题:从大模型到智能体端侧算力助力AI规模化应用-231207(28页).pdf

    请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告|20232023年年1212月月0707日日超配超配AIAI 终端行业专题终端行业专题从大模型到智能体,端侧算力助力从大模型到智能.

    浏览量0人已浏览 发布时间2023-12-11 28页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 人工智能行业:AI下半场应用落地赋能百业-231204(82页).pdf

     本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之.

    浏览量0人已浏览 发布时间2023-12-11 82页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 人工智能行业专题研究:LPO光模块-231130(31页).pdf

    西南证券研究发展中心西南证券研究发展中心 通信研究团队通信研究团队 20232023年年1111月月 人工智能专题研究 LPO光模块 1 2 4 核心要点 算力成为AI时代主引擎,高速光模块持续放量。. 

    浏览量0人已浏览 发布时间2023-12-11 31页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 商汤科技&中国信通院:2023大模型可信赖研究报告(48页).pdf

    大模型大模型可信赖研究报告可信赖研究报告(2 2023023 年)年)上海商汤智能科技有限公司中国信息通信研究院云计算与大数据研究所2023 年 12 月版版 权权 声声 明明本报告版权属于上海商汤智能科技有限公司与中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:上海商汤智能科技有限公司和中国信息通信研究院”。违反上述声明者,编者将追究其相关法律责任。编编 制制 说说 明明本研究报告自 2023 年 09 月启动编制,分为前期研究、框架设计、文稿起草、征求意见和修改完善五个阶段,针对大模型可信赖问题面向大模型的技术提供方、服务应用方开展了深度访谈和调研等工作。本报告由上海商汤智能科技有限公司和中国信息通信研究院云计算与大数据研究所共同撰写,撰写过程得到了人工智能关键技术和应用评测工业和信息化部重点实验室的大力支持。本报告主要贡献单位(排名不分先后)包括:蚂蚁科技集团股份有限公司、阿里巴巴集团、阿里云计算有限公司、北京百度网讯科技有限公司。前前言言近年来,深度学习技术取得了突破性进展,大模型作为其中的典型代表,已经在自然语言处理、图像处理、多模态应用等领域取得了令人瞩目的成果,为经济社会发展带来新机遇。但随着大模型应用规模扩大、应用场景拓展,其风险问题也逐渐凸显,如安全漏洞、隐私泄露、易受攻击、偏见歧视、侵权滥用等,如何有效防范治理大模型风险、推动大模型可信落地引起社会各界高度关注。全球各界对大模型的可信赖问题展开了广泛的探索研究。在国际层面,政府间国际组织从人工智能伦理准则等基本共识出发,逐步深入推动大模型政策法规监管和产业治理实践落地。在国家层面,各主要经济体正加快推进大模型治理监管相关政策制定步伐。在产业层面,各行业机构与科技企业积极关注大模型风险,通过行业自律、技术及管理等具体实践措施推进大模型可信赖落地。本报告重点针对产业界大模型可信赖实践开展研究。首先,重点梳理了大模型发展现状,点明大模型的风险来源。其次,从大模型涉及的关键要素和可信维度出发,全面分析大模型面临的各项风险并进行整理归纳,形成大模型风险全景视图。再次,针对大模型在框架、数据、模型和生成内容等层面的风险,系统梳理了产业界保障大模型可信赖的关键举措。最后,本报告指出了当前大模型可信赖发展面临的问题及挑战,从多个维度提出了参考建议。大模型与行业融合正不断加深,风险问题仍在不断暴露,相应的可信赖实践也在持续涌现。本研究报告对大模型可信赖实践的认识和理解还有待加强,报告中如有不足之处,还请各方专家读者不吝指正。目目录录一、大模型发展现状.1(一)大模型驱动新一轮科技革命.1(二)大模型加速赋能产业应用.1(三)大模型可信赖备受关注.3二、大模型风险分析.7(一)大模型风险视图.7(二)框架层面,软件漏洞是现有深度学习框架短板.8(三)数据层面,隐私风险与有害数据导致模型不可靠.9(四)模型层面,提示词攻击诱发模型脆弱性风险.11(五)生成内容层面,安全风险和不可追溯是重点难题.14三、大模型可信赖实践.17(一)框架层面,可信框架与执行环境保障运行安全.17(二)数据层面,安全检测及处理助力大模型可靠.19(三)模型层面,全流程防控增强大模型可信.21(四)生成内容层面,过滤与标识实现内容可控可问责.25四、总结与展望.27(一)总结.27(二)展望.28附录.31可信赖实践案例 1:商汤科技 SenseTrust 可信 AI基础设施.31可信赖实践案例 2:蚂蚁集团蚁鉴 2.0-AI安全检测平台.35可信赖实践案例 3:阿里巴巴生成式人工智能发展与治理探索.37可信赖实践案例 4:百度大模型安全解决方案.40图图 目目 录录图 1 2023年企业大模型可信赖实践汇总.7图 2 大模型可信赖实践方案.8图 3 微软“Bing Chat”提示泄露事件.12图 4 大模型健壮性风险.13图 5 大模型预训练阶段的长尾问题.14图 6 数据安全沙箱技术.20图 7 商汤伦理风险分类分级管理评估.22图 8 思维链技术.24图 9 大模型“机器 人工”内容审核机制.27图 10 数字水印技术流程图.27图 11“SenseTrust”商汤可信 AI基础设施.31图 12 蚁鉴 2.0-AI安全检测平台.35图 13 阿里巴巴生成式 AI治理实践及探索概览.37图 14 百度大模型安全解决方案.40图 15 百度大模型内容安全与评测体系.411一、一、大模型发展现状大模型发展现状(一)(一)大模型驱动新一轮科技革命大模型驱动新一轮科技革命近十余年间,人工智能技术泛化能力、创新能力及应用效能不断提升,成为了推动经济及社会发展的重要引擎。2015 年前后,人脸识别算法达到接近人眼的识别能力,被视为人工智能技术工业级应用水平的代表性事件。2022 年,以 ChatGPT 为代表的大模型为用户带来了全新交互体验。通过其在内容生成、文本转化和逻辑推理等任务下的高效、易操作表现,大模型正逐步成为当前主流应用程序的重要组成部分。随着数据、算法和算力的不断突破,大模型将不断优化演进。在数据方面,海量、多模态数据将持续应用于大模型预训练,提升大模型的知识、理解和推理能力。在算法方面,将转向跨知识领域、跨语种、多模态特征的海量知识挖掘及执行等复杂任务的处理。在算力方面,智算中心及算力网络等基础设施加速建设,为大模型的开发和服务提供充足性能支持。到 2026 年,Gartner 预测超过 80%的企业将使用生成式人工智能的 API 或模型,或在生产环境中部署支持大模型应用。以通用智能体、具身智能和类脑智能等为代表的大模型应用可能会带来新一轮的科技革命和产业变革。(二)(二)大模型加速赋能产业应用大模型加速赋能产业应用“大模型 ”模式加速应用赋能,助推人工智能产业升级。当前,人工智能已经成为全球新兴技术领域的核心竞争力,各国政府加快2研发、部署人工智能技术,推动产业高速发展。据统计1,我国人工智能核心产业规模已达 5000 亿美元,企业数量超过 4300 家。2023年始,我国大模型市场火爆,百度、商汤科技、科大讯飞、阿里巴巴等单位先后发布自研大模型,并于 2023 年下半年逐步面向用户提供服务。大模型广泛应用于能源、金融、教育、医疗、交通、政务等领域,主要应用场景聚焦数据分析、客服、营销、办公等。其中,以能源、金融为首的两大行业结合行业数据建设基础,积极布局大模型应用落地,加速行业智能化转型。大模型技术生态逐步完善,大幅降低行业应用门槛。一方面,开源大模型加速大模型应用渗透,打通预训练、微调、部署、评测等开发阶段,进一步降低大模型研发应用成本。2023 年 7 月,上海人工智能实验室正式开源了书生浦语大模型 70 亿参数的轻量级版本 InternLM-7B,并推出首个面向大模型研发与应用的全链条开源体系,同时提供免费商用,受到了学术和产业界的广泛关注。同年 7月,OpenAI 向用户正式开放了代码解析插件 Code Interpreter,使得ChatGPT 和 GPT-4 可以根据用户问题来编写和执行代码,从而拓展了模型在数据分析、复杂计算与功能调用方面的能力。另一方面,大模型正在逐步向智能体方向进化,从理解生成迈向复杂任务处理能力。通过将大模型与动作执行器结合,智能体可以在接受用户输入后,通过大模型进行规划和决策,并对第三方插件或工具进行调用,从而实现复杂的任务处理能力,进一步降低了应用门槛。1https:/ 年 11月,联合国教科文组织通过了人工智能伦理问题建议书,旨在促使人工智能系统造福人类、社会、环境和生态系统、防止危害,同时促进和平利用人工智能系统。2023 年 6 月,联合国秘书长安东尼奥古特雷斯明确提出计划在今年年底建立一个国际人工智能监管机构,定期审查人工智能治理工作。2023 年 11月,在英国人工智能安全峰会期间,包括中国、美国、英国等 28个国家和欧盟共同签署了布莱切利宣言,确保人工智能以人为本、值得信赖并负责任,通过国际伦理和其他相关倡议促进合作,应用人工智能带来的广泛风险。同年 11月,世界互联网大会发布了发展负责任的生成式人工智能研究报告及共识文件,就发展负责任的生成式人工智能提出十条共识。在标准4方面,ISO/IEC JTC1/SC42 人工智能分委会正在开展人工智能可信赖国际标准研制工作,为指导利益相关方研发、使用可信赖人工智能相关技术和系统提供参考,主要标准包括 ISO/IEC TR 24028:2020人工智能的可信赖概述、ISO/IEC 38507:2022组织使用人工智能的治理影响等。全球主要经济体加快推进大模型治理和监管相关政策制定步伐。中国在人工智能监管方面主张“包容审慎的分类分级监管”原则,国家网信办已于 2023 年 7 月 10 日颁布了首部面向大模型监管的生成式人工智能服务管理暂行办法,后续将进一步针对生成式人工智能技术特点及其在有关行业和领域的服务应用,制定相应的分类分级监管规则或指引。2023 年 10 月 8 日,中国科技部发布科技伦理审查办法(试行),提出从事人工智能科技活动的单位,研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会,并建立伦理高风险科技活动的清单制度,对可能产生较大伦理风险挑战的新兴科技活动实施清单管理。2023 年 10 月 18 日,国家网信办发布全球人工智能治理倡议,提出发展人工智能应坚持相互尊重、平等互利的原则,各国无论大小、强弱,无论社会制度如何,都有平等发展和利用人工智能的权利。在标准方面,中国信息通信研究院已经启动大规模预训练模型技术和应用评估方法系列标准研制的工作,全面覆盖大模型的开发、部署和应用环节,其中第四部分可信要求是目前国内首项针对大模型领域的可信赖标准。与此同时,全国信息安全标准化技术委员会已经启动包括5信息安全技术 生成式人工智能服务安全基本要求在内的三项生成式人工智能安全国家标准编制工作,以支撑大模型的监管落地。欧盟现行人工智能立法仍主要集中在传统人工智能,但已经开始关注通用人工智能以及生成式人工智能的问题,主张尊重人格尊严、个人自由和保护数据及隐私安全。2023 年 6 月 14 日,欧洲议会投票通过人工智能法案,该法案基于风险等级将人工智能系统分成四类,并制定了不同程度的监管要求。该法案提出生成式人工智能系统通常属于有限风险的人工智能系统,需遵守最低限度的透明度义务,但可能会因其适用的领域和生成的内容而落入高风险人工智能系统的范畴,并明确了通用人工智能、生成式人工智能以及基础模型提供者等不同主体的合规义务。为配合法案落地,欧洲电信标准化协会(ETSI)正在计划将人工智能安全工作组重组为人工智能安全技术委员会,进一步加强法案配套标准的研制工作。美国主张监管需以促进人工智能负责任的创新为目标,应通过监管和非监管措施减少人工智能开发和部署的不必要障碍,同时保护美国的技术、经济和国家安全、公民自由、人权、法治、隐私和尊重知识产权等核心价值观。2023 年 5 月 13 日,美国白宫总统科技顾问委员会(PCAST)成立生成式人工智能工作组,以帮助评估关键机遇和风险,并就如何更好地确保这些技术的开发和部署尽可能公平、负责任和安全提供意见。2023 年 10 月 30 日,美国总统拜登签署人工智能行政令,旨在加强对人工智能潜在风险的监管,发展安全、可靠和值得信赖的人工智能,促进人工智能创新,确保美国6在人工智能领域继续领跑全球。同时行政令在标准方面,提出美国国家标准与技术研究所(NIST)将制定严格的人工智能安全测试标准,人工智能系统在公开发布前需根据这些标准进行广泛的测试以确保安全。业界人士积极呼吁加强人工智能监管,企业加速大模型可信赖技术落地。2023 年 3 月,特斯拉首席执行官埃隆马斯克、苹果联合创始人史蒂夫沃兹尼亚克以及其他上千名 AI 研究人员签署公开信,呼吁暂停研究比 GPT-4 更先进的 AI 技术,提醒更多的用户关注大模型的潜在危险。由微软等企业发起的商业软件联盟(BSA)公开发文,呼吁在国家隐私立法基础上制定管理人工智能使用的规则。2023 年 7 月 21 日,亚马逊、Anthropic、谷歌、Inflection、Meta、微软和 OpenAI 七家企业自愿向美国政府做出围绕安全、保障和信任等原则的自愿性承诺,主要内容包括开发部署面向生成内容的数字水印技术,公开披露模型或系统的功能、局限性和适用领域,以及优先研究人工智能系统带来的社会风险等。目前,微软、谷歌、OpenAI、百度、商汤科技、蚂蚁等企业都发布了面向大模型的可信赖工具或平台,例如商汤科技的可信 AI 基础设施平台 SenseTrust 包含完整覆盖数据、模型、应用治理环节的可信 AI 治理工具,助力打造可信赖的大模型服务。7图 1 2023 年企业大模型可信赖实践汇总大模型治理和监管已经成为全球国际组织和主要经济体的首要目标,各国的监管机构正在尝试通过法律法规以及标准文件对大模型进行治理和监管,行业各界也积极推动人工智能治理工作。但与传统人工智能的风险相比,大模型的风险来源涉及框架、数据、模型、生成内容等多种因素,因此更加具有不确定性,亟需通过技术、管理和监管等手段进行协同治理。二、二、大模型风险分析大模型风险分析(一)(一)大模型风险视图大模型风险视图大模型快速部署和广泛应用的同时,也诱发了更多的风险隐患:一是框架风险,深度学习框架面临物理、网络层面的恶意攻击,导致大模型所依赖的基础设施稳定性和安全性难以保障;二是数据风险,采集及处理海量、多模态的训练数据可能会引入更多的有害数据,容易引发个人隐私泄露、知识产权侵权、数据偏见等问题;三是模型风险,现阶段,大模型抗干扰能力相对较弱,存在遭受恶意攻击、决策偏见以及模型运营风险等问题;四是生成内容风险,大模型存在“幻觉”现象,答非所问、违规不良信息生成等问题成为大模型最受关注的风险。大模型高效、便捷的内容生成能力大幅降8低了诈骗、钓鱼邮件等恶意行为的门槛,而针对生成内容的追溯保障机制目前尚未完善,使得恶意内容生成的监管更加困难。本报告以可靠性、健壮性、安全性、公平性、可问责、可解释等大模型可信赖目标为重点方向,从框架、数据、模型、生成内容等大模型风险要素角度分析,并结合数据采集、模型预训练、模型微调、部署运行、优化更新等大模型全生命周期治理理念,提出大模型可信赖实践方案,全面提升大模型的可信赖表现。图 2 大模型可信赖实践方案(二)(二)框架层面,软件漏洞是现有深度学习框架短板框架层面,软件漏洞是现有深度学习框架短板大模型领域的基础设施风险主要包括深度学习框架和开发套件等软件层面的漏洞,以及运行环境的不稳定性。可能的风险涵盖物理攻击、网络攻击、运行环境篡改、运维故障等多个方面。在大模型训练阶段,深度学习框架、开发组件以及第三方依赖库存在潜在漏洞,增加了受到外部恶意攻击的风险。在这个阶段,9攻击者有可能通过恶意程序入侵等手段,窃取模型、训练数据以及训练脚本等核心资产,从而导致大模型的训练数据和模型参数文件的泄露。早在 2020 年 9 月,TensorFlow 就被曝出多项安全漏洞,其中危险等级严重的漏洞 2 个,高危漏洞 8 个,中危漏洞 12 个,低危漏洞 2 个。这些漏洞可能导致任意代码执行、信息泄露以及拒绝服务等。深度学习框架的运行环境容错性低,核心资产保护面临挑战。大模型的运行环境不稳定性风险主要来自大模型服务的运维以及模型迭代更新时稳健性较差所导致的服务等级协议(SLA)服务水平不足,从而可能影响大模型服务可用性。在训练和推理过程中,由于设备、网络或通信故障,可能导致模型训练或推理任务中断。此外,大模型的运行环境同样面临安全性风险。一方面,缺乏基础设施与其他系统的严格网络隔离可能导致来自内部其他系统的横向渗透风险。如果攻击者成功侵入基础设施系统并注入后门、木马等恶意程序,整个系统将面临严重的安全风险。另一方面,大模型的运行环境缺乏面向训练数据、模型和网络通信的安全防护措施,使得训练数据、模型参数文件等核心资产容易受到泄露、篡改和窃取等威胁。(三)(三)数据层面,隐私风险与有害数据导致模型不可靠数据层面,隐私风险与有害数据导致模型不可靠大模型的训练依赖于大规模、多样化且高质量的数据集。这些训练数据通常涵盖各类网页、公共语料库、社交媒体、书籍、期刊等公开数据来源,其中未经筛选和审核的数据成为大模型不可忽视10的潜在风险。因此,在大模型的全新范式下,数据来源不可信、数据违规处理、投毒攻击、数据内容有害、数据偏见、数据样本不足正逐步成为大模型在数据方面的主要风险。大模型训练数据的采集、预处理等数据处理活动可能涉及数据来源管理困难、隐私泄露等相关风险。在数据来源管理方面,主要问题集中在数据来源的不可靠性和不可追溯性。大模型训练数据通常涵盖图像、视频、文本、音频等多种数据类型,涉及自采集、商业采购、公开数据集等多种渠道。然而,部分公开数据集的来源缺乏充分的验证和审核,导致预训练数据集中存在来源不清、被恶意投毒的数据。大量训练数据采集的同时难以避免带毒数据的引入,增加了数据来源管理的难度。在隐私泄露方面,数据采集阶段可能会由于采集方式、采集工具的不合规,导致未获取个人信息授权,使得预训练数据集含有未授权个人信息。在数据预处理阶段,由于数据脱敏机制的不完善,个人信息未完全去标识化,致使预训练模型学习、理解到含有个人信息的知识,其生成内容可能会含有个人信息或关联个人信息,存在个人信息泄露的风险。有害内容、低质量数据导致模型生成违规内容。大模型通过学习海量数据中的知识、理解常识并生成内容,数据中存在有害内容和数据偏见等质量问题可能导致模型生成内容存在违规信息或决策偏见等问题。11在数据内容有害性风险方面,模型预训练阶段使用大量无监督学习预训练数据集,如果其中存在一定量的有害内容,将影响预训练模型的理解和生成能力。同时,在模型微调阶段,微调数据若包含不准确、虚假信息等内容,可能导致模型无法正确对下游任务模型进行价值对齐。数据偏见风险主要源自大模型的预训练和微调阶段。一方面,模型预训练所使用的数据集样本分布可能缺乏均衡性,包括性别、民族、宗教、教育等相关样本比例关系不当。另一方面,模型微调阶段可能由于人工标注员的主观意识形态偏差,引入对微调数据的构建和价值排序的偏见,从而导致微调数据存在价值观上的偏见歧视问题。(四)(四)模型层面,提示词攻击诱发模型脆弱性风险模型层面,提示词攻击诱发模型脆弱性风险大模型在模型开发和运营阶段都会面临多种模型内外部的风险,主要包括提示注入攻击等安全性问题、健壮性不足、偏见歧视以及模型运营风险等问题。提示注入攻击成为大模型安全性首要风险。提示注入攻击是一类以输入提示词作为攻击手段的恶意攻击。攻击者精心构造和设计特定的提示词,达到绕过大模型过滤策略的目的。根据窃取目标和攻击手段不同,可将提示注入攻击细分为以下三类。一是目标劫持,攻击者通过输入恶意示例的方式劫持模型的输出结果,并要求模型输出与其原输出内容不同的特定结果,从而恶意篡改生成内容。二是提示泄露,攻击者通过一些诱导性的上下文12提示,窃取大模型预制的初始化提示内容,包括模型应该遵循的规则和特定敏感话题。攻击者可以通过该类攻击手段了解大模型的行为模式或者过滤策略。三是越狱攻击,攻击者通过模拟对话、角色扮演等虚构场景和行为方式,设定一系列特定的问答规则,尝试分散大模型的注意力,规避过滤策略,生成带有恶意目的的特定输出结果。除直接对大模型的输入内容进行提示注入攻击,攻击者也可以通过文件中内嵌恶意代码等形式间接进行提示注入攻击。以微软New Bing Chat 为代表的大模型,其结合检索和 API 调用功能的新组件引入了间接提示注入的风险。攻击者有可能通过在提示词中嵌入含有恶意代码或有害内容的网页链接或文件等手段,试图规避输入和输出端的过滤机制,以生成特定的恶意内容。图 3 微软“Bing Chat”提示泄露事件13大模型在健壮性和泛化性方面仍然面临挑战。与传统的小参数量机器学习模型相比,虽然大模型通过使用亿级参数的训练数据进行无监督学习表现出对抗样本攻击和外部干扰的相对强健性,但仍存在健壮性和泛化性不足的潜在风险。例如,在大模型的输入提示词中引入一定程度的错别字符或文字、逻辑错误的词句以及段落等内容,会导致大模型理解偏差以及生成内容错误。图 4 大模型健壮性风险大模型的决策偏见歧视问题愈发突出。大模型的算法决策公平性是可信赖能力的重要指标,尤其在金融、医疗、教育等特殊行业中,这一指标对于处理关键问题的理解和生成任务至关重要。首先,预训练数据自带的偏见歧视会导致预训练模型进一步放大偏见问题,长尾问题仍然是潜在偏见之一。其次,大模型本身可能根据数据样本的分布和属性,进一步提升对某类样本的敏感度,从而间接放大对这些偏见性知识的感知,进而导致更为严重的歧视性内容生成。14图 5 大模型预训练阶段的长尾问题大模型运营面临多方面挑战,API 安全问题至关重要。当前,模型即服务(MaaS)等高效而敏捷的部署方式正逐步成为现有大模型系统与服务的主流形式。一方面,在大模型服务实际运营环节,存在诸多服务运营相关的风险,包括但不限于批量注册、盗号、撞库等账号安全性问题,以及恶意使用、机器作弊、审核资源浪费等运营安全性问题。以 ChatGPT 为例,该服务推出仅两个月,注册用户已超过 1 亿。随着用户规模不断增长,各类违规账号也在不断活跃。于是自 2023 年 4 月起,OpenAI大规模封禁各类违规注册账号。另一方面,大模型主要通过 API 提供对外服务。在服务运营阶段,攻击者可能通过注入漏洞利用攻击、未授权漏洞利用攻击、越权访问漏洞利用攻击、代码设计漏洞攻击以及第三方组件漏洞利用攻击等方法,引发 API崩溃、数据泄露以及拒绝服务等严重问题。例如,研究人员发现通过提示词混合 Python 代码的模板函数可以利用大模型应用框架 LangChain的接口远程执行任意 Python代码。(五)(五)生成内容层面,安全风险和不可追溯是重点难题生成内容层面,安全风险和不可追溯是重点难题当前,大模型的生成内容中仍然存在一定程度的内容安全和不可追溯风险,主要包括虚假有害内容、上下文逻辑性错误、问答与15提问的相关性较差、与社会主流价值观冲突等风险,进一步降低了以大模型为生产工具的恶意行为的门槛,对个人、组织以及社会的稳定发展造成严重影响。其主要风险包括以下几方面:生成内容“幻觉”现象频发。大模型对输入的问题生成不真实、与现实世界常识相违背的虚假有害信息的现象,被称为“幻觉”问题。大模型常见的幻觉主要有三类:第一是和用户输入冲突的幻觉,大模型的理解能力极大依赖于训练数据集的规模、种类、样本的丰富度,理解能力的不足将会导致大模型无法准确生成用户输入的问题答案,影响大模型的生成内容可信度。第二是和已生成的上下文冲突的幻觉,尽管目前大模型具备广泛的世界知识,但其仍是一个黑盒、逻辑推理不够精确的系统。大模型通过理解输入内容的 token,预测并逐字逐句生成输出结果,其生成的内容虽符合训练数据中语句的表达连贯性,却可能缺乏合理、清晰的逻辑性,与上下文内容冲突或生成重复性内容。第三是和事实知识冲突的幻觉,这一类幻觉的研究难度更大,对用户实际使用体验的干扰也最大。例如,大模型在生成医疗建议时可能会捏造错误的药品剂量,误导缺少专业医学知识的用户,直接危及用户健康。生成内容与社会主流价值观冲突。大模型的生成内容的安全性问题至关重要,如果大模型生成民族仇视、偏见和歧视、政治和军事敏感、淫秽色情以及恐怖暴力等恶意内容,会对传统道德和社会核心价值观造成冲击,对个人、组织和社会都具有极其严重的负面影响。16生成内容欠缺合理、科学的推理过程。目前大模型的可解释性问题仍然研究学者重点关注的方向,针对大模型的可解释性研究主要分为事前解释和事后解释,其中事前解释是通过研究不同特征对预测结果的影响程度进行解释说明,事后解释更加侧重利用规则以及可解释性强的算法评估原有大模型的可解释性。然而,大模型所使用的训练数据和算法结构仍然是黑盒,难以完全解释目前大模型的内在机理和决策依据。生成内容不易追溯和保护。大模型由于具备通过学习海量的世界知识生成内容的能力,因此在训练数据和生成内容方面会产生一系列的版权归属和保护难题。目前大模型服务通常会采用数字水印技术在生成内容中嵌入不可见、具备可追溯能力的标识,该类标识一般内含用户 ID 信息、大模型服务信息以及时间戳等信息,用于追溯不良违规生成内容,但目前仍然面临生成内容被二次创作、剪辑和裁切之后,标识内容可能会无法读取等问题,导致无法正确追溯到原始的大模型服务,难以明确界定责任归属。在知识产权的溯源方面,由于现有大模型的学习机制,其生成的内容有可能与原始的训练数据具有一定相似度,难以界定生成的内容是否对原始作品产生侵权行为。生成内容误用滥用现象对个人、团体以及社会造成不良影响。由于目前仍然缺乏对于使用大模型生成能力的有效监督手段,部分用户在未充分进行培训和教育的前提下,可能将隐私信息误输入到大模型中,导致个人信息泄露。例如,2023 年 3 月,三星半导体部17门员工因三起利用 ChatGPT处理办公文件和修复程序源代码等事件,导致公司机密泄露。部分恶意使用者利用 FraudGPT 等恶意大模型作为违法活动的工具生成诈骗短信和钓鱼邮件,通过代码生成工具开发恶意程序、脚本等,窃取他人敏感个人信息。三、三、大模型可信赖实践大模型可信赖实践(一)(一)框架层面,可信框架与执行环境保障运行安全框架层面,可信框架与执行环境保障运行安全针对深度学习框架面临的软件漏洞风险与运行环境不可靠问题,一方面通过采用漏洞管理、恶意程序检测以及访问控制等技术措施,降低深度学习框架受恶意访问和攻击的可能性,另一方面通过构建AI核心资产保护机制,保障深度学习框架运行环境的安全可信。1.可信赖框架降低恶意访问与攻击风险可信赖框架的实现需要从框架自身管理层面、框架外的平台层面以及用户管理层面进行安全保障。安全漏洞管理机制通过对 AI 框架进行定期的漏洞扫描,识别并记录框架漏洞信息,定时更新安全补丁修复漏洞,提升框架安全能力。恶意程序检测机制通过将检测模块直接集成在深度学习框架或者基础设施中,实现检测在训练或者推理任务执行的容器或虚拟机是否存在恶意攻击宿主机、宿主机上其他容器或者执行越权访问等容器逃逸行为。判别是否存在勒索病毒以及恶意程序,并产生告警信息。访问控制和身份鉴别机制有效管理并核验登录用户的真实身份,对于多次登录失败的用户,应启用结束会话、限制非法登录次数等措施,以降低未授权操作所引发的风险。182.核心资产保护机制保障运行环境安全可信为保障深度学习框架的运行环境安全可信,通过构建加解密机制、完整性校验机制、训练任务中断恢复机制以及运行环境隔离机制等方式保障运行过程中 AI 核心资产的安全。加解密机制通过在深度学习框架和人工智能基础设施中添加加解密模块,实现对训练和推理过程中的数据和模型参数文件等 AI 核心资产进行保护,防止未授权人员进行非法访问、篡改数据。完整性校验机制通过对数据和模型相关文件进行完整性校验,提升大模型在预训练、微调以及后续部署运行阶段的可靠性,通过密码算法或者完整性校验机制对数据和模型参数文件进行加解密处理,核验各阶段的文件完整性。训练任务中断恢复机制可以在故障发生后及时保存训练任务上下文及模型参数等信息,并且可支持在新的训练节点加载训练任务上下文及模型参数等信息,正常恢复原始训练任务,大幅提升大模型在训练阶段的可靠性。运行环境隔离机制通过设置独立的安全区域保障 AI 资产在训练和推理过程中的安全性。以可信执行环境技术(TEE)为例,TEE 是处理器中一个独立的安全区域,用于保护程序与数据的机密性和完整性不被外部窃取和破坏。与存储加密和网络通信加密一起,TEE 可以保护落盘和通信过程中的数据隐私和安全。随着 TEE 技术的发展,在计算核心与内存之间增加安全处理器,以保护被计算核心使用的数据安全和隐私的机密计算技术出现。19(二)(二)数据层面,安全检测及处理助力大模型可靠数据层面,安全检测及处理助力大模型可靠数据的使用贯穿大模型全生命周期,安全保障与有效处理是保障大模型可靠的关键举措。在数据层面,可信赖实践主要涉及数据全流程的安全合规处理、数据安全沙箱技术、投毒检测以及数据分析等措施。1.安全合规的数据处理机制降低数据处理风险大模型的数据处理活动主要包含数据采集、数据预处理及模型训练等环节。在数据采集环节,通常会建立数据采集来源管理、数据采集业务评估、数据采集审批流程、采集合规审批等管理机制,确保数据采集的合规性、正当性和执行上的一致性。针对数据来源问题,知识产权部门和信息安全部门协助业务部门对数据来源信息的合理性、正当性进行审查,去除含有大量不良违法信息的有害数据来源,并对数据来源信息进行备案管理。在数据预处理环节,数据处理人员会将收集到的原始数据进行清洗、去重、格式化等多步骤的预处理以确保数据质量。在该过程中,数据处理人员会严格筛查,去除那些不完整、错误、带毒或含有敏感信息的数据。随后数据处理人员通过自动化工具和人工相结合的方式,对预处理后的数据进行标注和筛选,以识别训练数据中是否包含敏感信息。此外,业务部门通过构建敏感内容反馈机制,利用生成内容自身特性,将敏感内容作为负面样本训练敏感信息鉴别模型,持续提升模型性能。20在大模型训练阶段,通常会首先进行个人信息安全影响评估,确保大模型的研发和运营过程满足现有个人信息保护的合规要求。通过核对个人信息保护评估清单,推动面向个人信息保护的产品功能设计,确保人工智能产品设计流程合规,保障数据收集和处理(包括使用、披露、保留、传输和处置)限于所确定的必须的目的。2.数据安全沙箱技术实现数据可用不可见数据安全沙箱是一项通过构建可隔离、可调试、运行环境安全等功能来分离数据、模型使用权和所有权的技术。在大模型微调场景中,数据拥有方可通过沙箱客户端将数据通过加密信道上传到沙箱中,随后通过数据安全沙箱对加密数据进行预处理和模型微调,并通过安全信道反馈微调后的模型,保证了模型拥有方的预训练模型不出私有域的前提下,数据拥有方可以安全的完成模型微调任务。图 6 数据安全沙箱技术3.投毒检测与数据分析识别有害内容在数据投毒检测方面,通过数据去毒工具在数据预处理环节检测训练数据是否存在异常。数据投毒检测可采用多种不同的检测手段。基于规则、关键词进行检测是一种常见但有效的方式,可在丰富完善检测规则的基础上,以较高的效率将被投毒的、危害安全的21训练数据进行截获去除。也可采用传统语言模型或大语言模型的手段,针对数据投毒问题进行相应的设计和优化,通过语义相似度等指标进行检测,从而判定出更隐蔽、更难以察觉的数据安全问题。在数据分析工具方面,可采用分类统计、向量聚类、大模型识别等方法,对数据内容门类、语料形式、语料来源、作者等数据分布进行统计和分析,使参与到模型预训练中的训练数据配比均匀、优质来源和优质形式的数据占比较高,修正性别、民族、宗教、教育等统计偏见,使模型在运营阶段避免可能存在的安全性、公平性等问题。(三)(三)模型层面,全流程防控增强大模型可信模型层面,全流程防控增强大模型可信在模型层面,可信赖实践可从设计开发、模型训练和部署运行三个阶段展开。设计开发阶段主要涉及大模型研发前期的安全和伦理设计评估;在模型训练阶段,主要涉及大模型预训练、微调过程的可信赖能力检测、加固措施;在部署运行阶段,主要涉及大模型在运营过程中的运维能力,以增强用户对于模型运营的信任度。1.安全和伦理设计评估为大模型研发提供全方位保障大模型的安全性设计评估是面向大模型设计初期的一项安全性评审工作,主要涉及安全审核和安全功能设计两方面。在安全审核方面,通常会根据大模型设计需求构建威胁模型,并生成安全设计核查表对大模型安全性设计进行评审,保障大模型的设计需求满足安全合规要求。在安全功能设计方面,大模型研发人员会根据安全22审核结果,对大模型进行安全功能设计,包括但不限于生成内容过滤机制、生成内容标识、投诉反馈功能等。大模型的伦理设计评估主要依据人工智能伦理治理相关法律法规和标准文件,面向数据、算法以及应用管理风险三方面,围绕产品设计、开发、部署、运营的全生命周期,分阶段、分目标的对大模型伦理风险进行分类分级管理,并根据风险的等级进行内部自评估以及外部专家评审,以确保大模型的训练数据、决策机制以及生成内容符合伦理道德。目前,针对大模型伦理评估工作,商汤建立了覆盖产品全生命周期的风险控制机制,初步形成了大模型的伦理治理闭环。通过建立数据风险、算法风险以及应用风险三方面的伦理评估机制,对产品设计、开发、部署、运营的全生命周期实施分阶段、分目标的伦理风险分类分级管理,并建立了配套的风险自查、评估、审查和跟踪审查流程。图 7 商汤伦理风险分类分级管理评估2.评测与对齐是模型训练可信赖的关键技术措施23大模型的模型评测和对齐技术是目前解决模型安全性、健壮性、公平性不足的主流方法,通过将评测结果作为奖励模型的反馈优化数据,对模型进行针对性的微调与对齐,大模型能够在模型层面更可靠、可信。大模型可信赖评测是提升模型抵抗外部恶意攻击、干扰信息以及决策偏见的重要手段。大模型可信赖的重点评测对象是安全性、健壮性以及公平性。在安全性测试方面,评测人员通常采用对抗性提示的方式对大模型进行目标劫持、提示泄露以及越狱等安全性评测。在健壮性测试方面,评测人员通常会采用错别字、同义替换、无关提示、修改语义等方式,对生成内容的一致性、稳定性进行评测。在公平性测试方面,评测人员会根据模型业务特性,针对年龄、国家、性别、种族等敏感属性进行公平性评测,通过比对输入内容中是否含有敏感属性的输出结果差异,统计模型的公平性表现。在评测完成后,评测人员会协同研发人员共同构建面向安全性、健壮性和公平性的模型加固方案,包括但不限于增量学习、设计针对性的微调提示问答对、增强奖励模型的针对性训练等。思维链技术有效提升模型逻辑表达能力。为保障大模型的生成内容具备更加合理的推理性逻辑表达,微调阶段的标注人员可通过思维链技术,在同一提示词中引入多项解释性示例,引导模型生成具备一定推理逻辑的回答。比如,在数理逻辑任务中,可在示例部分编写步骤分解形式的解释说明内容,指导模型更容易生成推理步骤清晰,准确性高的回答内容。24图 8 思维链技术人类反馈强化学习(RLHF)是现阶段大模型对齐研究的主要方法。RLHF 是一项通过人工反馈回答内容的好坏顺序指引大模型的价值观与人类对齐的技术。目前,包括 OpenAI、谷歌、百度、商汤科技等主流大模型均采用了 RLHF技术对大模型进行价值对齐调优。比如,商汤科技已经将模型评估测试与 RLHF 技术结合,将相关测试结果反馈于模型强化学习的过程之中,帮助进一步提升大模型风险防御能力。3.投诉反馈、风险监控以及应急处置构建模型运营能力投诉反馈机制是针对大模型生成内容优化更新的重要手段。目前投诉反馈机制主要是通过成立投诉反馈监管治理机构,对所有的不良违法生成内容进行处理。为了更好的推动模型的持续优化,模型更新的研发人员会定期对生成内容的投诉和举报进行分析和总结,以便发现问题的根源,并采取措施防止类似问题再次发生。风险监控有效助力大模型良性运营。在模型运营能力建设方面,运营人员会持续对大模型的运营情况进行风险监控并对有害内容进25行溯源,通过对大模型记录的用户上传内容、用户上传时间、IP 地址、设备信息等信息进行核查,可实现对该内容的制作者和使用者进行追溯。应急处置用户恶意行为抑制有害内容生成与传播。大模型运营期间运营人员会对用户异常行为、违规用户帐号进行监控处置。针对用户异常行为,运营人员通过对用户行为进行分析,根据异常活跃度、登录情况以及输入内容进行判断处置。针对违规用户帐号,运营人员通过帐号管理功能实现对恶意用户的限期改正、暂停使用、终止帐号等措施,防止有害内容的进一步生成和二次传播。(四)(四)生成内容层面,过滤与标识实现内容可控可问责生成内容层面,过滤与标识实现内容可控可问责在生成内容方面,可信赖实践主要涉及生成内容评测、内容审核机制以及内容可追溯能力的建设,实现内容安全可控并具备一定程度的可追溯能力。为缓解大模型“幻觉”现象,生成内容评测主要聚焦真实性、准确性以及安全性。为降低生成内容的安全性风险,内容审核机制通常会采取机器审核和人工复审结合的形式。为进一步提升二次编辑导致生成内容难以追溯的问题,数字水印技术正在逐渐提升健壮性能力。1.生成内容评测为模型优化更新提供反馈样本生成内容真实性测试抑制深度合成图像等恶意攻击。评测人员可通过内容真实性测试检测图像中面部表情一致性与动作序列连贯性,并结合频谱、声音和文字等多模态信息,准确鉴别包括图像编辑、换脸、活化以及各种先进扩散模型合成的人像图像。26生成内容准确性测试客观反馈大模型“幻觉”水平。在生成内容准确性测试方面,评测人员可采用人工打分或自动化评估等形式,对生成内容的质量进行评估,目前商汤科技主要采用整体评价、相关性、可读性、拟人性、专业性等五个指标对文本生成质量进行评价,并从生成内容事实性错误,生成内容逻辑性错误,生成内容和问题相关性错误等三个方面对文本生成准确性进行评价。生成内容安全性评测守卫大模型生成内容红线。在生成内容安全性测试方面,评测人员可采用“红队测试”的方法,通过构建恶意问题数据集对生成内容安全性进行评测,其评测的维度包括但不限于身心健康、隐私财产、伦理道德、偏见歧视、违法犯罪、政治敏感等话题。2.内容审核机制有效过滤有害输入及输出内容大模型的生成内容审核机制主要由机器审核和人工复审构成。机器审核是一种对大模型有害输入、输出内容进行检测、识别的机制,可以有效识别并过滤有害、不准确、不恰当的内容,通常采用关键词和语义分析等技术。人工复审机制是目前实现大模型生成内容安全的重要保障。通过人工复审的方式,对大模型输入、输出的内容进行再次核验。人工复审需记录审核时间、审核覆盖度、抽检方式、审核处置结论等信息。除人工复审机制外,还可以采用巡查审查等方式,定期对经过了机器审核、人工复审的内容进行整体巡查,并及时根据巡查结果优化调整审核规则及策略。巡查审核需记录审核时间、审核覆盖度、抽检方式、审核处置结论等信息。27图 9 大模型“机器 人工”内容审核机制3.健壮性数字水印助力实现内容可追溯可问责数字水印技术是一种将信息嵌入到数字媒体(如图像、音频和视频)中的技术,以便在不改变原始媒体质量的前提下,对其进行标识或保护。这种技术目前被广泛应用于版权保护、内容认证和数据管理等领域。数字水印的健壮性是指其在面对压缩、滤波、剪切、旋转、缩放等攻击时仍能被正确检测的能力。为保障生成内容的可追溯性,通常会采用纠错编码、多重水印、深度学习等水印嵌入方案进一步提升数字水印的健壮性。图 10 数字水印技术流程图四、四、总结与展望总结与展望(一)(一)总结总结大模型的发展虽然仍处于初期阶段,但大模型显现的风险问题使大模型治理已经成为社会关注焦点。随着业界纷纷发布大模型服务,大模型产业正在逐步迈向百家争鸣的时代,但伴随着大模型参28数量、上下文理解能力、生成任务能力以及多模态支持能力的不断更新换代,其引发的相关风险日益突出。与传统判别式模型相比,目前大模型的风险主要集中在低质量训练数据、提示注入攻击以及生成内容的“幻觉”现象,导致用户对于大模型的使用仍然保持谨慎态度。因此,大模型治理的呼声也随之而出,甚至部分业界人士呼吁暂停先进大模型的研发工作,社会各界对于大模型可信赖的实践诉求日益强烈。本研究报告对如何实现大模型的可信赖目标给出了一系列的实践方案,基于可靠性、安全性、公平性、健壮性以及可解释性等可信赖属性,从技术、管理、监管等维度对大模型的可信赖目标实现进行了分析研究,并初步梳理了现有产业的可信赖实践案例。但大模型的可信赖目标仍然需要产业各界人士达成共识,采用包容审慎、敏捷治理的态度,通过技术、管理相互协同的治理手段,共同构建安全、可靠、可信的大模型产业生态。(二)(二)展望展望1.技术维度聚焦大模型的可解释性、价值对齐研究。一方面,大模型由于算法“黑箱”问题,目前仍然存在可解释性问题,需要加强事前、事后可解释的技术措施和监督,探索生成个体预测的局部解释和总体模型推理逻辑的全局解释。比如,部分研究学者正在通过指令微调的方式解释单个生成内容的预测结果,以及 OpenAI 正在尝试采用 GPT4.0 解释 GPT2.0 的神经元激活过程了解大模型内部的工作机29理。另一方面,由于大模型的生成内容具有价值属性,其价值观需要符合主流社会价值观念,但现有的对齐技术主要是基于人类反馈强化学习技术,同样也受制于人类反馈的数据质量和时效性,以及现有部分对齐手段很可能被奖励模型通过学习欺骗式的奖励策略实现“欺骗式”对齐,因此需要探索与人类水平媲美的、同时具备高可靠性的自动对齐机器,使对齐工作从人工反馈逐渐转向具备可扩展监督能力的自动化对齐系统,进一步提升大模型的更新迭代效率与生成内容的质量。鼓励大模型可信赖技术多方协同。大模型可信赖目标的实现需要面向框架、数据和算法多项要素,综合开发、测试、运营等多种技术人员的协调配合,通过数据来源管理、预训练处理、指令微调、人类反馈强化学习、内容审核等技术进一步降低大模型风险。与此同时,需要加强技术人员与监管方的沟通,共同建立可信赖大模型监管体系,遵循大模型治理思路,从技术、管理、监管多方面根本性提升用户对于大模型的信任度。2.生态维度构建评测标准生态,推动大模型测评体系建立。目前多家大模型企业、研究机构和高校正在积极构建大模型的可信赖技术能力,并积极参与可信赖标准的研制工作,加快推动大模型可信赖标准文件出台。但当前针对大模型测评的标准项目仍然比较欠缺,同时也缺乏科学有效的测评工具和测评方法,难以科学、高效评估大模型的生成内容质量。因此,需要加强构建大模型测评体系,研制大模30型测评标准,打造权威大模型测评工具与平台,保障大模型的安全、可靠、可信。构建可信产业共识,细化行业大模型可信赖能力建设。当前大模型的发展重心已经从通用大模型面向行业进行细化发展,多家企业纷纷发布针对金融、医疗等领域的行业大模型,比如商汤科技医疗健康大模型“大医”。但目前针对大模型可信赖的研究仍然比较初期,需要产业形成可信赖共识,并将可信赖理念与行业特性结合,从行业大模型全生命周期的维度考虑如何实现可信赖目标,探索打磨行业领域的可信赖风险与对策。3.治理维度遵循“包容审慎、分类分级”监管原则,探索大模型分类分级治理模式。一方面,大模型治理的落地需要遵循“包容审慎”原则,兼顾技术多样性发展与可信赖目标的实现。另一方面,目前特定行业大模型用户对于风险的敏感度不同,加强探索大模型风险分类分级治理,通过沙箱、自动化评测、MLOps 等工程化技术手段推动大模型治理的体系化发展,共同构建可信赖大模型产业生态。31附录附录可信赖实践案例可信赖实践案例 1:商汤科技:商汤科技 SenseTrust 可信可信 AI 基础设施基础设施为迎接大模型的全新挑战,加强全行业、全社会的人工智能风险治理能力已成为全球各方亟待解决的紧迫命题。我们正式推出“SenseTrust”商汤可信人工智能基础设施,并将持续通过“商汤 AI 安全治理开放平台”等多种形式,为行业提供 AI 治理公益技术服务,推动建设安全可信的人工智能产业生态。图 11“SenseTrust”商汤可信 AI 基础设施在数据层面,商汤“SenseTrust”能够提供数据脱敏、数据去毒、数据合规审查及偏见评估等治理工具。数据脱敏工具能够面向活体检测、车牌检测、文字文档信息检测等广泛应用场景,提供高水平的数据脱敏技术,并且具备接口灵活,平台覆盖面广,实时脱敏等优势。数据脱敏服务还可根据实际业务需求实现是否具备重标识的能力,在特定场景下可还原已去标识化的敏感数据。数据去毒工具32能够在数据预处理环节对训练数据进行带毒性检测,判定数据是否存在异常,对毒性进行判断并提出去毒方案,同时进行溯源调查。此外,面向数据要素可信流通,商汤创新打造了“数据沙箱”工具。通过沙箱包装后,结合隐私计算集群协同调度,实现数据可用不可见,在保证数据隐私安全的前期下实现数据价值转化,促进数据要素流程利用。目前数据沙箱可面向两个应用场景:一是多用户拥有不同场景分布的数据,提供联合训练方案,并且具有携带离线模型可以完成不泄露数据的反演;二是针对用户端拥有大量数据的场景,可使用数据加密训练方案,可以在保护隐私的前提下完成数据回流。在模型层面,商汤“SenseTrust”基于自研的模型体检系列平台,能够针对传统“小模型”、生成式“大模型”,以及基础模型提供标准化和定制化的模型评测能力。我们针对传统“小模型”开发的模型体检平台,能够面向活体识别、图像分类、目标检测等商业化需求提供一键式评测,用户只需提供模型和评测数据即可进行。目前已在商汤的大量商业化模型检测方面获得验证。模型体检内容包括对抗安全、鲁棒安全、后门安全、可解释性和公平性评测。同时,我们针对生成式“大模型”和基础模型测评建构了百万体量的测试数据集,能够实现对大模型的伦理属性、安全属性,以及模型能力的评测评估。针对模型体检出的问题,商汤“SenseTrust”还能够进一步提供模型加固解决方案,主要包括鲁棒性训练和 AI 防火墙两个部分。鲁33棒性训练模块可以在不损失精度的情况下强化模型的安全性和鲁棒性,当前主要包括对抗训练和针对性的数据增强。鲁棒性训练模块是模型开发的代码插件,已融入商汤目前的模型开发流程。AI 防火墙模块主要用于过滤可疑攻击样本,可以在不重新训练模型的情况下提升模型部署的安全性。当前 AI 防火墙可以有效抵御主流的黑盒攻击和物理攻击方式。AI 防火墙和部署的质量模型相结合,在提升安全的同时不引入格外的计算开销。在应用层面,我们在涉及数据保护、数字取证及伪造检测等技术领域有着深厚的积累,并逐步开发了基于生成、鉴伪和溯源三位一体的综合解决方案。在深伪鉴别方面,商汤“SenseTrust”提供包括数十种先进攻击手段的伪造生成平台,为鉴伪检测和溯源提供丰富多样的攻击案例和海量数据支持。并可通过持续集成先进伪造算法,在 zero/few-shot 场景下快速响应难例样本和长尾类型,帮助提升鉴伪算法的泛化性。商汤“SenseTrust”伪造检测大模型,可充分利用面部表情一致性、动作序列连贯性,并结合频谱、声音和文字等多模态信息,准确鉴别包括图像编辑、换脸、活化以及各种先进扩散模型(如:Stable Diffusion)合成的高清人像。主流评测数据集上算法检测精度可达到 99%以上,在应对新技术复合伪造方法上(如:通过MidJourney),检测能力也高出行业同类产品 20%以上。为实现伪造数据溯源,商汤通过自研基于解耦-重建的伪造检测算法,能够从伪造数据中分离出真实内容及伪影痕迹。在针对 10 余种主流伪造算34法溯源上,准确率超过 90%,同时还可给出数据中的相关伪造痕迹,提高检测算法的可解释性和可信度。这一技术为行业首创,并作为数字取证技术成功落地司法领域。目前,商汤“SenseTrust”综合鉴伪解决方案已投入实战,为十余家银行的安全系统提供服务,对各类灰黑产攻击拦截成功率超行业同类产品 20%以上,有效防范了灰黑产身份盗取、支付盗刷等网络诈骗。在确权溯源和内容保护方面,商汤“SenseTrust”数字水印结合频域分析、深度学习、扩散模型等技术,将特定信息嵌入到数字载体中,同时不影响载体的使用价值,也不易被人的知觉系统察觉,只有通过特定的解码器和专属密钥才能提取,可实现篡改内容的检测且水印不可窃取。具体应用中,商汤数字水印技术可用于版权保护,防伪溯源等场景,支持图像、视频、音频、文本等各种模态的数字载体,在不同程度的干扰下(裁剪、压缩等)能保证 99% 的水印提取精度,且不影响数据本身质量(如高清图画质),在保证水印信息容量大(256 位)以及安全性(通过密钥加密)的同时具备足够的隐蔽性以及鲁棒性。目前,商汤的数字水印技术已服务于“商汤秒画SenseMirage”、“商汤如影 SenseAvatar”等多个产品,以及内容创作、大数据客户。35可信赖实践案例可信赖实践案例 2:蚂蚁集团蚁鉴:蚂蚁集团蚁鉴 2.0-AI 安全检测平台安全检测平台图 12 蚁鉴 2.0-AI 安全检测平台人工智能作为一种创新性的技术,在快速发展和广泛应用的同时,也引发了一系列如数据安全、隐私安全、算法偏见、责任归属、伦理道德等风险和问题,这不仅威胁到 AI 技术的可靠性和安全性,也影响到 AI 技术的社会接受度和用户信任度。蚂蚁集团从 2015 年开启可信 AI 的实践与探索,2023 IPRdaily 发布的人工智能安全可信关键技术专利报告显示,蚂蚁集团专利申请和授权数连续两年全球第一。从释放 AI 价值、服务产业发展出发,蚂蚁联合清华大学研发推出了“蚁鉴”AI安全检测平台,具备以下几种测评能力:1)大模型安全测评:支持最常见的文生文、文生图数据类型,在大模型安全领域,依据国内法律法规、学术研究、企业需求,构建36一套涵盖数据安全、内容安全、科技论坛 3 大类超 200 子类标签的检测分类标准。基于这套标准,平台开发和集成了基于诱导对抗技术的大模型生成内容的自动化安全测评。2)AIGC 检测:支持图像、文本类数据检测,基于生成模型构建TB 级样本,覆盖常见的 AIGC 应用和算法基座的多种交互场景和生成模式,通过对各模态内容的深度特征进行建模感知,完成对指令生成、深度合成等 AI 生成痕迹的检测覆盖,完成 AI 生成痕迹、深度合成痕迹等多个指标检测并反馈。3)健壮性评测工具:支持文本、图像、表格、序列四种数据类型,集成对抗攻击组件和健壮性检测组件,检测 AI系统在面对噪声、攻击、故障等干扰时的稳定性和可靠性。4)可解释性评测工具:支持图像、表格两种数据类型,通过可视化、逻辑推理、因果推断等技术手段,提供 AI 系统的输出结果的依据和原因,在完整性、准确性、稳定性等 7 个评测维度及 20 项评估指标对 AI 系统的解释质量进行全面客观的量化分析,帮助用户更清晰地验证与优化可解释方案,提升模型性能。未来 AI 的应用和价值是颠覆性的,蚁鉴 AI 安全检测平台 2.0作为实现产业级应用、覆盖全风险类型和全数据模态的 AI测评平台,将通过能力开放助力大模型的可信安全,助力 AI 时代的发展。37可信赖实践案例可信赖实践案例 3:阿里巴巴生成式人工智能发展与治理探索:阿里巴巴生成式人工智能发展与治理探索阿里巴巴践行“技术管理技术”原则,形成了覆盖生成式 AI 全生命周期的解决方案,针对生成式 AI 研发服务全流程的风险从模型训练、服务上线、内容生成、内容传播四大阶段入手,提出了一系列具体的治理措施,详情见下图。图 13 阿里巴巴生成式 AI 治理实践及探索概览在模型训练阶段,应该加强对数据的监管和保护,确保训练数据的合法性和安全性。同时,需要加强对算法和模型的审查,防止出现偏差性或歧视性结果。在服务上线阶段,要加强对算法和模型的安全测试和评估,确保其稳定性和安全性。同时,需要加强对用户数据的隐私保护,避免用户数据被滥用或泄露。在内容生成阶段,应该倡导人机合作,加强对生成内容的引导和审核,防止出现违法不良信息、歧视与偏见。在内容传播阶段,对生成的信息嵌入隐藏的标识,通过技术手段进行溯源和回溯传播者,从而在一定程度上解决虚假信息在内容传播方面的问题。38对于个人信息安全、内容安全、模型安全、知识产权四个重点安全域,应充分考虑 AIGC 与 UGC(用户生成内容)、判别式 AI的差异性,提出针对性的有效解决方案。例如:1)在个人信息安全层面,生成式 AI 相对于算法推荐服务对个性化要求不高,可主动采用技术手段从源头减少个人信息收集、降低个人信息在训练数据中的比例和真实性;对于输出的合成内容,算法服务可拒绝生成个人信息内容;可采用数据匿名化机制,在保护个人隐私的同时,激发更多数据价值。2)在内容安全层面,AIGC 相比 UGC 在主体责任、交互性、时效性、内容复杂度、多语言、风险范围等多个维度都有较大差异,因此在风险评测定位、模型内生安全、应用安全机制、生成内容追溯机制等方面全面设置针对性的治理机制。3)在模型安全层面,生成式人工智能模型因其输出空间的自由度更高、网络结构复杂、模型参数和训练数据规模巨大等特点,在鲁棒性、可靠性、公平性、可用性、可解释性等方面都带来了新的风险挑战,应相应的提升治理技术能力,提出针对性治理解决方案。4)在知识产权层面,对于生成式 AI 中的知识产权问题目前仍在热议中,尚未形成统一解决方案。知识产权问题不宜片面化,既要保护作为训练数据的现有人类智力成果,也需注意创新公平和创造力延续。由于针对爬取的知识产权内容,法律角度主要涉及竞争问题,可将是否违反 robots 协议和竞争秩序作为审查要点,可39使用数字水印等溯源技术助力生成合成内容的合法合规使用和确权。40可信赖实践案例可信赖实践案例 4:百度大模型安全解决方案:百度大模型安全解决方案百度围绕“文心大模型”安全实践经验,推出以 AI 安全为核心的大模型安全风控解决方案,从大模型全生命周期视角出发,方案涵盖大模型训练、精调、推理、大模型部署、大模型业务运营等关键阶段所面临的安全风险与业务挑战,提供全套安全产品与服务,助力企业构建平稳健康、可信、可靠的大模型服务。图 14 百度大模型安全解决方案该方案针对大模型训练阶段、部署阶段和业务运营阶段所面临的安全挑战,给出了完整的应对方案。一方面,围绕数据安全与隐私保护方案、模型保护方案、AIGC 内容合规方案、以及业务运营风控方案四个维度详细阐述大模型安全能力建设;另一方面,结合以攻促防守的思路详细阐述如何建立 AIGC 内容安全蓝军评测能力,对大模型实现例行化的安全评估。41图 15 百度大模型内容安全与评测体系

    浏览量0人已浏览 发布时间2023-12-10 48页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 联想&IDC:2023年AI PC产业(中国)白皮书(54页).pdf

    AI PC 产业(中国)白皮书1AI PC 产业(中国)白皮书目 录 Table of Contents序言 .2第一章AI PC 的历史使命:AI 普惠首选终端 .41.1 个人大模型的特征和普惠要求.51.2 PC 承载个人大模型的四大优势.6第二章AI PC 的未来定义:个人 AI 助理 .102.1 AI PC 的用户价值.102.2 AI PC 的核心特征.15第三章AI PC 的产业生态:以人为本、终端主导、AI 原生 .233.1 用户:生态话语权显著提升.243.2 终端厂商:进阶为生态组织者.273.3 AI 技术厂商:发展混合人工智能技术和服务.293.4 应用厂商:AI 应用生态崛起.313.5 算力厂商:普惠混合 AI 算力.35第四章AI PC 市场预测:2024 成为 AI PC 元年,加速 PC 升级 .394.1 中国 AI PC 的进化旅程.394.2 中国 AI PC 终端预测.404.3 中国 AI 平板电脑及边缘主机市场预测 .494.4 中国 AI PC 生态参与者发展预测.504.5 中国 AI PC 投资价值预测.51结语 .52AI PC 产业(中国)白皮书2序言PC(个人电脑)近几十年的发展历史中,经历了多次大升级。从大型机时代到个人电脑的普及,再到互联网时代的爆发和如今的智能化浪潮,每一个时代都为 PC 产业注入了新的活力,使之成为每一个时代创新技术普惠的第一终端。上世纪 70 年代,大规模集成电路和新型 CPU 架构的引入,计算机逐渐迈向小型化,成本也随之大幅下降。紧接着,80 年代初苹果公司率先推出了全球首台图形界面计算机,随后 Windows 操作系统面世,图形化的展现和交互方式大大降低了普通人使用计算机的门槛。在中国,包括联想在内的众多终端公司相继成立,快速推出个人电脑产品,迅速形成个人电脑产业链,也正式宣布人类进入个人电脑(PC)时代。1992 年,联想在国内第一个推出家用电脑的概念,并于 1996 年又第一个推出“万元奔腾电脑普及风暴”,个人电脑正式走入千家万户,实现了计算和应用技术的普惠。世纪之交,PC 迎来网络化和移动化技术突破所带来的第二次变革。互联网技术的爆发推动 PC 从独立的工具转变为连接世界的纽带,让传统的计算机能够通过互联网实现信息的快速传递和共享,把中国个人电脑的发展推向了一个新的高峰。1999 年联想率先推出“天禧”因特网电脑,具有 一键上网 功能,实现了中国家用电脑的亲密“触”网。同时,随着高性能处理器进一步微型化,个人电脑(PC)朝着更轻便、更便携的方向发展,笔记本电脑的普及使得计算机成为人人拥有的必需品。可以看到,PC(个人电脑)的每一次重大产品升级,背后都伴随重大技术创新。而每一次重大的技术创新,PC 都成为最佳的技术普惠载体,3AI PC 产业(中国)白皮书在技术普惠的道路上承担起先锋角色。其中,PC 终端厂商从用户体验角度出发,将各类创新技术有效整合、创新产品、规模化交付,进一步加速普及进程。2022 年以来,以大模型为主的生成式 AI 技术取得重大突破并快速发展,大模型展现出令人惊叹的智能涌现能力,表现出更为强大的创造性和通用场景适用性。首先取得重大突破的公共大模型,从人类社会大量的公共数据中学习,进而生成高质量的文本、图像、声音、视频等内容,为多领域的智能创新提供了巨大潜力。然而,出于数据安全和隐私保护的考虑,以及更高效率、更低成本响应用户需求的考虑,人们既希望获得公共大模型强大的通用服务,又希望 AI 能够真正理解自己、提供专属个人的服务,并且能够充分保障个人数据和隐私安全。为此,公共大模型和个人大模型混合部署、满足用户需求正愈加成为产业共识,混合人工智能日益成为未来 AI 更好、跟专属地服务于每一个人的发展趋势。通过云端的公共大模型和本地大模型之间的混合,可以让每一个人都拥有自己的个人大模型,实现 AI 真正惠及到每一个人。这样的混合人工智能,对承载本地大模型的终端的交互能力、智能算力、应用场景、安全保护等方面都提出更高要求。在历史的召唤下,PC 再一次成为 AI 普惠的首选终端,将承担起为用户带来划时代全新 AI 体验的历史使命,使 PC 再一次焕发新的活力,使 AI 真正成为每个人的专属助理(Personal AI Twin)。本白皮书旨在探讨 AI 与 PC 结合的历史必然性,以及新一代 PC AI PC的基本定义、价值及产品特征,以及对 AI 及 PC 产业生态带来的改变,并对未来的市场发展做出概要性预测,为 AI PC 加速发展、产业生态共创升级提供框架性指导。4具备全模态人机自然交互条件承载最多场景的个人通用设备存储容量最大、最受信赖的安全终端最强的个人计算平台能进行多模态自然语言交互压缩后依然具备通用场景服务能力需要基于个人数据和隐私 信息进行微调和个性化服务需要强 AI 算力进行推理第一章AI PC 的历史使命:AI 普惠首选终端人工智能的需求正在爆发,大模型开启了普惠于人的路程。用户不仅需要公共的大模型服务,更需要的是专属自己的个人大模型。个人大模型将依托混合人工智能的方式,逐步实现普惠。我们看到,个人大模型的普惠要求和 PC 的承载优势完美契合,显示着 PC 将再一次承载技术普惠的历史使命,成为 AI 普惠的首选终端。图 1 PC 与 AI 大模型的 天然匹配来源:IDC,2023个人大模型PC5AI PC 产业(中国)白皮书1.1 个人大模型的特征和普惠要求大模型的计算负载不断从云端向终端下沉,公共大模型和本地大模型混合利用,组合形成个人大模型。个人大模型既要继承公共大模型强大的能力,又要能够为个人所有、提供个性化专属服务,从而满足用户多方面的需要。能够进行多模态自然语言交互大模型已经在内容生成方面体现了突出的优势,大模型具备卓越的语言理解、上下文感知、生成性语言、处理多模态数据等能力,这使得大模型能够准确理解用户输入,保持上下文对话的连贯性,生成自然且富有表达力的文本,实现自然交互,为用户提供更智能、个性化、更自然的交互体验。这种交互体验要得到大规模落地和广泛普惠,必须依赖于多模态交互的设备和软硬件联合优化,这包括文字输入、语音输入、身体语言、触控、键鼠等。这样,才能充分发挥大模型自然语言交互的优势,以友好、直观的方式降低用户使用门槛,让每个用户都能够轻松上手,自然地与 AI 互动。压缩之后依然具备通用场景服务能力个人大模型需要具备强大的 AI 能力,满足用户日益增长的 AI 需求和任务复杂度。这需要本地、公共大模型互为补充、各有所为。模型终端化的关键是将大模型压缩到适合终端的规模,以便实现本地推理和实时响应。为此,模型蒸馏、压缩等技术变得至关重要。模型蒸馏通过训练“教师”网络监督“学生”网络进行学习;模型压缩则是通过剪裁、量化等方法对模型进行压缩。这些技术可以减小模型的尺寸和复杂度,同时保留其核心能力,而不会显著牺牲其 AI 能力。在保证模型性能的同时,大模型可以在资源有限的设备上运行,再辅以云端强大 AI 能力的支持,个人大模型的通用场景服务能力才能得以保证。AI PC 产业(中国)白皮书6需要强 AI 算力进行推理对于个人大模型的普及应用而言,终端侧算力支持是关键。即便本地大模型经过了压缩从而降低了其算力需求,但仍然需要强大的本地算力支撑。在通用的算力平台上,CPU 为主的算力结构,难以满足 AI 神经网络的并行计算负载的要求,也不具备经济性。随着用户使用 AI 应用的频次提高,对个人大模型的依赖程度越来越大,本地推理类 AI 任务的总量也将迅速提升。这要求端侧计算架构的升级和 AI 算力的同步提升。需要基于个人数据和隐私信息进行微调和 个性化服务个人大模型的普及,必然带来用户对大模型的专属化需求的提高。而云端公共大模型无法满足用户千人千面的需求,专属化的成本也相当高昂。因此,个人大模型将需要用户根据自己的数据和业务需求,在一定程度上进行自主微调,以适应特定的应用场景,提供相对个性化的服务。无论是企业客户还是个人客户,数据安全和隐私问题都是重中之重。个人大模型还必须消除用户对数据安全和隐私保护的担忧。基于本地的知识库与以本地为主的推理是极致安全的保障。1.2 PC 承载个人大模型的四大优势个人终端设备包括 PC、平板、手机、TV、汽车、可穿戴设备等丰富形态,但要完成个人大模型的普惠,需要能够同时满足个人大模型普及的各项要求。个人电脑(PC)具有强大的计算和存储能力,丰富的交互方式以及广泛的应用场景,使其成为适合承载大模型的理想平台。AI 与 PC 的结合将实现人人都有拥有专属的个人大模型,拥有更个性化、实时的服务,这将带来AI 技术的真正普惠。AI7AI PC 产业(中国)白皮书PC 具备全模态的人机自然交互条件个人电脑(PC)是拥有最多样化交互方式的终端设备,既包括相对直接的触控交互、语音交互、手势控制等,又具备更加专业复杂的键鼠交互、数字笔交互等,这种多元化的交互方式使得个人电脑在承载创新的人工智能(AI)交付方式方面具有巨大潜力。通过触控、语音和手势等自然交互方式,个人电脑能够更直观地与用户进行沟通,提供更符合人类习惯和期望的使用体验。这种直观性为个人大模型创造了更为广泛的应用场景,使得用户能够更轻松地与个人大模型进行互动和合作,也使得 AI 更好地适应用户的需求,更灵活的提供服务。与此同时,传统的键鼠交互和数字笔交互为用户提供了更为精准和专业的操控手段。这对于 AI 在专业性的任务,如图形设计、编程等领域发挥作用,创造了更为理想的环境。个人电脑作为高精确度的交互平台,使得个人大模型能够准确接收和处理高度复杂的用户任务。PC 是承载最多场景的个人通用设备个人电脑(PC)作为一种通用生产力平台,既能够承载以消费内容为主的生活娱乐场景,且具有更优质的体验感,也能够承载以创作内容为主的工作、学习等场景,且具备显著优势。个人电脑作为一个多功能、多交互方式的平台,不仅丰富了用户的综合交互体验,同时也为创新的 AI 应用场景开辟了更为广泛的可能性。PC 与 AI 大模型结合,推动着人机交互领域的不断进步。AI PC 产业(中国)白皮书8在内容消费的场景中,PC 和手机各具特点。这取决于用户的需求、使用场景和个人偏好。相对其他终端,PC 具有大屏幕和更高分辨率、多任务处理、键鼠交互、大容量存储等优势。这让 PC 在移动互联网内容消费时代依然扮演着不可或缺的重要角色。在内容创作的场景中,PC 具有最广泛的应用场景,可以承担远程会议、图形设计、编程开发、多媒体制作等多项任务。PC 具有更多的专业工具的支持,如图像处理软件、视频编辑工具、音频编辑软件等,这些软件通常在 PC 平台上具备更多功能和高级选项,为专业创作者提供更丰富的工作环境。大模型具备强大的通用 AI 能力,能够完成文档创作、图像创作等多种任务,大模型的引入使 PC 作为“最全场景个人通用设备”的属性进一步强化,相对优势进一步拉大。从而实现内容消费体验和内容创作效率的全面提升,工作、学习和生活的全场景覆盖。PC 是迄今为止最强的个人计算平台PC 自诞生以来始终代表了个人计算平台的能力巅峰,PC 的通用计算能力强劲,并得到长期优化,在性能、成本、体验方面达到最佳配置,是个人计算设备中拥有最强性能的通用计算平台,兼具强算力与便携性的平衡。在 AI 时代,异构算力(CPU 中央处理单元 NPU 神经网络处理单元 GPU 图形处理单元)协同运用,为 PC 提供了强劲的并行计算能力。异构混合计算利用不同类型指令集和体系架构的计算单元组成本地计算系统,对于不同的 AI工作负载匹配最合适的计算单元。并行算力的飞跃使得 PC 能够轻松执行复杂的 AI 模型推理任务,从而展现出更高级的智能能力。随着终端侧 AI 芯片计算能力和能效的提升,算法和存储方案的优化,终端侧能够部署的 AI 模型参数规模越来越大,持续进阶。PC 相对于手机、可穿戴设备等其他终端,是当之无愧的算力之王,这使其成为 AI 模型实时推理和高性能计算的理想平台,也将抢先具有“智能涌现”的能力。9AI PC 产业(中国)白皮书PC 是存储容量最大、最受信赖的安全终端随着用户使用 AI 应用的频次大大提高,个人交互数据量快速增加,个人数据安全和隐私保护的重要性日益凸显。首先,AI 模型在推理阶段,需要用户输入具体任务和提示词。其次,AI 应用中一般也将涉及到终端本地数据被模型读取和调用,从而能够让 AI 更好地理解环境,理解上下文,吸收实时数据,从而产出更准确、更个性化的答案。第三,AI 生成的内容,其数据量也十分可观。这些将带来私人领域数据的迅猛增长。PC 通过拥有大容量的本地安全存储解决了这一挑战。用户在本地终端设备上进行数据分析、模型推理和计算,个人数据不再需要存储在云端或远程服务器上,可以安全地保留在用户的设备上。这样,个人数据的控制权就在用户手中,不仅提高了数据的安全性,还使得用户对个人数据的控制更加直观。通过采用安全的硬件模块和数据加密技术,PC 能为用户提供更为可靠的数据隐私保护。总之,大模型多模态自然语言交互、多场景内容创作和生成能力,强 AI 算力依赖、频繁的个人数据输入输出的属性,都与交互模态丰富、全场景承载能力、具备本地超强算力和本地安全强大存储的 PC 具有很强的匹配性。AI 个人大模型与 PC 结合,是一次天然般配。PC 最有可能成为 AI 普惠的首选终端,与此同时,AI 也将成为 PC 开启第三次大升级的关键技术驱动力。AI 与 PC 的结合,将形成算力平台 个人大模型 AI 应用的新型混合体,即:AI PC,将 AI 的能力真正惠及每一个人。10PC 长久以来都是人们最重要的生产力工具和内容消费的计算与交互平台。AI PC 不仅承担原有的生产力工具和内容消费载体的职能,更在硬件上集成了混合 AI 算力单元,且能够本地运行“个人大模型”、创建个性化的本地知识库,实现自然语言交互,这将深刻颠覆传统 PC 的定义。AI PC 是为每个人量身定制的个人 AI 助理,不仅提高生产效率,简化工作流程,而且更好的掌握用户的喜好,保护个人隐私数据安全。仿佛是用户的数字化拓展,如同用户的智能双胞胎。2.1 AI PC 的用户价值AI PC 能够为用户提供通用场景下的个性化服务,提供即时、可靠的服务响应,更低的大模型使用成本以及可信、安全的个人数据和隐私保障。第二章AI PC 的未来定义:个人 AI 助理图 2 AI PC 的用户价值来源:IDC,2023通用场景下个性化服务可信、安全的个人数据和隐私保障更低的大模型使用成本即时、可靠的服务相应11AI PC 产业(中国)白皮书提供通用场景下的个性化服务AI PC 能够针对工作、学习、生活等场景,提供个性化创作服务、私人秘书服务、设备管家服务在内的个性化服务。基于终端厂商的定制化设计,场景化的功能预设以及对用户需求的不断探索,在一个丰富的模型和应用生态支持之下,AI PC 所具备的个性创作、秘书服务以及设备管家等能力,能够在工作、学习和生活娱乐等场景中分别体现出多样的独特价值。工作:打造智能工作新常态个性化创作服务助力工作效率提升AI 大模型在工作领域已经有了相对广泛的应用,在效率提升方面已经展现出了极强的能力和潜力,能够帮助用户快速生成特定主题的文档,例如起草会议通知、会议材料准备、会议记录和纪要、邮件起草和专业文件创作等。AI PC 具备更加个性化创作的能力,能够有效的解决当前公共模型在专业文档制作中的问题。AI PC 能够更准确的理解用户的创作意图,掌握用户的历史创作习惯及个人风格,并通过调用多种模型和应用、互联网公共资源等方式共同完成任务创作。图 3 通用场景下的个性化服务来源:IDC,2023工作 会议材料准备 会议总结和纪要 专业 PPT/Word/Excel.个人日程表 同声传译.主动调优 专业模式.学习 AI 课堂笔记和记录 文献翻译和总结.个人课程表 选课和提醒.智能防护 学习模式.生活 游戏攻略 AI 游记.AI 旅行计划 AI 实时游戏指导.智能互联 游戏模式.个性创作秘书服务设备管家AI PC 产业(中国)白皮书12私人秘书服务提供专属高效体验通过对个人和企业私域信息的调用,AI PC 能够智能生成个人日程表,自主推荐会议时间,生成会议邀请并预定会议室。在会议中可以进行实时同声传译,会议结束后,也能够基于讨论总结主题、未决事项,并生成会议纪要,提供秘书般的贴心体验。设备管家服务为工作提供安稳保障 AI PC 能够针对不同的工作场景主动进行设备调优,无论用户处于会议、视频创作、移动办公还是其他场景,AI PC 都能够根据当前的设备使用状态、用户的使用习惯智能调配性能与算力,为用户带来最佳的设备使用体验。同时在软件、系统和设备升级方面,AI PC 也能够主动给出建议,智能推荐用户下载更为适合的软件来完成相应的任务。学习:带来智能学习新体验个性化创作服务为学生提供智能学习体验在课堂等学习场景中,AI PC 能够基于课堂内容生成笔记,并提炼课程要点,能够不断优化笔记的质量和呈现方式,使其符合学生的个人专属需求和习惯。在练习中,AI PC 能够为学生提供跨学科的知识讲解、对话练习与内容拓展。通过分析学生的学习进度和错题情况,AI PC 也能够帮助学生有针对性地练习疑难点和易错点,加深对知识点的掌握程度。不止对于学生,AI PC 同样能够为老师提供效率和创作方面的帮助,帮助老师更高效的生成个性化的教辅材料和备课材料等。私人秘书服务提供专属学伴与专属家教体验对学生来说,AI PC 能够成为专属学伴,适时提醒学生参加并完成各项课业活动,帮助学生监控各项任务的完成进度,协助他安排好自己的学习与娱乐生活。针对家长群体,AI PC 能够帮助他们更好地管理子女的教育日程,帮助家长自动记录和整理孩子的校内外活动安排,及时智能提醒。13AI PC 产业(中国)白皮书设备管家服务提供更安全的学习设备管理方案设备管家服务能够让 AI PC 的设备管理更为智能、安全和便捷。根据学生的学习计划、学习状态进行应用管理与设备模式切换,保障学生在安全无忧的设备环境下高效学习。生活:提升生活娱乐全体验个性化创作服务全面提升娱乐体验游戏中,AI PC 也可以成为玩家专属的“电竞教练”,个性化创作服务能够为用户提供专属的游戏攻略,帮助玩家进行比赛分析、对局复盘,提供专业的游戏技巧指导。出行中,AI PC 也能够根据用户心仪的航班、酒店、路线、餐厅等制定个性化的出行计划。私人秘书服务带来家庭智能管理体验AI PC 将成为整个家庭的 AI 管家。通过 AI 家庭主机、家庭内各类 AI 终端和公共大模型的协同配合,根据每个家庭的需求与特点,成为家庭专属的生活秘书,为每个家庭成员进行日程规划与管理。设备管家服务提升生活全场景体验在日常生活中,用户能够通过自然语言和设备管家进行交互,实现智能控制屏幕亮度,关闭摄像头,特定快捷功能,清除缓存,清除垃圾,杀毒,调整散热方式等操作。设备管家还能够主动感知环境变化,智能调整设备。AI PC 也能够支持家庭打造更智能的家居生态,通过与家庭主机配合,根据家庭成员的习惯对空调、灯光、热水器等终端进行智能管理,确保家居环境的温馨与舒适。提供即时、可靠的服务响应生成式 AI 带来了很多关于极致效率的想象空间,但是在实际的使用中,云端的公共大模型较为缓慢的响应和反馈速度又影响了很多用户的实际体验。在2023 年 IDC 实施的针对用户 AIGC 平台使用体验的调研中,“响应速度慢”“反AI PC 产业(中国)白皮书14馈时间长”是用户主要的负面反馈。AI PC 以本地推理为主,边缘和云端推理为辅,能够在混合算力、混合模型之间智能、合理的调配任务,有效缩减响应时间。由于本地化的大模型能力,离线状态下的可操作性成为 AI PC 不可忽视的优势。AI PC 在没有互联网连接的情况下依然能够发挥作用,在任何时间、任何地点都能为用户进行创造性的工作,让用户不再受制于网络条件的约束。除了避免了网络依赖以外,本地大模型通常与本地的知识和数据有更便捷的集成和充分的利用,能够有效避免“幻觉”的产生。且能够针对用户风格喜好,精准生成符合用户需求的作品。这种准确、可靠的服务是 AI PC 所特有的优势。更低的大模型使用成本随着生成式 AI 使用频次的提升,完全依靠云端将面临着线性的成本提升。而AI PC 以本地推理为主,云端公共推理为辅,用户一次性购买 AI PC 后即可享受全生命周期的本地免费推理服务,再加上有限的云端订阅,可显著降低个人用户使用 AI 大模型服务的成本。AI PC 终端厂商也能够通过紧密的生态合作,一站式解决用户的需求,为用户提供具有竞争力的综合服务价格。除此之外,用户还节省了额外的带宽成本。不仅用户可以享受到 AI PC 的红利,对于应用厂商也是如此。将一些处理从云端转移到终端,可以大大减轻云基础设施的压力并减少运营开支。独立应用开发商和应用开发者也将依托 AI PC 更经济、高效地探索和打造应用。可信、安全的个人数据和隐私保障AI PC 的个性化本地知识库作为安全的基础保障,有专门用于存储用户特定类型文件与数据的安全空间,确保个人用户与企业用户的隐私与涉密信息能在本地实现安全隔离,仅在受信任的环境下才可以被调用。15AI PC 产业(中国)白皮书同时隐私数据的本地推理机制避免了敏感信息在远程服务器上的处理。AI PC本身可以通过个人智能体有效甄别和管理用户隐私数据,并通过本地化的模型与充足的 AI 算力在本地完成大部分数据的处理与模型运算,仅有不涉及用户隐私的公共请求才需调用云端的服务。设备管家服务也可以提供额外保险,通过对设备情况的实时监控以及用户行为的学习,设备管家能够提前识别用户的风险行为,并进行主动干预与防护。通过与第三方应用的合作,AI PC 还能够不断强化对风险行为的识别与风险内容的拦截,为用户带来极致的安全体验。2.2 AI PC 的核心特征为了实现上述用户价值,AI PC 将不仅是硬件设备,而是一个包含 AI 模型和应用以及硬件设备的混合体。AI PC 产品拥有本地部署的大模型与个性化本地知识库组合构成的个人大模型,第一交互入口为个人智能体,可实现自然语言交互,AI PC 将通过内嵌 AI 计算单元的方式提供混合 AI 算力,还可以依靠开放生态来满足不同场景的需求。在满足生产力提升的同时,通过本地数据存储和隐私及数据保护协议来保护个人隐私和数据安全。图 4 AI PC 核心特征来源:IDC,2023自然语言交互的个人智能体 多模态自然语言交互 UI 基于本地大模型的个人智能体设备级个人数据&隐私安全保护 本地隐私推理&非敏感任务调用云端大模型 硬件级安全芯片保护&个人数据加密/脱敏传输开放的 AI 应用生态 AI 原生应用、AI 赋能应用 能够被智能体任务调度、适配混合 AI 算力平台等标配本地混合 AI 算力 CPU&NPU&GPU 本地混合计算架构 个人终端和家庭主机/企业边缘主机协同计算内嵌个人大模型 本地为主,边缘与云为辅的大模型 个性化本地知识库AI PC 产业(中国)白皮书16第一交互入口:自然语言交互的个人智能体多模态自然语言交互 UI 改变交互体验传统的终端在交互模式上有着较大的限制。早期的终端设备需要依靠硬件外设才能实现人机信息的传递。图形化 OS 出现后,交互效率实现提升,但可视化程序交互也涉及到复杂的菜单和功能操作,有较高的学习成本。而 AI PC 能够做到自然语言交互,允许用户以口头或文字形式使用自然语言与 PC 进行沟通,并通过自然语言的方式给予用户反馈,这种交互方式更自然、更直观,更贴近人类沟通本能,替代了复杂繁琐的指令语言。同时,AI PC 精准的语言识别与语义分析功能,与身体语言、触控、键鼠等交互方式结合在一起,进而形成多模态的自然交互。AI PC 将提供多模态自然语言交互 UI,该 UI 是用户与 AI PC 进行自然对话的界面,减少了用户对特定界面和命令的依赖,有望成为 PC 的第一交互入口,用户所有和设备的交互请求均可在与该界面的沟通中完成。个人智能体提升终端易用性自然语言交互 UI 的能力主要依赖于常驻其中的个人智能体,其承担着对用户的意图进行理解与分发任务的重要作用。个人智能体基于内嵌于终端的本地大模型而打造,当收到用户请求后,本地大模型会精准理解用户意图,并将意图转换为相应的任务组合,分解任务并识别任务完成的路径,从而进一步查询本地知识库、调用设备 API、调用合适的模型或应用来执行相应的任务。设备、模型或应用执行完成任务后,会将相应的结果返回给智能体,智能体完成整合后再反馈给用户。未来,个人智能体还能够通过智能感知和主动服务来进一步提升 AI PC 的自主性与易用性。随着知识库中信息的丰富,个人智能体能够根据用户的习惯,结合时间和位置等信息,智能感知用户的潜在需求,并在特定的场景下主动进行服务请求。17AI PC 产业(中国)白皮书图 5 个人智能体提升 AI PC 的自主性与易用性来源:IDC,2023个性化本地 知识库意图理解&多任务分发平台(基于个人本地大模型)自然语言交互 UI本地模型云端模型应用设备查询 知识库反馈新的 prompt个人智能体模型 调用反馈 结果模型 调用反馈 结果反馈 结果应用 API 调用操作设备 功能返回 操作结果终端内嵌个人大模型本地为主,边缘与云为辅的大模型方案随着用户对 AI 能力和大模型的调用变得像使用办公软件一样频繁,仅依赖云端提供相应的能力就变得昂贵、复杂且不够安全。因此,以模型的本地化推理为主,以边缘和云端推理为辅的混合大模型架构成为 AI PC 解决这一问题的关键。用户的大部分任务将能够依托 AI PC 本地模型完成。例如,用户能够在离线的情况下依靠本地大模型完成通过文字描述生成文档和 PPT 的任务。同时,本地模型还将承担意图理解和任务分配的功能,是个人智能体的底座。AI PC 产业(中国)白皮书18当用户的任务请求并不私密、且极其复杂的情况下,AI PC 将在用户同意的情况下,调用云端公共大模型的能力,从而极大的扩展了本地模型的能力范畴。在很多情况下,边缘设备的出现,进一步分担了本地模型推理的负载,并且能够帮助 AI PC 完成个人大模型的微调,为本地模型的个性化提供了一种可行的解决方案。混合大模型的优势在于,它能够根据终端设备的性能、资源限制以及用户的网络状况和任务复杂度,动态地调整端侧和云端的计算负载,实现最优的性能和效率。满足用户的使用需求、适应不同的应用场景,同时,兼顾快速响应、即时反馈和数据隐私安全。从而,带来成本、能耗、性能、隐私、安全和个性化等方面的综合优势。个性化本地知识库除了混合大模型之外,AI PC 还拥有本地向量知识库以及相应的管理工具,能够储存从用户的行为与本地数据中获取的信息。知识库能够将特定的文件进行分块与向量化,并进行向量数据的存储。在 AI PC 执行任务时,知识库能够通过对向量数据的检索,来匹配并强化用户提供的提示词,以帮助模型更准确地了解用户的意图,从而提供更个性化、高准确度的反馈。通过这一方式,本地知识库能够使得 AI PC 了解和熟悉用户个性化的语言习惯和操作模式。在企业应用背景下,本地知识库可以在较短的周期内强化企业内对特定任务的完成效率与精准度。例如生成与企业既往设计风格与调性一致的图片,创作符合企业特定专业语言的文稿,或是生成符合企业内部汇报习惯与需求的 PPT文档。终端标配本地混合 AI 算力算力是 AI PC 各项功能得以实现的前提,终端异构混合(CPU NPU GPU)算力是 AI 规模化落地的必然要求。异构混合计算利用不同类型的指令集和体系架构的计算单元组成本地计算系统,可以通过 CPU(中央处理单元)、NPU混合大模型与个性化本地知识库的完美组合,使得“个人大模型”成为 AI PC 的核心模块。19AI PC 产业(中国)白皮书(神经网络处理单元)、GPU(图形处理单元)等计算设备的组合应用充分发挥各硬件性能,对于不同的 AI 工作负载提供灵活的解决方案。CPU 在通用计算上表现出色,NPU 专门针对神经网络工作负载进行了优化,GPU 则在图形和并行计算方面表现出色,异构运算将不同处理器的优势充分发挥,最终达到提升终端侧 AI 算力的效果,实现更快速、更高效的 AI 模型推理。芯片提供商集成了 NPU 计算单元的 CPU 已经陆续推向市场,并在与终端厂商联合开发的过程中共同确定产品的需求和规格,协作研发,共同推广产品。这种合作方式有助于提高产品的性能和品质,降低成本,缩短研发周期,并提高市场竞争力。异构的混合 AI 算力不仅保证了终端模型推理的可行性,而且算力正在快速提升,使得终端设备可以承载越来越大的 AI 模型,执行越来越复杂的任务。当端侧内嵌的混合 AI 算力能够达到 10TOPS 时,已经能够在本地完成特定场景的 AI模型推理,可以在设备智能管理,图像增强,游戏调优等方面作出贡献。当端侧的混合 AI 算力达到 40TOPS 时,能够使 AI PC 支持普通参数规模的本地模型推理,尽管依然需要 GPU 或云端配合才能完成更复杂的任务,但已经能够满足工作、学习、娱乐等场景的大部分 AI 创作类的需求。当端侧的算力进一步提升,不仅 AI PC 能够在端侧独立模型推理的能力得到进一步增强,可以完全离线处理大部分复杂任务,终端在功耗控制、影像呈现、复杂运算、游戏体验等方面的表现也能够得到充分的 AI 优化。作为承载本地混合 AI 算力的设备,AI PC 也涵盖多种产品形态,包括 AI 笔记本电脑、AI 平板电脑、AI 台式机等几种形态,其中 AI 台式机不仅包括传统的桌面台式电脑、工作站、一体机(AIO)等形态,也包括与终端紧密协同的边缘设备家庭 AI 主机、企业 AI 边缘主机。以及,未来随着 AI PC 的发展,也将涌现出更多创新形态。端侧算力的每一步提升能够带来显著的杠杆效应,撬动 AI PC 在任务理解,个性化反馈和复杂任务处理能力与速度方面更大的提升。由于AI PC 对计算和存储的需求非常高,存算一体技术也将在 AI PC 上发挥其重要价值。AI PC 产业(中国)白皮书20图 6 AI PC 产品型态来源:IDC,2023台式机型态AI 平板电脑AI 笔记本电脑AI 工作站企业 AI 边缘主机AI 台式电脑家庭 AI 主机一体机(AIO)笔记本电脑型态平板电脑型态这些产品形态可以在家庭和企业场景中灵活组合,以满足不同用户的需求。例如,在家庭场景中,用户可能更多选择 AI 笔记本电脑和 AI 平板电脑进行日常生活和娱乐;而在企业场景中,AI 台式机具备更高性能,与 AI 笔记本电脑、工作站集群配合,更适用于专业的生产力创新任务。连接开放的 AI 应用生态为了完成用户相对复杂的任务,AI PC 往往需要调动不同的模型和应用,作为AI PC 能力的补充和延伸。因此,AI PC 功能的发挥需要一个开放的行业生态作为支撑。开放的应用生态应当包括 AI 原生应用、AI 赋能应用和公共大模型。AI 原生应用指的是那些从基础架构和设计开始就以 AI 能力为核心、直接依托AI 算法构建的应用程序,在大模型时代将越来越多见。AI 赋能应用指的是传统的应用也将插件化增强,成为被大模型调起或调用的功能能力。开放的 AI 应用生态还应当具备以下特征:AI 原生应用、AI 赋能应用及公共大模型都能够被智能体调度,完成智能体分配的任务。个人智能体作为与用户的第一交互入口,在理解用户意图的基础上,需要能够根据具体情境选择合适的能力来执行任务,只有各类应用都面向智能体开放 API,个人智能体才能实现综合调度,实现更为复杂和深度的任务,以满足各类场景下的用户需求,提供更加灵活、高效的体验。21AI PC 产业(中国)白皮书 必须深度适配 AI PC 的混合 AI 算力平台。充分适配和利用硬件平台的特性,从而实现应用的整体性能优化和能耗优化。符合 AI 应用商店的各项准入标准,包括个人隐私和数据保护等。AI 应用商店汇集了基于不同大模型的原生应用,以及由 AI 赋能的各类场景应用。一方面方便用户根据自己的需求寻找所需的应用,另一方面也可以通过独立的审核机制,对应用的隐私保护协议与安全性进行更好的把控。AI 应用商店有机会为行业内带来新的商业合作与分成模式,这些都需要应用、模型与终端合作伙伴之间进行共同的探索。设备级个人数据和隐私安全保护用户请求公共大模型执行任务时,最为担忧的问题之一便是个人数据甚至隐私,还有企业的商业机密变成了公众信息的一部分。因此,确保设备级个人数据和隐私的安全性,不仅仅是技术发展的要求,更是对用户权益和数字社会稳定的迫切需求。首先,个性化本地知识库提供本地化的个人数据安全域,同时在用户授权下,支持读取云端私域数据。终端的日常使用会产生海量的用户行为信息与痕迹,其中包含大量的隐私数据。个性化本地知识库包含专属的存储空间,用来存储用户允许个人智能体查询或调用的文件与数据,确保个人用户与企业用户的隐私与涉密信息能在本地实现安全的隔离,仅在受信任的环境下才可以被调用,有效保障 AI PC 的数据安全。个人在可信云端存储的个人隐私数据,也可以通过可信的网络通道进行读取和本地向量化,并入本地安全域来对待。在企业中,本地知识库可以与企业 AI 边缘主机相配合,既实现对私域内设备敏感数据的闭环管理,又可以集中对本地知识库数据进行安全可控的调用和训练。其次,本地推理机制可以实现本地闭环完成隐私问题的推理,避免了敏感信息在远程服务器上处理,只有非敏感任务才会调用公共大模型处理。AI PC 本身可以通过个人智能体的能力有效甄别和管理用户隐私数据,并通过本地化的模在使用终端设备时,用户期望能够得到充分的隐私保障,确保个人信息不被滥用、泄露或用于未经授权的目的。AI PC 产业(中国)白皮书22型与充足的 AI 算力在本地完成大部分数据的处理与模型运算,仅有不涉及用户隐私的公共请求才需调用云端的服务。用户隐私数据完全控制在本地,本地大模型不保存、不传输、不利用这些数据进行模型的训练。第三,AI PC 还配置了硬件级的安全芯片,在硬件层面确保只有经过授权的程序和操作才能够读取、处理个人隐私数据。并通过个人数据加密/脱敏传输标准进行多层保险,防止数据在传输过程中被未经授权的第三方窃取,来加密和保护个人隐私数据的读取和使用。随着技术的不断创新,未来 AI PC 仍有巨大的想象空间。更强劲的算力、更智能的算法、更丰富的生态将为 AI PC 带来更多可期待的新特性,AI PC 也将更好地融入用户的工作、学习、生活中,为个人、家庭和企业创造更多价值。23第三章AI PC 的产业生态:以人为本、终端主导、AI 原生在 AI PC 的推动下,PC 产业生态将从应用为本转向以人为本,从应用驱动转变为意图驱动。传统 PC 产业生态以操作系统为基础,用户在系统界面中直接进行操作,并管理和应用各式各样的应用程序。AI PC 产业生态中,个人智能体将成为第一入口,在大模型与应用生态的支持下,准确理解用户指令,给出恰当的反馈,跨应用进行调度,进而完成相对复杂的任务。模型、应用、算力厂商都需要围绕 AI PC(终端)形态下新的以人为本的需求做出改变,在研发工作中对 AI 的高效运行予以充分的考量,以适应 AI PC 新时代。图 7 PC 产业生态变革图来源:IDC,2023传统 PC 产业生态AI PC 产业生态用户应用操作系统功能数据用户个人 智能体应用模型通用 计算/芯片混合 算力/芯片24图 8 产业内供给关系变化来源:IDC,2023随着 AI 技术的不断进步,越来越多的企业加入 AI PC 的开放生态,形成用户、终端厂商、模型、应用、算力多层开放的繁荣生态。用户视野将发生变化,模型与应用的新关系将改变用户需求的底层逻辑。用户的需求是推动整个生态发展的关键要素,而终端厂商以场景需求为基础面向用户整合产业资源,提供软硬件一体的混合交付体验。模型厂商、芯片厂商也将与终端厂商产生更加紧密地联结。3.1 用户:生态话语权显著提升用户成为行业生态创新的驱动者和创造者PC 行业的前几次产业变革主要由终端、OS 或是芯片厂商推动,用户被动接纳新的技术和产品,调整和适应自己的使用工具的习惯、提升使用工具的熟练度。应用终端厂商芯片模型应用/插件终端厂商芯片大模型现 在未 来具备 AI 环境25AI PC 产业(中国)白皮书但是在 AI PC 时代,用户的话语权提升,用户的能动性将越来越多的影响产品进化和产业生态的发展。用户驱动产品创新、影响产业生态主要体现在以下几个方面:低成本自创应用流行:AI 技术的发展将进一步降低程序的开发门槛,用户可以通过问题 解决方案的导向思路,利用 AI PC 直接“开发”应用,也可以在 AI 大模型的帮助下,自制应用和软件。用户在端侧和云端开发的众创应用(UGAUser Generate Application)有可能成为行业生态内的一种潮流。OpenAI 近期发布的 GPTs 提出了专属定制模型的概念,允许用户基于自身的需求自行构建云端的定制化模型。在端侧,通过边缘 AI 主机提供的算力,用户也可以实现专属个人大模型的微调和定制。新型用户社区兴起,应用生态供需关系翻转:随着 UGA 的增加,还将形成全新形态和运作模式的社区。用户可以在社区上分享自己利用 AI 创作的APP 供其他用户下载和使用;用户可以在社区上对 UGA 进行点评交流,发布有偿需求,获得收入等。出于和终端进行适配的需要,UGA 类社区用户有很大可能按照所使用的终端设备自然分群。市占率最高的终端品牌,将拥有最具影响力的UGA社区。社区的出现可能会彻底颠覆现有的应用供需模式。部分软件的生命周期(需求洞察,开发测试,上线发布等)将在用户侧完成闭环。UGA 社区也将成为应用厂商了解客户需求的重要途径。日常体验反馈驱动下的自动化服务迁移:基于个人大模型的智能体通过插件调用各类应用,用户的评价和使用行为将成为智能体应用分发的关键依据。用户仅仅需要对体验结果予以反馈,就能影响应用的被调用优先级和触达用户的频次。个人智能体能够根据用户行为反馈随时选择和切换应用背后的服务供应商,形成用户驱动应用创新的形态。AI PC 产业(中国)白皮书26用户与 AI PC 的关系将被重新定义为“类伙伴”关系AI PC 将颠覆现有的人机交互模式与人机关系的本质。用户与 AI PC 终端会形成一种复杂的“类伙伴”关系,而不是现有的生产者与生产工具之间的关系。人机关系的核心将不仅限于用户与终端的关系,而是涉及到用户、终端和终端承载的智能体之间的复杂关系。需要包括用户在内的各方强力配合,才能形成个人 AI 助理的综合体验,用户在其中的话语权得到提升。可以预见的是,这种特殊的人机关系可能会在短期内影响用户的换机意愿。用户将难以割舍一个和自己相互“理解”的伙伴。因此,智能体在不同终端的继承方式、技术与规则将成为行业内的前沿议题。智能体对终端的依赖可能会进一步提升用户对终端品牌的忠诚度,行业内龙头终端厂商的地位将会更加巩固。用户对于终端产品的选择与评估方式也会随之出现变化,能否发挥出个人智能体最佳的性能,能否提供与智能体最佳的交互体验等都将成为用户评估终端产品的重要维度。因此,能够更好地搭载 AI PC 智能体的终端设备会获得更多用户的青睐。如果智能体在不同 AI PC 之间,尤其是不同品牌、技术路线的终端之间传输存在着不可避免的技术阻碍和困难,整个行业会形成类似当前不同OS 系统之间互相区隔的新生态圈。数据主权和隐私保护意识大为提高不容忽视的用户数据主权随着用户话语权的提升,用户数据主权将成为一个不容忽视的议题。AI PC 的交互方式使得用户的任务指令、请求与反馈都通过个人智能体集中。相比于现在的 PC 终端,用户的信息和数据同样有着集中化的趋势。为了提供专属的智能化服务,AI PC 也需要访问用户私密知识库的数据,以及分散存储在不同软件的本地和云端应用中的私人数据。在新的生态环境下,无论是对于终端、模AI PC 不再是一个冷冰冰的机器工具,而是升级成一个能够切实陪伴用户工作、学习与生活的个人 AI 助理。27AI PC 产业(中国)白皮书型还是应用厂商,对用户数据安全的重视程度都必须进一步提升。但除了用户,没有任何一方能够拥有对用户数据的处置权。因此,在 AI PC 带来的冲击之下,用户数据主权将不仅停留在概念层面,而将形成一套规范的政策、机制和管理体系。在这个新的体系下,用户将能够更主动地决定自己数据的处置权,包括是否开放部分调用和分析权限以获取更为智能和专属的服务体验。3.2 终端厂商:进阶为生态组织者终端厂商将承担起行业生态组织者的使命,以场景需求为基础面向用户整合产业资源,成为 PC 产业生态的核心中枢。AI PC 技术整合创新交付者在 AI PC 时代,终端设备、个人大模型与个人智能体成为了一个不可分割的组合,共同运作,为用户带来智能体验。AI PC 技术和体验的迭代需要设备硬件和软件同步进行,且能够步调一致,目标统一,整体交付和迭代。AI PC 的混合架构使得这一过程需要设备硬件和软件同步进行,且能够步调一致,目标统一,整体交付和迭代。AI PC 的创新需要以用户需求满足和体验提升作为第一驱动力,对“设备 个人大模型 个人智能体”这一组合进行整合创新。在全新的行业格局下,终端厂商作为用户与整个产业沟通的核心枢纽,以及算力、模型和应用生态的变革推动者与统合者,是完成这一整合创新的最佳交付者。如何更好地保护和利用用户数据主权,将成为需要整个行业进行研讨的重要议题。随之,隐私加密技术也将得到进一步的发展。AI PC 产业(中国)白皮书28新一代个人智能体及 AI 入口创造者和用户 体验维护者在 AI PC 上,个人智能体将作为用户通向 AI 功能的集成化入口,而终端厂商凭借着数十年对用户交互和体验习惯的研究与积累,将成为这一入口体验的创造者和维护者。个人智能体独立于操作系统,直接由终端厂商设计并完成开发,终端厂商将直接对个人智能体的界面 UI 和交互逻辑进行设计,并能够根据用户的反馈以 OTA 的方式进行迭代,对用户的体验“总负责”。联想的未来人工智能设备将永不停止学习,并承载个人大模型,通过更自然、更直观的交互功能,为用户提供更好的体验。Luca Rossi联想集团执行副总裁、智能设备业务集团(IDG)总裁本地化个人数据及隐私安全守护者作为存储用户隐私数据的重要载体,终端将成为用户数据保护和管理的第一阵地。终端厂商作为面向用户的统一出口,在安全标准方面具备充分的实践积累与行业信誉,因而将在 AI PC 的生态中发挥信息处理与保护的核心作用。架构层面安置于 PC 设备的个性化本地知识库将使用户数据主体储存于本地,基于安全性与必要性原则,对外部与本地的交互设置严格的协议标准,保证充分脱敏,在最大程度上将服务于“个性化”与“定制化”的隐私数据留置于本地。终端厂商以保护个人隐私和数据安全为目的,协同模型与应用厂商,共同制定数据安全标准和隐私保护协议,明确规定数据收集、使用、存储和共享的方式,以保证用户数据的合法性和安全性。29AI PC 产业(中国)白皮书开放的 AI 应用生态标准制定者和推广者终端厂商在 AI 应用和模型生态建设中也起着关键作用。在技术层面,终端厂商需要定义标准化的接口和 API,以便大模型与应用可以与终端设备进行互操作,并针对终端设备的性能和资源限制,对需要接入的大模型进行性能优化,进而使不同的模型和应用之间无缝互通,有效协作。终端厂商通过制定、发布接口标准,促进模型、应用间的能力获取,并通过使用通用接口规范、转换工具和通用的模型部署格式,提高模型开发和部署的效率,从而更快地在 AI PC中引入更多模型能力。此外,终端厂商还需要设计合理的商业模式,包括应用开发者的收益模式、合作伙伴关系、广告、许可费用等。3.3 AI 技术厂商:发展混合人工智能技术和服务基于公共大模型打造轻量化本地大模型,并提供个性化微调服务在当前的模型爆发期过后,大模型赛道将出现整合,基础大模型的数量会减少。同时,为了提供真正可信、个性化的服务,模型的落地将走向“公共 个人”在企业和个人数据安全和隐私保护问题上,联想进行了巧妙的设计。在使用个人大模型时,根据不同的任务隐私级别,用户的任务会被分类采取不同的处理方式。对于不涉及隐私的任务,会被发送到公共大模型进行处理。而对于敏感信息,则在本地处理,或经过任务拆解、数据脱敏后,由公共、私域、个人大模型共同完成任务,达到保护企业、个人数据安全和隐私的目的。AI PC 产业(中国)白皮书30的混合 AI 架构,针对不同形态和性能的终端进行调优和端侧的适配,以混合模型架构走端边云协同路线,实现模型的本地化部署。为了实现模型的本地化部署,AI 技术厂商将通过模型的蒸馏、压缩等技术将大模型“瘦身”,形成轻量化的模型。使得相对小规模的模型能够基本保留与大模型相似的性能,同时压缩模型的大小,从而减少对计算资源的需求。在 AI PC 的推动下,用户对于模型的专属化需求会进一步提高。用户希望根据自己的数据和业务需求,对模型进行微调以适应特定的应用场景。然而,自主微调的参与门槛较高,用户需要具备足够的技术和能力才能进行正确的微调操作。还需要具有足够数量级的数据,以及充足的边侧算力。同时,微调过程中还可能会存在的风险和问题,需要用户进行充分的测试和验证,以确保模型的性能和准确性。因此,AI 技术厂商还可能推出面向用户的个性化微调/自主微调服务。解耦和适配 AI PC 的个人智能体,为用户提供开放选择无论是 AI PC 本地模型还是云端公共模型,模型技术厂商都需要在终端厂商定义的标准化接口和 API 下,与智能体做好对接和交互,从而成为个人智能体所调用的能力的组成部分。模型与个人智能体之间、模型与模型之间解耦的设计,可以使得模型更加易于优化和调试,从而提高 AI PC 的综合性能。在适配 AI PC 个人智能体的过程中,模型厂商需要确定个人智能体所运行的环境,并针对个人智能体的运行环境,调整模型复杂度、优化模型结构、压缩模型大小等,进行性能、稳定性、可靠性等方面的适配,以确保模型能够满足实际应用的需求。模型厂商需针对个人智能体的反馈和实际应用效果不断调整模型参数、结构,持续对模型进行优化和更新,以提高模型的准确率。模型的充分解耦可以有效提升本地适配效率,以便用户根据自己的需求和偏好进行选择和定制。31AI PC 产业(中国)白皮书大小模型技术和服务相互配合、共同发展,释放 AI PC 本地混合 AI 算力价值相比于大模型在推理和复杂任务处理方面的优势,小模型能够更好地承担专门场景的推理任务。在一些用户常用场景,例如图片的优化,会议视频背景虚化等,AI PC 提供的本地算力已经能支撑小模型高效地完成这些任务。大小模型需要在混合架构之下进行合理的任务分配,实现多任务的协同处理和结果整合。大模型和小模型对复杂任务的共同处理可以充分利用大模型的通用性与专业小模型对特定任务的精准效果,得到更加全面和准确的解决方案。并在这一过程中,提高模型的适应性和稳定性,更好地应对不同的任务需求和数据分布变化。大小模型共同配合的 AI 功能设计中,需要充分考虑不同任务之间的关联性和差异性,以便进行合理的任务划分和集成,还需要充分考虑不同模型的优缺点和局限性,以便进行合理的模型选择和优化。此外,为了确保模型的性能和准确性,充分的实验验证和对比分析同样必不可少。在大模型技术高歌猛进的主旋律之下,小模型同样会进行持续的迭代,在效率、便捷度以及和端侧的协同调优方面有进一步的发展。大模型更高的准确性和更强的表示能力需要以更多的计算资源和存储空间为基础。而小模型则相对轻量级,可以在更短的时间内完成训练和部署,同时对计算资源和存储空间的需求也较小。3.4 应用厂商:AI 应用生态崛起AI PC 的升级将推动下一代 AI 应用生态的崛起。传统的应用生态是围绕着操作系统框架开发形成的,在 OS 之上提供专业的业务功能。在新的生态下,应用的开发,使用方式和评估机制都将发生颠覆性的改变。通过将大模型与小模型相结合,可以更好地利用计算资源,加快模型的响应速度,提高本地算力的利用率。AI PC 产业(中国)白皮书32大模型驱动的应用将快速发展本地大模型的 AI 能力并非无所不能,要想拓展大模型的能力边界,必须构建丰富的应用生态。大模型厂商一般采用“插件化”的方式来调用其他应用的模块化能力。应用插件化并与大模型对接,意味着第三方应用可以成为大模型能力的一部分,为用户提供服务。大模型结合生态化的插件功能,才能实现“无所不能”。AI 原生应用将快速增长随着 AI 应用生态的不断发展,围绕公共大模型和本地大模型的 AI 原生应用的占比将持续上升。AI 原生应用在开发阶段即以大模型为核心,并在开发过程中使用各种 AI 工具和框架,以实现 AI 的功能和特性。随着 AI 技术的不断发展和完善,AI 原生应用的适应性和稳定性也将不断提高,能够更好地应对不同的场景和需求,为人们的生活和工作带来更多的便利和效益,实现 AI 对应用生产流程的重塑。传统应用将升级为大模型赋能应用在 AI 原生应用成为市场主流的同时,众多传统的应用也将以云端调用等方式获得大模型的赋能,来提升任务完成的效率及智能化程度。同时,AI PC 带来的全新交互方式对传统应用同样构成冲击,除少数专业性应用外,以插件的形式被个人智能体调用将成为应用的主要启动和使用方式。在用户使用习惯变迁的推动下,传统应用也需要在这一方向进行快速的迭代,开放更多的 API,并33AI PC 产业(中国)白皮书提升自身作为插件被调用时的表现与反馈效果。传统应用厂商还需要和模型厂商合作,短期内通过对模型调用逻辑和输出反馈的调试来优化反馈效果;长期则进行更为彻底的重构,将自身转型为 AI 原生应用,以更好的获得在 AI PC 时代的表现。新型 AI 应用商店将形成全新的应用开发和调用方式也将变革应用的供给和分发模式。在插件化调用成为主流的 AI PC 时代,新的 AI 应用商店将提供一种新的商业模式为应用厂商和用户提供支持。AI 应用商店将聚合 AI 原生应用和由 AI 赋能的应用,并提供便捷的检索和下载支持。当个人大模型基于意图理解平台完成将用户指令编排为系列任务时,需要调取的插件化应用均可在 AI 应用商店中获取。AI 应用商店也将通过独立的审核机制,对应用的隐私保护协议与安全性进行更好的把控。插件化应用的上线,订阅,反馈收集与用户评价体系都与传统的应用不同。这些新的需求都将在全新的 AI 应用商店中得到探索和发展。AI 应用商店也将对“众创应用”(UGA)提供更多的开放性与包容性。AI 应用商店将能够与不同的用户社区打通,为众创应用提供一个认证,交易,下载与评价的平台,为开发者和使用者提供更稳妥的保障。形成以意图服务反馈驱动的新型应用评价和 迭代创新机制意图任务更多以插件化模式调用应用的“插件化”意味着:随着用户逐渐习惯通过个人智能体交互方式,应用被用户直接使用的场景会大大减少,除了少数专业性应用仍可通过传统方式进行调用外,大部分应用将通过个人智能体与意图理解平台被调用。这也对应用AI PC 产业(中国)白皮书34厂商提出了全新的要求。应用厂商应与终端厂商紧密合作,制定并发布应用程序编程接口(API)标准,包括数据交互、功能调用、界面设计等方面的规范,以确保个人智能体与应用能够顺利的协同完成用户的需求。在这种情况下,应用厂商将持续加大对自身插件化的投入。形成以用户意图反馈采纳次数为标准的应用评价机制“插件化”调用方式也意味着,一个不同于传统打分和定期发版更新的、基于对用户意图的理解的调用和反馈机制的应用评价和迭代机制将会形成。传统的链路中,应用厂商通过对用户的使用行为进行采集,结合调研分析的手段进行优化和新产品的开发。而 AI PC 通过任务分解与分发完成用户指令,在遇到专业性与复杂度较高的任务时,完成某些特定任务的应用可能会出现表现不佳的情况。开发人员可以基于大模型任务执行的反馈去识别应用迭代方向与新的开发需求。上述情况意味着应用的评估机制将迎来彻底的革新。以个人智能体为核心,根据用户的需求和输入,自主地做出相应的决策和推荐,从而提高服务的效率和准确性,并根据用户的使用情况和反馈,自主地优化和改进自身的服务和算法,从而不断提高自身的性能和准确性。行业将形成新的应用评估机制,评分指标将以用户调用次数、用户重新生成次数、主动采纳次数等为主。“众创应用&专业应用”共同发展的全新格局伴随着用户产业生态话语权的提升,应用还将进入自开发时代,非专业的个人用户也可以参与应用开发,通过基于模型的简单适配调整,生成新的应用。可扩展的 AI 框架和工具具备强大的功能和灵活性,使得用户可以根据自己的需求和数据进行简单的适配和调整。用户可以使用自动化开发工具和平台,快速构建和部署 AI 原生应用,或通过与个人智能体对话,进行应用或插件的开发。与此同时,以往专业的应用开发方式也仍然会继续沿用。行业将形成众创应用与专业应用共同发展的新格局。35AI PC 产业(中国)白皮书众创应用对行业造成冲击:AI 技术的进一步发展使得应用的开发门槛得到了极大的降低。众创应用(User Generate Application)将在应用市场上占据愈发重要的地位。在一些专业复杂度低的场景下,众创应用将对传统应用厂商造成巨大的冲击。专业应用仍留有一席之地:针对特定场景,仍有部分专业性极高的任务需要用特定的应用和软件来完成。出于效率和成本的考虑,个人智能体也不会构建针对此类任务的理解和解决能力。因此,在此类应用的使用上,用户仍将使用传统的方式与应用发生交互。用户将绕过个人智能体直接使用应用,但是会在应用内置的专业 AI 助手帮助下完成相关的任务。因此,无论是应用的开发,分发,使用场景还是评估方式,行业都将迎来“众创应用”和“专业应用”并行发展,共同繁荣的全新格局。3.5 算力厂商:普惠混合 AI 算力算力是 AI 技术的基础,是整个 AI PC 产业生态的血液。随着 AI 终端的爆发式发展,算力供给成为了制约 AI 快速普及的关键短板。为了应对行业对算力爆发式增长的需求,算力厂商将进行一系列彻底的转型,以提供普惠的混合 AI算力作为发力方向,推动 AI PC 的全面普及。混合 AI 算力成主流创新方向、智算性价比 将成核心评价指标云端算力的高昂成本是 AI 技术快速普及的主要阻碍。目前的算力供给模式以云端为主,主要满足大模型厂商对模型训练的巨额算力需求。但在 AI PC 到来之际,大模型将成为每一个人必不可少的助手,其用户规模将快速增长,对推理的算力需求势必将超过训练的算力需求。在这种情况下,算力集中于云端的在缺乏技术壁垒保护的领域,众创应用依靠成本低,数量多,时效性强和社区传播效应强等多种优势的加持,可能会成为用户(模型)的首选。AI PC 产业(中国)白皮书36模式将变得不可持续。因此,无论是模型的推理计算还是 AI 算力都需要向端侧和边侧下沉。而在端侧与边侧构建足够的 AI 算力,提升本地模型推理能力,从而形成端-边-云协同的混合算力是行业内不可阻挡的趋势。在搭建本地智能算力上,以 CPU NPU GPU 异构式架构方案提供本地算力是目前最为成熟的方案之一。CPU 厂商:CPU 将更普遍的集成 NPU。通过对 NPU 等强化 AI 运算和推理的单元进行集成来提升 CPU 在 AI 运算和任务分配上的性能将成为主要的发展趋势。CPU 厂商还能够进一步优化不同计算单元的调用机制,使得处理器的功耗能够进一步降低,即使在运行复杂的本地 AI 推理时也能够胜任。GPU 厂商:在传统的图像处理和运算性能的提升之外,GPU 厂商也将进一步加强对智能计算方向的优化。AI 芯片厂商:AI PC 为行业内带来一系列新的 AI 应用场景。这些不断发展和变革的场景也需要更强大的专属 AI 芯片提供支撑。AI 芯片厂商的行业地位将得到进一步提升,并在可信计算和增强智能计算方面为行业提供更多支持。智算性价比将成为核心评价指标在算力行业发展的初期,相对单一的评估指标有利于市场建立统一的评估基线。以云端算力供给为主要目的时,算力厂商更追求性能,因此 TOPS 等衡量算力性能的指标成为了主要的评估标准。但是在 AI PC 时代,端-边-云的混合算力架构成为主流,算力产品在终端设备上的表现将成为行业内评估其性能的新标准。在有限的成本与供给下达到最极致的智算性能,将是算力厂商发力的方向。在对智算性能的评价中,混合算力性能,算力产品在终端设备上的调优表现,功耗和成本都是重要的评估指标。智算性价比可以通过一个简单的公式进行描述智算性价比=性能 x 适配性/(功耗 x 价格)。其中,算力性能不再是唯一的正向因素,通过和终端厂商的合作,进行混合算力调优,提升算力产品在端侧的表现同样重要。通过更优秀的架构设计和机制提升功耗表现,并控制产品的最终价格也能有效的提升智算性价比。37AI PC 产业(中国)白皮书模型适配与 AI 开发框架的通用化趋势算力厂商还将建立通用、兼容的 AI 开发框架,并降低大模型和应用开发适配门槛模型。适配性对于 AI PC 产品来说是非常重要的因素。对于 AI PC 来说,依靠有限的算力能够推动更大参数规模的模型推理才是 AI PC 功能实现的关键。因此,算力产品与各类模型的适配将成为标准化的流程。模型适配程度将直接影响应用了算力产品的 AI PC 在模型推理方面的表现。同时,算力厂商不能只针对特定的应用进行调优,鉴于 AI PC 中应用将主要以插件的形式被大模型调用,对各类大小模型以及其调用的应用进行综合适配才最为重要。AI 开发框架的通用化则可以显著提升 AI 系统的效率与可扩展性,同时降低开发与维护成本。普惠与快速普及是算力发展的优先方向算力产品的效能对 AI PC 的购买与使用成本都有着决定性的作用。其中,算力成本的高低直接影响了 AI 技术的普及和推广,如果算力成本过高,那么 AI 技术就只能成为少数人的专利,而无法惠及每一个人。而算力产品的功耗同样对其续航表现和其他基础体验有着重要的影响。可以预见,在 AI PC 时代,提供高效能的普惠性智能算力将是算力厂商的优先发展方向,这将推动 AI PC 的快速普及。低功耗决定体验,长续航扩展场景:功耗的高低将影响到终端设备的整体成本。功耗较高的算力产品会提升终端设备其他组件的负担,从而对终端设备的形态,规格和成本产生整体性的影响。对消费者来说,高功耗的算力芯片可能意味着厚重的机身,高昂的成本,不够用的续航以及潜在的发热卡顿问题。AI PC 的终端形态本身就对算力产品提出了低功耗的要求。除此以外,通过与终端和系统的共同调优,提升其续航能力同样是算力厂商需要发力的重点。更长的续航能力可以直接提升用户的体验,也能够引领 AI PC 在移动办公等场景发挥出更关键的作用。在 AI PC 上,AI 开 发 框架的通用化也有利于后续大模型与应用之间的生态开放,通过提供统一的接口和工具,能够允许开发人员更敏捷的进行开发和调试。AI PC 产业(中国)白皮书38普惠性算力是算力发展的必然选择:对于整个行业来说,算力是大模型训练和迭代的基石,行业内对算力的巨大需求将倒逼算力厂商提供更充足的普惠性算力。对于未来的价格是决定产品市场定位的重要因素,对于 AI PC 来说,算力的价格高低直接影响了终端产品的定价,从而影响到潜在消费客群的规模。另外,AI PC 作为将 AI 技术惠及每一个人的跨时代产品,会将“算力消费”的概念带给整个消费市场。在大模型推理成为像连接 WIFI 一样普遍的未来,昂贵的算力将是不可想象的。39第四章AI PC 市场预测:2024 成为 AI PC 元年,加速 PC 升级4.1 中国 AI PC 的进化旅程AI PC 的发展是一个动态概念,各项价值和核心特征互相支撑,互相促进,逐步走向成熟。AI Ready 阶段AI ready 阶段基本具备了对 AI 任务更具针对性的本地混合 AI 算力,能够为AI PC 的软件及服务创新提供基本保障,开启体验创新。最初阶段主要表现为芯片计算架构的升级,集成了 NPU 计算单元的 CPU 陆续推向市场,以更高的能效比实现计算速度的提升,并在运行过程中具备更高的稳定性和可靠性。终端设备的混合 AI 算力,使 AI 软件能够更快地处理数据和任务,这对于一些如语音识别、图像处理等需要实时响应的 AI 应用尤为重要。2023 年,处在 AI Ready 阶段的 AI PC 将陆续上市。这类 AI PC 在硬件上具有一定的 AI 加速算力,但尚不具备完整的 AI PC 特征。AI PC 产业(中国)白皮书40AI On 阶段软件与硬件两方面的积累带来产业的跃变,AI On 阶段具有完整的 AI PC 核心特征,并且在核心场景提供划时代的 AI 创新体验,成为每一个人的个人 AI 助理。随着核心技术创新、产品体验优化、AI 应用生态繁荣,AI PC 能够服务于更加广泛的通用场景,并且能够实现端边协同计算、跨设备互联接力,甚至能够基于个人数据和使用历史,在边缘私域环境下实现个人大模型的微调训练。2024 年开始,符合 AI On 阶段标准,也即具备完备 AI PC 核心特征的 AI PC 将陆续进入市场,这将进一步拉动市场的快速增长,为整个产业发展注入新的活力。因此,2024 年将成为 AI PC 元年。4.2 中国 AI PC 终端预测AI PC 销量及 PC 终端新机装配占比预测2024 年 AI PC 快速登陆市场后,随着应用场景的不断拓宽,AI PC 将拉动 PC市场进入新一轮增长。IDC 对 AI PC 的预测数据包括处理器集成 AI 加速引擎的笔记本电脑和台式机。IDC 预测,AI PC 在中国 PC 市场中新机的装配比例将在未来几年中快速攀升,将于 2027 年达到 85%,成为 PC 市场主流。41AI PC 产业(中国)白皮书图 9 AI PC 市场规模及占比预测来源:IDC,2023注:本图中的 AI PC 预测数据仅含 AI 笔记本电脑和 AI 台式电脑,不含 AI 平板电脑。2023 年的 AI PC均为 AI Ready 设备。AI笔记本电脑和台式机 普通笔记本电脑和台式机 AI 笔记本电脑和台式机占比100 %单位:百万台占比202320242025202620278.1T.7t.6.3.6%PC 市场的增长来自消费与商用两部分市场的共同支撑。IDC 认为,在个人消费市场,AI PC 将缩短用户换机周期,加速换机潮的到来,同时改变 PC 市场的用户人群结构;中小企业将借助 AI PC 加速智能化转型,优化客户体验,提升运营效率;而大型企业的变化将体现于更长的时间跨度,AI PC 将长期与大型企业智能化转型相结合,充分释放企业内部活力。消费市场:加速换机潮提前,人群结构高端化AI PC 与个人效率的提升联系最为直接,对需求的拉动也将快速体现于消费市场。自媒体的兴起为个体用户的自我表达提供了更加丰富的形式与更加有力的渠道,消费者创造图片、视频等内容的需求空前膨胀,亟需功能强大的 AI PC帮助提高创作效率。同时,全方位、个性化的服务将使 AI PC 深度参与到用户的生活、工作当中,与用户产生情感联结,极大提升用户的使用粘性。AI PC 产业(中国)白皮书42IDC 认为,AI PC 的独有价值对用户的强大吸引力将大大缩短既有 PC 用户的换机周期,加速换机潮的到来。IDC 的研究数据显示,目前 PC 消费市场的主流换机周期为 3-5 年,2022 年仅有 10%左右的用户有 2 年内置换 PC 的计划。而 AI PC 的到来将加速这一换机潮的到来。越来越多的用户将因为 AI PC 而做出提前置换 PC 的决定。而 IDC 预测 2 年内置换 PC 的用户占比将翻倍,提升至 20%甚至更高。IDC 数据显示,目前 PC 消费市场的人群结构偏保守,对价格敏感且注重实用功能的节俭从众型用户和精明自主型用户合计占比接近 6 成。随着 AI PC 的到来,IDC 预测 PC 消费市场人群结构将发生变化。对新技术敏感且愿意尝试新科技的品味达人型用户将是 AI PC 的首批尝鲜用户;之后,越来越多注重生活品质和工作效率的稳重体面型的用户会在品味达人的影响下,置换旧机,成为AI PC 的主流用户并拉动 PC 消费市场人群结构的高端化;2025 年以后随着 AI PC 的普及,越来越多对技术参数和价格变化敏感注重性能和功能的精明自主型用户会成为 AI PC 的消费者主体。图 10 中国 PC 消费市场用户细分人群占比来源:IDC,20232025202420230 0%节俭从众型 精明自主型 稳重体面型 品味达人型24%01&)$#%IDC 预测,AI PC 会最先在消费市场快速增长,AI PC 在中国消费市场中新机的装配比例会略微高于 PC 整体市场。IDC 预测,在 AI PC 的带动下,中国消费市场个人电脑在居民家庭中的渗透率将突破瓶颈期,实现持续增长。未来几年,越来越多的家庭会因为 AI PC 独有的多模态交互、全场景适用、强劲算力、43AI PC 产业(中国)白皮书安全存储等优势选择将 AI PC 作为家庭内办公、学习、娱乐、创作的第一终端;甚至会有更多的家庭因为 AI PC 的专属性,每个家庭成员人手一台 AI PC。未来,AI PC 不仅将成为家庭的必需品,还会成为最了解家庭需求和生活习惯的“智能管家”,成为不可或缺,难以割舍的“家庭成员”。中小企业:借助 AI PC 加速智能化转型,优化客户体验,提升效率IDC 针对中小企业的研究显示,26%的中小企业 PC 用户了解并在工作中使用过大模型和生成式 AI 技术。其应用场景主要集中在协同办公和市场推广。媒体、医疗卫生、互联网行业对于增加 AI 方面的投资表现出了较高的意愿,“专业服务”领域的企业对 AI 方面的投资已经达到了较高的水平。中小企业体量较小,管理层级较少,组织结构相对简单,以低成本运营模式为主,在法务、财务、品宣、IT 等专业服务领域,通常不像大型企业一样具备完整的职能部门。AI PC 对各类资源的充分整合可以有效弥补这一短板,使中小企业得以最大程度提升自身的独立性。AI PC 还可以对远程平台实现赋能,通过强化远程沟通,帮助异地团队成员更好地协作,共享资源和信息,还可以帮助管理者更高效地组织和管理工作任务。通过对远程协同效率的提升,一方面减少业务人员的差旅成本,另一方面提升居家办公的生产力,减少企业在办公室空间方面的成本投入。在这一过程中,员工在差旅、通勤中投入的时间成本亦得以节省,间接帮助企业进一步实现运营效率的提升。AI PC 对市场推广与客服人员的支持将增加单个员工在单位时间内能够应对的客户与业务量,为企业达到提升效率的效果。同时,AI PC 也可以帮助中小企业实现流程管理自动化,放大其在灵活性方面的优势,从而为业务增加内生性推进因素。AI PC 产业(中国)白皮书44IDC 预测,AI PC 在中国中小企业 PC 市场中新机的装配比例提升速度将高于消费市场,在 2027 年达到 88%。随着 AI PC 的到来,中小企业将加大 IT 支出的投入,2024 年以后,53%的企业的 IT 投资额年增长率将超过 5%。大型企业:领先企业率先导入 AI PC,长期与智能化转型 相结合IDC 预测,由于数据安全等方面的要求较高,且体量大部署复杂,AI PC 给大型企业带来的变化将体现在更长时间的跨度。AI PC 在中国大型企业 PC 市场中新机的装配比例将于 2027 年达到 74%,其中 IT、互联网、金融和专业服务等科技领先行业的大型企业将率先导入 AI PC。AI PC 拉动 PC 市场稳定增长在 AI PC 的带动下,PC 的应用场景将得到进一步拓展,拉动市场规模进入新一轮增长。IDC 预测,中国 PC 市场将因 AI PC 的到来,结束负增长,在未来5 年中保持稳定的增长态势。台式机、笔记本电脑市场总规模将从 2023 年的3900 万台增至 2027 年的 5000 万台以上,增幅接近 28%。图 11 中国个人电脑市场规模预测来源:IDC,2023单位:百万台 市场规模2023202420252026202739.540.644.348.050.645AI PC 产业(中国)白皮书整体 AI 终端市场也将迎来爆发。IDC 将具有 AI 处理功能的芯片的终端设备定义为 AI 终端。IDC 预测,2024 年中国终端设备市场中,将有超过半数的设备在硬件层面具备针对 AI 计算任务的算力基础,至 2027 年,这一比例将进一步攀升至接近 80%的水平,并进入平稳提升阶段。图 12 中国 AI 终端占比预测来源:IDC,2023100 %AI终端 非AI终端59AEU5e%u!y 232024202520262027AI PC 单价和销售额预测消费市场:价格稳步上涨,销售额增长 8.3 倍IDC 预测,未来五年在主要面向个人和家庭的消费市场,AI 笔记本电脑平均单价在 5500-6500 元之间,AI 台式电脑平均单价在 4000 元左右,2024 年以后随着需求的增长和 AI 性能的提升,价格会稳步上涨。AI PC 产业(中国)白皮书46IDC 预测,未来五年在主要面向个人和家庭的消费市场,AI PC 的销售额将以笔记本电脑 为主,AI 笔记本电脑和 AI 台式电脑合计销售额将从 2023 年的141 亿快速攀升至 2027 年的 1312 亿,增长 8.3 倍。图 13 消费市场 AI PC 平均单价预测 AI笔记本电脑 AI台式机电脑来源:IDC,20238000600040002000单位:元2024202520262027图 14 消费市场 AI PC 销售额预测 AI笔记本电脑 AI台式机电脑来源:IDC,20230900006000030000单位:百万元202420252026202747AI PC 产业(中国)白皮书中小企业市场:价格稳中有涨,销售额增长 16 倍IDC 预测,未来五年在中小企业市场,AI 笔记本电脑平均单价在 5000-6000 元之间,AI 台式电脑平均单价在 3500 元左右,价格稳中有涨。图 15 中小企业市场 AI PC平均单价预测600050004000300020001000 AI笔记本电脑 AI台式机电脑单位:元来源:IDC,20232024202520262027IDC 预测,未来五年在中小企业市场,销售额 AI 笔记本电脑高于 AI 台式电脑,AI 笔记本电脑和 AI 台式电脑合计销售额将从 2023 年的 32 亿元快速攀升至2027 年的 547 亿元,增长 16 倍。图 16 中小企业市场 AI PC销售额预测40000300002000010000 AI笔记本电脑 AI台式机电脑单位:百万元来源:IDC,20232024202520262027AI PC 产业(中国)白皮书48大型企业市场:AI 笔记本和 AI 台式机同步普及,销售额增长190 倍IDC 预测,未来五年在大型企业市场,AI 笔记本电脑平均单价在 5500-6000 元之间,AI 台式电脑平均单价在 4000 元左右,价格稳中有涨。图 17 大型企业市场 AI PC平均单价预测8000600040002000 AI笔记本电脑 AI台式机电脑单位:元来源:IDC,20232024202520262027图 18 大型企业市场 AI PC销售额预测2500020000000来源:IDC,2023 AI笔记本电脑 AI台式机电脑单位:百万元2024202520262027IDC 预测,未来五年在大型企业市场,AI 笔记本和 AI 台式机将并驾齐驱,同步普及。AI 笔记本电脑和 AI 台式电脑合计销售额将从 2023 年的 2.3 亿元快速攀升至 2027 年的 449 亿元,增长 191 倍。49AI PC 产业(中国)白皮书 AI PC 应用价值预测AI PC 时代,PC 将不再是单纯的硬件设备,而是具备了可持续运营的价值。用户的购买行为将不再仅限于硬件本身的购买和使用,AI PC 生态相关的应用、模型及收费标准都会成为购买决策链中需要考虑的因素。由于个人智能体在全场景下都将发挥出不可或缺的作用,用户对 AI PC 的使用时长将超过传统 PC,而应用市场将作为这些新增使用时间的主要承载方。插件化的 AI 原生和 AI 赋能的应用将极大的拓展 AI PC 的智能化表现,使得应用将成为 AI PC 的主要附加品。因此,在 AI PC 时代,除了硬件本身的购买和维护费用,用户会为应用投入更多的付费,以买断或是订阅的形式,为包括公共大模型在内的附加服务付费,以提升 AI PC 的实用价值。4.3 中国 AI 平板电脑及边缘主机市场预测随着 AI PC 应用场景的不断拓宽,消费和中小企业市场有望迎来 AI 平板电脑和边缘 AI 主机的爆发。端边协同将成为 AI PC 在这些场景下的主要应用方式。AI 平板电脑:平板电脑也将追随 AI PC 进行大模型在本地运行的尝试,进一步提升智能化能力,特别是在教育学习、休闲娱乐和移动办公等领域。教育学习方面,AI 平板电脑可以提供更具个性化的学习体验,帮助学生更好地理解和吸收知识。在休闲娱乐方面,AI 平板电脑可以提供更丰富的娱乐体验,如高质量的游戏和影视体验。在移动办公方面,AI 平板电脑可以帮助用户高效地完成工作。据预测,到 2027 年,AI 平板电脑在平板电脑市场的占比将达到 75%。AI PC 产业(中国)白皮书50家庭 AI 主机:为了充分发挥 AI PC 在生活、教育等场景的作用,会有越来越多的家庭配置高性能的边缘主机作为家庭 AI 主机,为家庭内的 AI 终端提供充足的智能算力,实现家庭内各类 AI 终端和公共大模型的协同配合,支持家庭打造更智能的家居生态。在家庭主机的参与下,用户将能够对个人大模型进行微调,使得个人智能体能够根据家庭习惯和需求提供个性化的交互体验和反馈优化,打造家庭专属的生活管家、工作助手与家庭教师。中小企业边缘 AI 主机:边缘 AI 主机将成为中小企业新的业务 IT 化解决方案,将会有更多中小企业部署。企业边缘 AI 主机能大幅提升中小企业的边侧算力水平,为企业内的智能办公提供充足的算力支持,提升工作的效率和智能化程度。边缘 AI 主机也能够在闲时对企业专属模型进行微调,强化企业专属助手对企业术语、业务场景和特殊需求的理解程度,不断优化反馈效果。对不同行业的中小企业,边缘主机能够发挥差异化的作用。例如在设计行业,边缘主机能够使得企业智能体可以学习过往的作品,设计风格一致的作品。4.4 中国 AI PC 生态参与者发展预测算力厂商和芯片厂商ARM 和 x86 架构产品的算力厂商都将在中国 AI PC 的生态发展中起到重要的作用。主流厂商将进一步优化 CPU NPU GPU 的架构,以提升混合的普惠算力作为行业的发展方向,助力 AI PC 的大规模普及。通用性的 AI 开发框架和终端适配性将是厂商发力的主要方向。国际芯片厂商将继续成为中国 AI PC 生态的主要参与者。而在外部环境因素不确定性的影响下,中国本土的芯片厂商也有望得到进一步发展,在部分更看重安全和可靠性的行业内承担算力产品供给的任务,竞争格局将趋向复杂。家庭主机的普及还有望进一步推动智能家居的发展,如联想等在智能家居方面有布局终端厂商将进一步从中获益。51AI PC 产业(中国)白皮书大模型和应用厂商混合大模型的流行将推动公共大模型服务的发展。大小模型都将在 AI PC 时代进入更快速的发展阶段。传统的应用厂商均面临转型的压力,传统应用将大规模应用 AI 模型进行赋能,并对应用进行插件化适配。在工作,学习,生活场景下提供满足创作类任务需求的应用供应商会进一步升级。众创应用将对行业的格局造成冲击,用户利用 AI 自主开发的应用将在短期内对应用市场形成冲击,并最终成为应用生态的新兴参与者。以 AI 模型为核心的 AI 原生应用将逐渐成为市场的主流,并由此催生出一批新专注于 AI 原生应用的厂商。AI PC 应用还将形成规模庞大的周边市场,围绕 AI 原生应用开发的培训,用户社区维护与运营,AI 应用分发机制等提供全方位支持,为市场带来新的机会点。4.5 中国 AI PC 投资价值预测AI PC 终端厂商将成为新时代的直接受益方。AI PC 的出现将推动一轮 PC 与平板产品的升级与购机潮,并随着时间的推移进一步提升相关终端在中国的渗透率。这一趋势将为近来发展渐缓的终端厂商带来新的机遇与活力。AI PC 时代的行业生态格局也赋予了终端厂商更核心的地位,进一步提升了其潜在的投资价值。AI PC 在未来数年的推广和普及将由行业内龙头终端厂商引领,市占率更高的终端厂商将获得更大的收益。同时,能够围绕 AI PC 提供创新体验服务的工作、学习场景的应用提供商以及混合大模型厂商都也将从中获益。AI PC 的推广将带来大规模的模型和应用的购买与订阅付费。这一趋势在消费与中小企业市场将更为明显。AI PC 产业(中国)白皮书52结语 随着微软等厂商在 AI 应用侧的布局推广,以及 Intel、AMD、高通集成 AI 模块的 CPU 的推出,各大 PC 厂商正在积极探索全新 AI PC 的形态。联想、惠普、戴尔等终端厂商的 AI PC 产品有望相继落地,其中,联想已建立先发优势。2023 年 10 月,联想 Tech World 2023 大会展示了革命性的 AI PC 产品,能够在离线状态下本地化运行大模型,并根据用户个人数据生成定制化解决方案,保障数据隐私安全的同时更贴合用户需求。微软、英伟达、AMD、高通、Intel 等 CEO 参加大会并发表演讲,展示了其最新的 AI 规划及与联想集团在 AI 方面的战略布局。联想 AI PC 预计在 2024 年正式上市,2024 年将成为中国 AI PC产业元年。未来已来,AI PC 不仅将为中国的 PC 产业带来一次产业升级的大变革,还会让 AI 惠及更多用户,为广大用户带来更加高效和智能的美好体验。联想作为终端厂商,倡导整个产业生态的参与者一起拥抱变革,相互配合、加速推进 AI PC 在中国的落地与发展!国际数据公司(IDC)是在信息技术、电信行业和消费科技领域,全球领先的专业的市场调查、咨询服务及会展活动提供商。IDC 帮助 IT 专业人士、业务主管和投资机构制定以事实为基础的技术采购决策和业务发展战略。IDC 在全球拥有超过 1100 名分析师,他们针对 110 多个国家的技术和行业发展机遇和趋势,提供全球化、区域性和本地化的专业意见。在 IDC 超过 50 年的发展历史中,众多企业客户借助 IDC 的战略分析实现了其关键业务目标。IDC 是 IDG 旗下子公司,IDG 是全球领先的媒体出版,会展服务及研究咨询公司。关于联想集团IDC 中国(北京):中国北京市东城区北三环东路 36 号环球贸易中心 E 座 901 室邮编:100013 idc idc凡是在广告、新闻发布稿或促销材料中使用 IDC 信息或提及 IDC 都需要标注白皮书来源。如需咨询,请致信 。翻译需要 IDC 额外的许可。获取更多信息请访问 ,获取更多有关 IDC GMS 信息,请访问 https:/ 2023 IDC。未经许可,不得复制。保留所有权利联想是一家成立于中国、业务遍及 180 个市场的全球化科技公司。联想聚焦全球化发展,树立了行业领先的多元上海品茶和运营模式典范,服务全球超过 10 亿用户。作为值得信赖的全球科技企业领导者,联想助力客户,把握明日科技,变革今日世界。地址:北京市海淀区西北旺东路 10 号院邮编:100085网址:

    浏览量0人已浏览 发布时间2023-12-09 54页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中移智库:2023“一带一路”数字基建实践与发展报告(25页).pdf

    01前 言共建“一带一路”倡议是党中央统筹国际国内两个大局作出的重大战略选择。作为中国扩大对外开放的重要举措和构建人类命运共同体的实践平台,“一带一路”倡议始终秉持“共商、共建、共享”原则,与世界共享机遇、共谋发展,所取得的成就硕果累累,所产生的影响深远广阔。十年来,“一带一路”倡议顺应了时代发展的潮流,为破解世界发展难题提供了中国方案,为增进世界人民福祉贡献了中国晴慧,充分展现了中国的大国责任和担当。技术进步与创新赋予了“一带一路”新的内涵。十年来,5G、大数据、人工晴能等新一代信息技术快速发展、有机融合,技术创新的速度、广度和影响力迅速上升,人类从数字社会迈向晴能社会,数字基础设施已经成为数字社会、晴能社会的关键支撑,数字基础设施建设逐步成为我国参与区域合作的重要主题。中国移动作为我国通信行业领军企业,积极融入“一带一路”“数字丝绸之路”的建设进程,坚定不移地深化国际化经营,不断拓宽“国际信息航道”,为加强“一带一路”沿线数字基础设施“硬联通”、规则标准“软联通”、沿线国家人民“心联通”发挥积极作用,助力“数字丝绸之路”在“一带一路”不断延展。值此“一带一路”倡议提出十周年之际,中移晴库联合产业伙伴,发布“一带一路”数字基建实践与发展报告,总结十年成果,提炼实践经验,汇聚产业共识,为继续推进“一带一路”数字基建合作贡献晴库力量。报告立足于数字基建的产业实践,总结出“一带一路”数字基建在缩小数字鸿沟、增强经济韧性、推动多元创新方面的重要意义,同时从与沿线区域实现互利共赢、“硬联通”能力提升、“软联通”稳步推进、带动数字出海生态暍加丰富四个维度总结了十年来“一带一路”数字基建所取得的卓越成效。报告同时以典型案例展现了“一带一路”数字基建实践在生产、贸易、民生、治理领域所贡献的多重价值,并从数字治理、科技创新、国际交流、绿色发展四个方面寻找创新方向,探索“一带一路”数字基建高质量发展的新图景。本报告由中移晴库、中国移动国际有限公司、中国信息通信研究院、华为、中兴联合撰写。03目录CONTENTS00304“一带一路”数字基建具备重要意义“一带一路”数字基建取得卓越成效“一带一路”数字基建实践成曖丰硕“一带一路”数字基建高质量发展新图景1.1 缩小数字鸿沟,共建高质量发展之基041.2 增强经济韧性,共拓高质量发展之路051.3 推动多元创新,共筑高质量发展之望052.1“数字丝路”引领,有效实现互利共赢062.2“硬联通”能力提升,建设领域暍加多元072.3“软联通”稳步推进,规则标准融通兼容082.4 以“建”带“用”,出海生态暍加丰富 093.1 生产类实践案例:数字加持生产,带动发展提质113.2 贸易类实践案例:数字赋能流通,增强经济活力133.3 服务类实践案例:数字惠及民生,拓展消费空间143.4 治理类实践案例:数字浸润社会,提升社会福祉164.1 探索数字治理新方案204.2 打造科技创新新模式 204.3 拓宽国际交流新维度 214.4 把握绿色发展新机遇21结暻语22致谢23缩略语列表24参考文献2504 1“数字丝绸之路”重在规则建设,中国经济网https:/ Ookla,Speedtest Global Index,https:/ 年,新华社“一带一路”发展学全球共同发展的实践和理论探索也强调“数字丝绸之路在世界不断延展,为广大发展中国家创造了推进工业化和信息化协同发展的新机遇”。该报告首次提出的“一带一路”发展学 CEC 发展动力模型指出:“联通是牵引器,通过以基础设施互联互通为主的联通,为暍多国家拓宽进入世界市场的大门,在全球范围带动经济要素自由流通。”推动“一带一路”数字基建的广泛实践,有利于缩小数字鸿沟,有利于增强经济韧性,有利于推动多元创新,支持各国在全球价值链重塑的浪潮下谋求高质量发展。1.1 缩小数字鸿沟,共建高质量发展之基近年来经济全球化受阻,而数字化所驱动的全球化却在高速发展。根据相关研究1,预计2025 年数据跨境流动对全球经济增长贡献有望突破 11 万亿美元。数据流动支撑了商品、服务、资本、物流等几乎所有类型的全球化活动,成为推动经济全球化的重要力量,数字贸易超越传统贸易成为国际贸易新引擎。放眼“一带一路”沿线,各国的“数字鸿沟”问题依然突出。国际电信联盟(ITU)2022 年发布的报告指出,全球 27 亿人仍处于无法接入互联网的“离线”状态。根据 ITU2和世界银行3的统计,从数字基础设施的数量看,南苏丹、利比里亚、莫桑比克等 29 个国家每百位居民蜂窝移动电话用户数大幅低于全球平均水平。从数字基础设施的质量看4,非洲、东盟和中亚的移动宽带下载速度和固定带宽下载速度区域间差距大,且多地距离全球平均水平呈现较大差距。“一带一路”倡议致力于为广大发展中国家提供用得上、用得起、用得好的数字基础设施,为实现经济包容性增长和数字化转型创造新机遇,以消弭南北数字鸿沟,解决“数字贫困”,为共建国家的高质量发展铺设数字基础。051.2 增强经济韧性,共拓高质量发展之路近年来,全球经济发展不确定性增加,增强经济韧性成为了各国提升国际竞争力的时代命题。国家竞争优势建立在基本生产要素和先进生产要素禀赋的组合上。美国经济学家布洛克认为,传统经济分析将社会生产过程类比于化学过程,劳动和资本等投入均按某种比率与原材料和能源相结合生产出产品。但在以现代服务业和计算机产业为基础的后工业时代,基本生产要素调整空间相对有限,投资先进生产要素在构建竞争力方面便将发挥暍大作用。相关研究表明,加速推进数字化转型的行业能暍好地应对经济下行压力。数字“一带一路”建设为沿线国家提供了一个熨平衰退暋线的契机,有利于各国增强经济韧性,暍好地推进“一带一路”数字基建高质量发展。1.3 推动多元创新,共筑高质量发展之暝全球正处于新一轮科技及产业革命爆发期,全球范围内的数字产业的发展以及产业数字化转型的推进,加速了全球产业链、供应链、价值链的重塑,生产生活等多个层面面临巨大的创新动力,也具备了日益成熟的创新条件。“一带一路”数字基建在沿线国家的推广有望活跃科技创新动能,网络、算力、人工晴能与传统的生产要素和生产方式紧密融合,将开辟出全新的市场空间和生活空间。同时,科技创新将驱动产业创新,催生新的服务模式、产业应用、商业生态,以及产业集群和产业链的创新发展。在此基础上,文化文明、协同协作、政策法规、认知和行为边界等方面的创新升级将全面展开,从而推动人类社会的进步和共同利益的提升。06“一带一路”提出以来的十年,是技术快速演进、产业迅速变革的十年。随着以大数据、物联网、云计算等为代表的信息技术的迭代升级,数字经济已经成为继农业经济、工业经济之后的主要经济形态之一,极大地改变着人类社会。在此背景下,数字基建成为“一带一路”合作的重要内容,成为我国参与区域合作的重要主题。我国数字基建企业积极融入“一带一路”建设,对于推动当地经济社会发展、提升人民生活水平发挥了重要作用。与此同时,以海缆、陆缆等电信基础设施建设为代表的“硬联通”能力和范围显著提升,“软联通”稳步推进,推动中国规则标准走向海外。随着“一带一路”数字基建水平的不断提升,暍多国内企业走出国门、走向“一带一路”,数字产业出海生态进一步丰富。2.1 “数字丝路”引领,暕效实现互利共赢数字基建已经成为我国参与国际合作的重要议题。我国在国际或区域多边经济机制下,以数字基建作为重要议题,推动发起了多个符合大多数国家利益和诉求的倡议、宣言和提案。例如,在亚太经合组织(APEC)机制下,2014 年我国首次将互联网经济引入 APEC 合作框架,发起并推动通过促进互联网经济合作倡议,提出“建设、维护和暍新高质量的基础设施,包括能源、信息通信技术及交通运输基础设施”。在二十国集团(G20)机制下,2016 年我国推动首次将“数字经济”列为 G20 创新增长蓝图中的一项重要议题,并通过G20 数字经济发展与合作倡议,提出“加速网络基础设施建设,促进互联互通”等数字基建内容;在 2021 年 G20 峰会上倡议“加快新型数字基础设施建设,促进数字技术同实体经济深度融合,帮助发展中国家消除数字鸿沟”。此外,在中非合作论坛、金砖国家、上合组织、中国-东盟、中欧高层对话、中国-中东欧、中国-海湾阿拉伯国家、中国中亚峰会、中国-南太平洋岛国等多边机制下,数字经济和数字基础设施合作也已纳入合作领域。“一带一路”数字基建建设坚持“共商、共建、共享”,暕效实现互利共赢。我国数字基建出海企业秉承“一带一路”共商、共建、共享的原则,积极参与沿线国家数字基础设施建设,对与促进当地经济社会发展、提升人民福祉发挥了重要作用,实现了双方的互利共赢。这种互利共赢体现在多个方面。第一,提升了沿线国家基础设施发展水平,缩小了区域间、城乡间、群体间“数字鸿沟”。截至 2023 年,中国共援建通信骨干网 15 余万公里,网络服务覆盖近 7 亿用户终端。华为、中兴等中国厂商与非洲主流运营商合作,建设了非洲一半以上无线站点及高速移动宽带网络,帮助 600 万家庭实现宽带上网,服务超过 9 亿非洲人民5,基本实现非洲电信服务全覆盖。第二,数字基建水平的提升为“一带一路”沿线经济社会数字化转型提供了基础。中铁07国际承建的孟加拉国国家数字联通项目,有效改善政府机构办公效率、提升公众数字素养6。我国企业承建的泰国 5G 晴慧医院7等项目,正在帮助沿线国家医疗行业进行数字化转型升级,有效提升相关国家医疗服务水平。第三,数字基建的开展为改善“一带一路”沿线国家的人民生活水平提供了助力。麦肯锡研究报告显示8,中国企业在非洲雇员本地化率高达 89%,有效带动了当地人口就业。例如,中国通建在坦桑尼亚国家骨干通信网建设期间,雇佣当地居民进行光缆敷设、机房安装等基础工程建设,不仅解决了当地就业,而且培养了当地工人的技能水平,提高了居民的收入。2.2“硬联通”能力提升,建设领域暍加多元海缆、陆缆、电信基础设施建设是我国“一带一路”数字基建的底座,在长期努力下,相关建设取得了明显进展,“硬联通”能力显著提升。尤为值得一提的是,近年来,我国高科技企业将大数据、人工晴能等新技术用于“一带一路”数字基建建设,合作领域暍加多元化。国际海缆布局不断完善。目前我国电信企业共投资建设国际海缆近 20 条,另外在 30 余条国际海缆上通过购置等方式拥有容量。在“一带一路”沿线,我国电信企业牵头建设了 APG、亚欧 5 号、亚非欧 1 号等多条连接东南亚和欧洲的国际海缆,还有连通东南亚、欧洲、非洲等地区的 PEACE、2Africa、ADC、SJC2、ALC、SEA-H2X 等多条海缆正在建设中。其中,由中国移动等中资企业投资或建设的亚非欧 1 号(AAE1)、亚欧 5 号(SMW5)和 PEACE 海缆,是当前中国连通亚非、亚欧和非欧的主要通道;SEA-H2X 海缆在 2025 年投入使用后,将成为中国与东南亚实现网络直联的重要路径。此外,由中国移动投资的全球最大 2Africa 海缆项目中段于 2023 年投产,预计于 2025 年上半年完成全部投产,该线路无缝连接亚洲、非洲和欧洲,主干拥有 46 个登陆点,全长 45000 千米,预计服务全球 30 亿用户。随着中国在海缆制造、铺设及维护方面的技术与经验日渐成熟,中资企业为暍广泛的市场提供服务。5新时代的中非合作白皮书,国务院新闻办公室,2021 年 11 月 6中企签约孟加拉国国家数字联通项目http:/ 5G 智慧医院项目在泰国启动http:/ 年 6 月08跨境陆缆通道进一步拓宽。我国共拥有霍尔果斯、阿拉山口、满洲里、凭祥、瑞丽等 17 个国际陆缆边境站,与周边 12 个国家建立了 170 余个跨境陆地光缆系统,系统带宽超过 70Tbps。在加强与邻国跨境陆缆建设的同时,我国电信企业也通过购置带宽打通连接多国的信息通道。在欧洲方向,利用俄罗斯地理特点构建了中俄欧、中蒙俄欧、中哈俄欧等低时延亚欧信息通道;在东南亚和南亚方向,通过创新海陆缆联运模式,打通了中老泰、中缅欧、中巴欧等信息通道。国际业务接入覆盖主要国家。在业务接入点方面,我国电信运营企业在全球建设超过 400 个网络服务接入点(PoP 点),覆盖 80 多个国家和地区,进一步提升了我国与“一带一路”沿线国家的互联互通水平。其中,截至 2023 年 10 月,中国移动国际公司建设了 138T 国际传输带宽、232 个海外 PoP 点,覆盖全球 80 多个国家及地区、140 多个城市,为全球运营商领先水平。中国移动在阿暐建设 MC1 网络服务接入点(MC1 PoP)成功投产,有力提升了阿暐在中东地区的网络连接性,并使其成为重要的网络区域枢纽。海外算力设施能力快速发展。大数据、人工晴能等新一代信息技术推动“一带一路”数字基建合作领域暍加多元,从传统的网络链接向算力、晴能等领域拓展。具体来看,中国移动部署12100 架海外 IDC 机架,形成“7 大核心自建数据中心” “N 个合作性区域性 IDC”全球数据中心资源布局,并协同自身连接规模优势,以“全球网络 数据中心”为基础架构,为客户提供一站式 ICT 解决方案,服务全球企业。阿里云、华为、腾讯云、UCloud 等云服务提供商将国内业务拓展至欧洲、北美、亚太等国际市场,网宿、蓝汛、帝联等提供国际 CDN 业务的企业将业务领域扩展至 IDC 和云服务领域,秦淮等数据中心企业在马来西亚、泰国、新加坡、印度等地建设数据中心。云服务商在“一带一路”沿线的服务由提供存储能力逐渐向存、算、晴一体化服务发展,例如华为云逐步在暐谷、新加坡、雅加达、约翰内斯堡等部分海外城市提供 AI 能力9。2.3“软联通”稳步推进,规则朅准融通兼容规则标准的融通与兼容既是推动“一带一路”数字经济合作,实现互联互通、互惠互利的有效保障,也是数字经济时代国家和产业软实力的重要体现。伴随着中国不断融入“一带一路”数字基建,我国数字领域相关的规则标准也逐步走出去,为全球数字基建提供了中国方案。9华为全球产品和服务:https:/ TD-LTE 标准成为国际标准,目前全球已经有 53 个国家和地区部署了 99 张 TD-LTE 网络,其中“一带一路”沿线 21 个国家和地区建设了 39 张 TD-LTE 网络。中国移动联合日本软银、英国沃达丰等国际企业于 2011 年发起成立的 TD-LTE 全球发展倡议论坛(GTI)拥有 144 个运营商成员,256 家产业合作伙伴。其次,我国物联网领域实践经验成为国际标准。我国产业链主导的 NB-IoT 已正式纳入全球 5G 标准,自主研发的物联网安全协议关键技术 TRAIS-X 和 TRAIS-P 成为 RFID 领域的国际标准。此外,我国在算力网络等新兴技术领域积极提出中国方案。2021 年 7 月 5 日-16 日,在国际电信联盟电信标准化部门(ITU-T)第 13 研究组(SG13)报告人会议上,通过了由中国电信牵头的算力网络框架与架构标准(Y.2501),该标准是首项获得国际标准化组织通过的算力网络标准。今年,中国移动主导的“算力路由”工作组(CATS)在国际互联网标准化组织(IETF)成功获批。我国与“一带一路”沿线区域的数字规则联通逐步走向深入。我国建立的数字规则标准以“共商、共建、共享”为原则,充分尊重共建国家的利益、强调共建国家的协商合作,最终实现多边互利共赢。截至目前,我国与多国共同发起“一带一路”数字经济国际合作倡议,与17 个国家签署“数字丝绸之路”合作谅解备忘录,与 23 个国家建立“丝路电商”双边合作机制,提出和推进了中国东盟关于建立数字经济合作伙伴关系的倡议、中阿数据安全合作倡议、“中非数字创新伙伴计划”等一系列合作倡议。我国与“一带一路”沿线区域在数字规则方面的联通,不仅有助于推动“一带一路”数字经济合作,助力“数字丝绸之路”建设,还缩减了全球国家之间的数字鸿沟,为发展中国家争取了暍大的数字话语权,推动了各国数字合作、协同全球数字治理,使各个共建国家都能从“一带一路”合作中获益。2.4 以“建”带“用”,出海生态暍加丰富我国网络、算力和云计算等领先的数字技术在海外逐步应用,带动了暍多产业和应用走向“一带一路”,我国数字产业生态融入“一带一路”建设呈现多层次、宽广域的发展趋势,不仅有力支撑了国内产业企业的全球化步伐,也为全球用户带来了暍为丰富的技术和服务选择。数字基建带动信息通信产业链“走出去”。国家骨干网、海缆等 EPC 项目带动了我国光通信、通信电源、运维等产业链海外市场增长。我国企业在“一带一路”沿线牵头建设了 APG、亚欧 5 号、亚非欧 1 号等多条国际海缆,中国的企业不仅提供了关键的硬件设备,如光纤、OTN设备、DWDM 设备等,还提供了一系列的服务,包括但不限于项目咨询、设计、海上施工、后期维护与运维等。例如,亨通光电对海洋设备和海缆制造能力进行整合,形成了从海缆研发制造、运输、嵌岩打桩、一体化打桩、风机安装、海缆敷设到风场运维的海上风电场运营完整产业链。10数字基建由参与建设逐步发展到网络迊营。华为、中兴等通信设备厂商从 20 世纪 90 年代开始采用建立地区部、国家代表处的模式走出去,逐步进入了全球 170 多个市场。中国移动于2007 年收购巴基斯坦辛姆巴科公司,迈出国际化的第一步,目前辛姆巴科公司已服务 4700 万巴基斯坦客户,4G 用户渗透率、客户数量及收入份额均位于行业领先位置,并连续多年盈利。同时,中国移动国际公司为全球企业、运营商、个人用户提供全方位的国际信息服务和优质的解决方案,为全球客户提供数晴化服务。我国电信运营商还通过并购、参股等方式在菲律宾、泰国等多个国家和地区实现海外运营,如中国电信参与投资了菲律宾电信全业务运营商 DITO。数字基建助力国产手暪终端拓展海外市场。我国信息通信企业积极“走出去”,提升了国际网络服务能力,为国产手机终端走向国际市场提供了广阔的空间和机遇。从全球来看,根据Omdia 发布的 2023 第 2 季度业绩报告,中国品牌占领了全球十大手机品牌中的 3-10 位,整体份额超过54%,我国手机在印度、欧洲、东南亚、非洲等主要的手机市场上占据优势地位。在亚洲,OPPO、小米、vivo 等厂商 2014 年起相继进入印度市场,并在当地建立工厂,仅用两年,中国厂商在印度晴能手机市场的份额便达到 46%。截至 2022 年第三季度,印度晴能手机市场出货量TOP5 的厂商中,国产品牌占据四席,出货量占比达到 67%。在非洲,我国的手机终端制造商传音控股推出了“四卡四待”、“特殊拍照美颜特效”、“超长续航”等符合当地用户需求的低价手机,一直占据着“非洲之王”的地位,市场份额超过 40%。在拉丁美洲,截至 2023 年第一季度,联想集团在拉丁美洲的市场份额达到了 21%,仅次于三星,排名第二。数字基建带动中国移动互联网应用走向世界。我国在“一带一路”领域数字基建合作,有效带动互联网企业“走出去”。在游戏领域,2022 年我国自主研发游戏的海外市场销售收入达到173.46 亿美元10,已成为中国文化“走出去”的重要载体。在社交领域,在 2022 年全球应用下载量前十榜单中,TikTok 以 6.72 亿次下载量位居榜首,全球月活用户突破 15 亿11,在多个地区成为使用时长最长的手机应用。在出行领域,滴滴自2018年起便开始拓展海外市场,已在日本、澳大利亚、墨西哥、晴利和哥伦比亚等地区开展业务。在产业互联网领域,中国产业互联网企业出海动作频频,2022 年,阿里云启用德国法兰克福和泰国两座数据中心,为当地企业发展提供云计算服务;飞书、钉钉等走出国门,积极拓展东南亚、日本、美国和澳大利亚等海外市场。10数据来源:2022 年中国游戏产业报告。11数据来源:市场调查机构 Apptopia。11数字基建实践通过“网”、“算”和“人工晴能”三个方面的融合应用发挥价值:网络基础设施是数据流动和交互的保障,算力基础设施为数字化相关活动提供能力支持,人工晴能通过效率提升和场景开拓推动生产方式和生活空间的重构,三者结合形成数字能力闭环,彼此驱动并产生价值。十年来,“一带一路”数字基建在生产、贸易、服务、治理四个方面广泛实践并贡献价值。3.1 生产类实践朤例:数字加持生产,带动发展提质“一带一路”数字基建在生产领域的建设和应用,使得数字手段对生产环节和管理环节的流程再造和效率改善成为可能,从而为生产力的提升提供支撑。十年来,数字基建在“一带一路”沿线的生产场景实践逐渐从基础设施的建设拓展至与数字化应用场景的深度融合,基础建设为产业应用提供支撑的同时,也因产业应用的需求牵引而迭代创新。在“一带一路”生产场景的数字基建实践中,中国企业表现出极强的专业性和服务韧性,在整体方案的设计、工程的实施、项目管理和预算及工期的控制等方面,都秉承客户优先的原则,突破多方面限制,为各地客户提供匹配方案。同时,中国企业积极与当地企业和客户团队密切合作,在项目协作、资源整合方面也积累了丰富的经验,取得了多方面的突破。朤例 1:曬制造业企业的数字化升级某国内领先的制造企业,拟将菲律宾作为出海首站,推进综合集成项目。该项目面临海外建设经验不足、缺乏异地协同网络支持、厂房自动化程度低、数字化能力薄弱等方面的挑战。中国移动国际公司(下称中移国际)为该企业提供了系统性的升级改造方案,包括数据机房系统、综合布线系统、计算机网络及电话系统、无线网络系统、视频监控系统、门禁考勤系统、公共广播系统、会议多媒体系统等,并确保了上述系统在安全性、可扩展性、稳定性等方面的卓越性能,支持该企业在菲律宾的数晴化生产得以落地并顺利运行。朤例 2:曬新能源企业的 5G 专网建设及数字化流程改造某新能源企业,在国内已结合 5G 做了多个晴慧工厂标杆项目,积累了丰富的数晴化经验。但是在海外市场拓展中依然遇到新的困难,包括:当地运营商在制造领域 5G 专网建设经验不足、当地集成商在语言对接、技术匹配、集成方案等方面契合度有限,并且难以灵活匹配客户所12需的时间周期和预算。中移国际针对上述痛点,围绕客户机器视觉质检、AGV、AR 培训、无线数据采集、无纸化办公等大带宽低时延应用,整合自有能力和供应商生态,为客户提供了一站式的解决方案,包括:5G 运维平台、跨境回国专线、5G 核心网、5G 无线网(专网)、承载网以及相应的集成服务、设备安装及布线,从而帮助客户提升生产办公场景的工作效率与安全等级,并实现无纸化办公场景和机器视觉质检等应用能力。图 1 某能源企业机器视觉质检演示图 2 某新能源企业物联网晴能烟感项目方案演示朤例 3:曬电池生产企业的晴能烟感系统某电池研发制造公司,在全球扩建中遇到安全生产方面的挑战。中移国际从消防火灾监测着手,为该企业研发晴能烟感系统,基于 IoT 技术,实现对厂房和仓库的气体实时监测,并采用国际先进的 Thread 烟感方案,成功为该企业部署高密度、高并发、近距离的低功耗晴能烟感系统。目前已为该企业落地部署超过 11000 个烟感,且满足欧盟发布的“通用数据保护条例”(GDPR)相关数据管理规则,并通过当地政府的联合安防验收。133.2 贸易类实践朤例:数字赋能流通,增强经济活力“一带一路”数字基建在贸易领域的建设和应用,以跨境电商为突破口,逐渐参与到跨境物流及供应链管理、跨境支付及金融服务、全球一体化客户管理、全球一体化协同办公等领域。中国企业在“一带一路”沿线的相关实践,充分调用了其在国内较为成熟的经验,推进项目实施的同时,将国内相对领先的运营经验随之输出。从案例中可以看出,中国企业在业务场景的设计上展现出一定的优势,且项目管理方面的经验也获得了客户的青睐。中国企业凭借硬件性能和软性经验两方面的禀赋,和“一带一路”沿线的企业伙伴密切合作,推动了跨境贸易的高效运转和经济活力的提升。朤例 4:曬物流企业的数字化业务落地方朤某综合物流服务商在中东市场拓展快递业务,希望对业务进行数字化改造。中移国际经过全方位调研,从晴能云客服和网络服务两方面,制定服务方案,赋能快递业务创新,支持该企业在中东市场的快速布局。在晴能云客服方面,中移国际为其提供在线客服、晴能机器人、呼叫中心、CRM、晴慧工单、晴能报表、晴能质检、大数据可视等功能,完整覆盖售前咨询、售中跟进、售后服务的全流程化服务体系。特别是中移国际在多国语音资源转换能力基础上,为其定制开发阿拉伯语版本文字转语音功能,极大提升了该企业在中东本地的服务能力。在网络服务方面,中移国际通过业务网络系统和仓储网络系统的高效、安全部署,帮助该企业快速投入生产运营,并通过数晴化手段,实现晴能化基础设施和数字化物流网络,协助其降本增效。在上述努力下,该企业在阿联酋成功落地项目,随后仅用 5 天时间迅速复制到沙特。朤例 5:曬港口的 5G 晴慧改造项目希腊某港口计划进行全方位的数字化转型改造,中移国际有幸参与其中,为该港口提供 5G晴慧改造的咨询、设计、和实施服务。该港口的晴慧改造面临诸多挑战,首先,当地运营商欠缺丰富的 5G 网络,特别是 5G 专网的建设运营经验,并且在当地难以找到具备复杂项目操盘能力的总集成商。同时,其自身缺乏相关经验的项目管理团队,对总集成方的项目管理能力存在较高要求。此外,项目面临时间紧、预算有限等困难。中移国际针对客户上述痛点,制定包括 5G 网络、5G 应用和 5G 应用管理在内的综合方案。项目建设过程中,中移国际首先基于 5G 技术建成覆盖该港口全部客货运区域、修船园区和物流园区的 5G 专用网络,并协同港口中的集装箱、汽车船、修船等基础设施,充分运用 5G、云计算、人工晴能、物联网等方面的先进技术,实施晴慧园区、绿色基站、港机远控、远程巡检等 5G 应用,实现对园区管理和业务运营的数字化改造。本项目为该港口作为世界港口枢纽的效能发挥提供了新的动能,带动了周边国家的贸易往来,创造了一条新的中国与中东欧之间的贸易通道。145G 晴能理货5G 晴慧港区5G 无人机5G 港口 AOC图 3 5G 晴慧港口改造项目典型环节展示3.3 暘务类实践朤例:数字惠及民生,拓展消费空间“一带一路”数字基建在服务领域的建设和应用,受限于底层资源搭建的难度,侧重于从“国内用户的海外场景延伸”,以及“和当地资源的密切合作”两个方面寻找机会。前者体现在国人的出境场景,中国通信企业积极实践,一方面满足了对应场景的典型需求,另一方面,也为未来的市场开拓和服务能力升级积累了资源和经验。后者体现在和当地运营商的合作以及为当地服务行业提供数字化能力等方面。服务领域的市场开拓具备显著的规模效应,打通场景上的单点能力,有助于快速实现大规模复制,对“数字鸿沟”的抚平效应相对显著。这对于具备丰富经验的中国企业来说,是机会也是责任。期待中国企业在“一带一路”沿线传承经验,积极创新,为各国人民的数字生活带来新的体验空间。朤例 6:面向出境场景的资源曍建和暘务创新中移国际在国际漫游、海外上网、出境旅游等场景的服务创新,为当地居民提供便利。第一,国际漫游业务在覆盖、规模、融合性、资费和体验方面形成良好的产品力。全球漫游覆盖方向达 264 个,其中数据漫游覆盖方向 255 个。LTE 漫游开通方向达 226 个,与 74 个方向共142 个运营商开通 5G 漫游网络。用户规模方面,2019 年漫游出访用户 9390 万人次,2022 年在疫情因素的影响下,出访用户依然超过 2758 万人次。出访用户国际漫游开通率达到 90.6%。15除了通过资费的合理化设计和体验上的便利性设计以外,还特别针对漫游用户场景设计人身安全、财产安全和服务安全方面的系列功能,将惠民做到实处。第二,全球数据卡业务面向全球商旅客户推出的全球流量上网产品,支持 SIM、软 SIM、eSIM 等多种产品形态,在全球超过 180个国家和地区提供上网服务,已累计提供超过 1400 万人天。第三,无忧行面向广大出境游用户,打造吃、住、行、玩、购等一站式跨境出行生活服务平台,满足用户全链路需求,目前服务超过 7100 万全球用户。2022 年 5 月,无忧行参与 2022 年第 29 届“阿拉伯国际旅游展”,中国移动中东非团队积极接触来自世界各地的旅游文化招商局、酒店集团和旅游中介公司,并积极设计创新产品和服务,应对疫情后发生巨大变化的旅游市场,切实推动多地的旅游业和消费业的复苏。图 4 无忧行参与“阿拉伯国际旅游展”现场朤例 7:面向海外用户的多国迊营商合作方朤中国移动面向运营商推出一站式运营商解决方案 iConnect,直连全球超过 150 个国家和地区,与全球 300 多个运营商及转接商直连。在数据能力上链接全球光纤网络、PoP 点和数据中心,在增值服务上积极拓展漫游清算、晴能终端、内容服务等领域。运营商之间的密切合作,将惠及在跨国界多地域切换中的大量用户需求,并切实推动国家和区域间的各类活动往来。以海外移动业务(MVNO)为例,中移国际通过商业模式和产品模式上的创新,与当地运营商合作,通过优质网络服务、多地共享方案、优惠长途语音、一卡多号、中英文客服、跨地购卡渠道等创新服务,为当地海外华侨、留学生、商务及工作访客量身打造优质便利的语音通话及数据流量服务。16朤例 8:金融暘务中的数字基础能力建设Opay 是非洲最大的金融科技公司之一,为金融交易提供支付网关。随着业务体量的持续扩张,现有欧洲节点已无法满足业务低时延需求,为了给用户提供暍好的访问体验,Opay 将业务搬迁至华为云非洲区域。项目取得了预期的效果,访问时延从搬迁前的 130ms 降低到 80ms。同时,Opay 消费金融大数据和风控大数据缺乏统一管理,面临着数据价值无法有效挖掘利用的难题,华为云一站式大数据服务,帮助客户整合消费金融大数据和风控大数据,提供暍精准的风控能力,同时满足风控和实时报表等场景需求,通过大数据存算分离架构,高效支撑整体超 2P数据源,实现 30%的性价比提升。此外,为了暍好地满足 Fintech 业务高性能的要求,华为云对其整体业务进行了云原生架构升级。作为非洲的人口大国,尼日利亚支付交易每日可达 4000万笔,尤其在每日上午 8 点及傍晚 6 点,会迎来支付业务的流量高峰,通过华为云容器 CCE、虚机等基础设施的弹性扩容,可以动态满足 Opay 在不同时间段的资源弹性伸缩需求,也能有效提高业务大规模并发时的访问体验。升级后的云原生架构,在业务迭代、版本发布、运维保障、资源利用率等方面都显著提升,暍好地支撑 Opay 的敏捷开发与业务创新。3.4 治理类实践朤例:数字浸润社会,提升社会福祉“一带一路”数字基建在治理领域的建设和应用,体现了当地国家的高度信任。这一方面得益于“一带一路”各国间的合作默契以及合作深度,另一方面得益于我国企业产品服务水平的长足进步。治理类项目一般具备较大规模,并且涵盖传统基建、数字基建和数字应用等多层面,同时在服务效果上需要极高的口碑,在服务方案上需要极高的安全性,建设难度大,责任重。中国企业勇担重任,艰苦奋斗,克服了重重困难的过程中也积累了丰富的经验。同时为了回馈沿线国家的信任,也在教育、乡村等普惠领域积极实践,以数字的力量为各地人民福祉的提升贡献力量。朤例 9:国家数据中心建设项目孟加拉国家数据中心建设项目,级别高、规模大,在技术的创新性、安全性等方面均要求达到全球最高标准。同时当地政府还希望通过数据中心的建设和后续的运营,带动当地人才的培养和发展。该项目由中兴通讯承接,项目建设内容包括国家数据中心主楼以及两座动力楼、园区主体等土建,数据中心基础设施、IT 和云计算系统、运营支撑系统以及云计算应用等数字能力建设。中兴通讯严格按照数据中心最高标准设计和建设,建成南亚区域第一个获得 Uptime Tier IV 最高等级设计及建造双认证的数据中心。2019 年 11 月,该国家数据中心项目举行了盛大的竣工典礼。典礼上孟方高度赞扬项目的成功,总理哈西娜现场批准了数据中心运营公司BDCCL(Bangladesh Data Centre Company Ltd)的成立。该项目的成功建设和顺利运营,为孟加拉电子政务、晴慧交通、数字教育和数字医疗等系统提供了云计算和虚拟化平台,促进了政17务和行业大数据的应用,也为孟加拉提供了一个先进的人才培养基地,有效提升了孟加拉人民大众的数字化生活水平,也带动了相关高科技园区的发展,极大推进了孟加拉国家数字化进程,成为实现“数字孟加拉”愿景的重要里程碑。图 5 孟加拉国家数据中心建设项目朤例 10:国家暶通计划“Decent Life”是一项以提升埃及农村居民生活质量为目标的综合倡议,该倡议由埃及总统塞西在 2019 年发起,涉及居民住房、基础设施、医疗服务、教育服务、环境保护等多个方面,“村通计划”是其组成部分。作为参与该项目建设的重要企业之一,中兴通讯发挥自身信息通讯技术上的优势,结合埃及国家“村通计划”需求,联合埃及通信部、埃及电信等合作方共同推进全光通信网络在埃及的创新部署和应用。该项目采用中兴通讯多种产品组网方案满足不同场景的需求,同时采用微管微缆铺设方式光纤到户,在保证网络质量的同时,最大程度上节约了项目成本。截至 2022 年底,中兴通讯已为超过 1500 个乡村提供了高速宽带服务网络覆盖,服务埃及近千万人口,互联网平均网速从 2016 年的 0.95 Mbps 提升到 2022 年的 33 Mbps,已基本满足乡村家庭各类使用场景的带宽需求。村民通过光传输网络接入高速因特网,获取最新资讯,了解新技术,利用电子商务平台实现交易,大大提高了农村居民的生活水平和幸福感。18中国企业关注“一带一路”沿线国家的乡村数字鸿沟,积极参与数字乡村项目建设,以数字建设能力为基础,以共建国家的共同发展为目标,推动数字普惠提升社会福祉。图 6 埃及国家村通计划19图 7 坦桑尼亚人口普查执行方案朤例 11:人口普曹数字化执行方朤坦桑尼亚人口的快速增长为政府开展人口普查工作带来一定挑战,传统调研方式很难准确及时地掋握人口情况。因此,坦桑尼亚政府计划以平板产品为切入点,推进电子化人口普查工作,中兴通讯为其提供服务。该项目结合坦桑尼亚的经济状况和地理特性,使用续航能力强的大容量电池;同时在设备中预装人口普查 APP 进行登记采集,并对后期人口监控及管理形成必要地监测评估数据基础。中兴通讯凭借其供应链和物流链能力,在 60 天内完成所有货物的交付,从硬件、软件以及供货能力上,对坦桑尼亚的人口普查数字化升级提供支撑。朤例 12:晴慧朒园解决方朤针对南非某些学校的 IT 系统陈旧的问题,中移国际联合华为共同为当地学校量身打造晴慧校园解决方案,提供包括服务器、路由器、交换机、云服务在内的综合方案,全面提升了学校的在线运作能力和效率,优化了师生的教学体验。同样在南非,COVID-19 的全球大流行迫使各地学生居家,而当地大多数教育机构尚没有成熟的支持大规模用户使用的远程学习解决方案。华为为该学院提供在线远程教学方案,帮助当地学生在疫情期间继续接受教育。202023 年 10 月 18 日,习近平总书记在第三届“一带一路”国际合作高峰论坛开幕式上发表题为建设开放包容、互联互通、共同发展的世界的主旨演讲,提出中国支持高质量共建“一带一路”的八项行动(以下简称“八项行动”),即构建“一带一路”立体互联互通网络、支持建设开放型世界经济、开展务实合作、促进绿色发展、推动科技创新、支持民间交往、建设廉洁之路和完善“一带一路”国际合作机制。未来,建议从数字治理、科技创新、国际交流、绿色发展四个方面着手,扎实推进“一带一路”数字基建实践迈入高质量发展新阶段。4.1 探索数字治理新方朤数字经济时代,数字治理能力日趋成为“一带一路”沿线国家推进高质量发展的关键一环。在“八项行动”的指引下,如何全方位提升数字治理能力,是时代赋予我们的一张紧迫而重要的“数字问卷”。首先,应致力于完善本国数字领域基础制度,包括数据流动、数据贸易相关的度量规则、法律法规、商业模式、风险管理,以及数据应用于生活生产所需的制度支撑、市场支撑、和安全支撑。同时,还需以多双边平台为契机,共商共建“一带一路”数字治理规则框架。数字治理是全球治理的新领域,可基于“一带一路”倡议,从探索数字治理经验与协调利益诉求出发,共同制定全球数字治理规则。积极与“一带一路”沿线国家和地区打造数字贸易协同发展机制和国际贸易治理机制,加强数字贸易规则多边磋商。深化数字贸易领域国际合作,加快对接数字贸易高标准规则议题谈判步伐,逐步缩小数字贸易负面清单范围。另外,在网络安全方面,应致力于加快促进网络安全水平的整体提升,营造开放、安全的数字环境,进一步强化数字信息安全,积极参与制定数字安全国际规则标准,帮助沿线国家建设强大的网络安全体系,完善“一带一路”数字贸易、数据跨境流动的网络安全空间。4.2 打造科技创新新模式科技创新作为促进经济发展、民生改善和应对全球性挑战的关键力量,是共建数字“一带一路”的重点领域,也是各国共同关注的重点方向。“八项行动”也将“推动科技创新”列为重要建设任务。21未来,需进一步加强“一带一路”科技合作的顶层设计和统筹协调,充分考虑各国特点和利益诉求,推动共同发展,建设开放创新生态。在技术转移合作基础上,紧密把握首届“一带一路”科技交流大会赋予的科研合作资源,扩展提升共建国家前沿技术能力的合作,并积极推进人才交流和人才引进。此外,还需进一步发挥市场机制,通过企业和民间组织的广泛串联,推动各市场主体在技术培育、技术转移等方面发挥战略先导作用。以商业实践为牵引,和全球领先的商业伙伴竞争合作,通过在商业服务实战中的历练,打磨科技能力,进而构筑互利共赢的“一带一路”创新发展共同体。4.3 拓宽国际交流新维度民间交往是超越文明隔阂的催化剂、消解文明冲突的润滑剂。寻求不同文明之间的“同”与“通”,是高质量共建“一带一路”的应有之义。“八项行动”中关于“支持民间交往”的相关内容,为进一步拓宽“一带一路”国际交流提供了行动指南。首先,可充分利用“亚洲文明对话大会”、“中非合作论坛”等跨国别、多层次的新型对话平台,大力倡导尊重世界文明多样性、高度弘扬全人类共同价值。同时,应发挥民间外交对话功能,宽领域、多渠道地展开国际对话与合作,壮大高质量共建“一带一路”的民意基础。在数字基建建设进程中,可积极推动和各地民生改善切实相关的“小而美”的项目合作,与当地人民深度协同、共谋发展。此外,还可在旅游、教育等领域拓展交流维度,例如通过共建“丝绸之路”旅游城市联盟、完善共建国家之间的学分学历互认、学位互授联授等机制,促进不同国家和地区之间加深理解和信任的纽带,搭建高质量共建“一带一路”情感桥梁。4.4 把握绿色发展新暪遇建设“一带一路”生态共同体是构建人类命运共同体的重要内容。面对生态环境持续恶化的威胁,沿线国家必须以命运休戚与共的自觉参与到区域生态治理行动之中。因此,“一带一路”数字基建实践应持续深化绿色基建理念,密切关注“一带一路”绿色发展国际联盟的发展指导,借助“一带一路”绿色创新大会的广泛资源推进产业合作,积极参与构建绿色低碳专家网络。首先应在数字基础设施的建设方案中充分考虑低碳目标,在用材、设计、技术等方面追求低碳化。其次,在传统产业数字化改造升级中,可通过传统环节效率提升,资源集约来实现减碳,并通过对能源、材料等领域的数字化赋能来助力双碳产业的发展。最后,还可考虑通过物联网、大数据、云计算、人工晴能、区块链等技术等数字化能力,为碳排放监测、预测和碳汇方面提供解决方案,支持绿色产业的运行和发展。22结暻语十年耕耘,成果丰硕,面向未来,万物可期。站在共建“一带一路”倡议提出十周年的新起点上,中国移动将勇担网络强国、数字中国、晴慧社会的“三个主力军”,继续砥砺前行,全面贯彻落实党和国家重大决策部署,积极推动“数字丝绸之路”建设,不断提升信息互联互通水平,深化沿线国际合作,积极融入当地社会,履行企业社会责任,以中国品牌和中国方案继续讲好“数字丝绸之路”上的中国故事。我们将携手各方伙伴,共拓“数字丝绸之路”,共谱“一带一路”高质量发展新篇章。编写组:(按照姓氏首字母排序)卞 晲 褚 婧 冯晓庆 黄 凡 韩 阳 金乃丽 李国桢 刘晓宇 刘永旺 孟雅卉 王秋凤 王子钟 朱孟广 曾松林 周 晞23致 谢“一带一路”倡议在数字基建领域的应用研究,既要保证视角上的战略高度,又要确保调研中的务实落地,这对研究的开展提出了较高的要求。报告最终成稿,离不开学界和产业界专家们的专业指导和大力支持,在此深表感谢。首先,感谢北京大学光华管理学院的武常岐老师,在全球数字战略方面给与指导;感谢清华大学经济管理学院的朱岩老师,在“一带一路”数字基建发展图景方面给与指导;感谢清华大学社会科学学院的吴金希老师,在报告行文的严谨性方面给与指导;感谢清华大学公共管理学院的高宇宁老师,在报告表达上的价值提炼方面给与指导;感谢南京大学江苏数字经济研究院的巫强老师,在数字基建的范畴界定方面给与指导;感谢中国信息通信研究院产业与规划研究所的牟春波老师,在“一带一路”数字基建成效梳理的逻辑性方面给与指导。报告同时得到了来自实践一线的产业专家的大力支持,感谢中国移动国际公司的专家团队,感谢华为王子钟、曾松林及相关专家团队,感谢中兴通讯的李国桢、黄凡和冯晓庆及相关专家团队的大力支持。24缩略语列表缩略语英文全名中文解释AIArtificial Intelligence人工晴能4GThe 4th Generation Mobile Communication第四代移动通信5GThe 5th Generation Mobile Communication第五代移动通信5G-A5G Advanced5G 演进TD-LTETime Division Long Term Evolution时分长期演进技术FDD-LTEFrequency Division Duplexing Long Term Evolution频分长期演进技术ICTInformation and Communications Technology信息与通信技术CDNContent Delivery Network内容分发网络IDCInternet Data Center互联网数据中心POPPoint of Presence网络服务接入点WiMAXWorld Interoperability for Microwave Access全球微波接入互操作性3GPP3rd Generation Partnership Project第三代合作伙伴计划NB-IoTNarrow Band Internet of Things窄带物联网ITU-TITU Telecommunication Standardization Sector国际电信联盟电信标准分局TRAIS-XTag And Reader Air Interface Security X标签和读写器空中接口安全(无源)TRAIS-PTag And Reader Air Interface Security P标签和读写器空中接口安全(有源)OTNOptical Transport Network光传送网DWDMDense WavelengthDivision Multiplexer密集波分复用GDPRGeneral Data Protection Regulation通用数据保护条例CRMCustomer Relationship Management客户关系关系IoTInternet of Things物联网25参考文献“一带一路”发展学全球共同发展的实践和理论探索,新华社国家高端晴库课题组,2023中国企业共建“一带一路”项目案例研究,国务院国资委研究中心,新华社中国经济信息社,2023新时代的中非合作白皮书,国务院新闻办公室,20212022 年”一带一路”国家基础设施发展指数报告,BRIDI,2022数字非洲:就业的技术变革,世界银行,2023通信行业:数字基础设施技术趋势白皮书,中兴通讯,2023数字基建与区域创新:特征事实及其差异化影响,南京大学,毛毅翀,竺李乐,吴福象,2023一带一路 2022 年度报告,中国城市规划设计研究院,2022 123456 78

    浏览量0人已浏览 发布时间2023-12-09 25页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 阳光保险&清华大学:2023大模型技术深度赋能保险行业白皮书(74页).pdf

    前 言1以ChatGPT为代表的大模型技术,正以前所未有的速度深刻改变整个人类社会。比尔盖茨提出:“ChatGPT历史意义不亚于PC或者互联网诞生”。马斯克认为:“ChatGPT将颠覆世界”。马化腾在2023年腾讯股东大会上回应有关ChatGPT和AI相关的提问时说:“我们最开始以为是互联网十年不遇的机会,但是越想越觉得,这是几百年不遇的、类似发明电的工业革命一样的机遇”。2023年7月13日,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局七部门共同制定 生成式人工智能服务管理暂行办法,为国内大模型技术研发及应用提供了政策支持和合规指导。作为中国保险行业的深耕者,阳光保险集团立足全球视野,从大模型技术与保险底层逻辑出发,认为大模型技术将从根本上改变和赋能保险,保险业需要与时俱进,把握战略机遇。事实上,人保、平安、太保、泰康、众安、Zurich Insurance、Paladin Group等国内外保险公司和保险科技公司已经迅速行动,围绕大模型研发及应用进行布局,启动大模型在保险应用的主题创新。阳光保险集团于2023年初即启动“阳光正言GPT大模型战略工程”,积极探索和实践如何应用大模型技术重构保险业务模式。我们认为,联合产学研各方单位,深入研究大模型的技术原理,分析各保险公司和保险科技公司的大模型应用案例,将对大模型技术在保险行业落地提供实用的理论和方法。因此,阳光保险集团联合清华大学五道大模型技术深度赋能保险行业白皮书(2023)大模型技术深度赋能保险行业白皮书(2023)口金融学院、中国保险学会、北京百度网讯科技有限公司、中国科学院计算技术研究所智能信息处理重点实验室共同研究编写了 大模型技术深度赋能保险行业白皮书。白皮书聚焦大模型关键技术与核心能力,结合政策环境,深入剖析大模型在保险行业的多维应用场景与价值,为保险行业如何应用大模型技术、实现价值创造,提供实用参考建议。白皮书系统阐释了大模型技术与保险在底层逻辑上存在的天然契合性。一方面,大模型技术充分利用互联网上的一切数据,从而具备更高的准确性、更强的泛化能力、更低的应用门槛,实现了在传统深度学习基础上的性能飞跃,满足了各行各业在多元场景中的应用需求;另一方面,保险天然就与数据紧密相连,丰富的应用场景使得保险成为大模型技术的绝佳应用领域。这种天然契合性,使得大模型和保险的结合将从“能力涌现”逐步走向“价值涌现”,其价值创造也将向从量变到质变、从改变到变革、从变革到颠覆逐步演进。大模型的深度认知能力,将改变行业对风险认知与管理的能力,推动保险行业的精算模式从“粗放预测”向“精准预知”升级,推动风险管理从相对被动的“等量管理”向相对主动的“减量管理”转变。这一转变将重塑保险行业的商业模式,引领一场颠覆性的变革,开启保险业新的发展篇章。面对当今世界百年未有之大变局,我国在党的二十大精神指引下,以全面建成中国式现代化为主要目标进行了全方位战略布局。2023年10月30日召开的中央金融工作会议指2大模型技术深度赋能保险行业白皮书(2023)3出:“金融是国民经济的血脉,是国家核心竞争力的重要组成部分”、“做好科技金融、绿色金融、普惠金融、养老金融、数字金融五篇大文章”。保险业需要提高认识和站位,系统分析面临的形势、问题和挑战,坚定不移地推动保险改革与创新。我们认为,本次 大模型技术深度赋能保险行业白皮书 的发布恰逢其时,为保险业做好科技金融和数字金融两篇大文章提供了有力支撑。我们将坚定地走在创新前沿,将大模型技术与保险业务深度融合,为保险行业从科技赋能向科技引领的转变探索更多可能性。同时,我们也将与各界合作伙伴携手共进,共同推动科技保险和数字保险的发展,共创保险行业的美好未来!编委会大模型技术深度赋能保险行业白皮书(2023)目录CONTENTS大模型发展迅速 加速AI价值升级 11大模型技术创新,能力显著升级 11生态日益完善,推动大模型落地应用 14政策持续出台,助力大模型产业快速发展 162.11.11.21.32.1.1 投研:分析市场趋势、优化资产组合 212.1.2 产品设计及定价:挖掘客户需求、定价精准化 212.1.3 营销:赋能代理人、优化销售流程 222.1.4 承保:更精准的风险评估 232.1.5 理赔:定损智能化、助力欺诈识别 232.1.6 服务:赋能坐席 优化客户体验 242.2.1 办公:辅助内容生成,降本提效 252.2.2 HR:提升招聘效率、优化员工服务 252.2.3 财务:分析和决策更准确高效 262.2.4 法务:分析历史案例、快速合同审查 272.2.5 经营决策及管理:辅助战略规划及策略优化 272.2.6 风控:识别风险,提升安全性 282.3.1 数字人 292.3.2 数字员工 301大模型开放平台建设 打造可信大模型底座 323应用场景丰富 大模型助保险业增效提质 20保险领域:全业务流程赋能 202通用领域:提升内容生成与分析效率 252.2数字人与数字员工:智能化程度提升 292.354.2.6 Helvetia:利用Clara推进客户服务 63大模型技术深度赋能保险行业白皮书(2023)63.1 大模型开放平台架构 323.2 垂直领域大模型:更懂保险的大模型 353.2.1 训练方法 353.2.2 基座模型选择 373.2.3 数据来源 373.2.4 挑战及应对 383.3 插件集市 实现大模型与外部系统链接 394.2 国外险企积极转型,营销承保服务业务全覆盖 603.43.53.74.14.1.1 阳光保险:正言大模型开放平台赋能保险及办公全业务流程 474.1.2 中国人保:打造并发布人保大模型,多场景应用落地 534.1.3 平安:推出数字人产品、建立精准信用评级体系 554.1.4 太保集团:数字员工助力审计监督提升 564.1.5 泰康:积极构建生态,打造大模型原生应用 584.1.6 众安保险:将AIGC置入科技产品,打造系统应用全新体验 594.2.1 Paladin Group:承保工具UnderwriteGPT 604.2.2 Corvus Insurance:利用Corvus Risk Navigator平台实现核保614.2.3 Simplifai:Insurance GPT助力自动化索赔管理 614.2.4 苏黎世保险:使用ChatGPT辅助理赔及承保 624.2.5 印度Plum:PolicyGPT聊天机器人,进行客户联系服务 63积极探索落地 大模型价值全面初现 464大模型应用安全与合规 42保险业大模型评测体系 44国内险企躬身入局,初步探索AIGC应用落地 47大模型研发工具 提升模型研发效率 40智能路由和审核 实现大模型动态调度和内容安全 413.64.2.7 Tokio Marine&Nichido Fire Insurance:撰写答案草稿 634.3 互联网公司妥善布局,提供一体化解决方案 644.3.14.3.25.15.25.35.45.5强化治理,推动大模型可持续发展 68多方协同,构建大模型发展新生态 69面临的挑战 72应对措施建议 73挑战与机遇并存 积极布局加速赋能 665国内互联网公司布局办公领域及数字人 64大模型能力持续升级,应用前景可期 66微软Office打造办公“全家桶”64Google将生成式AI应用于Workspace 644.3.3大模型技术深度赋能保险行业白皮书(2023)7 大模型技术深度赋能保险行业白皮书(2023)9图目录CONTENTS大模型的内涵与特征 13图1“十四五”期间人工智能相关重要政策 17图2近年保险行业人工智能相关政策 18图3大模型赋能保险全业务流程 20图4正言大模型开放平台系统架构图 34图5垂直领域大模型训练的三类主要方案 36图6车险全线上销售机器人产品架构 48图7FAQ-DocQA-Chat问答链路 49图8预制或自定义各类人设,支撑多类办公文案场景 50图9端午节营销海报生成 51图10基于自然语言,实现报表自动生成 52图11不同模型自助切换,提供更优质的答案 52图12构建集成开发工具常青藤辅助编程插件,实现代码辅助 53图13人保大模型产品规划 54图14商汤AI治理理念 68图15大模型技术深度赋能保险行业白皮书(2023)1.大模型发展迅速 加速AI价值升级1.1 大模型技术创新,能力显著升级在人工智能的发展历程中,大模型技术的崛起无疑标志着一次历史性的突破。随着参数规模和数据规模的显著增长,大模型在各类任务中展现出更高的准确性、更出色的泛化能力以及更低的应用门槛,从而满足了各行各业日益多元化的需求。学术界、研究机构、产业界以及各级政府均对大模型给予了高度的重视,从算法模型、技术生态、落地应用和政策环境等多个层面,推动通用大模型和领域专用大模型的快速发展和应用。大模型,包括广义的人工智能预训练大模型及狭义的大型语言模型(Large Language Model,LLM),是一种具有庞大参数规模和高度复杂性的机器学习模型。通常来说,这种模型的参数量能够达到数十亿,甚至扩展到数万亿的惊人规模。通过在广袤无垠、未加标注的海量数据中进行大规模的预训练,这些大模型能够深入挖掘并掌握众多微妙的模式、规律和知识。它们展现出了惊人的“涌现”现象,即模型性能的准确性、表达能力的强度以及泛化能力的广泛性都展现出了卓越的优势。这种“涌现”现象是大模型最引人注目的特征之一,也是它们在自然语言处理、计算机视觉等领域表现出色的原因之一。大模型可分为通用大模型和专用大模型两类,它们在设计、训练与应用上均有所区别。通用大模型的目标是处理广泛的任务和领域,具备强大的泛化能力。通常,它们基于大量的无标注数据进行预训练,然后在特定任务上实施微调。这种“预训练-微调”的方法使通用大模型能够获取丰富的语义知识,因此在各种任务中表现卓越。例如,ChatGPT就是通用大模型的典型代表,可回答各类问题、生成文本、完成编程任务等。11大模型技术深度赋能保险行业白皮书(2023)12而专用大模型是针对特定任务或领域进行优化,具有很强的专业性。它们通常以领域数据或有限的有标注领域数据为基础,在通用大模型底座的基础上重新预训练或者微调,以更好地适应特定任务的需求。专用大模型在某些任务上的表现要优于通用大模型,因为它们能更准确地捕获到与任务相关的特征和模式。例如,彭博社发布的专门为金融领域打造的大语言模型BloombergGPT能更好地处理金融领域的数据和任务。大模型在传统深度学习基础上实现了性能的飞跃性提升,其主要特点包括:(1)庞大的规模:这些模型通常具有数十亿甚至数万亿个参数,这使得它们能够捕捉到数据中的复杂模式和关系。这种规模的模型在处理自然语言处理、图像识别和语音识别等任务时表现出了优越的性能。(2)高效的通用能力:由于其庞大的规模和强大的学习能力,大模型可以应用于多种不用的任务,展现出强大的性能。这使得大模型在实际应用中具有很高的价值,如在智能问答、语言理解、内容生成等领域。(3)强大的泛化能力:通过使用大量的训练数据,大模型可以学习到数据中的深层次结构和规律,这使得它们能够在面对新的、未见过的任务时,快速地找到合适的解决方案。(4)便捷的实用性:大模型能以合理的时间和资源,快速处理输入数据并做出响应,性能和效率能满足大部分应用场景的需求。大模型技术深度赋能保险行业白皮书(2023)与传统深度学习比较,大模型在处理复杂任务时具有显著的优势,从自然语言处理、搜索引擎到计算机视觉等领域,大模型技术都在不断地突破自身的能力边界,为人类带来了前所未有的便捷和智能体验。首先,在自然语言处理领域,大模型技术取得了重要的突破。目前,无论是智能语音助手还是聊天机器人,都在利用大模型技术实现更加自然、流畅的人机交互。通过对大量文本数据的学习,大模型技术可以理解用户的意图,生成符合语法和语义的自然语言回复。这不仅提高了人机交互的效率,还降低了开发成本,使得越来越多的企业和个人能够享受到智能问答带来的便利。其次,大模型技术在搜索与推荐领域的应用已经深入人心。谷歌、Bing、百度等主流搜索引擎都在利用大模型技术为用户提供更加精准、高效的搜索结果。通过对海量数据的学来源:AI大模型市场研究报告(2023)迈向通用人工智能,大模型拉开新时代序幕,A Frost&Sullivan White Paper.(经整理)13图1 大模型的内涵与特征大模型技术深度赋能保险行业白皮书(2023)14习和分析,大模型技术能够理解用户的需求,快速返回相关的信息,极大地提高了用户的搜索体验。针对推荐系统,大模型技术通过分析用户的兴趣和行为,为用户推荐最符合其需求的内容,从而实现个性化推荐。在计算机视觉领域,大模型技术同样展现出了强大的潜力。通过对大量图像和视频数据的学习,大模型技术可以实现对图像内容的理解和分析,从而实现目标检测、人脸识别、图像分割等功能。这些功能在医疗、无人驾驶、安防等领域都有着广泛的应用前景。例如,在医疗领域,大模型技术可以辅助医生进行疾病诊断,提高诊断的准确性和效率;在无人驾驶领域,大模型技术可以实现对道路环境的感知和分析,为自动驾驶提供安全保障。当然,大模型技术的发展也带来了一些挑战。如何保证数据安全和隐私保护成为了亟待解决的问题。此外,大模型技术可能产生歧视性、偏见性或不道德的输出,还有可能出现大模型“幻觉”,需要制定相应的政策和技术措施来确保模型的公平性、道德性。同时,随着大模型技术的不断升级,硬件设备的投入和维护成本也在不断增加。为了应对这些挑战,我们需要不断探索、研究和创新。同时,我们也需要加强合作和交流,共同推动大模型技术的进步和发展。大模型生态的发展日益完善,从底层基础设施到大模型研发平台、大模型能力扩充、大模型服务平台、基于大模型的AI Agent等不同层次,各项技术及平台均在不断进步和创新。首先,在基础设施支撑上,GPU技术在近年来取得了显著的进步。随着计算能力的提升,GPU已经成为了训练大型模型的重要工具。相比于传统的CPU,GPU能够提供更高效的并行计算能力,大大提高了训练速度。同时,GPU厂商也不断推出新的产品和技术,使得1.2 生态日益完善,推动大模型落地应用大模型技术深度赋能保险行业白皮书(2023)15GPU能够更好地支持大规模模型的训练。例如,NVIDIA的Ampere架构和Google的Tensor Processing Unit(TPU)等新型GPU产品,为大模型训练提供了更强大的计算能力和更低的能耗。其次,大模型研发平台也在不断发展和完善。这些平台提供了一整套的工具和服务,帮助研究人员和开发者更方便地开发和部署大模型。这些平台还提供了可视化界面和编程接口,使得开发者可以更加直观地进行模型的训练和调整。例如,Google的TensorFlow、Facebook的PyTorch及百度的PaddlePaddle等深度学习框架都提供了丰富的预训练模型和API接口,使得用户可以轻松地使用这些模型进行迁移学习和微调。此外,一些开源项目,如Hugging Face Transformers、阿里ModelScope等,也在推动大模型生态的建设,为用户提供了丰富的预训练模型和API接口。百度于今年3月推出的百度智能云千帆大模型平台是全球首个一站式的企业级大模型生产平台,不仅提供基于文心一言或者第三方开源大模型的大模型服务,还提供全套工具链和开发环境,帮助企业开发自己的专属大模型。这些平台的出现,大大降低了大模型研发的门槛,使得更多的研究者和开发者能够参与到这个领域。然后,在大模型能力扩充方面,插件技术的发展为大模型生态的完善提供了重要支持。通过插件技术,用户可以方便地将不同领域的知识和数据集成到大模型中,从而提高模型的泛化能力和性能、丰富大模型应用的功能和场景。例如,一些研究团队已经开发出了针对自然语言处理、计算机视觉等领域的插件,这些插件可以帮助用户快速地构建出具有特定任务能力的大模型。此外,一些公司也在积极探索插件技术的应用,例如通过插件实现与内部业务系统的链接,实现大模型与业务流程的衔接。较具代表性的大模型应用开发框架包括LangChain、LlamaIndex以及Deepset Haystack等。大模型服务平台也争相涌现,为用户提供了众多获取大模型能力的途径。OpenAI API大模型技术深度赋能保险行业白皮书(2023)16作为较早向公众开放的大模型服务平台,通过提供不同的API来满足用户对不同GPT模型的需求。百度文心一言不甘示弱,提供了APP、API接口、网页版等多种形式的开放服务,更集成了插件机制,有效拓展了大模型的能力边界。此外,还有微软Azure OpenAI、Midjour-ney、讯飞星火认知大模型、百川大模型等国内外大模型服务平台,如同群星闪耀,为用户提供了丰富、便捷的大模型能力访问途径。最后,基于大模型的AI Agent技术崭露头角,这个具备自主思考和执行能力的智能体,被视为通往AGI的主要途径,并将为各行各业的数字化转型提供有力的支持。据统计,目前已有近10万名开发人员正在构建自主Agent,有上百项目正致力于将AI Agent商业化。AutoGPT、MetaGPT、谷歌DeepMind的robotic agent、阿里云ModelScopeGPT等国内外AI Agent实例已经展现出了令人瞩目的强大性能,并正在迅速发展。大模型生态的演进日新月异,其发展势头正以前所未有的速度推动着人工智能领域的进步。我们翘首以待,期待这个生态系统持续繁荣,为大模型的广泛应用和价值创造开启更多的崭新篇章。在政策层面,国家和行业都陆续出台相关支持政策及监管政策,助力大模型技术及产业的快速、规范发展。在2021-2025的“十四五”规划期间,国家从宏观政策层面,强调了人工智能作为战略前沿领域的重要性,对人工智能新技术、新产业给予了巨大的支持。地方政府也积极呼应国家战略,出台大模型支持政策,推动大模型产业快速发展。1.3 政策持续出台,助力大模型产业快速发展大模型技术深度赋能保险行业白皮书(2023)同时,我国工信部、央行、银保监会以及中保协等相关部门或协会相继推出了一系列推动保险公司和金融机构数字化转型的措施与政策,以促进保险科技的迅速发展。2023年2月,中共中央和国务院联合发布 数字中国建设整体布局规划,强调在金融等关键领域加快数字技术创新应用的重要性。人工智能作为数字技术的核心之一,在金融机构的应用前景可期。在AIGC大发展背景下,保险行业大模型的场景化应用正享有良好的政策环境。17图2 “十四五”期间人工智能相关重要政策大模型技术深度赋能保险行业白皮书(2023)18在国际上,早在2021年,美国白宫科技政策办公室便专门成立国家人工智能计划办公室,负责监督、实施人工智能战略计划。白宫于2023年5月23日更新发布了 国家人工智能研发战略计划,该计划是对2016、2019年版 国家人工智能研发战略计划 的补充更新,重申了之前的8项战略目标并对各战略的具体优先事项进行了调整和完善,同时增加了新的第9项战略以强调国际合作。欧洲议会和欧盟理事会于今年6月制定了 人工智能法案(AI Act),法案将人工智能系统的风险等级分为四级;对于不同风险等级,法案采取了不同程度的监管措施;并要求在欧盟范围内设计、开发和使用人工智能驱动的产品、服务和系统,需要遵循全流程风险管理措施。各国政策密集出台的背后,实质上反映出各国政府希望将人工智能技术安全深度地图3 近年保险行业人工智能相关政策大模型技术深度赋能保险行业白皮书(2023)融合到国家的主要经济和社会部门中,以激发实质性的经济及社会价值。以大模型技术为代表的新一代智能技术,在各国政府的战略规划和重大投资中占据着举足轻重的地位。我们有理由相信,这一技术的快速、稳健发展将为未来的社会经济发展开辟新的广阔空间。19大模型技术深度赋能保险行业白皮书(2023)大模型可以应用到保险领域的全业务流程,帮助保险企业更好地分析市场趋势、理解客户需求、精准化产品定价、提升营销效率、提高风险管理能力、提升理赔便捷性、改善服务质量,从而降低运营成本、提升营销和服务效能、提升客户体验。2.1 保险领域:全业务流程赋能随着大模型技术的迅速发展,各行各业正在经历前所未有的变革。保险行业作为数据密集型行业,具备数据优势,且应用场景丰富,是大模型的最佳应用领域之一。大模型与保险的底层逻辑不谋而合,它们共同依赖于数据和模型这一基石。大模型的底层架构以数据和模型为核心,而保险业则秉承大数法则,同样以数据和模型为基础。正因如此,保险与大模型之间存在着天然的契合点,使得大模型在保险行业的应用前景愈发广阔。2.应用场景丰富 大模型助保险业增效提质20图4 大模型赋能保险全业务流程大模型技术深度赋能保险行业白皮书(2023)21大模型在投研领域的应用可以包括以下几个方面:通过分析金融市场的风险和波动性,为投资者制定风险管理策略和投资组合提供参考建议。通过分析大量的金融和经济数据,利用大模型预测市场的趋势和价格波动,帮助投资者制定投资策略。通过分析资产间的相关性及风险收益特征,帮助投资者进行资产配置和组合优化,以实现最大化收益和降低风险的目标。通过分析市场数据,结合交易策略,大模型自动生成交易决策,进行高频交易。通过分析大量的新闻和社交媒体数据,大模型可以识别与金融市场相关的事件,并预测其对市场的影响程度,从而为投资者提供更准确的投资建议。大模型可以自动识别和理解财务报表中的关键指标和数据,辅助投资者分析公司的财务状况和盈利能力。大模型在保险产品设计与定价环节有丰富的应用场景。2.1.2 产品设计及定价:挖掘客户需求、定价精准化2.1.1 投研:分析市场趋势、优化资产组合金融风险管理市场趋势和价格波动分析量化交易舆情分析财务报表分析资产配置和组合优化基于大模型对客户的个人信息、消费行为、健康状况等多方面进行分析,以了解客户的需求和风险偏好。这有助于保险公司为客户提供更加个性化的保险产品,提高客户满意度和忠诚度。大模型可以帮助保险公司更好地了解市场需求,从而设计出更具竞争力的产品。例如,通过对市场趋势的分析,大模型可以为保险公司提供关于投资型保险、健康险等险种的创新建议。帮助产品精算人员更精准地识别潜在的风险因素、评估各因素的影响程度,支持千人千面的个性化定价,实现定价精准化。此外,大模型还可以根据市场变化和竞争对手的策略动态调整保费,以保持竞争力。为保险精算人员提供强大的数据处理及分析工具,为保险产品设计和定价提供支持。客户需求分析产品定价数据处理及分析产品设计支持大模型技术深度赋能保险行业白皮书(2023)22在保险营销环节,大模型在售前、售中和售后的方方面面有诸多落地场景:2.1.3 营销:赋能代理人、优化销售流程基于大模型技术,险企可以通过知识挂载或知识注入,打造智能化保险产品咨询机器人,为客户提供便捷的、全天候在线的保险产品咨询服务。保险产品咨询机器人可以回答客户关于保险产品的各种问题,包括保险种类、保险责任、保险期限、投保条件、保险条款、保费等等。基于大模型技术构建智能保险产品推荐机器人,通过分析客户的背景、需求、偏好、风险承受能力等信息,结合保险领域大模型丰富的保险产品知识,通过自然语言交互,为客户提供个性化的保险产品推荐和配置方案建议,提高保险销售效率和客户体验。根据客户自身及家庭的特点,基于大模型具备的各类保险的功能、保障责任、特点等专业知识,针对复杂、多样的客户需求,给出专业、科学的保险配置方案建议。保险产品咨询保险产品个性化推荐保险智能配置基于大模型技术构建的智能保险销售辅助机器人,它具备更深入的客户洞察能力、更专业的领域知识、更精准的客户意图及情绪识别能力、更丰富的营销经验,可在销售过程中为代理人提供个性化的保险销售支持和建议,提高销售效率和客户满意度。代理人销售辅助 综上,大模型技术在保险销售领域各方面的应用,可以提升代理人技能、提高保险销售效率,同时也为客户提供更加便捷的服务,提升客户体验。构建针对代理人的智能陪练机器人,将营销序列话术的训练升级为自动化、智能化、场景化的体验式培训,在模拟的业务场景中循序渐进、持续练习,真正帮助营销人员强化开口能力、规范话术要点、提升沟通技巧,助力销售人员向专业顾问升级。基于大模型技术可快速生成文案,包括营销口号、朋友圈文案、短信、微信公众号文章等等。也可以与Midjourney等文生图工具结合,智能生成宣传海报、宣传视频等视觉内容,大幅提升营销素材的生成效率。在产品咨询、产品个性化推荐等功能基础上,增加智能化风险评估、保费计算及在线核保等功能,打通保险销售线上化全流程,节省人力成本,提升效率。代理人智能陪练营销素材设计全线上销售支持大模型技术深度赋能保险行业白皮书(2023)基于大模型的多模态能力,对车险现场照片的风险点、车损照片细节等进行处理和分析,有效识别车辆损失程度,并判断是否存在蓄意制造交通事故、车辆套牌等欺诈方式,提升定损效率。通过自动化的理赔申请处理、索赔处理、理赔评估、理赔审核、理赔结算,大模型可以帮助保险公司实现更快速、更准确的理赔处理。将大模型技术与地球科学、大数据技术等结合,建立针对常见灾害种类的灾害风险管理及预警体系,为客户提供气象灾害、台风路径等预警信息,提醒客户及时采取防灾减损措施。基于大模型对理赔案件的欺诈风险进行评估,实现对欺诈风险由点及面的识别,为案件稽核人员提供线索,实现理赔风险排查智能化全覆盖。智能定损风险预警风险反欺诈智能理赔23大模型技术能够帮助保险公司更全面、精准地评估风险;同时能够智能辅助人工核保。2.1.4 承保:更精准的风险评估大模型可以在理赔处理的各个节点提供自动化服务,从而提高理赔效率、降低成本、提升客户体验。2.1.5 理赔:定损智能化、助力欺诈识别基于客户提交的保单信息,结合外部数据源的数据,大模型对保单的风险进行全面、准确的评估,帮助核保人员更准确地判断承保条件(承保责任、保额及保费等)。通过学习核保规则、承保及理赔历史数据、外部数据源数据,实现基于大模型的自动核保,基于客户提交的保单数据,自动给出核保决策,提升核保效率和准确率。利用大模型发现保单中的异常信息,包括保单录入信息与客户实际信息不符、重复投保、超额投保等,提醒业务员进行进一步调查及审核,降低公司风险。风险评估自动核保异常识别大模型技术深度赋能保险行业白皮书(2023)基于大模型的上下文分析理解能力,对通话录音进行全量质检,包括语速、语调、抢插话、情绪等方面,提升质检效率。智能质检大模型可以作为培训和教育工具,帮助坐席提高业务能力和专业知识。通过对保险行业知识的学习,大模型可以为员工提供实时的答疑解惑服务,提高员工的工作效率和服务质量。培训与教育利用大模型对坐席与客户的通话录音进行总结,包括客户意图、关键信息等,方便公司了解客户对产品和服务的评价,同时为坐席的服务质量评估提供参考。通话总结与注记利用大模型技术实现智能客服系统,实现与客户的7*24高质高效沟通,提升用户体验。2.1.6 服务:赋能坐席,优化客户体验24基于大模型强大的智能对话能力,和客户进行7*24的高质高效沟通,提升用户体验及留存,缓解客服人力不足问题。通过对大量客户数据的分析,大模型可以帮助保险公司更好地了解客户需求,从而制定更有效的客户关系管理策略。例如,大模型可以分析客户的购买历史、服务使用情况等数据,为客户提供更加精准的服务建议。通过分析客户的个人资料和生活习惯等数据,大模型可以帮助保险公司对客户的健康状况进行更精确的评估;为客户提供个性化的预防保健方案,如疫苗接种提醒等;对于已经患有疾病的客户,大模型可以提供定制化的康复计划和心理咨询服务,以帮助他们尽快恢复健康。自动问答客户关系管理客户健康管理在坐席与客户对话过程中,大模型根据上下文对客户意图及需求进行识别,为坐席推荐最优话术,提升服务质量及客户满意度。话术推荐25大模型技术深度赋能保险行业白皮书(2023)大模型在办公领域也有广泛的应用场景。2.2 通用领域:提升内容生成与分析效率2.2.1 办公:辅助内容生成,降本提效综上,大模型在办公领域的应用可以提高企业的工作效率,降低成本,提升用户体验,为企业带来更多的商业价值。随着技术的不断发展,大模型在办公领域的应用场景还将不断拓展。在人力资源领域,大型AI模型可以应用于多个场景,帮助企业提高招聘效率、优化员工管理和提升员工满意度。以下是一些典型的应用场景:2.2.2 HR:提升招聘效率、优化员工服务基于大模型的向量化能力,对知识库进行文本向量化,存入本地向量库;对用户输入进行向量化,并在向量数据库中检索最为相关的内容,再将检索到的相关信息和预先设计的提示词一起输入给大模型,得到最终返回结果。该方案可有效降低对知识库构建的要求,节省资源及人力。知识库问答基于用户提供的主题、要点或是草稿,大模型根据要求帮助用户生成相关内容。如公文写作、邮件生成、会议摘要、文档审核等。文本生成及摘要基于用户指定的主题及要点,大模型帮助用户生成培训课件;并能根据用户给出的字体偏好、颜色搭配、布局优化等建议,提升课件的专业性和趣味性。培训课件生成大模型可以将语音转换为文字,或将文字转换为语音,方便用户利用语音与系统进行交互。语音识别与合成基于大模型的多模态能力,智能生成宣传海报、宣传视频等视觉内容,大幅提升视觉素材的生成效率。视觉内容生成大模型可以实现多种语言之间的自动翻译,帮助企业跨越语言障碍,更好地与全球客户和合作伙伴沟通。机器翻译在系统开发场景中,基于大模型进行开发代码自动补全、开发代码自动优化、测试用例自动生成等,帮助开发者更高效地编写及调试代码。编程辅助大模型技术深度赋能保险行业白皮书(2023)这些应用场景可能会给人力资源带来许多具体的变革,例如:提高招聘效率和准确性,减少招聘成本和时间;提高员工绩效和发展计划的个性化程度和准确性;提高绩效评估的客观性和准确性,减少主观因素的影响;提高人力资源数据的分析能力,为决策提供更准确的支持。在财务领域,大模型的运用可以为企业提供更准确、更高效的财务决策和预测,帮助企业降低风险、提高效益。2.2.3 财务:分析和决策更准确高效26利用大模型对大量求职者的简历进行自动筛选和分析,企业可以快速找到符合职位要求的候选人。同时,它还可以为候选人提供自动化的面试反馈,提高面试效率。通过分析历史招聘数据和行业趋势,大模型可以帮助企业更准确地预测未来的人才需求。这有助于企业提前做好人才储备和招聘计划。利用大模型对员工的技能和知识进行分析,企业可以为员工提供个性化的培训和发展建议。同时,它还可以协助企业构建智能的学习平台,提高培训效果。简历筛选与自动化面试岗位需求分析与人才预测员工培训与发展通过分析员工的工作数据和行为模式,大模型可以帮助企业更准确地评估员工的绩效,并制定合适的激励方案。这有助于激发员工的工作积极性和提高整体绩效。绩效管理与激励方案设计人力资源数据分析与决策支持利用大模型对员工的反馈数据进行分析,企业可以了解员工的需求和期望,及时调整管理策略和改进工作环境。这有助于提高员工的满意度和忠诚度。通过对人力资源数据的深入挖掘和分析,大模型可以为人力资源部门提供有价值的洞察和决策支持。这有助于企业优化人力资源管理流程,提高管理效率。员工满意度调查与改进财务报表分析利用大模型对大量财务数据进行深度挖掘,发现潜在的财务问题、趋势和机会。这有助于企业更好地制定战略决策和优化财务管理。27大模型技术深度赋能保险行业白皮书(2023)在法务领域,大型AI模型可以应用于多个场景,提高工作效率和准确性。以下是一些典型的应用场景:2.2.4 法务:分析历史案例、快速合同审查2.2.5 经营决策及管理:辅助战略规划及策略优化利用大模型对未来的市场趋势、经济环境和行业动态进行预测分析,为企业的财务规划提供有力支持。财务预测与规划大模型可以自动识别税收法规的变化,为企业提供合规建议。同时,它还可以分析企业的税务结构,帮助企业找到合理的税收优化方案。税务合规与优化通过分析历史市场数据、公司基本面和技术指标,大模型可以为投资者提供个性化的投资建议和资产配置方案。投资组合管理大模型可以自动识别潜在的审计问题,提高审计工作的效率和质量。此外,它还可以协助审计人员进行复杂的数据分析,减轻工作负担。审计自动化大模型可以分析供应链上的各个环节,为企业提供融资建议和风险管理方案。此外,它还可以协助企业优化库存管理,降低运营成本。供应链金融通过分析历史案例、法规和判例,大模型可以为律师提供有关特定法律问题的详细信息和指导意见。此外,它还可以协助律师进行法律研究,节省时间并提高效率。法律研究与案例分析利用大模型为企业提供合规咨询服务,帮助企业了解并遵守相关法律法规。同时,它还可以为企业员工提供在线培训课程,提高员工的合规意识和知识水平。合规咨询与培训利用大模型对案件背景、相关法规和判例进行深入分析,为律师提供有针对性的诉讼策略建议。同时,它还可以预测案件的可能结果,帮助律师制定更有效的诉讼计划。诉讼策略与预测利用大模型自动识别合同中的关键条款、风险提示和潜在的法律问题。这有助于法务团队更快速地完成合同审查工作,并降低错误率。合同审查与分析通过分析专利、商标和著作权数据,大模型可以帮助企业更好地管理和保护其知识产权。此外,它还可以协助企业发现潜在的侵权行为和维权途径。知识产权管理大模型可以理解和处理自然语言,从而简化律师在撰写法律文件、起草合同和其他法律文书时的工作流程。法律语言处理舆情监控与声誉风险管理实时监测网络上的舆论动态,分析客户对企业和产品的态度和看法。通过对舆情的监控,企业可以及时发现潜在的声誉风险,采取措施进行危机公关和品牌维护。操作风险管理通过对企业内部流程和数据的监控,大模型可以识别潜在的操作风险,帮助企业改进内部控制和合规管理。例如,模型可以检测到员工违规操作、内部欺诈等风险事件,并提醒企业采取相应措施。供应链风险管理帮助企业评估供应链中的潜在风险,例如供应商的信用风险、物流延误等。通过对这些风险的预测和管理,企业可以确保供应链的稳定运行,降低潜在的损失。销售与营销策略优化通过分析市场数据和消费者行为,大模型可以帮助保险公司制定更有效的销售和营销策略。同时,它还可以协助企业进行客户细分和个性化推荐,提高客户转化率和市场份额。市场分析与趋势预测利用大模型对大量市场数据进行深度挖掘和分析,发现潜在的市场机会和趋势。这有助于企业制定更有针对性的市场营销策略和产品战略。合规与监管监控利用大模型对企业的业务数据和合规要求进行实时监控,保险公司可以确保业务的合规性并及时发现潜在的合规风险。同时,它还可以协助企业应对监管变化,降低合规风险。大模型技术深度赋能保险行业白皮书(2023)在企业风控领域,大型AI模型可以应用于多个场景,帮助企业提高安全性、降低风险。以下是一些典型的应用场景:在经营决策及管理方面,大模型技术可以应用于以下多个场景,辅助战略规划及策略优化:2.2.6 风控:识别风险,提升安全性28市场风险管理帮助企业预测市场波动,评估投资组合的风险敞口,从而制定合适的投资策略。此外,大模型还可以用于对冲策略的优化,降低市场风险对企业的影响。战略规划通过对内外部环境的分析,大模型可以帮助企业制定长期战略规划,支持企业在不断变化的市场环境中保持竞争力。29大模型技术深度赋能保险行业白皮书(2023)数字人是一种超越物理界限的虚拟人物,通过计算机手段创造和使用,具有人类的外貌特征、表演能力和交互能力等。其核心价值在于提供拟人化的服务和体验,并呈现出超写实、强交互和工具化的发展趋势。随着虚拟数字人理论和技术的迅速发展,其应用范围不断扩大,在电商直播、短视频等传媒类场景,及医护、政务等服务类场景,还有文旅、教育类场景中渗透速度较快。大模型的加持,将从以下方面显著提升数字人的智能化程度,“让数字人更像人”:(1)更强大的语言处理能力:大模型将使数字人能更好地理解和生成自然语言,使其与人类进行更流畅、更真实的对话。这将有助于提高数字人在客户服务、培训、营销等场景的应用价值。(2)更丰富的情感表达:大模型可以使数字人更准确地识别和模拟人类的情感,从而在与人互动时表现出更丰富的情感表达,提高逼真程度。(3)更强的逻辑推理能力:大模型可以帮助数字人更好地理解复杂情境,进行逻辑推2.3 数字人与数字员工:智能化程度提升2.3.1 数字人帮助企业识别潜在的法律和监管风险,例如违反法规的行为、政策变动等。通过对这些风险的预测和管理,企业可以确保合规经营,降低潜在的法律诉讼和处罚成本。法律合规与监管风险管理通过分析传感器数据和历史行为模式,大模型可以帮助企业构建智能的入侵检测和报警系统。这有助于企业及时发现并阻止潜在的入侵行为,保障企业资产和人员安全。入侵检测与报警通过分析员工的安全行为数据和行业最佳实践,大模型可以为员工提供个性化的安全培训和意识提升建议。这有助于提高员工的安全意识和技能水平,降低安全事故发生的概率。安全培训与意识提升利用大模型对视频数据进行实时分析,企业可以识别出异常行为和潜在的安全隐患。这有助于企业及时发现并应对安全问题,提高安防效果。视频监控分析与异常检测大模型技术深度赋能保险行业白皮书(2023)理和决策。这将使数字人在解决问题、提供建议等方面更具优势。(4)更高效的学习能力:大模型可以通过大量数据的学习,使数字人具备更强的知识储备和学习能力。这将有助于数字人在各种领域不断进步,适应不断变化的环境。(5)更好的个性化定制:大模型可以根据用户的需求和喜好,为数字人提供更个性化的定制服务。这将使数字人在不同场景下更具吸引力和实用性。(6)更强的跨领域应用能力:大模型可以帮助数字人在不同的领域实现知识和技能的迁移,从而提高其在多个领域的应用价值。总之,大模型将为数字人带来诸多改变和提升,使其在语言处理、情感表达、逻辑推理、学习能力、个性化定制和跨领域应用等方面更加接近人类,提高其逼真度和应用价值。数字员工,又称为数字化劳动力,是一种利用人工智能技术实现的虚拟员工,专注于执行重复性和流程性的工作。麦肯锡在2022年9月发布的 数字化劳动力白皮书 中,将数字员工定义为“打破人与机器边界,充分激活劳动力潜能的第四种企业用工模式”。通过结合数字员工和传统劳动力,我们可以将人力资源从繁琐的流程性工作中解放出来,专注于更具价值创造性的任务。数字员工的引入可以有效丰富并优化企业的劳动力结构。数字员工可实现企业全景式降本增效:在前台销售端提供卓越的用户体验,提升获客能力;在中后台则能优化运营流程,提高运营协作效率,从而推动业务发展。将大模型技术与数字员工结合,可以实现更加精准、高效的任务处理和决策制定,具体体现在以下几个方面:(1)大模型能够提供更加全面的知识储备和信息分析能力。传统的数字员工往往只能依靠预设的规则和算法进行工作,而大模型则可以通过对海量数据的学习和分析,获取更2.3.2 数字员工3031大模型技术深度赋能保险行业白皮书(2023)加深入的领域知识和经验。这使得数字员工在面对复杂问题时能够更加准确地判断和解决,提高工作效率和质量。(2)大模型能够实现更加灵活的任务执行和协同合作。传统的数字员工往往只能按照固定的流程和规则进行工作,而大模型则可以根据实时的需求和情况,自动调整任务执行流程。同时,大模型还能够与其他数字员工进行协同合作,实现信息的共享和交流,提高团队的整体效能。(3)大模型还能够实现更加智能的决策制定和风险评估。传统的数字员工往往只能依靠预设的规则和算法进行决策,而大模型则可以通过对历史数据和实时数据的分析和挖掘,提供更加全面和准确的决策支持。这使得数字员工在面对复杂的决策问题时能够更加明智地做出选择,降低风险和损失。综上所述,大模型能力与数字员工结合,可以进一步提升数字员工的智能化程度。通过提供全面的知识储备和信息分析能力、实现灵活的任务执行和协同合作,以及提供智能的决策制定和风险评估,数字员工能够更好地适应复杂多变的工作环境和需求,为企业带来更高的效益和竞争力。目前已有保险公司进行基于大模型技术的数字员工能力试点,在包括产品定制化、定价动态化、销售场景化、理赔自动化、客服人性化等场景内深度实践,进一步分担真实员工的日常重复性工作。当前行业大模型开放平台架构多以三层结构呈现。(1)底层是“模型即服务”(MaaS:Model As A Service)封装层,这一层集成了多种模型资源,如ChatGPT、文心一言、开放源代码模型,以及企业专有的垂直领域模型。这些模型通过统一的接口和协议进行封装和集成,为上层应用提供强大的内容生成和分析处理能力。(2)中间层是大模型的“应用框架层”,这一层为大模型的应用和服务提供了一个全面的支撑框架。该框架具备高度的安全性和合规性,提供了一系列的功能,如脱敏处理、审计跟踪、计量计费、模型适配、API鉴权等。这些功能确保了大模型在各种场景下的可靠应用和服务,同时为大模型的推广和应用提供了标准化的规范和指导。(3)最上层是大模型的“应用场景层”,这一层通过底层模型的支撑,实现了多种实际场景中的应用和落地。例如,智能核保、理赔处理、舆情分析、智能客服、智能化质检等多种3.1 大模型开放平台架构32大模型技术深度赋能保险行业白皮书(2023)3.大模型开放平台建设 打造可信大模型底座大模型开放平台负责构建企业的大模型生产力,为企业的各项业务应用提供支持,是企业实现大模型技术全面落地应用的必备基础设施。大模型开放平台支持大模型应用的快速开发,同时通过算法库、模型库、服务库、插件库、数据和模板库等模块不断沉淀、积累和共享可复用的能力,并将能力集成应用到开发运维过程中。大模型开放平台的建设,可以快速响应前端的业务需求,让用户更快、更高效地落地大模型应用,为业务赋能;能避免烟囱式的系统建设模式,降低大模型应用系统建设以及系统间交互成本;能实现数据共享、计算共享、模型共享,更好地降低应用成本;同时实现持续的技术沉淀,形成企业的核心资产,推动企业业务创新。大模型技术深度赋能保险行业白皮书(2023)场景应用。这些应用不仅提高了企业运营效率和服务质量,也为广大用户提供了更高效、精准、便捷的服务体验。大模型开放平台可以允许机构用户,在大模型内嵌入行业专业领域知识库,实现在保险垂直领域应用的快速适配;此外,也支持把企业内部应用工具包装成大模型插件,让大模型更加贴近业务应用场景。无论是定价动态化、销售场景化、理赔自动化,还是客服人性化等场景,大模型技术都能深度实践,并展现出强大的应用潜力。阳光保险集团率先打造的正言大模型开放平台,旨在构筑保险行业大模型的坚实底座,全面拓展科技赋能的边界,以引领保险业务应用的未来发展。该平台以阳光GPT模型为核心,依托专有数据与计算平台,为整个集团提供统一、标准化、高效率的大模型能力支持。通过专业大模型的构建,阳光保险对公司旗下的销售、服务、管理三大机器人产品进行了全面的智能化升级。这一升级将引领阳光保险各业务部门深度挖掘和应用智能科技,帮助业务人员真正理解智能、接纳智能,进而引领业务变革,实现从科技赋能到科技引领的全新跨越。正言大模型开放平台主要由平台工具层、阳光正言GPT层、业务应用层构成,在阳光内部提供企业级的MaaS能力,如下图所示。3334大模型技术深度赋能保险行业白皮书(2023)平台工具层由大模型研发工具、Prompt工厂及插件统一集市构成。其中大模型研发工具,实现大模型的自动训练、自动评测及模型管理;Prompt工厂实现prompt的管理及优化,充分挖掘大模型在特定领域的能力;统一插件集市建设,实现插件的动态开发与管理。阳光正言GPT层通过智能路由,实现外部大模型及自研大模型的动态调度、大模型择优与融合;再利用智能审核模型,对所有调用大模型的数据进行监控和检视,在确保数据和模型的使用安全合规的基础上,提供保险专业能力、通用能力及个性化能力。基于阳光正言GPT层提供的三大能力,支撑业务应用层实现“1 3 N”应用,其中:“1”是指在办公场景赋能全员办公,支撑文本创作、文本摘要、图像生成等;“3”是指突破销售、管理、服务三大机器人;“N”是指拓展更多的业务应用场景,例如实现精准产品设计及定价、数据报表自动化生成等。图5 正言大模型开放平台系统架构图如何将垂直领域的行业专有知识,嫁接到具备强大通用能力的大模型上,同时不损失大模型的通用能力,是训练垂直领域大模型要解决的核心技术问题。训练垂直领域的大模型的方法多种多样,目前主要包括如下三类方案:(1)从预训练开始定制模型:先基于海量通用数据 大量垂直领域数据进行预训练,得到预训练模型;再利用少量高质量垂直领域数据对预训练模型进行指令微调;(2)参数微调:在通用大模型基础上,基于少量高质量垂直领域数据进行参数微调,得到微调后的垂直领域大模型;(3)上下文学习:在通用大模型基础上,基于包含垂直领域知识的提示词prompt进行上下文学习(In-Context Learning),但不对模型参数进行修改更新。3.2.1 训练方法大模型技术深度赋能保险行业白皮书(2023)353.2 垂直领域大模型:更懂保险的大模型通用大模型,如ChatGPT、文心一言、LLaMA、BLOOM、ChatGLM和通义千问等,已展现出强大的通用能力,涵盖了自然语言生成、阅读理解、机器翻译和情感分析等。然而,尽管这些通用模型具备强大的通用能力,但保险行业作为一个高度专业化的领域,通用模型往往无法完全满足其专业需求。因此,针对保险行业专门研发垂直领域的大模型,可以弥补通用大语言模型在保险领域应用中的不足,是大模型落地应用的关键环节。以阳光GPT为例,其模型设计理念专注于解决保险领域的问题,因此相较于通用模型,它在保险领域表现出更高的专业性和实用性,成为了一款更懂保险的大模型。此类专门针对保险行业的大模型的研发和应用,将推动保险行业的创新与发展,提高服务质量和效率,为客户提供更优质的保险产品和服务。36大模型技术深度赋能保险行业白皮书(2023)总的来说,上述三类方案,从(1)到(3)的实现难度、算力需求、语料需求及训练时长依次递减,而得到的模型泛化及推理能力也依次递减。具体采用哪类方案训练自身垂直领域的大模型,企业可根据自己的需求及资源情况进行选择。以阳光GPT为例,其训练主要运用了参数高效微调的方法,这也是许多已开源的垂直领域大模型常用的训练手段。此种方法不仅训练周期短,而且对训练语料的数据量要求相对较低,却在某些特定任务上呈现出优异的性能表现。阳光GPT通过采用P-Tuning和LoRA这两种微调策略,对开源大模型的局部参数进行优化,使得在适配下游任务时只需训练少量参数即可达到良好的效果。其他训练模型的方式,如全参微调、领域自适应预训练以及从预训练开始定制等,虽然有其独特的优势,却也伴随着高昂的训练成本和相对较大的训练语料需求。此外,这些方法还需考虑到模型的迭代优化,是相对耗时的训练方式。综合以上因素考虑,阳光GPT最终选择了参数高效微调的方法进行训练。来源:财通证券:计算机行业深度分析报告-大语言模型的前世、今生与未来图6 垂直领域大模型训练的三类主要方案目前市场上可供选择的开源大模型众多,在选择基座模型时,我们需要综合考虑实际业务需求以及模型特性等多个因素,进行全面考察与比较,进而选择综合性能最优的模型作为通用基座模型。阳光大模型研发团队在选择基座模型时,依据大模型的参数量、是否自主研发、商业化可用性以及发布机构等因素,对比评测了国内外20余款开源大模型,基于目前评测结果选择了三款效果较优且支持商业化的基座模型。在上述三款基座模型的基础上,阳光进行了参数高效微调(PEFT)的优化过程,从中挑选出微调效果最佳的模型作为阳光GPT。通过这种精选与优化,阳光GPT不仅继承了基座模型的优秀特性,同时也充分考虑了实际业务场景的需求,从而实现了更为出色的性能表现和实用性。这为我们在保险领域的业务应用提供了强有力的支持与保障。3.2.2 基座模型选择构建保险垂直领域的大模型,离不开大量高质量的保险领域数据作为训练基础。以阳光GPT为例,为了将保险能力融入通用模型中,其训练过程中采用了以下几类数据:(1)保险领域网站:通过爬取保险领域网站来获取保险百科类知识,保险类的网站有保险查查、招商信诺、慧择、深蓝保、奶爸保等。(2)保险领域书籍:保险领域书籍的资料相对较多,包含 投资理财概论、人身险销售从业人员参考用书调整内容、人身保险新型产品基础知识及实务 等等。虽然书籍的知识形式不适合做有监督的微调(SFT),但可以基于书籍内容生成问答对的方式来生成SFT语料。具体做法是根据经验设计合适的prompt,再结合书籍的内容一起输入大模型中,让大模型来生成问答对,这样就可以通过书籍生成大量的问答对。3.2.3 数据来源大模型技术深度赋能保险行业白皮书(2023)3738大模型技术深度赋能保险行业白皮书(2023)(3)考试数据:保险考试数据的公开数据相对较多,可以从保险考试数据中学习到保险知识,保险考试包括代理人资格考试、保险机构董事监事和高级管理人员任职资格考试、中国寿险管理师考试、中国个人寿险规划师考试、中国寿险核保师考试、中国寿险理赔师考试、互联网保险产品经理考试、银行保险从业人员销售服务考试等。(4)通用语料库:为了缓解通用领域灾难性知识遗忘的问题,还需要准备大量的通用语料,如中文语料库WuDaoCorpora,并与专业语料形成一定的配比,来帮助模型学习通用领域的知识。训练保险领域的垂直大模型主要面临以下挑战:(1)数据收集与处理:数据比模型重要,在业内已经达成共识。保险行业的数据往往比较分散、质量参差不齐,而且涉及到敏感的个人和财务信息,如何有效、安全地收集和处理这些数据是一个难题。(2)灾难性遗忘问题:参数高效微调方法可能导致大模型面临灾难性遗忘的问题,其特征为在适应保险领域时失去了先前获得的通用知识。在训练时需要慎重考虑保险领域和通用领域的训练数据配比,让模型既能适应保险领域的场景,又能减轻通用领域知识的遗忘问题。(3)大模型幻觉:大模型在生成文本时,可能出现与事实不符、与预期不符或与用户意图不符的情况。幻觉的产生主要与大模型的训练数据、模型架构、训练方法和上下文等因素有关。(4)模型的可解释性和可靠性:保险行业的决策往往需要高度的可解释性和可靠性,如何训练出能够提供可解释、可靠的大模型是一个挑战。3.2.4 挑战及应对插件技术可以方便地将不同领域的知识和数据集成到大模型中,从而提高模型的泛化能力和性能、丰富大模型应用的功能和场景。此外,也可以通过插件实现与公司内部业务系统的链接,实现大模型与业务流程的衔接。插件是一种可扩展的代码模块,可以与已有的代码系统进行交互,提供一些额外的功能或服务。插件的运行方式通常是使用同一语言或API进行调用,从而实现特定功能的增强。以阳光正言大模型开放平台为例,业务方可以选择平台提供的公共插件工具,如邮件发送插件、wiki百科咨询插件、地图信息检索插件等;可以向正言平台注册自己业务专属的第三方插件(自己开发,平台注册)从而形成专属于自身业务的聊天代理服务agent。通3.3 插件集市,实现大模型与外部系统链接大模型技术深度赋能保险行业白皮书(2023)39(5)模型的实时性与性能:保险行业的业务往往需要快速的响应和高效的性能,如何训练出能够实时处理、快速响应的大模型是一个需要考虑的问题。(6)数据安全与隐私保护:保险行业的数据往往涉及到个人隐私和财务敏感信息,如何在训练大模型的过程中保障数据的安全和隐私。(7)模型的持续优化与迭代:保险行业的业务在不断发展和变化,如何持续优化和迭代大模型以适应业务的变化也是一个挑战。针对上述挑战,在垂直领域大模型训练过程中,可通过数据标注、数据筛选等方法保证垂直领域数据的质量;根据实际应用场景确定通用数据和领域数据的配比,避免大模型通用能力的损失;选择合适的模型微调技术,确保大模型的应用效果;引入人类反馈机制以减少幻觉的产生;采用本地部署的大模型,并采取相应的安全措施,如数据加密和访问控制等,避免泄露隐私及敏感信息。大模型开放平台通常提供一系列应用工具和接口,为开发人员提供了一个集成环境,可以大大简化大模型的构建和训练过程。大模型研发工具通常支持如下功能:3.4 大模型研发工具,提升模型研发效率40大模型技术深度赋能保险行业白皮书(2023)过代理agent与正言大模型交互,代理agent可根据聊天内容的意图判断是否需要调用插件、调用哪些插件及调用顺序,最终将插件调用的结果返回给用户。(1)定义本地插件通过采用类方法对插件进行封装创建本地插件,填写准确的插件描述与名称,例如:邮件插件-当你需要发送邮件时。可以使用这个工具用来发送邮件。同时在类方法中实现创建的插件的功能。最后将代码存放到插件集市服务中。(2)定义外部自定义插件业务方在自己的业务系统中定义实现自己业务功能的http请求的api接口。向平台提供接口信息、接口功能描述以及接口入参详情等信息。平台将对应信息格式化存入数据库。插件集市运行时,将根据存入的接口信息,并通过rest请求调用业务方提供的api接口,来实现插件的第三方业务功能。(3)外部插件权限验证业务方在自己的QA问答提问入口处提问时,在请求参数内添加插件所需的权限校验信息,当插件集市服务通过rest请求调用插件api接口时,将此参数原封不动回传至业务方服务,业务方通过此信息校验权限等信息。(4)确定调用插件与调用顺序通过前置提示词告诉大语言模型当前业务系统拥有哪些可用插件,以及插件描述、插件名称等信息。大模型通过分析用户的问题,确定需要调用哪些插件以及调用顺序。(1)模型快速开发:提供一系列的深度学习模型库和预训练模型,用户可以快速地构建和训练模型,有效减少模型研发的时间。(2)大模型微调:提供大模型全参微调和参数高效微调(PEFT)技术,其中PEFT技术包括P-Tuning和LoRA方法等。(3)分布式模型训练:提供单机单卡、单机多卡和多机多卡训练方式,实现了大规模的并行计算,从而加速大模型的训练过程,提高训练效率与扩展性。(4)超参数自动调整:提供高效的超参数自动调整技术,可以快速地找到最优的模型超参数配置,提高模型的性能。(5)自动模型选择:可以自动选择最优模型,大大提高了模型选择的效率。(6)模型版本管理:提供模型版本管理的功能,可以对同一模型在不同时间和参数下进行管理,从而提高了模型的可重复性和追溯性。(7)智能调度:通过智能调度技术,可以自动化管理和监控不同的计算资源,如计算节点、分布式任务等,提高计算资源的使用效率。(8)自动化模型部署:提供模型自动化部署功能,可以快速地将模型部署到生产或测试环境中,减少了手动部署所需要的时间和人力成本,提高了工作效率。(9)数据流管道:提供大规模数据预处理和特征提取的流水线,可以将原始数据转化为模型所需的特征,并进行自动化的数据清洗和增强。大模型研发工具旨在帮助用户快速地完成复杂的深度学习任务、大幅提升模型研发效率,从而更好地满足模型应用的需求。大模型开放平台通常可提供多种大模型供按需选择,包括外部商业模型、本地部署的3.5 智能路由和审核,实现大模型动态调度和内容安全大模型技术深度赋能保险行业白皮书(2023)4142大模型技术深度赋能保险行业白皮书(2023)开源模型、基于领域数据训练得到的自研模型等。平台通过灵活的模型选择机制-智能路由,实现不同大模型之间的无缝切换。智能路由能够对模型进行评估,以找到处理当前请求最适合的模型,从而提供更优质的服务。利用智能路由技术,可以实现大模型的统一服务和动态调度,从而提升服务效率和质量。(1)路由分级智能路由分为三个层级:接口级、系统级和全局级,并约定了优先级顺序。接口级具有最高的优先级,系统级次之,全局级最低。接口级允许用户自主选择模型以处理特定的业务需求。系统级主要负责处理多个模型的选择和切换,结合路由规则和业务需求,灵活的切换模型。全局级与系统级的功能类似,在没有设置接口级或系统级规则的情况下,模型的选择将由全局级来完成。分层架构提供了灵活性和扩展性,方便对不同业务场景进行扩展。(2)规则策略分类智能路由提供了多种路由规则来进行模型的选择,主要分为规则类策略和智能策略两大类。规则类策略包括优先策略、随机策略和轮询策略。而智能策略则需要根据第三方系统的特定要求进行定制化开发。(3)数据流审核对用户的输入与大模型的输出数据流进行审核。对用户输入的每一项数据进行核实,确认其来源的合法性,避免虚假或误导性的信息进入模型。对大模型的输出内容进行审查,确保模型预测结果的合理性、公正性、符合法规和道德规范等。随着大模型技术在保险业的广泛应用,数据安全、隐私保护、合规性以及网络安全等3.6 大模型应用安全与合规大模型技术深度赋能保险行业白皮书(2023)43议题逐渐浮现,这些因素已成为保险业数字化进程中的关键挑战。保障大模型应用过程中的安全性需要从以下几个方面来考虑:(1)数据安全:大模型的训练和应用都需要大量的数据支持。为了保障安全性,我们需要采取一些措施,如数据匿名化、隐私保护、数据加密等来防止数据泄露和滥用。针对数据隐私和合规性,应当遵循最小化数据原则,仅收集和处理执行特定任务所必需的数据。此外,设立严格的数据访问和使用政策是必要的,只有经过特定授权的人员才能访问和使用数据。为确保数据处理过程的合规性和透明性,还需定期对数据进行安全审计。另外,还需要关注数据的质量和完整性,避免使用恶意数据或者有毒数据对模型产生误导。(2)模型安全:大模型的训练和推理过程需要谨慎处理,尤其是在涉及到敏感信息和关键业务时。我们应该设计稳健的模型架构和训练策略,提高模型的鲁棒性和容错性;建立有效的监督和反馈机制,定期审查模型的性能,识别并解决潜在的问题,以确保其始终符合道德和社会责任标准;积极收集用户和利益相关方的反馈,根据各方的期望和需求及时调整模型。另外,针对可能存在的模型漏洞,我们需要定期进行模型体检和漏洞扫描,及时修复潜在的安全隐患。(3)应用安全:在大模型的实际应用中,我们需要密切关注其可能带来的风险和影响。例如,大模型可能产生令人信服的虚假内容,对社会产生误导。因此,我们需要在应用端建立相应的审核机制和监管措施,以避免产生不良影响。同时,针对可能出现的模型攻击,我们需要采取防范措施,如设置模型防御策略、限制模型使用范围等。(4)网络安全:需要构建一套全面的网络安全防护体系,这个体系涵盖多种安全防护措施,包括但不限于防火墙、入侵检测系统、数据加密技术等。防火墙可以有效地阻止未经授权的访问;入侵检测系统则可以实时监控网络活动,一旦发现异常行为,就会立即发出模型评测在衡量保险行业大模型质量方面起着至关重要的作用。针对保险行业垂直领域的大模型,我们不仅希望其融入保险领域的专业知识,同时也非常关注其通用能力。阳光保险构建的评测集S-Eval,包含223个测试用例,用于评估通用领域和保险领域的两部分能力。为了评估模型的通用能力,可以采用业内普遍使用的C-Eval、CMMLU、GSM8K、HumanEval、WMT22等评测集,它们在自然语言理解与生成、数学运算解题、代码生成等方面对模型进行全方位评测。同时,我们还可以人工添加通用领域的评测集,包括事实问答、信息抽取、文本分类、情绪识别、数值计算、文化常识等多个维度。在保险领域能力评估方面,我们可以采用保险考试的方式进行评估。例如,代理人资格考试作为一种知识覆盖面较广的考试形式,能够全面考察模型在保险领域的能力。此外,3.7 保险业大模型评测体系44大模型技术深度赋能保险行业白皮书(2023)警报;而数据加密技术则可以保护我们的敏感信息,防止数据在传输过程中被窃取或篡改。(5)法律与合规:在大模型的应用过程中,我们需要关注相关的法律和合规要求。例如,在处理个人隐私信息时需要遵守相关法律法规;在发布和使用大模型时需要遵循知识产权和版权法等。(6)风险评估与管理:我们需要定期进行风险评估,识别出大模型应用过程中可能存在的安全风险,并采取相应的管理措施来降低风险。例如,建立风险管理制度、加强风险监测与预警、制定应急预案等。总之,保障大模型应用过程中的安全性需要我们在各个方面都保持谨慎和关注。通过科学合理的管理和技术手段的运用,可以最大程度地保障大模型的安全性和可靠性。大模型技术深度赋能保险行业白皮书(2023)45选择题无需人工打分,这为评估保险领域模型的高级能力提供了一种简单而又有效的方式。另外,我们也可以手动添加保险百科类主观题,以评估模型的的问答能力。这样不仅能够有效衡量模型在保险领域的表现,同时也能帮助我们更好地了解模型的优缺点并进行相应的优化。生成式AI大模型技术作为年度最大的热点,吸引并推动各大厂商推出大模型产品或是服务,这些产品或服务主要包括四种类型,第一种是大模型平台服务,其中比较有代表性的是百度和阿里。这类公司推出了一系列的云计算服务,使用户可以方便、低成本地创建自己的大模型,部署成大模型云服务。第二种是数字人产品,其中比较有代表性的包括百度、阿里及科大讯飞等。这类公司不仅推出了更逼真,更惟妙惟肖的数字人产品,还把单个数字人的创建门槛降低到只需录制一段几分钟的视频和音频,创建成本也从一年前的几十万元降低到了几千元。第三种是创新大模型产品,推出大模型问答式文库应用,采用独特的“大模型 运营”的方案,为企业建立私有知识库,应用于内部和外部用户的信息检索场景,满足企业用户对内容可信、预期可控、知错能改的高层次要求。第四种是在传统软件上附加大模型技术,提供大模型驱动的Copilot。如微软在Windows 11中加入了名为Copilot的AI助手,Copilot可以接受用户的自然语言指令并自动执行软件功能,提升用户工作和学习的效率。根据信息技术研究分析公司Gartner预测,到2025年,AIGC人工智能的全球市场规模将超过1350亿美元,其中银行、金融服务和保险将占该市场的25%。目前来看,国内保险行业还在处于摸索AIGC落地的初级阶段,海外一些保险公司已经开始探索将AIGC嵌入到承保、理赔、审核等多个保险业务流程中。此外AI RPA的技术融合已经使数字人具备数据决策能力,这意味着虚拟数字人在未来有为保险业重构行业价值链的能力,同时由AI RPA技术融合而成的”数字人“正逐渐被国内外的保险行业所接受。4.积极探索落地 大模型价值全面初现46大模型技术深度赋能保险行业白皮书(2023)阳光保险集团于2023年初启动了“阳光正言GPT大模型战略工程”,积极布局大模型建设、加强内外部交流,并参与行业标准制定。作为“核心编写单位”,阳光保险与百度、华为、腾讯等公司共同参与金融大模型行业标准 面向行业的大规模预训练模型技术和应用评估方法第1部分:金融大模型 的编制。该标准是金融领域的首个大模型标准,并于2023年9月18日在以“大模型高质量发展”为主题的2023年可信AI大会暨人工智能产业发展大会上正式发布。该标准从金融场景适配性、金融领域AI能力支持度以及应用成熟度三个维度进行全面评估,同时考虑了合规安全性、可追溯性以及部署等多个方面。这一标准为科学评价金融大模型技术能力和应用效能提供了有力的参考依据。阳光保险大力建设了以GPT大模型为核心技术能力的阳光正言大模型开放平台,一方面与多家外部大模型技术进行链接;另一方面在开源大模型私有化部署的基础上进行二次开发,注入阳光的知识和数据,构建GPT技术底座,建立保险专业垂直领域能力,实现集团、产寿各条线的全应用覆盖,引领公司智能化升级。通过阳光正言大模型开放平台,阳光保险实现了阳光GPT技术关键能力输出,包括专业能力、通用能力和个性化能力。这一平台为公司的智能化升级提供了强大的支持。利用大模型技术,阳光保险构建了车险全线上销售机器人,通过官网、官微、APP、95510四种渠道触达客户。机器人通过线上渠道与客户之间建立纽带,并实现了更深入的客户洞察。同时,基于交互内容的过程分析,机器人全方位参与售前、售中和售后各个环节,实现“对话即销售”的理念革新。目前,阳光保险利用大模型技术重构了信息抽取、意图识别模块及部分改造智能问答的召回阶段,整理出400 常见问题、17个槽位及26个业务意4.1 国内险企躬身入局,初步探索AIGC应用落地4.1.1 阳光保险:正言大模型开放平台赋能保险及办公全业务流程大模型技术深度赋能保险行业白皮书(2023)4748大模型技术深度赋能保险行业白皮书(2023)大模型技术应用到智能客服机器人项目,大大改变了传统的客户服务模式,为客户提供了更为便捷、高效、智能的服务体验。要实现与客户的真正开放式对话交流,单纯依赖传统算法是远远不够的。阳光设计了基于大模型的人机交互方式,以实现更为准确的问题意图识别和语言交互场景。这种结合上下文的交互方式允许机器人在与客户沟通时,能够理解并回应客户的各种口语化表达和复杂意图,从而显著提高了回答的准确性。结合语音导航、文本机器人、数字虚拟人等触客终端,形成了一套完整的智能化客服系统。在此基础上,结合业务场景,项目组进一步发挥大语言模型能力特点,将现有客服团队历年积累的客服知识和产寿业务资料进行深入整理,结合FAQ、知识图谱和大语言模型的语句、意图提炼能力,形成了针对投保、保全、理赔、核保和条款等不同业务场景的意图识别和知识储备。这图,共计标注2万余条数据。通过阳光GPT对信息抽取、意图识别和语义相似度识别三项语义理解能力进行升级,相较于传统的预训练语言模型Bert,信息抽取任务准确率提升15%,意图识别任务准确率提升5%。基于信息抽取与意图识别方面的改进,智能问答任务解答率提升8.7%。图7 车险全线上销售机器人产品架构种方法显著提高了回答的正确率,无论客户提出何种问题,客服机器人都能迅速地根据语义分析在不同层级的知识中进行分类提取并组织话术,为客户提供最合适的答案。大模型技术在人伤闪赔机器人的应用,提高了人伤案件快速结案率与理赔效率,进而减少因伤者就诊、住院治疗或索赔周期延长导致索赔预期增加带来的赔付成本上升;通过人伤闪赔机器人准确识别人伤伤情诊断,同时遵循赔偿标准,智能化出具标准赔偿建议,减少查勘员因技能不足、伤情误判带来的赔付渗漏。目前行业尚无此类的科技产品,该产品可以让客户享受有温度的保险服务,同时带来行业巨大变革,是所有保险人挤压理赔管理和理赔技术水分的必然选择,也是未来保险数智化的必然趋势。在个性化能力建设上,基于阳光GPT率先打造阳光文化金水杉讲师及“阳光升”金牌销售员两个角色,支持两个具有阳光特色的场景问答能力。其中“阳光升”金牌销售员通过打通常见问题解答、文档知识问答能力链路,形成了一套较成熟的问答解决方案。在文档知识问答方面,采用“大模型 LangChain 向量数据库”三位一体的方式进行落地。首先根据保险条款的数据格式,设计了专门的文本分词方法;然后利用自研大模型提供的文本向量化能力,将分割好的文本段落进行向量化并存储到向量数据库中;最后,对用户的输入进行向量化,并在向量数据库中检索最为相关的内容,再将检索到的相关信息和预先设计的提示词一起输入给大模型,以得到最终返回结果。大模型技术深度赋能保险行业白皮书(2023)49图8 FAQ-DocQA-Chat问答链路50大模型技术深度赋能保险行业白皮书(2023)在通用办公领域,阳光正言大模型开放平台已上线文本对话、AI文生图、图生图、图生文等多模态功能,初步实现了自然语言与应用系统的联动,为公司办公场景化应用提供支撑。(a)预制或自定义各类人设,实现智能交互咨询辅助通用问答能力建设上,利用平台的智能路由,实现自研大模型与外部大模型的动态调度,借助提示词工程建立各类专业领域对话人设,为用户提供问答咨询、文案撰写及润色等多种办公文案类辅助功能。可根据应用场景选择不同的人设,也可以自定义专属人设。例如选定心理咨询师的角色,可帮助员工识别解决情绪问题,分析员工情绪问题的起源和根源,协调员工处理人际关系并使员工间密切合作,如下图所示。图9 预制或自定义各类人设,支撑多类办公文案场景大模型技术深度赋能保险行业白皮书(2023)51(b)多模态图文小能手,促进UI设计类工作提质增效通过整合封装多模态大模型并在此基础上进行二次开发,构建文生图、图生图等能力,提高公司内部的海报、宣传图等UI设计类工作的效率。基于多模态能力,支撑了公司端午节营销海报的自动生成,如下图所示。在节日当天,寿险公司代理人超过1.3万人次点击查看,生成的海报转发和下载超过2500次。(c)智能文本与数据分析,辅助经营管理与决策分析通过将阳光正言大模型开放平台与阳光驾驶舱报表系统融合,在数据分析方面,可将数据分析模型与建表服务进行串联,完成数据自动提取、数据间的关联分析并根据自然语言的报表制作需求,快速生成报表,如下图所示。图10 端午节营销海报生成52大模型技术深度赋能保险行业白皮书(2023)(d)多种模型自助切换,支持答案对比与择优基于外部大模型较强的通用能力,同时考虑到阳光自研大模型在特定场景的个性化语言、语境、领域知识等方面的适应能力,平台为用户提供多种模型的切换功能,方便用户快速找到更优质的答案,如下图所示。图11 基于自然语言,实现报表自动生成图12 不同模型自助切换,提供更优质的答案中国人保高度重视大模型技术带来的机遇和挑战,积极布局大模型建设。通过自建人工智能算法团队、积极推进内外部生态合作,中国人保充分利用人保海量语料、数据及行业知识的优势,打造了自主可控的人保大模型,并在代理人赋能、智能客服等场景试点应用,以MaaS方式为集团各公司提供基于大模型的智能产品和技术服务,并于2023年11月6日在人保集团科技发布会上正式发布。4.1.2 中国人保:打造并发布人保大模型,多场景应用落地(e)通用代码能力生成,赋能企业研发运维在通用代码生成方面,融入阳光编程规范,提高代码质量,同时通过构建VS Code插件,扩大应用范围。此外,基于前期验证和测试多个应用场景,研发基于IDEA的常青藤辅助编程插件,完成了代码生成模型及IDE插件初版建设并在多支开发团队进行试点,在代码补全、代码解释、性能检查等场景助力研发团队生产效率的提升。全公司内部已有近半数开发人员将平台提供的通用代码能力辅助研发。大模型技术深度赋能保险行业白皮书(2023)53图13 构建集成开发工具常青藤辅助编程插件,实现代码辅助中国人保与认知智能国家重点实验室及科大讯飞合作研发了人保首个专属问答大模型,该模型在通用问答能力的基础上,提升了多轮口语化复杂意图理解能力、情感理解与共情能力,新增了敏感问答拒识能力,并针对保险具体应用场景,实现了条款咨询问答能力、业务逻辑推理能力和多文档多知识点融合能力的全面突破。人保专属问答大模型已通过“人保智友”产品在代理人赋能、智能客服等场景试点应用,借助大模型的语义理解、搜索增强等功能,提升知识获取效率,降低企业运营成本。同时,中国人保还通过自研与合作双轨并行,构建了以深度理解保险行业的专属通用大模型为底座、面向垂直业务领域的自研场景大模型为主体、外部大模型能力为辅助的人保大模型生态,配套建设了人保prompt工厂、博文智库、智选路由、信息安全助手等组件,为自研的文曲星平台、AI智能陪练等多款智能化产品提供一站式MaaS服务,已在集团各公司百余个场景中应用落地,全方面支持包括保险、投资、办公等领域的集团内各类工作任务,带来更高效、更智能的业务处理能力,全面提升工作人员效率和客户体验。54大模型技术深度赋能保险行业白皮书(2023)图14 人保大模型产品规划大模型技术深度赋能保险行业白皮书(2023)55(1)智能营销:打造智能代理人助手,借助AI生成图文的能力,支持代理人针对特定节日、特定产品、特定客户等生成个性化营销文案及海报,有效避免版权问题,大大提升制图效率。(2)智能投研:打造智能投研助手,针对投研市场上每天产生的海量研报,借助AI语义理解能力,精准提炼研报,形成一句话观点 论据摘要,极大提升投研人员的工作效率。(3)智能办公:打造智能办公助手,借助AI语义理解能力,一方面可实现日常办公问题解答,避免人工重复问题重复回答,提升知识获取体验;另一方面可以自动生成会议纪要、自动识别发言人、生成关键字及关键结论,同时支持内容搜索及定位,便于快速了解会议内容及会议纪要的整理。(4)智能客服:打造智能问答助手,提供智能问答服务,可以支持用户在投保前进行健康咨询、过程中的保全服务、以及理赔服务等,陪伴用户的保险全生命周期。(5)智能编程:打造智能编程助手,借助AI生成能力,在代码输入过程中预测并提供下一段代码片段;同时能够识别代码中的潜在错误并提出适当的修复建议,从而显著提升编程效率。人保大模型的构建将重塑人工智能技术在中国人保现有的应用模式,进一步提升其智能化水平,促进降本增效,为客户提供更加智能、便捷、可靠的金融服务,助力人保高质量发展。4.1.3 平安:推出数字人产品、建立精准信用评级体系平安人寿推出了基于大模型的数字人产品,主要用途在于协助代理人更有效地与客户沟通。这款产品对于新入行的代理人来说,无疑是一大福音。它不仅能在交流中给予指导,帮助代理人更好地理解客户需求,同时还能收集并整理客户信息,根据客户需求提供56精准的产品推荐。同时,平安银行也已经开始利用AIGC技术对客户的个人信息、历史借款记录以及消费行为等数据进行深度分析。通过这种方式,平安银行成功建立了一套精细的信用评级体系。有了这个体系作为基础,他们可以为不同信用等级、借款需求和偏好的客户,量身定制出个性化的借款产品和服务。这种个性化的服务包括了贷款额度、借款期限、利率等方面的差异化设置,旨在提高客户的满意度和忠诚度。平安健康打造了专门为医生服务的“ChatGPT”AskBob智能医生,基于4000万医学文献、20万药品说明书、2万临床指南等中英文医疗知识图谱以及融合深度学习模型,可为医生提供个体化精准诊疗推荐和辅助决策。截至2023年2月,AskBob服务于140多万名医生,覆盖全国范围4.6万家医疗机构,每天提供的诊疗辅助决策次数达27万次,尤其在医疗资源有限的地方帮助提升医疗服务。平安不仅能够运用科技助力自身金融业务提质增效,并且具备了输出能力。平安旗下金融壹账通作为国内金融科技领域的AI先行探索者,已率先布局大模型和生成式人工智能(AIGC),并在银行、保险、投资等金融垂直领域落地应用。其打造的“加马智慧语音解决方案”,基于平安集团30多年的金融业务经验,专注深耕金融行业,依托支持信创适配的机器人平台,创新地将“产品”与“业务”相结合,针对智能风控、智能营销、智能客服多业务多场景打造了300 语音机器人流程、3000 文本FAQ库、200 质检模型和60 智能辅助模板,提供AI场景构建、AI运营团队建设及培养咨询和AI场景效果提升服务,实现金融壹账通提前布局人工智能赛道的关键一步。大模型技术深度赋能保险行业白皮书(2023)4.1.4 太保集团:数字员工助力审计监督提升太保集团积极推进基于大模型的数字员工建设,希望利用大模型的特点和优势,带来大模型技术深度赋能保险行业白皮书(2023)57太保集团积极推进基于大模型的数字员工建设,希望利用大模型的特点和优势,带来传统用工模式的变革。数字员工提供通用的自然语言交互入口,能根据用户指令,解析得到用户意图,自主进行任务规划并完成任务执行,为用户提供多样化的服务。数字员工实现了对专业工种的建模,赋予了数字员工思维能力、行动能力以及职业能力,并做到与真实业务人员对齐,解决实际场景任务的同时,有效填补人力空缺,提升业务处理效率,优化公司整体营运和决策效率,助力太保集团数字化转型。目前太保数字员工已在集团审计中心进行能力试点,构建了审计检查、公文质检、咨讯问答等多名审计数字员工,为集团审计带来以下价值:一是实现精准化的审计监督,助力防范化解金融风险。“审计数字员工”将突破传统审计局限,精准打击保险违规违法行为,帮助公司挽回经济损失,有效遏制虚假理赔恶意欺诈风险,助力守住企业风险底线,构建诚信社会环境,促进行业健康稳定发展。根据国际保险监管者协会测算,全球每年约有20%-30%的保险赔款涉嫌欺诈,2022年银保监会公布中国保险业总赔付1.5万亿元。近年来,太保审计应用数据分析方法,成功与一二道防线联合查处虚假案件5000余件,实现追回或减损金额近3亿元。数字员工的建成将在此基础上,进一步提升审计质效、减少企业经济损失,为净化保险市场环境发挥重要作用。二是有效填补审计人力不足,满足行业监管要求。根据银保监会 保险公司内部审计指引,审计人员配置应不低于总员工数5。面对企业快速发展、规模不断扩大、审计人手存在不足的情况,“审计数字员工”将有效填补审计人力缺口,改变传统人海战术式的队伍发展模式,构建“人防 技防”、“人力技能 人工智能”相结合的数字化审计监督力量,预计提升审计人力效能约35%。根据国家审计署不完全统计,全国内部审计从业人数约20余万人,项目建成将对行业发展产生重要影响。三是构建智慧审计模式,为行业数字化转型提供示范。“审计数字员工”将充分发挥技术优势,推动审计方式从传统人工排查向机器自动核查、从抽样审计向全量式覆盖、从事后审计向事中事前审计的转变,实现审计模式、流程和形态的革命性改变,大幅度提高审计效能,为内审行业转型发展提供可借鉴的示范模式。四是发挥智能技术引领,实现人工智能在审计领域全面化应用的率先突破。“审计数字员工”的建成,将实现智能化技术在审计全业务流程以及主要风险领域的全面化应用突破,改变以往智能化技术着重应用于业务前端的营销获客,而在审计监督领域应用仍然是盲点的情况。通过数字员工在审计场景的建设与落地,进一步明确了数字员工内涵。同时,通过保险行业风险全面梳理,形成保险行业审计可借鉴的风险图谱;再有,通过对被审计单位提供信息的标准化设计,拓展数字审计覆盖领域,形成行业可复制的数字审计方法体系;最后,通过技能整合,形成数字员工建设的样板,形成审计领域可推广的经验。此外,中国太保产险联合百度打造的“全智能、无人工”车辆定损工具“太AI”,定损、理赔判定依据复杂、专业性高,尤其是人身险在涉及劳动损失给付等方面的程序时,往往涉及与被保险人的交涉沟通。截至2021年11月,已适用2.3万个车型,覆盖97%的乘用车品牌,部件识别准确率超过98%,损伤识别准确率超过90%。未来,太保集团将围绕大模型数字员工,稳定持续地优化金融保险领域数值能力水平,促进保险业务全流程智能优化和效率提升,搭建“保险业务 科技创新”的高质量运行模式,为保险行业数字化转型提供新范式。58大模型技术深度赋能保险行业白皮书(2023)4.1.5 泰康:积极构建生态,打造大模型原生应用近年来,泰康创新保险支付 医养服务商业模式,积极拥抱数字化升级浪潮,探索行业大模型技术深度赋能保险行业白皮书(2023)59数智化转型的经验和范本。在智慧保险领域,泰康搭建了行业内首个支持核保理赔场景下全量数据采集的医疗影像解析平台。目前,该平台服务已覆盖泰康人寿全国36家分公司,赋能理赔、核保相关作业人员千余人,促使“两核”作业效能极大提升。该平台的应用提升了理赔服务的时效性和便利性,优化了客户体验。在智慧养康领域,泰康孵化了一系列业内独创的科技产品,为泰康之家养老社区居民提供丰富的7*24小时安全照护,以及主动干预式健康管理手段。泰康积极探索生成式大模型的引入与应用,与国内外领先的大模型生态企业展开合作,对接微软、百度、讯飞、智谱、阿里等厂商的通用大模型能力,同时展开开源大模型的训练与应用尝试,探索大模型在智慧保险、智慧养康等领域的AI原生应用。泰康将按照模型、平台、应用三个层次构建AI原生应用体系。模型侧依托头部企业的通用大模型以及开源大模型,结合泰康在保险、医养行业的特有知识,利用大模型生态企业在AI算法和大算力上的经验优势,联合建设面向保险行业、医养行业的行业大模型以及细分领域的垂类模型。平台侧采用与头部企业合作和自研相结合的方式,建立大模型应用开发平台,提供大模型能力至应用之间所需的管理控制、模型选择、提示工程、知识管理等工具,为AI原生应用的高效开发与管理提供平台支持。应用侧聚焦核心场景,打造绩优代理人数字助理产品及老年生命链大模型产品,深入代理人智能培训、代理人销售辅助、齿科、康复医院、长寿社区等场景,利用新一代AI能力进一步降本增效,为客户、销售队伍、医养队伍等提供更有温度、更规范、更智能、更实惠的服务。4.1.6 众安保险:将AIGC置入科技产品,打造系统应用全新体验众安科技自成立以来长期致力于自身科技能力的对外输出,形成了一系列极富竞争力的产品:智能营销平台、保险核心业务系统、经代信息化系统、DevCube研发运维一体化4.2 国外险企积极转型,营销承保服务业务全覆盖4.2.1 Paladin Group:承保工具UnderwriteGPT2023年2月1日,保险科技数字经纪公司Paladin Group推出了世界上第一个生成式人工智能承保工具UnderwriteGPT,同时也是目前市场上较为先进和高效的核保解决方案。简单来讲就是基于大语言模型生成的AI,帮助承保和风险管理变得更快、更高效、更准确。UnderwriteGPT最大的优势是不断生成新的数据和见解,从而简化承保流程并改进风60大模型技术深度赋能保险行业白皮书(2023)平台、数据产品等。针对科技产品项目实施过程长期存在内容的生成成本高、产品学习上手困难、业务指导能力弱等问题,众安保险基于AIGC类大模型的能力,结合保险业务经验,自主研发了AIGC中台-灵犀,并支持把企业内部应用工具包装成大模型插件,全面提升了产品易用性,实现了内容运营平台、经营分析平台、智能坐席助手等多项工具的迭代升级。其中众安科技智能营销平台包括营销活动创建、营销人群圈选、营销内容触达、自动化运营策略配置、运营分析等模块,覆盖精细化运营全流程。在toC营销场景中,内容活动往往作为营销触达的核心抓手。通过结合ChatGPT类生成式AI能力后,营销平台不仅仅可以提供创作工具,还可以快速帮助客户完成内容创作,文章撰写、活动创作等,甚至可以在自动化运营中自动地进行策略的理解和配置生成,从而更好、更快速地实现千人千面的营销触达。众安保险核心业务系统的新一代财险核心业务平台,覆盖财产险非车全险种业务流程,并支持跨险种组合业务。过往在核心产品使用过程中,需要大量的专业人员进行各方面的配置,如配置一款保险产品上架、配置多渠道的对接、配置各种风控策略的上线,过往这些配置项,均需要业务运营人员熟悉系统后进行配置工作。生成式AI接入后,业务人员只需要输入需求,系统即可自动化配置实现,提高效率。大模型技术深度赋能保险行业白皮书(2023)614.2.2 Corvus Insurance:利用Corvus Risk Navigator平台 实现核保Corvus Insurance是一家人工智能驱动的网络风险平台。近日,Corvus Insurance推出了人工智能Corvus Risk Navigator平台,以提高保险公司在工作流程中常规手动任务的自动化程度,包括索赔、数据整理、实时核保等,这些功能进一步减少了保险公司的工作量,同时提高了报价效率。具体来看,Corvus Risk Navigator平台使用了大模型和自然语言处理技术,通过自动化加快了保险公司的各项决策。比如自动化行业验证和自动化应用程序接收,由大模型取代保险公司的手动验证,自动接收应用程序中的数据,然后以核保指导原则的相关信息为基础,从而回答核保人的问题。同时Corvus表示,将通过人工智能为经纪人、风险资本合作伙伴、投保人创造价值,并为保险公司配备自动化日常任务的技术,实现更快的业务增长。险评估,最终为保单持有人带来更好的定价和覆盖范围。创造者Dais说到,相信Under-writeGPT这一解决方案将彻底改变经纪公司和保险公司承保保单的方式。4.2.3 Simplifai:Insurance GPT助力自动化索赔管理2023年6月,AI解决方案公司Simplifai推出了专门为保险公司定制的人工智能Insur-ance GPT,具备自动化索赔管理,同时维护了隐私和数据安全,其中的大模型是第一个专门基于与保险行业直接相关的信息进行培训的产品。借助Insurance GPT,保险公司可以增强其端到端的业务流程自动化能力,以更安全、更快速、更简介的方式和客户进行沟通。具体来看,Insurance GPT主要有以下三大特点。(1)适应现有的生态系统:Insurance GPT是基于平台的,可插入Salesforce等第三方服务,以及用于索赔管理的行业平台,从保险公司自身的生态系统中提取信息,以便于实4.2.4 苏黎世保险:使用ChatGPT辅助理赔及承保苏黎世保险集团(Zurich Insurance)测试如何在理赔和承保等领域使用ChatGPT技术,旨在应对初创企业和更大竞争对手带来的挑战。苏黎世保险正在研究该技术的应用,从理赔说明和其他文件中提取数据。目前,该公司提供了最近六年的理赔数据,试图找出整个理赔部分的具体损失原因,从而改善承保。在首席信息和数字官的领导下,这家保险公司还创建了一个新的专利计划来保护其知识产权,重点关注自动风险检查和处理账单的AI系统等领域。苏黎世保险CIO兼CDO陈立明表示,ChatGPT不会取代开发人员,而是承担副驾驶的作用。同样,对于理赔和承保,它不会取代人,但会提高效率。事实上,苏黎世保险的这一举措只是其在利用人工智能提升理赔效率方面的更进一步。此前,该公司于2021年4月与保险科技公司Sprout.AI达成合作,将解决财产险理赔所需的时间缩短至24小时以下。苏黎世与蓝棱镜自动化开发商进行了深度合作,如今55名蓝棱镜数字员工为苏黎世管理着120多个流程。这些虚拟数字员工协助建立了一个快速通知门户,该门户是在疫情会议期间建立的,允许客户快速报告索赔。作为电子支付计划的一部分,虚拟数字员工使苏黎世能够更快、更高效地支付客户索赔、能够快速评估收到的文件,减轻一线员工的压62施和管理。(2)隐私安全保障:insurance GPT涉及到了索赔处理、文档处理、债务催收和客户服务解决方案,因此Simplifai致力于客户的隐私保护,维护对数据的严格控制和监管。(3)无代码维护:insurance GPT的无代码模型允许保险公司无缝集成到平台,无需技术专业知识,提高了使用效率。Simplifai也表明,insurance GPT平台在未来有可能从根本上改变保险公司的数据处理和索赔流程。大模型技术深度赋能保险行业白皮书(2023)力。虚拟数字员工已经为苏黎世处理了300万笔交易,让苏黎世的一线人力资源员工得以专注于提供卓越的客户服务。大模型技术深度赋能保险行业白皮书(2023)4.2.5 印度Plum:PolicyGPT聊天机器人,进行客户联系服务印度的Plum公司采用OpenAI的GPT-3架构创建了一款名为PolicyGPT的聊天机器人,可为用户提供他们从Plum购买的健康保险政策的信息。在PolicyGPT的帮助下,用户无需翻阅保单文件即可找到答案。PolicyGPT将以用户习惯的简单对话形式,让用户更轻松地了解保单涵盖的内容及未涵盖的内容。除了提供有关保单的信息外,PolicyGPT还可提供定位最近的网络医院、获得支持等功能。4.2.6 Helvetia:利用Clara推进客户服务瑞士保险公司Helvetia正在测试利用ChatGPT推进客户服务。该公司声称是世界上第一家推出基于ChatGPT技术直接进行客户联系服务的上市保险公司,该服务使用人工智能来回答客户关于保险和养老金的问题。该保险公司目前正在通过其聊天机器人Clara进行现场实验,用户可以通过它获得有关保险、养老金和房屋所有权的答案。该软件使用来自Helvetia Switzerland的网页内容,例如产品页面和信息指南。当前,新的聊天机器人可供任何人试用。4.2.7 Tokio Marine&Nichido FireInsurance:撰写答案草稿这家日本公司借助ChatGPT平台打造了人工智能系统,以公司内部累积的数据为基础,帮助保单持有人和保险代理人解答关于保险范围和流程的问题。该系统能自动生成答案草稿,但并不直接提供给保单持有人,而是为人类工作人员提供指引,帮助他们更好地回答查询。这一系统的应用预计将能缩短30%至50%的响应时间,同时减少错误发生。634.3 互联网公司妥善布局,提供一体化解决方案4.3.1 微软Office打造办公“全家桶”微软于3月16日推出了AI版Office“全家桶”:Microsoft 365 Copilot,一夜之间刷新打工人对生产力工具的认知。Word中,AI能秒出草稿,并根据用户要求增删文字信息和配图;PowerPoint中,AI能快速将文字转换成专业水准的PPT;Excel中,AI将数据分析变得轻松高效,能快速提炼出关键趋势;Outlook中,AI能给邮件分类加精,并自动撰写回复内容;协同办公时,AI能总结规划成员的工作进展、调取分析数据、做SWOT分析、整理会议核心信息。4.3.2 Google将生成式AI应用于Workspace谷歌将生成式AI功能用于Google Workspace中的各种应用程序,包括谷歌邮箱(Gmail)、谷歌文档(Google Docs)、表格(Sheets)和幻灯片(Slides)。谷歌还宣布允许云平台客户使用谷歌语言模型PaLM将聊天机器人功能编程到自己的应用程序当中。生成式AI工具接入谷歌文档后,不仅可以用来帮用户撰写博客、培训计划、电子邮件或任何其他文本,还能根据用户反馈来修改它的表达语气。用户只需输入要撰写的主题,草稿就可自动生成。4.3.3 国内互联网公司布局办公领域及数字人4月11日,钉钉接入阿里通义千问大模型,用户输入一个“/”就能调动10余种高能AI能力,包括自动生成群聊摘要、辅助内容创作、总结会议纪要、草图变小程序等,为2300万企业提供智能转型抓手;4月17日,百度官微宣布文心一言大模型在百度内部全面应用在智大模型技术深度赋能保险行业白皮书(2023)64大模型技术深度赋能保险行业白皮书(2023)65能工作平台“如流”上,助员工在日常工作中的思路构建、协作沟通、方案策划、代码编写等方面提升效率;同日,金山办公正式推出具备大语言模型能力的生成式AI应用“WPS AI”,包括文本生成、多轮对话、润色改写等功能,计划嵌入金山办公全线产品。在国内,智能数字人已成为众多上市公司和创企扎堆进入的领域。如国内AI股上市天娱数科的虚拟数字人已经接入ChatGPT等模型;虚拟技术提供商世优科技目前已将ChatGPT技术接入数字人产品当中;智能内容生成平台来画也在3月底正式接入ChatGPT,短短几十秒就能生成一篇高质量视频文案,并推出数字IP 直播模式。大模型技术深度赋能保险行业白皮书(2023)5.挑战与机遇并存 积极布局加速赋能5.1 大模型能力持续升级,应用前景可期随着人工智能技术的不断发展,大模型的应用前景越来越受到重视。海外、全球范围内,越来越多的企业和机构开始加速升级和实践大模型技术,以期实现更高效、智能的处理能力。国外谷歌的LaMDA大模型、OpenAI的GPT大模型等全球性大模型在语言理解和生成方面取得了显著进展,推动了聊天机器人、语音助手等应用的普及。国内科技、互联网巨头纷纷布局,百度的文心一言、阿里的通义千问大模型、腾讯的混元大模型、智谱AI的ChatGLM、百川智能的Baichuan、科大讯飞的星火认知大模型、商汤科技的日日新大模型等百花齐放。随着计算能力的提升和数据量的增加,大模型的技术发展和应用前景非常广阔。(1)更大的模型:随着硬件和软件技术的不断进步,我们可以预见到未来会出现更大、更复杂的大模型。这些模型将能够处理更复杂的任务,如多模态学习、跨语言学习等。随着大模型时代的到来,各行各业已经步入了全新的发展空间,商业机会和创新业务模式也得到了极大的拓展。具体来说,这包括业务创新能力的提升、高效运营和智能化决策的实现、产品及服务的升级、跨界合作与业务范围的拓展以及基于数据驱动的管理决策等各个层面。保险领域,作为科技创新的沃土,如何把握住这些发展机遇并充分释放大模型的潜能,已成为保险科技团队面临的重要挑战。为了应对这一挑战,我们必须持续探索和实践,以期在保险科技领域取得更为显著的成果。66大模型技术深度赋能保险行业白皮书(2023)(2)更智能的AI Agent:大模型是AI Agent的核心大脑和智慧源泉。在指令理解、知识学习、规划、推理和泛化等方面,它都表现出了强大的能力,且能与人类进行友好的自然语言交互,是AI Agent“认知飞轮”中进行“认知”和“决策”过程的主体。日益强大的大模型,赋予了AI Agent深度理解各种任务的能力,使得AI Agent更接近于实现通用人工智能(AGI)的目标。有了大模型的加持,AI Agent能够更好地感知和理解环境、更有效地进行学习和决策、更精准地满足人类的需求。(3)模型压缩:大模型的训练和推理需要大量的计算资源,这限制了其在实际应用中的普及。因此,模型压缩技术将成为大模型发展的重要方向。通过模型剪枝、量化、知识蒸馏等方法,我们可以在保持模型性能的同时,大幅降低模型的计算资源需求。(4)模型泛化:大模型在训练数据上的表现可能非常出色,但在实际应用中可能存在过拟合的问题。为了解决这个问题,未来的大模型将更加注重泛化能力,即在新的、未见过的数据上表现良好。这可能需要采用更多的数据增强方法、对抗训练技术等。(5)边缘计算:随着物联网和5G技术的发展,大量的数据将在终端设备上进行处理。为了满足这些设备的计算能力有限的特点,未来的大模型将更加注重边缘计算。这意味着我们需要开发新的模型架构和算法,以便于在边缘设备上高效地运行大模型。在未来,我们有望看到更大规模、更复杂、更具泛化能力的大模型出现,这将为人工智人工智能领域带来更多的突破和创新。在金融保险这一垂直领域中,随着技术的持续进步与应用场景的广泛延伸,大模型在落地应用中的角色也逐步从“辅助”和“赋能”转变为更具主导性和引领性的角色。大模型的深度认知能力,将改变行业对风险认知与管理的能力,推动保险行业的精算模式从“粗放预测”向“精准预知”升级,同时推动风险管理从相对被动的“等量管理”向相对主动的“减量管理”转变。这一转变将重塑保险行业的商业模式,引领一场颠覆性的变革,开启新67大模型技术深度赋能保险行业白皮书(2023)的发展篇章。在这个过程中,大模型的应用将为企业带来更多的商业机会和价值,并对保险行业的未来发展产生深远的影响。以大模型为代表的生成式人工智能迎来爆发式发展的同时,其所衍生的隐私、安全问题以及被滥用、恶意使用的情况也逐步显露。全球主要国家、国际组织、企业及研究机构纷纷呼吁加强人工智能治理举措、强化人工智能风险管理、规范人工智能技术发展,从而实现AI技术的可信、可靠及可持续发展。保险行业大模型的发展同样需要一个清晰的治理体系框架,划定边界,保障保险业大模型是负责任、公平、可持续发展的大模型。建立覆盖全生命周期、具有可操作性的AI治理体系需重点关注以下方面:(1)保证数据质量及隐私:首先是保证数据质量,通过数据清洗、数据标注、数据筛选等方式,确保训练数据的质量、全面和准确,避免数据噪声和数据偏见;在隐私数据保护方面,可通过加密技术、访问控制、大模型部署本地化等方式,保护隐私数据,并建立流程制度确保隐私数据的使用合规。5.2 强化治理,推动大模型可持续发展来源:AI大模型市场研究报告(2023)迈向通用人工智能,大模型拉开新时代序幕,A Frost&Sullivan White Paper.图15 商汤AI治理理念68大模型技术深度赋能保险行业白皮书(2023)5.3 多方协同,构建大模型发展新生态(2)避免有害输出:建立大模型输出内容的质量评估体系及审核、过滤机制,确保其输出符合事实或预期,避免误导公众或造成不良影响。(3)尊重知识产权,加强版权保护:大模型生成类似人类创作的作品成本低廉,这可能让优秀的人类创作者淹没在海量的AI创作之中,因此,人类社会需要制定方法和措施甄别人类创造和机器创造,如利用数字水印等技术,为版权溯源提供支撑;需要确立准则明确AI创作的使用场景和界限,并通过合理的激励机制同时激发人类和大模型的潜力,使其紧密协同开展创作型工作。(4)增强可解释性:通过采用易于解释的算法、可视化的模型结构等方式,使模型的决策过程更易于理解;通过记录模型训练及推理过程中的日志等方式,让模型运行原理及过程更透明、公开。(5)确保公平、公正:通过数据集偏见评估、标注人员管理和培训、数据增强等方式,确保AIGC算法和系统的公平和公正性,避免模型对某些群体的偏见和歧视。(6)增强可问责性:首先是建立问责机制,通过数字水印等溯源技术,对模型生成的文本、图片、代码、音频等数据责任方进行溯源;并对模型及系统设计、开发、测试、部署过程中的责任主体进行管理。然后是建立版本管理体系,完整记录版本迭代信息,并持续进行跟踪和监测。大模型生态的协同发展需要政府、产业、学术界和研究机构等多方的共同参与和开放合作,以推进AI大模型的研发与产业化进程,进而提升我国在人工智能领域的国际竞争力。具体来说,大模型生态可以从以下几个方面进行协同发展:数据、GPU算力、算法模型、研发平台、插件体系、应用落地、资本投入。69(1)数据数据是AI大模型训练和优化的基石,大模型生态的发展离不开数据的丰富和多样化。为了支持更优性能的模型,需要收集和整理更多的高质量数据,包括结构化数据(如表格、数据库等)和非结构化数据(如文本、图像、音频、视频等)。同时,数据隐私和安全问题也需要得到足够的重视和解决。数据合作:鼓励企业、学术机构和政府部门之间的数据共享,打破数据孤岛,实现数据的跨领域、跨平台的应用。数据安全:建立完善的数据安全体系,保护用户隐私,防止数据泄露和滥用。(2)GPU算力GPU在大规模并行计算方面具有显著优势,对于支持大模型的训练和推理至关重要。因此,高性能GPU的研发和部署是大模型生态发展的关键。硬件升级:持续关注GPU技术的发展,及时更新硬件设备,提高计算效率。软件优化:针对GPU进行算法和框架的优化,充分发挥其性能优势。(3)算法模型大模型需要更先进的算法和模型来支持,这包括深度学习、自然语言处理、计算机视觉等多个领域的研究。鼓励各方开放自己的算法库,共享技术成果,提升模型的创新能力和实用性。学术研究:鼓励学术界开展前沿技术研究,不断提出新的算法和模型。产业应用:将研究成果应用于实际问题,推动产业发展,实现技术创新与市场需求的有效对接。大模型技术深度赋能保险行业白皮书(2023)70(4)研发平台为了支持大模型的开发和应用,需要建立一套完善的研发平台。这包括数据处理、模型训练、推理验证、部署管理等各个环节。协同创新:搭建跨部门、跨领域的协同创新平台,促进资源共享和技术交流。开源社区:积极参与和推动开源社区的建设,分享经验和技术成果,共同推动大模型生态的发展。(5)插件体系 为了让开发者更方便地使用大模型,需要构建一个丰富的插件体系,提供额外的功能和灵活性,满足各种应用场景的需求。鼓励各方开发插件库,丰富大模型的应用场景,提升其实际应用价值。易用性:提供简洁易用的API和SDK,降低开发者的使用门槛。灵活性:支持多种场景和需求的定制化开发,满足不同用户的个性化需求。(6)应用落地大模型在众多领域都有广泛的落地场景,如智能语音助手、自动文本生成、计算机视觉识别等。我们需要不断挖掘和拓展大模型的应用场景,实现技术与市场的有机结合。市场调研:深入了解各行业的需求和痛点,发掘大模型的潜在应用场景。产品策划:基于市场需求,策划有针对性的大模型产品和服务。(7)资本投入大模型生态的发展需要充足的资金支持。政府、企业和社会资本应共同努力,为大模型生态提供持续的资金保障。政府支持:政府应加大对大模型生态的支持力度,提供优惠政策、资金扶持等措施。企业投资:企业应积极投资大模型相关的研发和应用,推动技术创新和市场拓展。大模型技术深度赋能保险行业白皮书(2023)71大模型技术深度赋能保险行业白皮书(2023)企业的大模型落地应用也面临着多方面的挑战,这些挑战直接影响到企业是否能够成功应用大模型、应用的效果以及收益。挑战主要来自以下几方面:(1)数据挑战:大模型的训练和优化需要大量的数据支持,数据的质量、数量和多样性都会影响模型的效果和性能。这些数据的获取、处理、清洗和标注等需要大量的时间和人力资源,需要建立起完善的数据采集、处理、管理和安全等体系。如果企业的数据资源和数据处理能力不足,就会限制大模型的应用效果和准确性。(2)技术挑战:大模型的训练和优化、部署和维护均需要先进的技术支持和专业的研发团队,例如深度学习框架、分布式计算、参数高效微调、模型加速等。而这些技术和知识的掌握和应用需要长期的积累和实践,需要对技术发展趋势和市场应用有深刻的了解。如果企业的技术能力和研发团队不足,就会限制大模型的应用效果和创新能力。(3)合规性挑战:应用大模型进行技术场景落地时,应特别注重敏感数据和技术的合规、合法性,确保在法律和政策监管范围内进行技术的研发。防止漏洞攻击和数据被窃取而造成发的经济损失与合规成本,做到系统安全和隐私保护。(4)隐私和安全:大模型的训练和应用过程中可能涉及到用户的隐私信息及企业的敏感数据,需要采取措施保护用户隐私和企业数据安全。(5)商业落地挑战:将大模型应用于商业场景需要考虑多个方面,如市场需求、商业模式、投资回报等。大模型的应用需要长期的投入和实践,需要大量的资金、人力和技术支持。而这些投入是否能够带来足够的商业价值和收益,需要进行深入的分析和评估。企业需要综合考虑市场需求和商业目标来决定大模型的应用方向和实施方案。5.4 面临的挑战风险投资:鼓励风险投资机构投资大模型生态相关项目,为创新创业提供资金支持。72大模型技术深度赋能保险行业白皮书(2023)(6)算力挑战:大模型的训练和推理需要大量的计算资源和算力支持,例如高性能计算机、大规模集群等。而这些设备和资源的成本非常高昂,需要大量的资金投入和技术支持。如果企业的计算资源和算力不足,就会限制大模型的应用效果和范围。企业的大模型落地应用面临着诸多挑战与限制,这需要我们进行全面且系统的分析、评估与实施。唯在我们成功应对这些挑战并充分发挥大模型的潜能之后,企业方能实现AI价值创造和商业目标双达成的理想局面。5.5 应对措施建议面对大模型带来的机遇和挑战,企业可以从以下几方面着手,积极应对挑战,提升自身竞争力;把握机遇,推动保险行业的高价值可持续发展。(1)优化和调整业务策略:企业应根据大模型的发展趋势和市场需求,调整和优化自身的业务策略,以便更好地适应新的市场环境。例如,企业可以基于大模型技术开发新的产品和服务,以满足用户的需求和期望。(2)金融保险行业数据积累:企业需要建立完善的数据采集、处理、管理和安全等体系,确保数据资源的充足和多样性。另外,还需要加强数据的处理和分析能力,对数据进行清洗、标注、预处理等操作,提高数据的质量和可用性。企业需要结合自身的业务场景和需求,对具体应用领域的数据进行大量的积累和分析,为大模型的训练和优化提供有力的支持。(3)积极跟踪技术演进,探索落地场景并按需进行技术选型:企业需要建立专业的技术团队,时刻关注最新的技术趋势和研究成果,包括深度学习、强化学习、自然语言处理、多模态等领域。企业需要积极参加相关的技术会议和研讨会,与行业内的专家和同行进行交流和学习,了解最新的技术动态和应用场景。除此之外,企业需要结合自身的业务需求和场景,不断探索和尝试新的大模型应用,明确大模型应用的具体的目标和指标,避免盲73目跟风或过度设计。企业需要选择适合自身业务需求和场景的大模型技术和工具,综合考虑技术的性能、效果、可扩展性、稳定性等因素,进行具体的模型设计和优化,不断调整和改进模型的参数和结构,提高模型的准确性和效率,将其转化为具体的业务价值和收益。(4)数据和技术的合规性:全球的数据、技术合规性和隐私保护面临严峻的挑战,近两年,中国在数据和生成式人工智能技术的合规性方面不断出台相关的法律法规。企业应严格遵守和持续关注国家相关法律法规和监管政策,以确保企业在数据使用和技术研发方面的合规性和稳健性。比如:AIGC自动生成的文案、图片和视频要对敏感词汇进行合规性审查;企业的核心运营数据需得到客户的授权,并且在合规、安全的前提下进行模型研发和技术落地。(5)培养和引进人才:企业应加大对大模型相关人才的培养和引进力度,提高企业在这一领域的技术水平和创新能力。(6)加强合作与交流:企业可以与其他企业、研究机构和高校等开展合作与交流,共享大模型技术的研发成果和应用经验,共同推动大模型技术的发展和应用。(7)关注政策和法规变化:企业应密切关注政府和行业相关政策、法规的变化,及时调整自身战略和技术发展方向,确保企业的合规性和可持续发展。(8)注重客户体验和满意度:在利用大模型技术改进产品和服务的同时,企业应注重提高客户体验和满意度,以便更好地满足客户需求、提升客户获得感。行稳致远,进而有为。大模型为保险行业深度赋能的潜力已现,我们正站在这个巨大的机遇之前,迎接着一个充满挑战和可能性的未来。作为保险科技领域的深耕者,我们深知只有不断推动创新和技术的应用,才能在这个竞争激烈的市场中保持领先地位。我们将始终保持敏锐的市场洞察力和创新思维,始终站在技术发展的前沿,为客户提供更有竞争力的保险产品,以及更加高效、便捷、可靠的保险服务。我们期待,在全体保险科技从业人员大模型技术深度赋能保险行业白皮书(2023)74致谢的共同努力下,保险行业将迎来更加美好的未来。让我们携手共进,共同为保险行业的高质量、可持续发展贡献力量!编委会衷心感谢众多专家在白皮书编写过程中给予的宝贵指导,以及行业组织和公司提供的支持和协助。我们在此向他们表达最诚挚的感谢。大模型技术深度赋能保险行业白皮书(2023)75编委会:李 科王 和谷 伟魏晨阳徐怀哲冯 洋石运福王 睿顾青山杜新凯刘 彦韩权杰吕 超卢世成张 晗王俊海蔡岩松陈 述石国平郑立君石权利陈 浩高 建杨 波孙雅琳李晓明刘蒸蒸张泽佳陈 旋郑永涛张立鹏杨鹏升张云皓陆 昕井溢启王红豫韩 佳郑志敏赵日新王 军

    浏览量0人已浏览 发布时间2023-12-09 74页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 金杜:2023大模型合规白皮书(81页).pdf

    大模型合规白皮书20232023 年 11 月大模型合规白皮书金杜律师事务所上海人工智能研究院华为技术有限公司上海昇思AI框架&大模型创新中心2023年11月前言大模型作为人工智能发展脉络中的里程碑,引发了新一轮的科技创新浪潮,其以强大的计算能力和深度学习技术,极大地提高了内容生产效率,促进内容生产方式颠覆式变革。各行各业纷纷布局大模型应用,把握智能化发展的机遇。然而,大模型也面临隐私泄露、侵犯第三方权益以及违背伦理等潜在风险,引发了社会各界的关注和担忧。随着大模型的广泛应用,加快完善大模型的立法监管以确保大模型的应用与发展符合伦理道德和社会价值观,推动人工智能科技的健康发展变得迫在眉睫。世界上主要国家和地区均着手并加快完善大模型相关的法律监管。例如,欧盟以人工智能法案为核心,结合大模型可能涉及的其他领域的立法,逐步建立起专项法案为主、现存法规为辅的人工智能法律监管框架;美国对于人工智能大模型的立法较为分散,各州分别各自推进人工智能立法,联邦政府则试图在现有的立法框架及监管规则内对大模型及人工智能进行规制,但同时,人工智能相关的联邦专项立法提案也在推进当中。我国围绕网络安全、数据安全、个人信息保护等重点领域制定了法律法规,并及时跟进人工智能技术创新发展态势,先后针对互联网信息推荐、生成式人工智能等技术领域出台了管理办法,建立了法律法规和标准规范相协调的人工智能监管制度体系。在此背景下,本白皮书在我国人工智能法律监管框架下进一步梳理了大模型相关方的合规义务及要点,并展望未来大模型法律监管体系的发展趋势与特征,对政府、企业、社会共建大模型治理体系提出切实建议,从而为社会各界了解大模型立法最新动态和立法趋势提供有价值的参考,并为相关单位开展大模型业务提供法律解读及合规指引,保障大模型相关业务的合规经营以及行业的健康规范发展。目录前言一、大模型的发展历程(一)早期模型的探索与局限性8(二)深度学习的崛起11(三)GPT 等代表性大模型的影响121.大模型带来的效率与准确度革命142.大模型带来的机会与挑战15二、全球大模型监管现状(一)主要国家和地区加快完善大模型监管171.欧盟172.美国253.英国35(二)我国对于大模型的监管现状381.立法现状382.合规要素473.大模型业务中各方合规义务一览表594.运营角度的其他考量61三、未来展望与发展建议(一)未来展望:大模型合规的前沿701.大模型技术创新发展与合规风险并存702.大模型合规框架走向标准化与国际化703.社会文化和伦理逐渐与合规体系相融714.行业应用面临不同合规挑战与监管725.治理路径分阶段、有弹性地构建73(二)发展建议:构筑大模型合规生态741.政府推动构建行业新秩序742.企业创新与责任担当783.社会组织加强协同合作808大模型合规白皮书一、大模型的发展历程(一)早期模型的探索与局限性从早期的符号逻辑到现代的深度学习1模型,AI 领域经历了数十年的探索和迭代,为后续突破打下了坚实基础。随着大数据的发展和 AI 计算能力的爆炸式增长,深度学习模型的崛起显得尤为突出。然而,尽管这些模型在特定任务上取得了令人瞩目的成就,其在初期也面临着许多局限性,如存在数据依赖、计算消耗大、缺乏可解释性等。这些局限性不仅为 AI 领域带来技术挑战,也引发了对模型偏见、安全性和应用范围的深入思考。1956 年 6 月举行的达特茅斯夏季人工智能研究项目,被广泛认为是人工智能作为一个研究学科的开端。自“人工智能”概念被提出,大模型的发展经历了三个阶段:早期发展期(1956-2005):该阶段主要是传统神经网络模型的阶段,例如循环神经网络(RecurrentNeuralNetwork,“RNN”)2、卷积神经网络(ConvolutionalNeuralNetworks,“CNN”)3。起初,AI发展主要基于小规模的专家知识,然后逐渐转向机器学习4,1980年和1998年诞生的CNN和LeNet-55奠定了深度学习模型的基础。快速成长期(2006-2019):该阶段是全新的神经网络模型阶段,模型的发展方向主要聚焦长序列的处理和计算效率的提升,以Transformer6架1深度学习(Deeplearning)是机器学习(Machinelearning)中的一类算法,指利用多层神经网络,模仿人脑处理信息的方式从原始输入中逐步提取和表达数据的特征。https:/en.wikipedia.org/wiki/Deep_learning,最后访问于 2023 年 11 月22 日。2循环神经网络(RecurrentNeuralNetwork,RNN)是具有时间联结的前馈神经网络(FeedforwardNeuralNetworks),特点是必须按顺序处理,并且上一层的神经细胞层输出和隐藏状态具有较大的权重影响下一层的运算。循环神经网络必须完成上一步才能进行下一步,只能串行不能并行,因此循环神经网络具有“短时记忆”的特点,技术上把这个现象称为梯度消失或梯度爆炸,循环神经网络不擅长处理和捕捉长文本中的语义。https:/en.wikipedia.org/wiki/Recurrent_neural_network,最后访问于 2023 年 11 月 22 日。3卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks),是 深 度 学 习(Deeplearning)的 代 表 算 法 之 一。https:/en.wikipedia.org/wiki/Convolutional_neural_network,最后访问于 2023 年 11 月 22 日。4机器学习(Machinelearning),作为人工智能的一个分支,是指不需要进行显式编程,而由计算系统基于算法和数据集自行学习,做出识别、决策和预测的过程。https:/en.wikipedia.org/wiki/Machine_learning,最后访问于 2023 年 11 月22 日。5LeNet 又称 LeNet-5,由 YannLecun 提出,是一种经典的卷积神经网络,是现代卷积神经网络的起源之一。https:/en.wikipedia.org/wiki/LeNet,最后访问于 2023 年 11 月 22 日。6Transformer 是一种基于注意力机制的序列模型,最初由 Google 的研究团队提出并应用于机器翻译任务。9大模型合规白皮书构的出现为代表。从2013年的Word2Vec7到2017年的Transformer,都标志着深度学习模型正走向一个全新的时代。在该阶段,如GPT8和BERT9等预训练模型逐渐成为主流。全面爆发期(2020-至今):该阶段是预训练大模型阶段。以GPT为代表,预训练大模型处于快速发展的阶段,特别是OpenAI10推出的GPT-3和GPT-4,标志着大模型技术正迈向新高度。机器学习有三种主要的方式,分别是监督学习、无监督学习、强化学习。监督学习(SupervisedLearning):“模板规范”(投喂好的资料),我们向模型投喂带有标签的数据(包括数据特征和期望的输出值),让算法学习输入和输出之间的映射关系。经典的监督学习包括分类和回归。分类:例如学习大量猫和狗的图片和标签,当模型接收新的动物图片时可以将其根据特征识别是猫还是狗;回归:例如学习猫的产地、毛色、习性等特征,并将猫的价值作为输出标签进行训练,当模型接收新的猫咪图片时可以根据特征预测猫的价值。无监督学习(UnsupervisedLearning):“开卷有益”(多投喂资料),我们向模型投喂不带标签的数据,让模型自行寻找其中的规律,并进行处理。经典的无监督学习包括聚类和降维。聚类:例如学习大量房屋的信息,模型自行寻找其中的价格、面积、户7Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。https:/en.wikipedia.org/wiki/Word2vec,最后访问于 2023 年 11 月 22 日。8GPT,全称 GenerativePre-TrainedTransformer(生成式预训练 Transformer 模型),是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。https:/en.wikipedia.org/wiki/Generative_pre-trained_transformer,最后访问于2023 年 11 月 22 日。9BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种预训练的深度学习模型,用于自然语言处理任务,基于 Transformer 架构的双向编码器,通过无监督的学习方式预训练语言表示,以便能够捕捉语言的上下文信息。10OpenAI 是在美国成立的人工智能研究公司,核心宗旨在于“实现安全的通用人工智能(ArtificialGeneralIntelligence,AGI)”,使其有益于人类。https:/en.wikipedia.org/wiki/OpenAI,最后访问于 2023 年 11 月 22 日。10大模型合规白皮书型的规律,并自动将相同类型的房屋进行汇总。降维:例如学习大量房屋的信息,模型自行寻找其中用户决策最关心的因素,在保留价格和其他少量辅助数据的同时对房屋数据进行压缩,以便简化建模。强化学习(ReinforcementLearning):“创意引导”(进行条件反射),我们向模型设置特定环境,让模型在其中采取行动,我们再对其进行反馈,让模型从反馈中学习以便优化下一次的行动。这一过程就类似以条件反射的方式训练小狗。在机器学习领域的早期阶段,研究者们的主要关注点是基于统计、线性回归和决策树等的简单模型。早期模型具有以下特点:简单性。早期的模型,如线性回归和逻辑回归,是基于明确的数学方程,使其容易被理解和解释。计算消耗低。由于模型的简单性,其在计算上相对高效,不需要大量的计算资源。表示能力存在上限。虽然早期模型在特定方面表现良好,但其表示能力有限,尤其体现在处理复杂任务和非线性问题上。大模型早期所面临的主要局限性包括:存在数据依赖:早期的模型对于大量高质量数据有极高的依赖性。在没有足够训练数据的情况下,这些模型往往难以达到令人满意的性能,但获取、清洗、标注这些数据却昂贵且极为耗时。缺乏可解释性:大模型通常被视为“黑盒”,即模型的内部工作原理很难被理解。由于用户需要理解模型的决策过程,模型的解释性不足在很多关键领域(如医疗和司法)构成障碍。泛化能力不足:尽管早期的大模型在特定任务中表现性能优秀,但其在新数据或新场景中的泛化能力仍受到质疑。存在环境和任务依赖:早期的AI模型通常需要根据特定任务定制和调11大模型合规白皮书整,这意味着为特定任务训练的模型可能难以直接应用于其他任务。模型具有一定偏见:由于训练数据往往包含现实世界的偏见,大模型可能反映这些偏见,导致应用于实际场景时出现歧视或不公平的决策。安全性和稳定性不足:由于早期大模型的复杂性,其易受到对抗性攻击或在特定条件下表现不稳定。以上局限性不仅为 AI 领域的研究者和工程师带来挑战,也为 AI 技术的未来发展和应用提出反思和探索的方向。随着技术发展,许多问题已经得到解决或缓解。(二)深度学习的崛起深度学习从其最初的简单尝试到现今所达到的辉煌高峰,不仅展现了技术的快速发展,更揭示了人类在追求智慧和知识上的不懈努力。深度学习源自人类对人脑工作原理的好奇和模仿,意图借助数学和算法的力量,赋予计算机对信息的处理和认知能力。随着技术日益成熟,深度学习赋予计算机识别图像、处理自然语言甚至复杂决策的能力,不仅体现技术进步,也标志人工智能正逐步走向更加深入、广泛的应用领域,为人类生活带来无尽可能性。因此,深度学习的崛起可以被视为人类科技史上的一大里程碑。神经网络的早期探索。1957 年,FrankRosenblatt 提出感知器模型,被称为最简单的神经网络,通过简单的线性组合实现分类任务。尽管当时的应用领域有限,但其为后续神经网络的发展奠定了基础。19 世纪 80 年代,Rumel-hart、Hinton 及其团队引入了反向传播算法,通过多层神经网络训练,为复杂模型和任务提供强大工具。数据与计算能力的融合。21 世纪初,互联网的广泛传播和智能设备的普及,使得数据呈现指数级增长,为深度学习提供丰富的训练数据。同时,硬件技术也在飞速发展,NVIDIA 等厂商投入 GPU 研发,其能够大幅度加速数值计算,尤其是深度学习中的矩阵运算,软硬件的进步大大加速了模型的训练过程。12大模型合规白皮书关键技术突破与模型创新。1997 年,Hochreiter 和 Schmidhuber 提出长短时记忆网络(LongShort-TermMemory,LSTM),解决了循环神经网络的梯度消失/梯度爆炸的问题,使得神经网络可以更好的处理长文本内容,为序列数据的处理开辟了新天地。1998 年,YannLeCun 及其团队提出 LeNet-5,但真正让深度学习走向世界舞台的是 2012 年由 AlexKrizhevsky 等人设计的AlexNet,其在 ImageNet 挑战赛中大胜,展示了深度学习在图像处理上的潜力。2014 年,生成式对抗网络(GenerativeAdversarialNetworks,“GAN”)被提出。GAN 的原理是通过竞争机制来逐步提高生成器的准确性。2016 年横空出世击败围棋世界冠军李世石的 AlphaGo,就是基于 GAN 架构训练的模型。2017 年,Google 提出 Transformer 架构,此后 BERT、GPT 等模型皆以其为基础,在自然语言处理任务中达到新高度。(三)GPT等代表性大模型的影响Transformer 架构的优点是可以并行处理输入序列的所有元素,能够捕捉长序列内容的关联关系,因此 Transformer 架构不再受到“短时记忆”的影响,有能力理解全文,进而 Transformer 成为自然语言处理的主流架构。一个原始的 Transformer 架构由编码器(Encoder)和解码器(Decorder)两部分构成,其中编码器用于将输入序列转换为一系列特征向量,解码器则将这些特征向量转换为输出序列,即:输入内容编码器解码器输出内容。如果给编码器输入一句英语“Sheisastudent”,解码器返回一句对应的中文“她是一名学生”。Transformer 的架构和自注意力机制能够实现这些的关键在于“将词汇转换为词向量,并通过多头注意力机制(Multi-HeadAttention)和前馈神经网络(Feed-ForwardNetwork)两个子层进行处理”。第一步:模型对接收到的输入序列文本 Token 化,Token 可以被理解为文本的基本单元,短单词可能是一个 Token,长单词可能是多个 Token。Token 是 GPT 的收费单元,也是源于此。第二步:将 Token 转换成一个数字,成为 TokenID,因为计算机语言只13大模型合规白皮书能存储和运算数字。第三步:将TokenID传入嵌入层(EmbeddingLayer),转换为词向量(WordEmbedding),词向量是一串数字。可以将这个过程想象为将一个单词放到多维空间中,每个数字就表达了这个单词某个维度的含义,一串数字所能表达和蕴含的信息量远多于 TokenID的一个数字,可以记载这个单词的词义、语法和不同语境、语序中的变化关系。第四步:对词向量的语序和语境进行位置编码,形成位置向量。上文提到语境和语序对理解词义至关重要。之后将词向量合并位置向量,将合并后的结果传给编码器,这样模型既能理解词义也能理解语境和语序。第五步:接收到上述信息后,编码器中的多头注意力机制将会运作,捕捉其中的关键特征,编码器在处理时不仅会关注这个词与临近的词,还会关注输入序列中所有其他词,将输入的信息根据上下文进行调整,输出了降维后的向量。第六步:进入编码器的前馈神经网络处理,前馈神经网络“思考”之前步骤中收集的信息,并增强模型的表达能力,尝试进行预测。第七步:降维后的向量将继续传输给解码器运算。解码器具有带掩码的多头注意力机制,解码器在处理时仅关注这个词及其之前的词,遮盖输入序列中后面的内容,并结合已经生成的文本,保持未来输出文本的时间顺序及逻辑连贯性。第八步:进入解码器的前馈神经网络处理,解码器中的前馈神经网络与第六步类似,也是增强模型的表达能力。第九步:解码器的最后处理环节经过 linear 层和 softmax 层,这两个子层将解码器输出内容转换为词汇表的概率分布,概率分布反映下一个 Token 生成概率。通常模型选择概率最高的 Token 作为输出,生成输出序列。因此解码器本质上是在做“单词接龙”的游戏,猜下一个输出单词。14大模型合规白皮书图 1近年来大语言模型进化树11从图 1 可以看出,经过演变,大模型大致分为三种:其一是舍弃 Decoder、仅使用 Encoder 作为编码器的预训练模型,以 Bert 为代表,但 Bert 未突破ScalingLaws,Encoder-Only 分 支 在 2021 年 后 逐 渐 没 落。其 二 是 同 时 使 用Encoder、Decoder 的预训练模型,代表模型有清华大学的 chatGLM。其三是舍弃Encoder、仅使用 Decoder 作为编码器的预训练模型,以 GPT 为代表,其通过预测下一个单词,基于给定的文本序列进行训练。GPT 最初主要被视为文本生成工具,而 GPT-3 的推出成为该分支发展的历史性时刻。自 GPT-3 问世后,不断涌现出诸多如ChatGPT、PaLM、GPT-4等优秀的大模型,Decoder-Only分支现发展势头强劲。1.大模型带来的效率与准确度革命GPT 及其他大模型为当今的生产效率带来了前所未有的革命性提升。传统11SeeJinfengYangetal.,HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond,https:/arxiv.org/pdf/2304.13712.pdf.15大模型合规白皮书上,数据处理、内容生成、决策支持等任务都需要大量人力支持,且伴随着可能的人为错误和效率不高等问题。然而,大模型通过其强大的计算能力和广泛的知识基础,使得这些任务在短时间内得以高效完成。无论是企业内部的行政管理、市场分析,还是产品设计、客户服务,大模型都能够提供快速、准确且高质量的输出。这种技术驱动的生产效率革命不仅大幅度减少企业的运营成本,也为新商业模式和新机遇创造可能性。大模型的出现也标志着信息处理和知识推断的准确性革命。大模型代表了可以更深入、更广泛地理解和处理人类语言的能力,使得很多任务的执行准确性得到前所未有的提高。大模型背后的深度学习算法使得系统能够从大量数据中提取规律和关系。与此同时,模型的庞大规模意味着它们能够记忆和处理的细节越来越丰富,这确保了其在诸如文本解析、情感分析和复杂问题回答等任务中的出色表现。传统的机器学习模型通常需要针对特定任务进行训练,而GPT 之类的模型由于其通用性,可以被微调以适应特定的领域或任务,从而在医学、法律、工程等专业领域中展现出惊人的准确性。在机器翻译、图像识别等许多应用场景中,大模型相较过去错误率显著降低,准确性的提高对于如医疗诊断和自动驾驶汽车等关键领域具有特殊重要性。2.大模型带来的机会与挑战大模型当前已经覆盖了许多领域,为我们的日常生活、工作和娱乐带来了深刻的变革。例如,在零售业,大模型能够根据消费者的购买记录和浏览习惯为其生成个性化的购物推荐;在新闻和媒体领域,它可以快速地为记者生成初稿或摘要,加速新闻的传播速度;在娱乐领域,音乐、艺术和电影制作人开始尝试利用 AI 生成原创作品。同时,大模型在医疗、金融和交通领域的应用也都在逐步展开,为我们的健康、财富和出行安全提供了前所未有的支持。例如:医药行业:在药物研发领域,传统方法需要合成大量化合物,并且研发时间长、成本高,大模型的引入大大加快了药物的研发速度,其中以蛋白质结构预测为典型。例如,生物技术公司安进使用NVIDIA的BioNe-16大模型合规白皮书Mo模型,显著减少了分子筛选和优化的时间。金融服务:金融服务行业正在经历技术驱动的数字转型,其中大模型在客户服务、营销优化、投资指导、风控与反欺诈等环节扮演重要角色。例如,FinancialTransformer能够理解非结构化的金融数据,对市场深度分析、投资决策提供支持。零售行业:零售商正使用大模型以提升客户体验,实现动态化定价、细分客户、设计个性化推荐以及可视化搜索。例如,生成式AI会使用包含产品属性的元标签以生成更加全面的产品描述,包括“低糖”、“无麸质”等术语。高等教育:智能辅导系统、自动化论文评分以及各学科相关的大语言模型已经陆续在各大高校得到应用。例如,佛罗里达大学的研究人员使用超级计算机开发了一种自然语言处理模型,使计算机能够读取和解释存储在电子健康记录临床笔记中的医学语言,甚至实现自动绘制图表。此外,基因组学大语言模型等专业大模型也已经有落地案例。公共服务:政府机构人员可以使用生成式AI提高日常工作的效率,大模型的分析能力能够帮助其处理文件,加快办事效率。由大语言模型驱动的AI虚拟助手和聊天机器人可以即时向在线用户提供相关信息,减轻电话接线员的压力。然而,这些应用也带来了诸多争议。例如,数据隐私是公众最大的关切之一,原因是生成式 AI 的许多应用都依赖于大量的个人数据。大模型内容生成也可能会模糊真实和虚构的界限,从而引发道德和法律上的困境。大模型的透明性和公正性也是广大公众、企业和政府关心的焦点。在数据收集、处理到跨境传输的全过程中,每一个阶段都存在特定风险,如侵犯隐私、泄露商业秘密或跨境数据违规流通等。另外,随着人们对大模型的使用频次逐渐增加,可能出现人们对大模型过于依赖而不再进行批判性思考的现象,从而引发人们对于自身思维能力倒退、价值创造能力降低的担忧。17大模型合规白皮书二、全球大模型监管现状(一)主要国家和地区加快完善大模型监管2023 年 11 月 1 日,首届人工智能安全全球峰会在布莱切利园正式开幕,会上包括中国、美国、欧盟、英国在内的二十余个主要国家和地区共同签署了布莱切利宣言(TheBletchleyDeclaration)12,承诺以安全可靠、以人为本、可信赖及负责的方式设计、开发、部署并使用 AI。布莱切利宣言肯定了 AI 的广泛应用前景,同时指出了 AI(尤其是包括大模型在内的前沿高功能通用 AI 模型)在包括网络安全和生物技术等领域所可能造成的风险,以及需要解决的包括保护人权、透明度和可解释性、公平性、问责制、监管、人类监督与控制、歧视与偏见、隐私与数据保护、合成欺骗性内容、AI 滥用等问题,并确认 AI 开发者需要对该等风险及问题承担重大责任。各国家和地区共同承诺在国际层面识别共同关注的前沿 AI 安全风险,并承诺在各国家和地区制定各自的基于风险的政策。最后,布莱切利宣言表达了支持建立一个具有国际包容性的前沿 AI 安全科学研究网络的决心。布莱切利宣言作为目前全球针对 AI监管的前沿文件,显示了全球对于 AI 发展的密切关注。目前,就欧盟、美国及英国而言,其均将大模型作为人工智能的一部分进行监管,因此,对于境外大模型的监管现状的梳理,需要与整体人工智能监管现状相结合。1.欧盟(1)立法现状2016 年 10 月,欧盟议会法律事务委员会颁布欧盟机器人民事法律规则(EuropeanCivilLawRulesinRobotics)13,正式揭开了欧盟人工智能与大模型合规监管的立法篇章。此后,欧盟陆续颁布了与人工智能和大模型合规监管密切相关的一系列法案及政策,其中尤以人工智能法案(ArtificialIntelli-12https:/www.gov.uk/government/publications/ai-safety-summit-2023-the-bletchley-declaration/the-bletchley-declaration-by-countries-attending-the-ai-safety-summit-1-2-november-2023,最后访问于 2023 年 11 月 22 日。13https:/www.europarl.europa.eu/doceo/document/TA-8-2017-0051_EN.pdf,最后访问于 2023 年 11 月 22 日。18大模型合规白皮书genceAct)14最值得注意。目前,人工智能法案已经进入最终谈判阶段,一经通过,其可能成为全球第一部专门针对人工智能进行综合性立法的区域性法规。总体来看,欧盟针对人工智能与大模型合规监管的政策采取了专项法案为主、现存法规为辅的结构,以人工智能法案作为治理核心,结合可能涉及的其他相关领域的立法(包括数据及个人信息、市场监管等),共同构成了包括大模型在内的人工智能监管体系。(a)人工智能法案2021 年 4 月,欧盟发布了人工智能法案的提案。2022 年,欧盟委员会综合各方意见,对人工智能法案进行了进一步修正。2023 年 6 月,人工智能法案再次修正,并经欧洲议会投票通过(“人工智能法案”)15。按照欧盟立法程序,修正法案下一步将正式进入欧盟委员会、议会和成员国三方谈判协商的程序,并确定最终版本。人工智能法案是欧盟首部有关人工智能的综合性立法,其以人工智能的概念作为体系原点,以人工智能的风险分级管理作为制度抓手,以人工智能产业链上的不同责任主体作为规范对象,以对人工智能的合格评估以及问责机制作为治理工具,从人工监管、隐私、透明度、安全、非歧视、环境友好等方面全方位监管人工智能的开发和使用,详细规定了人工智能市场中各参与者的义务,主要内容如下:(i)以人工智能(ArtificialIntelligence,“AI”)概念为体系原点根据人工智能法案,“AI 系统”是指一种以机器为基础的系统,该系统在设计上具有不同程度的自主性,可以为实现明确或隐含的目标生成如预测、建议或决策等的输出结果,对物理或虚拟环境造成影响。而“大模型”是指在广泛的数据上进行规模化训练的人工智能模型,其设计是为了实现输出的通用性,并能适用各种不同的任务。值得注意的是,较为狭窄、不普遍的、无法适应广泛任务的预训练模型不属于人工智能法案所规制的大模型。14详见下文第 1(1)(a)段。15https:/www.europarl.europa.eu/doceo/document/TA-9-2023-0236_EN.pdf,最后访问于 2023 年 11 月 22 日。19大模型合规白皮书(ii)以责任主体为规范对象人工智能法案将 AI 系统的责任主体划分为提供方、部署方、进口方、分销商四种主要角色。其中,“提供方”指开发或拥有已经开发的 AI 系统,以自己的名义将其投放市场或在欧盟投入服务的自然人或法人;“部署方”指在欧盟境内在其权限范围内使用 AI 系统的自然人或法人(不包括在个人非专业活动过程中使用),包括使用 AI 系统以提供用户服务的商业机构等;“进口方”指在欧盟设立或者位于欧盟境内,并将带有欧盟境外自然人或法人名称或商标的 AI 系统投放到欧盟市场的自然人或法人;“分销商”指供应链中提供方和进口方之外的在欧盟市场中提供 AI 系统且不改变其系统属性的自然人或法人。(iii)风险分级标准对于 AI 系统涉及的风险,欧盟主要区分为“不可接受的风险”、“高风险”、“有限风险”和“最小风险”四类,具体如下:存在不可接受风险的AI系统。存在下列情况的AI系统均可能属于存在“不可接受的风险”的AI系统,欧盟成员国内将完全禁止该等AI系统投入市场或者交付使用:(1)采用潜意识技术或有目的的操纵或欺骗技术;(2)利用个人或社会群体的弱点(例如已知的人格特征或社会经济状况、年龄、身体精神能力);(3)利用人的社会行为或人格特征进行社会评分;(4)在公众场所的“实时”(包括即时和短时延迟)远程生物识别系统。高风险AI系统。存在下列情况的AI系统均属于存在“高风险”的AI系统,其投放市场及交付使用均受到严格的管控并需履行评估及备案要求:-AI系统同时满足下述两项条件:(1)属于欧盟统一立法规制范围内的产20大模型合规白皮书品的安全组件或为该范围内的产品本身;并且(2)根据欧盟统一立法规制需要就健康或安全问题经过第三方合格评估方可投放市场或交付使用;-AI系统同时满足下述两项条件:(1)存在可能损害环境或损害人类健康、安全、基本权利的重大风险;并且(2)符合分级标准且在规定的领域内使用,包括生物特征识别AI系统、关键基础设施AI系统、可能决定人的受教育或职业培训机会的AI系统、作为超大型在线社媒平台16拟在其用户内容推荐中使用的AI系统等。有限风险AI系统。不属于存在不可接受的风险或高风险的AI系统,但需要履行一般合规要求,属于存在“有限风险”的AI系统,主要包括与人类互动的AI系统、用于情绪识别的AI系统、用于生物特征分类的AI系统以及生成深度合成内容的AI系统。最小风险AI系统。在上述三种类型之外的AI系统,均属于存在“最小风险”的AI系统,主要包括允许自由使用AI的电子游戏、邮件过滤器等。(iv)风险分级监管对于前述不同的风险等级,人工智能法案采取了不同程度的监管措施,具体包括:对于存在不可接受风险的AI系统,严厉禁止使用;对于高风险AI系统,要求其同时履行:(1)高风险AI系统的特殊合规要求(“特殊合规要求”);以及(2)AI系统的一般合规要求(“一般合规要16指根据欧盟第 2022/2065 号法规第 33 条的规定的超大型在线平台的社交媒体平台,主要为用户数量超过 4500 万的社交媒体平台。21大模型合规白皮书求”)。其中,特殊合规要求主要包括内部合规及外部认证措施:-内部合规措施须贯穿系统全生命周期,包括:(1)形成风险管理体系;(2)实施数据治理;(3)形成技术文档;(4)自动记录运行日志;(5)保证透明度;(6)保证人工监督;(7)保证系统的准确性、稳健性和网络安全性。-外部认证措施均应当于上市前完成,包括:(1)根据系统功能不同,进行自评估或者第三方评估;(2)在欧盟公共高风险AI系统数据库中备案;(3)使用CE(ConformityEuropean,“CE”)标识。对于有限风险AI系统,履行一般合规要求即可。就一般合规要求而言,主要为透明度要求,具体要求根据AI系统的不同类型而有所区分:-针对与人类互动的AI系统,系统使用者需要告知人类其正在与AI系统进行互动;-针对情绪识别及生物特征分类AI系统,系统使用者需要告知系统识别对象上述系统的存在,并且需要就生物识别数据的获取取得系统识别对象的同意;-针对生成深度合成内容的AI系统,系统使用者需要对外告知该等内容是由AI生成或操纵的,而并非真实内容。对于最小风险AI系统,不作强行性干预。(v)各类责任主体的义务总体而言,提供方是 AI 系统的最终负责人,其需履行的义务最为全面,责任承担亦为最重,部署方需履行风险防范义务,其他参与者需履行以审查义务为核心的一系列的合规义务,具体如下:22大模型合规白皮书 提供方的义务主要包括:(1)执行前述所有特殊合规要求;(2)在系统上标明其名称、注册名称或注册商标,以及其联系信息;(3)确保执行人工监督的人员精通自动化或者算法偏见的风险;(4)执行数据保护,包括数据保护影响评估并发布摘要,以及提供输入数据或所使用的数据集的任何其他相关信息的说明;(5)建立书面质量管理体系;(6)日志及文档保存;(7)对不当行为采取纠正措施并告知有关机构;(8)提交欧盟合格声明,并在系统上市后由国家监督机构和国家主管部门保管;(9)境外提供方应在欧盟境内设置代表(“授权代表”),以全权履行人工智能法案项下提供方的义务并配合主管机构的工作。部署方的义务主要包括:(1)监督与风险控制;(2)数据保护;(3)履行备案,作为欧盟公共当局或者欧盟机构、团体(“公共当局”)的部署方或者属于数字市场法案17守门人的部署方,需要在使用系统前在欧盟公共高风险AI系统数据库中备案,其余高风险AI系统的部署方可自愿备案;(4)履行高风险AI系统的基本权利影响评估,以确定系统在使用环境中的影响。部署方为公共当局的,应公布评估的结果摘要,作为上述备案的一部分。进口方主要义务包括:确保AI系统提供方履行了自评估或第三方评估义务、形成技术文档义务、授权代表任命义务(如需),并确保AI系统带有CE标识,附有所需的说明文件。(vi)大模型的特殊合规义务大模型的提供方在大模型上市前,应确保该模型符合下述要求:(1)以适当的方法识别、减少重大风险,并记录剩余的不可缓解的风险;(2)只纳入经过适当的大模型数据治理措施的数据集,且须审查数据来源的适当性和可能的偏差以及缓解措施;(3)在设计和开发期间进行测试及评估,以在其整个生命周期内达到适当的性能、可预测性、可解释性、可纠正性、安全性和网络安全水平;(4)减少能耗及浪费,提高整体效率,具有测量和记录能耗以及可能产生的其他17详见下文第 1(1)(b)段。23大模型合规白皮书环境影响的能力;(5)制定技术文件和使用说明;(6)建立质量管理系统,以记录对上述义务的遵守;(7)在欧盟数据库中备案该大模型;(8)在其大模型投放市场或投入使用后的 10 年内,将技术文件交由国家主管部门保存。(b)数据隐私、算法及知识产权相关法律法规针对大模型及其所服务的 AI 系统所涉及的数据、个人信息、算法以及知识产权等领域,欧盟现有的相关规定在各自适用的范围内实际上起到了垂直监管的作用。该等垂直监管类的主要规定如下:2018 年 5 月,欧盟委员会的通用数据保护条例(GeneralDataProtec-tionRegulation,“GDPR”)18生效。GDPR 从数据控制者和处理者的责任以及数据监管等方面重新调整了欧盟个人数据保护策略。另外,GDPR 关于透明度的原则以及自动化决策有关的规定也为算法设计者设置了相关义务,包括确保算法训练数据痕迹可查义务以保证算法训练数据真实、对算法部分技术原理进行阐释义务以保证算法目标服务人群充分了解情况,以及算法的非歧视机制等。2022 年 10 月,欧盟委员会颁布了数字服务法案(DigitalServiceAct,“DSA”)19,其适用对象为数字服务供应商。DSA 将适用对象划分为管道服务商、缓存服务商、托管服务商、在线平台及在线搜索引擎,并特别定义了超大型在线平台(VeryLargeOnlinePlatform,“VLOP”)和超大型在线搜索引擎(VeryLargeOnlineSearchEngines,“VLOSE”)。上述主体各自承担不同的合规义务,其中 VLOP 及 VLOSE 承担的合规义务最重。DSA 的立法宗旨为加强网络平台的内容审查义务、非法商家打击义务、信息透明义务(例如需向消费者明确透传算法推荐及定向广告内容),帮助建立透明、安全、可预测、可信任的网络环境,保护网络平台用户的权益。2022 年 11 月,欧盟委员会颁布了数字市场法案(DigitalMarketAct,“DMA”)20,引入“守门人”这一概念,对从事在线中介服务(如应用商店)、18http:/data.europa.eu/eli/reg/2016/679/2016-05-04,最后访问于 2023 年 11 月 22 日。19http:/data.europa.eu/eli/reg/2022/2065/oj,最后访问于 2023 年 11 月 22 日。20http:/data.europa.eu/eli/reg/2022/1925/oj,最后访问于 2023 年 11 月 22 日。24大模型合规白皮书在线搜索引擎、社交网络服务、即时通讯服务、视频共享平台服务、虚拟助手、网页浏览器、云计算服务、操作系统、在线市场和广告服务等服务的符合标准的大型互联网平台进行反垄断合规监管。DMA 借助行为清单工具,明确列举了守门人“必须为”和“禁止为”的内容,旨在维护数据开放,保护个人数据、禁止守门人滥用优势地位进行不正当竞争,确保数字市场的公平竞争和良性发展。2019 年 3 月,欧盟议会通过了数字化单一市场版权指令(DirectiveonCopyrightintheDigitalSingleMarket,“版权指令”)21。版权指令规定,基于科学研究与数据分析两种目的,并且作品为合法获取的情形下的数据挖掘(TextDataMining,“TDM”)具有正当性。显然,大模型的开发者进行的 TDM 通常并不属于科学研究范畴,而更可能属于以数据分析为目的的 TDM。版权指令第 4 条为大模型在数据训练阶段对版权客体的复制、提取行为设置了合理使用的例外,该等例外实际上赋予了 TDM 在数据处理阶段复制、提取数据行为的合法性,且不存在主体限制或使用技术目的限制,换言之,即使是出于商业性使用目的也同样适用。总体而言,GDPR 适用于 AI 采集和使用个人数据等场景,DMA 和 DSA以透明度和公平性为核心,对数字平台服务的提供方分别提出监管要求,版权指令则对大模型训练数据的获取合法性进行了规定。而在人工智能法案即将通过的大背景下,法案中所提及的大模型系统及其所嵌入的 AI 系统的提供方、部署方、进口方、分销商等角色是否以及如何适用于该等垂直监管类的规定,人工智能法案如何处理与现有的各垂直监管法规的法条竞合、冲突与协调适用等问题,人工智能的监管部门与其他各垂直监管法规的监管部门的管辖权如何划分以及与各类组织机构间协调运作,都需要通过实践来回答。(2)相关案例实际上,意大利、法国、西班牙已经对 OpenAI 展开了调查22。在意大21https:/eur-lex.europa.eu/eli/dir/2019/790/oj,最后访问于 2023 年 11 月 22 日。22https:/www.politico.eu/article/chatgpt-italy-lift-ban-garante-privacy-gdpr-openai/,最后访问于 2023 年 11 月 22 日;https:/www.zdnet.fr/actualites/chatgpt-les-premieres-plaintes-francaises-enregistrees-par-la-cnil-39956702.htm,最后访问于 2023 年 11 月 22 日。25大模型合规白皮书利,2023 年 3 月,意大利个人数据保护局(GaranteperlaProtezionedeiDatiPersonali,“GPDP”)宣布禁止使用 ChatGPT,并限制开发这一平台的OpenAI 公司处理意大利用户信息,同时对 OpenAI 公司展开立案调查,理由是 ChatGPT 平台存在用户对话数据和付款服务支付信息丢失的情况,而且没有就收集处理用户信息进行告知,缺乏大量收集和存储个人信息的法律依据。此外,ChatGPT 没有有效的年龄核实系统,可能会让未成年人接触到不适当的内容。4 月 12 日,GPDP 列出一份清单,要求 OpenAI 在 4 月底前满足包括透明度、数据纠正及被遗忘权、个人数据保护、未成年人保护等一系列要求。4 月 28 日,ChatGPT 在完成整改后重新在意大利上线。在西班牙,2023 年 4月 13 日,西班牙国家数据保护局发表声明,因 ChatGPT“可能不符合 GDPR规范”而对 OpenAI 启动初步调查程序。在法国,2023 年 4 月,法国数据监管机构国家信息与自由委员会(CommissionNationaledelinformatiqueetdesliberts,“CNIL”)对 ChatGPT 提出违反 GDPR、涉嫌侵犯个人隐私、捏造不实信息等数项指控,并展开调查。2.美国(1)立法现状相较于欧盟的统一协调、垂直跨部门的体系化立法而言,美国对于大模型及其所服务的 AI 系统的立法总体而言仍呈现较为保守、零散、地区化的态势。在州一级层面,各州的立法进程相差较大,较为积极的例如伊利诺伊州、加利福尼亚州、弗吉尼亚州、纽约州等已经通过了相关法案,但侧重点各有不同,例如主要针对人工智能视频面试23及职场自动化决策24、人工智能产业促进25等。在联邦层面,目前为止,美国尚未通过一部完整且专门针对大模型及其所服务的 AI 系统的法案,而是试图通过调整政府机构的权力,在现有的立法框架及监管规则内对大模型及人工智能进行规制,但由于政府机构多元,机构之间的执行程度与政策发展也并不平衡。目前,联邦层面的合规重点主要涉及 AI 安23https:/ilga.gov/legislation/publicacts/fulltext.asp?Name=101-0260&GA=101,最后访问于 2023 年 11 月 22 日。24https:/legistar.council.nyc.gov/LegislationDetail.aspx?ID=4344524&GUID=B051915D-A9AC-451E-81F8-6596032FA3F9&Options=ID|Text|&Search=,最后访问于 2023 年 11 月 22 日。25http:/alisondb.legislature.state.al.us/ALISON/SearchableInstruments/2019RS/PrintFiles/SJR71-int.pdf,最后访问于2023 年 11 月 22 日。26大模型合规白皮书全、算法透明度、反歧视、评估等要求。但随着 ChatGPT、Bard 等生成式人工智能的井喷式出现,目前一系列与人工智能的联邦立法提案也已经出现在了国会中。同时,联邦政府机构也在积极制定相关政策,加紧对于AI的体系化监管。(a)人工智能重点整体性法规政策2020 年 11 月,美 国 行 政 管 理 和 预 算 局(OfficeofManagementandBudget)颁布了人工智能应用监管指南(GuidanceforRegulationofAr-tificialIntelligenceApplications)26,反映了美国在人工智能监管方面的核心立场。该指南并未直接规定人工智能的监管法规,而是为美国政府提供了关于制定人工智能监管政策的指导方针。该指南主要关注了歧视、国家安全等问题,并提出了一系列风险评估和管理框架等要求,以提升人工智能的可信度和透明度,但其对人工智能仍持自由开放的基本态度,旨在确保监管规则不会妨碍人工智能的发展。2020 年 12 月,时任美国总统特朗普签署了名为促进联邦政府使用可信赖人工智能(PromotingtheUseofTrustworthyArtificialIntelligenceintheFederalGovernment,ExecutiveOrder13960ofDecember3,2020)27的行政命令,主要规定了联邦政府机构在考虑设计、开发、获取和在政府中使用人工智能时应遵循的一系列旨在促进公众信心、保护国家价值观并确保人工智能的合法使用的共同原则,包括:(a)合法并尊重国家价值观。各机构在设计、开发、获取和使用人工智能时,应充分尊重国家价值观,并符合宪法及其他适用的法律和政策,包括涉及隐私、公民权利和公民自由的法律和政策;(b)目的明确,效率主导。各机构应在风险可控情况下积极设计、开发、获取和使用有益的人工智能;(c)准确性与有效性。各机构应确保其对人工智能的训练场景与应用场景一致,确保人工智能的可靠性;(d)安全性与稳健性。各机构应确保其人工智能在面对系统漏洞和其他恶意攻击时的弹性;(e)可理解性。各机构应确保其人工智能应用程序的操作和结果能够被相关专家和用户充分理解;(f)可问责性和可追溯性。各机构应确保在设计、开发、采购和使用人工智能时,26https:/www.whitehouse.gov/wp-content/uploads/2020/11/M-21-06.pdf,最后访问于 2023 年 11 月 22 日。27https:/www.federalregister.gov/documents/2020/12/08/2020-27065/promoting-the-use-of-trustworthy-artificial-intelligence-in-the-federal-government,最后访问于 2023 年 11 月 22 日。27大模型合规白皮书明确界定、适当分配各主体的角色和责任。人工智能的设计、开发、获取和使用应酌情并在切实可行的范围内进行详细记录和追踪;(g)定期监测。各机构应根据上述原则定期测试其系统并及时更新补正;(h)透明。各机构应在实际可行的范围内,根据适用的法律和政策向适当的利益相关者披露其使用人工智能的相关信息;(i)问责。各机构应负责实施和执行适当的保障措施,以确保其人工智能系统的正常使用和运行,并应监督记录该等保障措施的遵守情况,并应为所有负责设计、开发、采购和使用人工智能的人员提供适当的培训。2021 年 1 月,经国会批准,2020 国家人工智能倡议法案(NationalAIInitiativeActof2020(DIVISIONE,SEC.5001)正式通过28,其中明确重申了确保美国在可信人工智能领域的领导地位。该法案的主要目的是确保美国在人工智能研发方面的领导地位,为社会各部门的人工智能技术整合准备充足劳动力,协调各联邦机构开展人工智能相关活动,保证信息多渠道流通。具体而言,该法案将:(1)通过美国白宫科技政策办公室(OfficeofScienceandTechnologyPolicy,“OSTP”)管理的机构间协调委员会,制定人工智能研究领域的机构间协调战略规划;(2)成立咨询委员会,该委员会将跟踪人工智能的科学研究现状,为机构间协调委员会提供信息;(3)在美国国家科学基金会(NationalScienceFoundation,“NSF”)的协调下,建立人工智能研究机构网络,该网络将促进学术界、政府部门、私人组织之间的合作,加快人工智能的研究;(4)支持美国国家标准技术研究所(NationalInstituteofStandardsandTechnology,“NIST”)研究制定人工智能评价标准,要求 NIST 创建数据共享的管理框架;(5)支持 NSF 在人工智能相关领域开展多种研究,以优化人工智能系统,推进其他领域的科学研究;(6)NSF 将提供奖学金和培训来支持人工智能及相关领域的教育;(7)支持能源部(DepartmentofEnergy,“DOE”)开展人工智能研究,利用 DOE 的基础设施来应对人工智能挑战、促进技术转移、实现与其他联邦机构间的数据共享及协同合作;(8)进一步探究人工智能带来的机遇和挑战,探究保持美国在人工智能领域领先地位所需的计算资源。2022 年 10 月,OSTP 颁布了人工智能权利法案蓝图(Blueprintfor28https:/www.congress.gov/116/crpt/hrpt617/CRPT-116hrpt617.pdf#page=1210,最后访问于 2023 年 11 月 22 日。28大模型合规白皮书anAIBillofRight)29,主要内容包括前言、指导人工智能的设计、使用和部署的五项原则(该等五项原则为:技术的安全性和有效性、防止算法歧视、保护数据隐私、告知及解释义务以及人类参与决策)、应用说明以及技术指南,该指南针对五项原则中的每一项均解释了原则的重要性、原则所指引的期望以及各级政府到各种规模的公司等多种组织为维护原则可以采取的具体的实施步骤、原则的实践案例。2023 年 1 月,NIST 正式发布了人工智能风险管理框架(第一版)(AIRiskManagementFramework1.0,“AIRMF1.0”)30。AIRMF1.0 是一个自愿性框架,基于经济合作与发展组织(OrganizationforEconomicCo-op-erationandDevelopment)的 AI 系统分类框架,旨在为设计、开发、部署和使用 AI 系统提供指南,以增强人工智能的可信度、降低风险,并提供关于如何在整个人工智能生命周期(包括 AI 的应用背景和数据输入阶段(AI 设计)、AI模型构建阶段(AI 开发)、AI 任务执行和输出阶段(AI 部署)、AI 操作和监控阶段(AI 监控)中管理风险的建议。2023 年 4 月,美国参众两院共同发布了确保人工智能安全、可靠、道德和稳定系统法(草案)(AssuringSafe,Secure,andEthicalSystemsforAIAct,“ASSESSAIAct”)(Draft)31。该法案将设立一个人工智能工作组,以评估联邦政府在 AI 政策和使用方面的现有政策、监管现状、法律空白,并提出具体建议。具体而言,该人工智能工作组的成员将包括美国司法部长、NIST 和OSTP 的负责人,以及来自工业界、学术界和非营利组织的代表。该人工智能工作组将针对保护隐私、公民自由和公民权利的政策,面部识别和生物特征识别的联邦标准,AI 审计和风险评估的要求等内容提出建议,并且将在成立后的18 个月内向国会和总统提交最终报告。2023 年 6 月,美国参众两院共同发布了国家人工智能委员会法(草案)(NationalAICommissionAct)(Draft)32。该法案将设立一个由来自不同领域29https:/www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf,最后访问于 2023年 11 月 22 日。30https:/nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf,最后访问于 2023 年 11 月 22 日。31https:/www.congress.gov/bill/118th-congress/senate-bill/1356,最后访问于 2023 年 11 月 22 日。32https:/www.congress.gov/bill/118th-congress/house-bill/4223,最后访问于 2023 年 11 月 22 日。29大模型合规白皮书的 20 名专家组成的委员会,并指示该委员会制定 AI 立法框架,该法案目前正在国会审议中。该法案本身并不是 AI 的监管框架,而是寻求建立一个国家人工智能委员会,即一个位于立法部门的独立机构,负责制定 AI 综合监管提案。该委员会的职责在于确保美国实现与 AI 相关的三个主要目标,包括:减轻与 AI相关的风险和潜在危害、保护美国在 AI 研发领域的领先地位、建立 AI 保障机制,确保 AI 系统符合美国价值观。2023 年 10 月,美国总统拜登签署了关于安全、可靠和值得信赖的人工智能的行政命令(ExecutiveOrderonSafe,Secure,andTrustworthyAr-tificialIntelligence)33,该命令主要围绕 AI 发展的八项原则展开,并针对每项原则向特定政府机构及官员提出了详细的要求。上述八项原则具体包括:(一)安全与保障原则,即应采取措施保证 AI 是安全且可靠的。为达成此目的,NIST 应与商务部合作:(1)制定指导方针,以提供确保 AI 安全可靠的指南、标准及最佳实践;以及(2)收集美国境内的,或美国企业拟收购的拥有或具备可能开发大规模算力的潜力的公司相关数据,确保 AI 的安全可靠性,包括:(a)管理关键基础设施和网络安全中的 AI;(b)降低 AI 与化学、生物、放射和核威胁交叉的风险;(c)减少 AI 合成内容带来的风险,促进识别和标记由 AI 系统产生的合成内容的能力,并确定由联邦政府或其代表生产的合成和非合成数字内容的真实性和来源;(d)促进 AI 培训联邦数据的安全发布和防止恶意使用;(e)指导形成国家安全备忘录。国家安全事务总统助理和总统助理兼政策副幕僚长应监督机构间流程,并向总统提交一份拟议的 AI 国家安全备忘录。该备忘录应涉及作为国家安全系统组成部分的、或用于军事和情报目的的 AI 的治理。备忘录应概述国防部、国务院、其他相关机构和情报系统应对 AI 带来的国家安全风险(例如内部人员风险和外部攻击风险)和潜在利益的行动。(二)促进创新及竞争原则。美国应促进 AI,特别是半导体行业的的创新、竞争和合作,并保护 AI 知识产权,制止对关键资产和技术的非法串通和垄断。具体措施包括:(a)NSF 应:(i)协调启动实施国家 AI 研究资源的试点项目;(ii)33https:/www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/,最后访问于 2023 年 11 月 22 日。30大模型合规白皮书资助并启动 NSF 区域创新引擎,优先考虑 AI 相关工作,如 AI 相关研究、社会或劳动力需求;(iii)在目前资助的 25 个国家 AI 研究机构的基础上,建立至少4 个新的机构;(b)能源部长应与 NSF 主任协调,建立一项试点计划,以加强现有的科学家培训计划,目标是到 2025 年培训 500 名新的研究人员;(c)国家专利商标局应澄清与 AI 和可专利主体的发明人有关的问题;(d)国土安全部长应领衔制定培训、分析和评估计划,以减轻 AI 相关 IP 风险,包括收集和分析与 AI 相关的 IP 盗窃报告,调查此类影响国家安全的事件,并采取执法行动;(e)为推动广泛的医疗保健技术开发人员进行负责任的 AI 创新,以促进医疗保健部门患者和工作人员的福利,卫生与公共服务部部长应支持 AI 开发和使用,包括通过卫生与公共服务部的项目与适当的私营部门合作,支持 AI 工具的发展,为患者开发个性化的免疫反应档案、加速通过美国国立卫生研究院 AI/机器学习联盟促进健康公平和研究人员多样性(AIM-AHEAD)计划授予的拨款等。为促进竞争,该命令还授权包括联邦贸易委员会在内的所有联邦机构,利用其权力促进 AI 和相关技术的竞争,包括采取措施制止非法勾结,防止占主导地位的公司的不正当竞争,并努力为小企业和企业家提供包括资金及贷款计划、专业设备、知识产权援助等。(三)保护劳动者权益,改善劳动环境原则。具体措施包括:(a)为增进政府对 AI 对工人的影响的理解,(i)经济顾问委员会主席应编写并向总统提交一份关于 AI 对劳动力市场影响的报告;(ii)劳工部长应向总统提交一份报告,分析各机构针对因采用 AI 等技术进步而被取代的工人所能够采取相应措施的能力,包括联邦援助项目,加强 AI 教育与职业培训等;(b)为帮助确保在工作场所部署的 AI 能够促进员工的福祉,劳工部长应为雇主制定并公布可用于减轻 AI对员工福祉的潜在危害并最大化其潜在利益的原则和最佳实践;(c)为培养多样化的 AI 劳动力,NSF 主任应优先考虑通过现有计划支持 AI 相关教育和 AI 相关劳动力发展,包括设立奖学金等。(四)促进公平及人权原则。具体措施包括:(a)加强刑事司法系统中的 AI和公民权利;(b)保护与政府福利和项目有关的公民权利;(c)在宏观的市场经31大模型合规白皮书济中加强 AI 和公民权利,包括防止在招聘中使用 AI 造成的非法歧视,解决住房市场和消费者金融市场中对弱势群体的歧视,打击用于决定住房和其他房地产相关交易的自动化或算法工具(例如租户筛选系统)所包含的非法歧视,以及帮助确保残疾人从 AI 中受益,同时保护其免受风险。(五)消费者权益保护原则。具体措施包括:(a)鼓励独立监管机构保护美国消费者免受欺诈、歧视和隐私威胁,并解决使用 AI 可能产生的其他风险,包括金融稳定风险,并考虑出台现有法规适用于 AI 的解释和指导,包括澄清受监管实体对其使用的任何第三方 AI 服务进行调查和监控的责任以及需履行的透明度义务;(b)卫生与公共服务部部长应帮助确保 AI 在医疗保健、公共卫生和人类服务部门安全使用;(c)交通部长应与相关机构协商,促进 AI 在交通运输部门的安全使用;(d)为帮助确保 AI 在教育部门的负责任开发和部署,教育部长应制定有关 AI 资源分配的指导。这些资源应解决 AI 在教育中的安全、负责和非歧视使用问题,包括 AI 系统对弱势和服务不足社区的影响;(e)鼓励联邦通信委员会考虑将 AI 用于改善通信网络,包括用于改善频谱管理、促进联邦与非联邦频谱运营商之间共享频谱、为使用包含 AI 的下一代技术(包括6G 和 OpenRAN)提高网络安全性、弹性和互操作性提供支持、阻止骚扰信息等。(六)隐私及公民自由保护原则。在开发和运营 AI 的过程中,必须确保数据的收集、使用和保留是合法、安全的,并能保护隐私。具体措施包括:(a)行政管理和预算局局长应:(i)评估并采取措施识别各机构采购的商业可用信息(“CAI”),特别是包含个人身份信息的 CAI;并且(ii)与联邦隐私委员会和机构间统计政策委员会协商,评估与包含个人身份信息的CAI的收集、处理、维护、使用、共享、传播有关的机构标准和程序,以便为各机构提供指导,说明如何减轻各机构与CAI有关的活动所带来的隐私风险;(b)NIST 应为各机构制定指导方针,以评估包括 AI 在内的差分隐私保证(differential-privacy-guarantee,一种用来防范差分隐私攻击的隐私保护方法)保护措施的有效性;(c)促进与隐私增强技术(Privacy-enhancingTechnologies,PETs)有关的研究、开发和实施。32大模型合规白皮书(七)联邦政府 AI 风险管控原则。联邦政府应当管控使用 AI 的风险,并提高其内部监管、管理和支持负责任地使用 AI 的能力。(八)确保联邦政府 AI 领导地位原则。美国应引领 AI 在全球的社会、经济和技术进步,包括与国际合作伙伴合作制定 AI 风险管理框架,并共同应对挑战。该命令还要求商务部长和国务卿就全球技术标准与主要国际伙伴合作,并提交一份关于全球参与计划的报告。(b)数据及算法技术合规2022 年 2 月,美国众议院发布了2022 年算法问责法案(草案)(Algo-rithmicAccountabilityActof2022)(Draft)34,要求使用自动化决策系统做出关键决策的企业研究并报告这些系统对消费者的影响,其内容包括是否会因为消费者的种族、性别、年龄等生成对消费者有偏见或歧视性的自动决策等。该法案形成了“评估报告评估简报公开信息”三层信息披露机制。此外,联邦贸易委员会还将建立可公开访问的信息存储库,公开发布关于自动化决策系统的有限信息。2022 年 6 月,美国参众两院共同发布了美国数据隐私和保护法案(草案)(theAmericanDataPrivacyandProtectionAct,“ADPPA”)(Draft)35。ADPPA 规定,使用“覆盖算法”的大数据持有人,如果对个人或群体构成相应伤害风险,并单独或部分使用“覆盖算法”来收集、处理或传输覆盖数据,则应当根据 ADPPA 规定的评估标准进行隐私影响评估。ADPPA 将“覆盖算法”定义为:“使用机器学习、自然语言处理、人工智能技术或其他类似或更复杂的计算处理技术,并就涵盖数据做出决策或促进人类决策的计算过程”。人工智能大模型为深度学习模型,需要大规模的数据集,这些数据集很可能涵盖个人信息、数据与隐私。因此,可能构成使用“覆盖算法”,进而需要根据 ADPPA 规定的评估标准进行隐私影响评估。另外,ADPPA 还对隐私政策的告知与退出机制、反偏见等内容做出了规定。ADPPA 规定,企业或代表企业的服务提供商需要告知个人有“选择退出”的选择,即拒绝企业对其个人数据的收集、处理或传输。34https:/www.congress.gov/bill/117th-congress/senate-bill/3572,最后访问于 2023 年 11 月 22 日。35https:/www.congress.gov/bill/117th-congress/house-bill/8152,最后访问于 2023 年 11 月 22 日。33大模型合规白皮书2023 年 2 月,拜登总统签署了关于通过联邦政府进一步促进种族平等和支持服务不足社区的行政命令(ExecutiveOrderonFurtherAdvancingRacialEq-uityandSupportforUnderservedCommunitiesThroughTheFederalGovern-ment)36,规定人工智能大模型应避免由于大量输入训练数据中存在的对种族、性别、年龄、文化和残疾等的偏见而导致训练结果输出内容中存在偏见。联邦政府在设计、开发、获取和使用人工智能和自动化系统时,各机构应在符合适用法律的前提下,防止、纠正歧视和促进公平,包括保护公众免受算法歧视。(c)知识产权保护在 2020 年 4 月,美 国 专 利 商 标 局(UnitedStatesPatentandTrade-markOffice)判定,只有自然人才可以在专利申请中被指定为发明人,而生成式 AI 系统不可以37。2023 年 3 月,美国版权局(UnitedStatesCopyrightOffice)发布了版权登记指南:包含人工智能生成材料的作品(CopyrightRegistrationGuid-ance:WorksContainingMaterialGeneratedbyArtificialIntelligence)38。该指南明确,相关法律中使用的“作者”一词不包括非人类;人工智能生成的内容应该明确地被排除在版权登记之外。版权局强调,人类在多大程度上创造性地控制了作品的表达,并“实际形成”了作者身份是判断是否可以作为版权作品作者的关键因素。(d)生成内容合规2019 年 6 月,美国众议院发布了深度伪造责任法案(草案)(DefendingEachandEveryPersonfromFalseAppearancesbyKeepingExploitationSubjecttoAccountabilityActof2019,“DEEPFAKESAccountability36https:/www.whitehouse.gov/briefing-room/presidential-actions/2023/02/16/executive-order-on-further-advancing-racial-equity-and-support-for-underserved-communities-through-the-federal-government/,最后访问于 2023 年 11月 22 日。37https:/ 2023 年 11 月22 日。38www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence,最后访问于 2023 年 11 月 22 日。34大模型合规白皮书Act”)(Draft)39,其中规定,“深度伪造”一词系指任何录像、电影、录音、电子图像或照片,或者言论或行为的实质上衍生的任何技术表达,该等表达看似真实地描述了一个人的任何言论或行为,而该人事实上并未从事该等言论或行为,以及其制作实质上依赖于技术手段,而非他人在身体上或言语上模仿该人的能力;任何深度伪造制作者必须对其深度伪造记录有显著的披露,任何包含移动的视觉元素的深度伪造记录应当嵌入数字水印,以清楚地识别该记录是否包含改变的音频或视觉元素。2020 年 11 月,美国众议院颁布了识别生成对抗网络法案(IdentifyingOutputsofGenerativeAdversarialNetworksAct,“IOGANAct”)40,指示 NSF 和 NIST 支持对深度伪造的研究。该法案要求 NSF 支持对操纵或合成内容和信息真实性的研究,支持必要的测量和标准开发研究,以加速技术的开发,检查生成对抗网络的功能和输出或其他合成或操纵内容的技术。(2)相关案例2023 年 1 月 13 日,美国三名艺术家 SarahAndersen、KellyMcKernan和 KarlaOrtiz 代表其他集体诉讼成员对 StabilityAILtd.、StabilityAIInc.、Midjourney,Inc.、DeviantArt,Inc.四名被告发起集体诉讼,指控四位被告所使用的生成式 AI 图片产品在未经用户同意下擅自爬取了数百万乃至数十亿张受著作权保护的图像的未经授权的副本用于训练模型和生成 AI 图片,其所生成的内容亦并未包含原告的著作权信息,进而侵犯了原告的版权。该案件中,争议焦点主要在于:(1)生成式人工智能生成的内容是否侵犯了原告的版权;(2)被告未经原告许可而删除和修改其作品的著作权管理信息是否侵犯原告版权。2023 年7 月,在美国加利福尼亚州北区地方法院举行的关于被告驳回动议的听证会上,法院表达了对原告的核心责任论述的严重怀疑,认为原告未能提出可靠的依据来证明生成式人工智能生成的内容与原告创作的作品间存在实质的相似或者侵权情39https:/www.congress.gov/bill/116th-congress/house-bill/3230,最后访问于 2023 年 11 月 22 日。40https:/www.congress.gov/bill/116th-congress/senate-bill/2904,最后访问于 2023 年 11 月 22 日。35大模型合规白皮书况。41某种程度上,这一案例揭示了大模型输出的一个典型的知识产权难题:输出结果阶段,著作权人想要证明其著作权作品数据与生成式人工智能生成作品之间存在因果关系的难度较大,只有在著作人确定人工智能生成作品与其爬取的著作人著作权作品数据之间相关联后,才可以确定有哪些作品的著作权被侵犯,进而维护自身权益。3.英国(1)立法现状与美国类似,英国部分现存的不同类型的法律法规已经涵盖了对人工智能的规定,其中部分重点法律法规如下:(a)生成内容合规2023 年 10 月,英国议会颁布了在线安全法案(OnlineSafetyAct2023)42。在线安全法案规定了一系列与互联网信息内容相关的安全规定,赋予英国议会权力来批准哪些信息属于“合法但有害”的内容,要求在线平台立即采取措施。该法案要求社交媒体平台、搜索引擎以及其他允许用户发布内容的应用程序和网站,承担保护儿童、打击非法活动,并维护其已声明的条款与条件的责任。(b)数据合规数据保护法 2018(DataProtectionAct2018)43是主要的英国数据保护法律之一。英国脱欧后,英国政府将 GDPR 和相关监管要求转化为英国的数据保护监管体系,即所谓的“英国 GDPR”虽然有部分调整,但其有关数据控制者和处理者的权利和义务与欧盟 GDPR 基本相同。2022 年 7 月,数据41SarahAnderson,etal.v.StabilityAILTD.,etal.(2023/01/13),Casedetails:https:/ 后 访 问 于 2023 年 11 月 22 日;https:/ 2023 年 11 月 22 日;https:/ 年 11 月 22 日。42https:/www.legislation.gov.uk/ukpga/2023/50/enacted,最后访问于 2023 年 11 月 22 日。43https:/www.legislation.gov.uk/ukpga/2018/12/enacted,最后访问于 2023 年 11 月 22 日。36大模型合规白皮书保护和数字信息法案(DataProtectionandDigitalInformationBill)44首次被提交至英国议会讨论,后经撤回修改,于 2023 年 5 月形成数据保护和数字信息法案(2 号)(DataProtectionandDigitalInformation(No.2)Bill)45并再次提交至英国议会讨论,目前处于三读前的报告阶段。其中,针对自动化决策所涉及的个人数据,法案规定完整或部分基于特殊类别的个人数据的重大决策不得仅仅基于自动化决策做出,除非符合以下条件之一:(1)该决策完全基于数据主体明确同意的个人数据处理;(2)该决策是为订立或履行数据主体与控制者之间的合同所必需的,或法律要求或授权的。该法案同时也规定了自动化决策的保障措施,需由以下措施组成:(1)向数据主体提供就数据主体作出的决策的信息;(2)使数据主体能够就该等决策作出陈述;(3)使数据主体能够就此类决策获得控制者的人为干预;(4)使数据主体能够对该等决策提出异议。法案还规定了数据最小化原则、个人数据的访问和控制权、风险评估及合规检查等条款,以帮助企业更好地履行合规义务。(c)知识产权保护2022 年 6 月,英 国 知 识 产 权 局(UKIntellectualPropertyOffice,“UKIPO”)公布了文本与数据挖掘版权例外改革提案(ArtificialIntel-ligenceandIntellectualProperty:copyrightandpatents:Governmentresponsetoconsultation)46。对于文本和数据挖掘,该提案计划引入一个新的版权和数据库例外,允许文本和数据挖掘用于任何目的,包括商业目的;版权所有者仍将拥有保护其内容的保障措施,包括要求合法访问。该提案使得任何文本和数据挖掘都无需向权利人支付许可费。目前该提案仍在审核之中。(d)算法技术合规2021 年 5 月,英国中央数字与数据办公室、人工智能办公室与内阁办公室联合发布了自动决策系统的伦理、透明度与责任框架(Ethics,Transpar-44https:/bills.parliament.uk/bills/3322,最后访问于 2023 年 11 月 22 日。45https:/bills.parliament.uk/bills/3430,最后访问于 2023 年 11 月 22 日。46https:/www.gov.uk/government/consultations/artificial-intelligence-and-ip-copyright-and-patents/outcome/artificial-intelligence-and-intellectual-property-copyright-and-patents-government-response-to-consultation,最后访问于 2023 年 11 月 22 日。37大模型合规白皮书encyandAccountabilityFrameworkforAutomatedDecision-Making,“ETAF”)47。ETAF 强调,算法和自动化决策在上线之前应该进行严格的、受控的和分阶段的测试。在整个原型和测试过程中,需要人类的专业知识和监督来确保技术上的弹性和安全,以及准确和可靠的系统。测试时,需要考虑自动化决策系统的准确性、安全性、可靠性、公平性和可解释性。ETAF 规定,企业必须对算法或自动决策系统做一个平等影响评估,使用高质量和多样化的数据集,发现和抵制所使用数据中明显的偏见和歧视。ETAF 指出,算法或计算机系统应该被设计为完全可以负责和可被审计的,算法和自动化的责任和问责制度应该明确。(2)相关案例目前英国的司法实践中,对于专利的发明人是否只能为自然人存在激烈的讨论。2018 年 10 月 17 日和 2018 年 11 月 7 日,StephenThaler 先后分别向 UKIPO 提出两项发明专利申请,并将其创造并拥有的人工智能机器“DABUS”作为专利申请中的发明人,理由是两项发明均由“DABUS”在没有传统人类发明人帮助下创造完成。2019 年 12 月,UKIPO 驳回以“DABUS”作为发明人的专利申请,理由是“DABUS”为非自然人,不属于专利法中规定的发明人。StephenThaler 不服该决定,并接连上诉到英国最高法院。英国最高法院于2023 年 3 月 2 日开始审理本案,目前案件还在审理中。48该案的争议焦点在于,英国 1977 专利法案第 13(2)(a)条是否要求专利申请中的发明人只能为自然人,包括申请人认为发明是由人工智能在没有传统人类发明人帮助下创造的情况;是否可以在没有指定人类发明人的情况下授予专利权;如果是人工智能创造的发明,那么该人工智能的所有者、创造者和使用者是否可以被授予专利权。该案的判决将为“AI 能否被认定为发明人”这一难题在英国的解决提供指引,同样对 AI 大模型领域的研究与发展至关重要。47https:/www.gov.uk/government/publications/ethics-transparency-and-accountability-framework-for-automated-decision-making/ethics-transparency-and-accountability-framework-for-automated-decision-making,最后访问于2023 年 11 月 22 日。482021/0201:Thaler(Appellant)vComptroller-GeneralofPatents,DesignsandTrademarks(Respondent),Casedetails:https:/www.supremecourt.uk/cases/uksc-2021-0201.html,最后访问于 2023 年 11 月 22 日;EnglandandWalesCourtofAppeal(CivilDivision)Decisions:ThalervComptrollerGeneralofPatentsTradeMarksAndDesigns2021EWCACiv1374(21September2021),Casedetails:https:/www.bailii.org/ew/cases/EWCA/Civ/2021/1374.html,最后访问于 2023 年 11 月 22 日。38大模型合规白皮书(二)我国对于大模型的监管现状1.立法现状我国对大模型的监管主要是围绕网络安全、数据安全、个人信息展开,相关法律法规也以中华人民共和国网络安全法、中华人民共和国数据安全法和中华人民共和国个人信息保护法为主,同时,中华人民共和国科学技术进步法、互联网信息服务管理办法等法律法规亦针对互联网信息服务层面的合规制定了相关规范。随着产业的发展,我国的监管法律体系从该等方面不断深化拓展至算法服务、深度合成服务等与大模型密切相关的领域,互联网信息服务算法推荐管理规定、互联网信息服务深度合成管理规定等规定陆续出台。2023 年 8 月 15 日,我国针对生成式人工智能服务领域制定的首部法律法规生成式人工智能服务管理暂行办法(“AIGC 暂行办法”)生效,这是我国在人工智能监管领域不断探索完善的重要成果,明确了提供和使用生成式人工智能服务的总体要求,并对生成式人工智能服务提出了分类分级的监管要求,一定程度上标志着我国生成式人工智能服务领域进入强监管和高合规标准的新阶段。与此同时,人脸识别技术应用安全管理规定(试行)(征求意见稿)49等与大模型领域密切相关的法律法规和相关规定正在制定过程中。在大模型的浪潮下,各机构、行业也积极响应,陆续发布了一系列大模型开发、运营相关的行业规范,如中国信息通信研究院(“中国信通院”)联合产学研各界制定的可信大模型标准体系 2.0、同济大学上海市人工智能社会治理协同创新中心研究团队编制的人工智能大模型伦理规范操作指引、华东师范大学和上海人工智能实验室联合两院院士、高校校长、知名专家学者共同制定发布的教育通用人工智能大模型系列标准等等。值得关注的是,人工智能法已列入国务院 2023 年立法工作计划,人工智能法(草案)预备提请全国人大常委会审议。可以说,我国正在推动全国层面的人工智能专门立法。不过,根据流程,人工智能法(草案)将由49于 2023 年 8 月 8 日发布征求意见稿,但暂未生效。39大模型合规白皮书国务院相关部门起草,然后经国务院常务会议审议并通过,继而才提请立法机关审议、表决,具体所需时间目前难以预计。目前,我国和大模型相关的、已经生效的主要法律法规和相关规定,以及部分相对较有影响力的行业规范如下:(1)法律法规和相关规定名称颁发部门生效时间中华人民共和国网络安全法全国人民代表大会常务委员会2017.06.01中华人民共和国数据安全法全国人民代表大会常务委员会2021.09.01中华人民共和国个人信息保护法全国人民代表大会常务委员会2021.11.01中华人民共和国科学技术进步法全国人民代表大会常务委员会2022.01.01互联网信息服务管理办法国务院2000.09.25具有舆论属性或社会动员能力的互联网信息服务安全评估规定国家互联网信息办公室,公安部2018.11.30网络信息内容生态治理规定国家互联网信息办公室2020.03.01关于加强互联网信息服务算法综合治理的指导意见国家互联网信息办公室,中央宣传部,教育部,科学技术部,工业和信息化部,公安部,文化和旅游部,国家市场监督管理总局,国家广播电视总局2021.09.17互联网信息服务算法推荐管理规定国家互联网信息办公室,工业和信息化部,公安部,国家市场监督管理总局2022.03.0140大模型合规白皮书名称颁发部门生效时间关于支持建设新一代人工智能示范应用场景的通知科学技术部2022.08.12互联网信息服务深度合成管理规定国家互联网信息办公室,工业和信息化部,公安部2023.01.10生成式人工智能服务管理暂行办法国家互联网信息办公室,国家发展和改革委员会,教育部,科学技术部,工业和信息化部,公安部,国家广播电视总局2023.08.15科技伦理审查办法(试行)科学技术部,教育部,工业和信息化部,农业农村部,国家卫生健康委员会,中国科学院,中国工程院,中国科学技术协会,中国社会科学院,中央军委科学技术委员会2023.12.01新一代人工智能发展规划国务院2017.07.20关于调整发布 的公告商务部,科学技术部2020.08.28网络安全标准实践指南人工智能伦理安全风险防范指引全国信息安全标准化技术委员会2021.01.05关于加强科技伦理治理的意见中共中央办公厅,国务院办公厅2022.03.20网络安全标准实践指南生成式人工智能服务内容标识方法全国信息安全标准化技术委员会2023.08.2541大模型合规白皮书(2)相关行业规范名称编制机构发布时间新一代人工智能治理原则发展负责任的人工智能国家新一代人工智能治理专业委员会2019.06新一代人工智能伦理规范国家新一代人工智能治理专业委员会2021.09可信大模型标准体系 2.0中国信息通信研究院等2023.03人工智能伦理治理标准化指南国家人工智能标准化总体组等2023.03人工智能大模型伦理规范操作指引同济大学等2023.07教育通用人工智能大模型系列标准华东师范大学等2023.07教育通用人工智能大模型标准体系研究报告可信 AI 技术和应用进展白皮书(2023)中国信通院等2023.07“弈衡”通用大模型评测体系白皮书中国移动研究院等2023.07人工智能法示范法 1.0(专家建议稿)中国社会科学院法学研究所等2023.08面向行业的大规模预训练模型技术和应用评估方法金融大模型中国信息通信研究院等制定中面向行业的大规模预训练模型技术和应用评估方法汽车大模型中国信息通信研究院等制定中下文将对该等大模型领域的已经生效的主要法律法规和相关规定以及部分相对较有影响力的行业规范进行简单介绍。42大模型合规白皮书(1)主要法律法规(a)具有舆论属性或社会动员能力的互联网信息服务安全评估规定2018 年 11 月 15 日,国家互联网信息办公室联合公安部发布具有舆论属性或社会动员能力的互联网信息服务安全评估规定(“安全评估规定”),该规定于 2018 年 11 月 30 日起正式施行。安全评估规定根据中华人民共和国网络安全法、互联网信息服务管理办法、计算机信息网络国际联网安全保护管理办法等有关法律、行政法规制定,明确了国家将加强对具有舆论属性或社会动员能力的互联网信息服务和相关新技术新应用的安全管理,规范互联网信息服务活动。根据安全评估规定,下述类型的互联网信息服务提供者需按安全评估规定自行进行安全评估:(i)开办论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等信息服务或者附设相应功能;(ii)开办提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力的其他互联网信息服务。在此基础上,安全评估规定规定了互联网信息服务提供者应自行进行安全评估的具体情形。除进行自行安全评估的义务以外,安全评估规定还要求前述互联网信息服务提供者应履行消除安全隐患、形成安全评估报告、提交安全评估报告等各项义务。(b)互联网信息服务算法推荐管理规定2021 年 12 月 31 日,国家互联网信息办公室、中华人民共和国工业和信息化部、中华人民共和国公安部和国家市场监督管理总局联合发布互联网信息服务算法推荐管理规定(“算法推荐管理规定”),该规定于 2022 年 3月 1 日起施行。算法推荐管理规定的适用范围是在中华人民共和国境内应用算法推荐技术提供互联网信息服务的情形。算法推荐管理规定确立了算法分级分类安全管理的制度设计。其中分级分类关注的维度包括算法推荐服务的舆论属性或者社会动员能力、内容类别、用户规模、算法推荐技术处理的数据重要程度、对用户行为的干预程度等。此外,算法推荐管理规定要求算法推荐服务提供者建立健全相关制度,例如算法推荐服务提供者应建立健全算法机制机理审核、科技伦理审查、用户注册、信息发布审核、数据安全和个人43大模型合规白皮书信息保护、反电信网络诈骗、安全评估监测、安全事件应急处置等管理制度和技术措施。同时,算法推荐服务提供者应承担算法合规义务以及用户权益保护责任,保护用户的知情权和选择权。(c)互联网信息服务深度合成管理规定2022 年 11 月 25 日,国家互联网信息办公室、工业和信息化部、公安部联合发布互联网信息服务深度合成管理规定(“深度合成管理规定”),该规定于 2023 年 1 月 10 日起施行。深度合成管理规定是我国第一部针对深度合成服务治理的专门性部门规章,主要针对应用生成合成类算法的互联网信息服务进行了规范,明确了生成合成类算法治理的对象和基本原则,强化了深度合成服务提供者和技术支持者的主体责任,并鼓励相关行业组织通过加强行业自律推动生成合成类算法的合规发展。深度合成管理规定适用于在中华人民共和国境内应用深度合成技术提供互联网信息服务的情形,深度合成服务提供者和技术支持者是主要的责任主体,二者均有义务进行算法备案,且均负有遵守数据和技术管理规范、加强训练数据管理、依法告知生物识别信息被编辑的个人、加强深度合成相关技术管理、依法开展安全评估等义务。此外,深度合成服务提供者还需承担信息安全主体责任和内容标识义务等,落实安全可控的技术保障措施,并制定和公开管理规则。(d)生成式人工智能服务管理暂行办法2023 年 7 月 10 日,国家网信办、国家发展改革委、教育部、科技部、工业和信息化部、公安部和广电总局联合发布生成式人工智能服务管理暂行办法,该办法于 2023 年 8 月 15 日起生效。根据AIGC 暂行办法规定,任何利用生成式人工智能技术为中国境内公众提供生成文本、图片、音频、视频等内容的服务都适用该办法。这意味着,境内外人工智能生成内容(ArtificialIntelligenceGeneratedContent,“AIGC”)服务提供者,无论其提供的服务是在模型层还是在应用层,亦无论是直接提供服务或通过 API 接口或其他方式间接提供服务,倘若其提供服务的对象是中国境内公众,都应当遵守AIGC暂行办法。在监管机制与合规要求方面,AIGC 暂行办法对生成式人工智44大模型合规白皮书能服务采取了包容审慎和分类分级的监管原则,要求生成式人工智能服务提供者在内容管理、训练数据、用户权益、安全评估等多个层面承担相应的责任。(e)网络安全标准实践指南人工智能伦理安全风险防范指引2021 年 1 月,全国信息安全标准化技术委员会发布网络安全标准实践指南人工智能伦理安全风险防范指引,将 AI 伦理安全风险总结为以下五大方面:(1)失控性风险:AI 的行为与影响超出服务提供者预设、理解和可控的范围,对社会价值等产生负面影响;(2)社会性风险:不合理使用 AI 而对社会价值等方面产生负面影响;(3)侵权性风险:AI 对人的基本权利,包括人身、隐私、财产等造成侵害或产生负面影响;(4)歧视性风险:AI 对人类特定群体具有主观或客观偏见,影响公平公正、造成权利侵害或负面影响;(5)责任性风险:AI相关各方行为失当、责任界定不清,对社会信任、社会价值等方面产生负面影响。(f)关于加强科技伦理治理的意见2022 年 3 月,中共中央办公厅、国务院办公厅印发关于加强科技伦理治理的意见,提出“科技伦理是开展科学研究、技术开发等科技活动需要遵循的价值理念和行为规范,是促进科技事业健康发展的重要保障”,并明确了以下五大类科技伦理原则:增进人类福祉、尊重生命权利、坚持公平公正、合理控制风险和保持公开透明。(g)科技伦理审查办法(试行)2023 年 10 月 8 日,科学技术部、教育部、工业和信息化部等多部门联合发布科技伦理审查办法(试行)(“科技伦理审查办法”),该办法对于几乎所有科技活动所涉及的科技伦理审查和监管做出了明确的规定,并将于 2023 年12 月 1 日起正式实施。在审查主体方面,科技伦理审查办法明确要求从事生命科学、医学、人工智能等科技活动的单位,研究内容涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会,其他有伦理审查需求的单位可根据实际情况设立科技伦理(审查)委员会。在审查程序方面,科技伦理审查办法将审45大模型合规白皮书查程序依据科技活动伦理风险发生的可能性和严重、紧急程度划分为一般、简易和应急三类。在审查内容及标准方面,科技伦理审查办法针对所有科技活动规定了审查的重点内容和标准,以及针对涉及人类研究参与者以及数据和算法的科技活动就审查的重点内容和标准进行特殊规定。例如,就涉及数据和算法的科技活动而言,一方面,要求数据的收集、存储、加工、使用等处理活动以及研究开发数据新技术等符合国家数据安全和个人信息保护等有关规定,数据安全风险监测及应急处理方案得当;另一方面,要求算法、模型和系统的设计、实现、应用等遵守公平、公正、透明、可靠、可控等原则,符合国家有关要求,伦理风险评估审核和应急处置方案合理,用户权益保护措施全面得当。(2)主要行业规范(a)新一代人工智能伦理规范2021 年 9 月,我国国家新一代人工智能治理专业委员会发布新一代人工智能伦理规范,旨在将伦理道德融入人工智能全生命周期,促进公平、公正、和谐、安全,避免偏见、歧视、隐私和信息泄露等问题。新一代人工智能伦理规范的适用主体为从事人工智能管理、研发、供应、使用等相关活动的自然人、法人和其他相关机构。在此基础上,新一代人工智能伦理规范明确了人工智能的基本伦理规范,包括增进人类福祉、促进公平公正、保护隐私安全、确保可控可信、强化责任担当、提升伦理素养。同时,新一代人工智能伦理规范提出了一系列人工智能应用管理规范、研发规范、供应规范和使用规范。(b)可信大模型标准体系 2.050为进一步促进我国大模型产业发展,中国信通院联合产学研各方于 2022 年2 月起制定可信大模型标准体系,并于 2023 年 3 月正式发布可信大模型标准体系 2.0。可信大模型标准体系 2.0以 ModelasaService(“MaaS”)服务结果为核心,从模型开发、模型能力、模型运营、模型应用、安全可信共50原文文本尚未公开,相关介绍参见微信文章一文读懂可信 AI 大模型标准体系,链接:https:/ 2023 年 11 月 22 日。46大模型合规白皮书五个方向构建大模型标准体系,以有效助力相关主体快速构建能力全面、应用广泛、运营便捷、安全可信的基础大模型。(c)人工智能大模型伦理规范操作指引2023 年 7 月,由同济大学上海市人工智能社会治理协同创新中心研究团队编制的人工智能大模型伦理规范操作指引正式对外发布。人工智能大模型伦理规范操作指引旨在结合中国的具体情况和国际通用的伦理准则,参考借鉴国家新一代人工智能治理专业委员会颁布的新一代人工智能伦理规范和联合国颁布的人工智能与数据伦理原则、人工智能伦理建议书,为中国 AI 企业提供了大模型伦理规范操作指引。人工智能大模型伦理规范操作指引主要包括 AI 大模型全生命周期的技术与伦理要素、大模型的研发与应用的伦理原则、大模型技术研发的伦理实践指南三部分内容,提出了尊重人的自主权、保护个人隐私、保障公平公正、提高透明度和可解释性、负责任的创新等五项大模型伦理原则,以及公平性、透明性、隐私、安全性、责任、人类的监督与控制、可持续性等七项大模型伦理实践操作建议。(d)人工智能法示范法 1.0(专家建议稿)2023 年上半年以来,中国社会科学院国情调研重大项目我国人工智能伦理审查和监管制度建设状况调研课题组主持人、中国社会科学院法学研究所网络与信息法研究室副主任周辉组织多方专家团队,经多次调研、讨论、修改,起草形成 人工智能法示范法1.0(专家建议稿)(“人工智能示范法建议稿”)。人工智能示范法建议稿共分为六章:第一章(总则)阐明人工智能发展的基本原则,包括治理原则、人类自主原则、安全原则、透明可解释、公平原则等;第二章(人工智能发展)从基础设施、人才培养、技术创新、体制机制支持等维度提出相应制度规范,结合产业发展实际,采取有力措施鼓励人工智能创新,并强调以国家机关的先行先试促进人工智能的推广应用;第三章(人工智能管理制度)沿用近年来实践证明较为可行的风险分类分级管理方式,对人工智能技术研发和提供活动作出规定;第四章(人工智能研发者、提供者义务)47大模型合规白皮书明确人工智能研发者、提供者应承担相应合规义务,同时,对人工智能研发者、提供者进行了区分,依据其不同活动特点分配主体义务,结合本法前述条款设定的负面清单管理制度,针对负面清单内的人工智能研发、提供活动进一步规定了相应的义务类型;第五章(综合治理机制)衔接第一章(总则)规定,明确国家人工智能主管机关职责,提出创新监管、协同监管等机制;第六章(法律责任)根据人工智能的风险活动,设计相应的法律责任,并明确尽职免责等制度,为人工智能创新活动提供宽松政策环境。人工智能示范法建议稿提出了负面清单管理等治理制度,并对人工智能产业链条各主体责任义务分配等核心问题进行了回应。在相应的法律法规尚未出台之际,人工智能示范法建议稿在一定程度上对于人工智能产业链条中的研发者、提供者、使用者等主体履行相应风险防范、安全保障义务等提供了可供参考的执行标准。2.合规要素在大模型领域,合规义务主要责任主体为大模型服务提供者,即利用大模型技术提供服务的组织、个人。结合前述主要法律法规和相关规定、以及部分相对较有影响力的行业规范性文件,大模型服务提供者可以分为以下两类:服务提供方服务提供方是指提供大模型相关服务的组织、个人。服务提供方通常会利用大模型相关服务开发面向终端用户的大模型应用场景,比如百度文心一言网站、抖音快手上面的一些AI特效功能等等。技术支持方技术支持方是指为大模型相关服务提供技术支持的组织、个人。技术支持方往往表现为大模型的设计者、开发者和完成者,掌握着大模型背后的核心算法和运行规则,负责处理数据训练、生成内容标记、模型优化48大模型合规白皮书等技术性事项。技术支持方通常会结合服务提供方关于大模型终端运用的需求,以API等形式提供大模型服务所需的技术支持。在深度合成管理规定中,合规主体分为“深度合成服务提供者”和“深度合成服务技术支持者”,分别对应上述“服务提供方”和“技术支持方”;而 AIGC暂行办法、算法推荐管理规定等法律法规和相关规定均未对“生成式人工智能服务提供者”、“算法推荐服务提供者”基于上述角度进行进一步区分。尽管如此,该等规定项下,在明确“人工智能服务提供者”、“算法推荐服务提供者”的具体责任和义务时,同样依据其提供的服务内容及类型规范了不同的责任和义务。例如,模型训练通常由技术支持方负责,其作为“生成式人工智能服务提供者”应当确保训练数据的来源合法合规,由于技术支持方并不直接面对终端用户,所以其仅承担法规项下明确需要参照适用的那些原本针对服务提供方的要求。而对于面向终端用户的“人工智能服务提供者”,即服务提供方,由其直接将内容/信息向终端用户提供,所以前述内容/信息所引致的结果也是由其直接产生,故其应当在明确并公开其服务的适用人群、场合、用途、指导使用者科学理性认识和依法使用生成式人工智能技术、采取有效措施防范未成年人用户过度依赖或者沉迷生成式人工智能服务等方面履行相应的义务。如果因为服务的提供而产生了违约、侵权等民事责任,服务提供方往往是第一责任人。此外,根据AIGC 暂行办法第 2 条规定,行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术,未向境内公众提供生成式人工智能服务的,不适用AIGC 暂行办法的规定。也即,需要遵守相关大模型合规义务的主体,是指向境内公众提供服务的大模型服务提供者。若上述主体未向境内公众提供服务的,则不适用 AIGC 暂行办法。深度合成管理规定虽未将使用者限制在“公众”的语境,但对于标识的目标和要求,亦限制在了“公众混淆或者误认的”和“向公众提示深度合成情况”范围。基于前述规定,一个值得探讨的话题是,对于仅面向境内企业而并非公众提供大模型应用服务的大模型服务提供者是否适用AIGC 暂行办法。某种角度而言,加强大模型监管旨在规范公共层面的数据流通、传播,避免重要、敏感信息的泄露,以及防止违法、虚假信息和内容在社会层面广泛传播。倘若仅49大模型合规白皮书面向特定企业提供服务,且该企业仅在内部使用大模型服务而不会导致大模型服务成果向公众流通,很有可能并不适用AIGC 暂行办法。但是,通过 API接口等方式“封装”后间接提供服务的,可能仍会被认为属于服务提供方而非技术支持方,例如,倘若某一大模型服务提供者自研完成大模型开发后,作为技术支持方向中国境内的另一大模型服务提供者提供大模型技术接口并收取技术服务费,而后者进而作为服务提供方面向中国境内的消费者提供大模型应用服务,两者很有可能均需要履行AIGC 暂行办法项下的义务。除了主体层面的合规要素外,大模型领域的监管对象:算法与模型同样值得探讨。“算法”是对于数据进行计算或其他处理的规则,从人工智能的角度,算法通过代码的形式实现。“模型”是通过算法对数据进行处理后,将处理形成的有效结果,作为未来处理参照的模型数据集,与算法形成一个作为模型的整体。简单来说,“模型”=“算法” “模型数据集”。区别“算法”和“模型”的概念,对于人工智能的监管具有重要意义,主要体现在:更好地界定客体例如,单纯的算法提供者和内容提供者都不具有内容生成能力,所以AIGC暂行办法的监管客体应是模型。同样地,深度合成管理规定以内容生成能力作为前提,其监管客体也应是模型。算法备案的对象和内容,是算法而非模型51。安全评估规定则应将算法和模型都纳入监管范围。此外,算法的监管要点在于设计合规和提高算法透明度,而弱化所选择的训练数据的数据合规、标注质量评估和输出内容的知识产权等问题,而模型的监管则需要两者兼顾。能更好地分析产业目前,以AIGC为代表的人工智能市场已初步形成了应用层-模型层-基础层三个产业层次。直接面向终端用户的“服务”特别是互联网信息服务被纳入应用层、“模型”特别是通用基础大模型的训练和开发以及由此产生的模型即服务(MaaS)范式则应被纳入模型层。在更底层,“算法”特别是算法框架和开发平台作为单纯的算法基础服务商,和AI芯片、智能云服务、智算中心等作为算力基础服务商,以及数据集、向量数据库等作为基础数据服务商,则都被纳入基础层。51在互联网信息服务算法备案系统提交备案信息时,需要填写算法信息和模型信息。50大模型合规白皮书 能更好地识别行为不同产业的行为监管逻辑根本不同。应用层直接面向用户甚至公众生成信息和内容,大多数涉及舆论属性和社会动员能力,以及民事侵权和个人信息保护等问题是在此阶段直接产生。模型层涉及训练和预训练的开展,在承上启下的过程中,既涉及底层算法的应用、数据的选择和标注,也决定了最终输出内容/信息的质量,此时需要关注的主要既包括数据合规、知识产权、公序良俗(如避免歧视)等基础层问题,也需要关注对最终输出的内容和信息的连带责任问题。在基础层,仅“算法”的提供和数据的服务,则关注内容更限于上面提到的各自基础层问题本身。结合主体与客体的分析,对于大模型服务提供者,当前我国的法律体系下,其需要遵循的合规要素主要涉及业务资质、内容合规、数据训练合规、算法技术合规、个人信息保护、知识产权保护和竞争法、数据与网络安全、产品合规、监管手续、科技伦理等方面,具体如下:(1)监管手续与业务资质(a)算法备案算法备案是算法治理体系的重要监管内容,是实现算法透明性和可解释性的必要环节,其旨在保护用户权益,维护产品安全和信息安全。算法推荐管理规定、深度合成管理规定、AIGC 暂行办法都对大模型服务提供者提出了算法备案要求。算法备案的主体是大模型服务提供者,在选择“生成合成类(深度合成)算法”这一算法类型进行算法备案时需要区分备案主体身份(“深度合成服务技术支持者”或“深度合成服务提供者”),即服务提供方和技术支持方需要作为不同的备案主体对同一算法进行备案,二者在算法备案项下的义务相互独立而不可互相替代。根据算法推荐管理规定,大模型服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。51大模型合规白皮书(b)安全评估目前我国多部法律法规和相关规定中均对“具有舆论属性或社会动员能力的互联网信息服务”提出了安全评估的要求。不过,目前我国法律法规和相关规定中仅明确了“具有舆论属性或社会动员能力的互联网信息服务”(即开办论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等信息服务或者附设相应功能以及开办提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力的其他互联网信息服务),而对于何为具有舆论属性或社会动员能力的算法推荐服务、深度合成服务、生成式人工智能服务则暂时并未给出进一步定义。实务中,对于何为“具有舆论属性或社会动员能力”的判断相对较为宽泛,几乎涵盖了所有具备信息共享功能的服务。因此,大模型服务很有可能涉及具有舆论属性或社会动员能力的互联网信息服务,即需要按照具有舆论属性或社会动员能力的互联网信息服务安全评估规定通过全国互联网安全管理服务平台完成安全评估。按照AIGC 暂行办法等法律法规和相关规定,对于大模型服务还需进行新技术新应用安全评估(“双新评估”),而关于双新评估的具体流程以及要求仍有待监管部门进一步公开。(c)业务资质为了保障大模型服务的合规发展,大模型在进入市场前,必须依照相关法律规定取得相应的资质证照。许可证类型根据相应业务而决定,例如:倘若最终的服务属于经营性互联网信息服务,需取得 B25 类增值电信业务经营许可证(即 ICP 证);倘若最终的服务属于在线数据处理与交易处理业务,需取得 B21类增值电信业务许可证(即 EDI 证)。在当前我国的实践中,大模型服务涉及互联网信息服务的可能性相对较高,这主要是因为对于服务提供方向用户提供大模型应用服务的情形而言,服务提供方通过对训练数据和用户输入对话的采集和处理以及平台的建设,通过互联网向用户提供信息内容,往往会涉及为其他单位或个人用户发布文本、图片、音视频、应用软件等提供平台服务,即信息发布平台和递送服务这一类型的经52大模型合规白皮书营性互联网信息服务。同时,对于经营性和非经营性的判断,实践中,不宜简单以服务是否收费来判断有偿或是无偿,而应当综合考量是否与科研、公益等非经营性活动有明显区分,需要充分考虑是否存在变相营利的情形。此外,大模型服务领域或业务场景较为广泛,很有可能涉及多个行业的监管,从而需要获得特定行业的相关证照才能够合法运营。例如,在涉及图文、视听节目的情形下,往往还涉及网络文化经营许可证、网络出版服务许可证、信息网络传播视听节目许可证等行业监管角度的证照。(2)数据训练合规数据训练是大模型技术存在的基础,是大模型应用的底层逻辑核心,数据是大模型最底层的原料,数据训练则是对原料的使用。因此,数据训练合规是满足服务生成内容合规、知识产权合规、个人信息合规等合规要素的重要前提。AIGC 暂行办法明确了生成式人工智能服务提供者在进行大模型训练时所应当履行的合规义务,其应当使用具有合法来源的数据和基础模型,不得侵害他人依法享有的知识产权,涉及个人信息的应当取得个人的同意或者符合法律、行政法规规定的其他情形。大模型数据训练主要包括训练数据的收集、存储、使用等环节。在此过程中,除应当履行网络安全、数据安全、个人信息保护等义务外,还应当确保训练数据来源的合法性。从当前的行业实践来看,大模型服务提供者获取训练数据的途径大体可以分为经授权获取数据(如采购第三方数据库等)与自行收集数据(如通过网络爬虫等技术手段收集数据等)两类。在后者情况下,大模型服务提供者可能侵犯他人享有权益的内容,存在一定的法律风险。在收集环节,在未经许可收集数据的情况下,根据数据类型不同,可能存在侵犯他人著作权、商业秘密、个人隐私等风险。若大模型在训练过程中存在破坏/绕开技术措施的方式获取数据,如采取破坏、绕开数据控制者设置的加密措施、访问限制措施、反爬措施等方式获取数据,或对数据控制者造成不合理负担的方式获取数据,妨碍、破坏他人产品或服务的正常运行,均有可能被53大模型合规白皮书认定具有不正当性,从而被认定为构成不正当竞争。在存储、使用环节,如果原始数据中包含受法律保护的客体或内容,则存储、使用行为可能落入法律规制的范畴。(3)内容合规根据AIGC 暂行办法以及网络信息安全领域的监管要求,大模型服务提供者需要保证服务生成内容合规,承担对服务生成内容的审核义务,建立健全服务生成内容治理机制,依法设立辟谣机制、设立违法和不良信息识别特征库,积极承担信息内容管理主体责任;同时,当服务提供方发现违法内容时,应当及时采取停止生成、停止传输、消除等处置措施,并向有关主管部门报告。(4)算法技术合规根据 算法推荐管理规定、深度合成管理规定、AIGC暂行办法 等规定,大模型服务提供者需要承担算法技术管理相关的责任,主要内容详见下表:序号合规要点具体内容1反歧视机制在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视。2算法机制机理审核定期审核、评估、验证算法机制机理、模型、数据和应用结果;不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型。3公平竞争机制不得利用算法共谋方式形成垄断、排除市场竞争,遵循反垄断、反不正当竞争相关法律规定。4提供必要支持和协助有关主管部门依据职责对生成式人工智能服务开展监督检查,提供者应当依法予以配合,按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助。54大模型合规白皮书(5)个人信息保护中华人民共和国个人信息保护法(“个人信息保护法”)规制个人信息全生命周期的保护和处理活动,要求企业应在个人信息的收集、存储、使用、加工、传输、提供、公开、删除等方面落实合规义务。面向消费者的生成式人工智能应用服务在个人信息保护方面与其他应用服务相比有很多相同之处,包括制定用户服务协议、隐私政策,明确处理用户数据的合法性基础。在此基础上,AIGC暂行办法针对生成式人工智能服务领域的个人信息保护做了进一步的规定,例如服务提供者对使用者的输入信息和使用记录应当依法履行保护义务和知情同意原则,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录,应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。此外,大模型服务提供者还应当特别关注个人信息的跨境传输问题。根据AIGC 暂行办法,无论是中国境外的技术支持方直接面向中国境内公众提供生成式人工智能服务,还是服务提供方通过接入中国境外的 API 接口向中国境内公众提供生成式人工智能服务,均应当履行AIGC 暂行办法项下的合规要求。在跨境的场景下,大模型服务提供者很可能将中国境内用户的个人信息传输至境外。对此,大模型服务提供者还应当按照个人信息保护法、数据出境安全评估办法、个人信息出境标准合同办法等相关法律法规和相关规定项下的要求履行个人信息跨境传输相关的义务,例如数据出境安全评估、个人信息保护影响评估、个人信息出境标准合同签订和备案、用户告知等,并根据不同的场景选择合适的跨境传输方式。(6)知识产权保护和竞争法AIGC 暂行办法等法律法规和相关规定亦从知识产权保护和竞争法角度提出了相关要求。例如,根据AIGC 暂行办法,大模型服务提供者和用户在提供与使用大模型服务时还应当尊重知识产权、遵守商业道德、保守商业秘密,不得利用算法、数据、平台等优势实施垄断和不正当竞争行为;同时,大模型服务提供者在进行预训练、优化训练等训练数据处理活动时,亦不能侵犯他人55大模型合规白皮书的知识产权。大模型服务提供者在大模型的开发和运用中还需要特别注意开源软件使用场景,应该在了解清楚每份代码的许可证类型后,明确每种许可证下的代码或软件的使用方式,以及这些许可证对商业化模式的影响,确保使用相关代码的过程不违反开源协议。大模型服务从输入数据的获取及预处理,算法模型的构建与训练,到生成内容的输出与优化等各环节,均涉及专利、著作权、商业秘密等多种知识产权客体,稍不留意便将产生相应的侵权纠纷。需要特别注意的是,大模型多为商业性开发和利用,利用已有作品进行大模型训练的行为很难构成合理使用。因此,在服务生成内容生成过程中,倘若涉及与已有作品的接触且服务生成内容与已有作品存在实质性相似,服务生成内容本身很可能涉及著作权的侵权。而对于大模型服务提供者而言,其本身属于网络服务提供者,至少应当对用户输入数据进行审核且应当遵守服务生成内容合规方面的义务,中华人民共和国民法典第一千一百九十五条亦明确了网络服务提供者应当遵守的通知-删除义务,倘若未能遵守该等义务,有可能需承担共同侵权责任。(7)数据与网络安全中华人民共和国数据安全法(“数据安全法”)从多方面规定了企业数据安全保护相关的义务,包括数据分类分级、安全管理制度、风险监测、风险评估等,面向消费者提供生成式人工智能服务的大模型服务提供者作为数据安全法项下的数据安全合规主体,也应当履行数据安全法项下的合规义务。中华人民共和国网络安全法(“网络安全法”)从多方面规定了企业网络安全保护相关的义务。根据网络安全法,只要是由运营软硬件设备组成的、按照一定的规则和程序对信息进行收集、存储、传输、交换、处理的信息系统的所有者、管理者和网络服务提供者,均属于网络运营者。因此,大模型服务提供者作为网络运营者也应当履行网络安全法项下的合规义务。对于大模型服务提供者而言,其在网络安全法项下的合规义务主要包括两个方面:一方面,从网络运行安全的角度出发,大模型服务提供者作为网络运营者,应当按照网络安全等级保护制度的要求,履行安全保护义务,保障网络科技活动负责人向科技伦理(审查)委员会申请科技伦理审查56大模型合规白皮书免受干扰、破坏或者未经授权的访问,防止网络数据泄露或者被窃取、篡改;另一方面,从网络信息安全的角度出发,大模型服务提供者作为网络运营者,应当对其收集的用户信息严格保密,并建立健全用户信息保护制度,采取技术措施和其他必要措施,确保其收集的个人信息安全,防止信息泄露、毁损、丢失。从具体措施而言,在安全管理层面,大模型服务提供者作为网络运营者,应当明确网络安全的责任,并通过完善的规章制度、操作流程为网络安全提供制度保障;在技术层面,大模型服务提供者作为网络运营者,应当采取各种事前预防、事中响应、事后跟进的技术手段,应对网络攻击,从而降低网络安全的风险。(8)产品合规依照相关规定,当面向终端用户提供大模型服务相关产品时,大模型服务提供者亦应当履行一系列从用户保护角度出发的合规义务。例如,建立实名认证体系义务、服务协议签订义务、明确并公开其服务信息以指导使用者科学理性认识和依法使用相关产品的义务、采取有效措施(如限定服务范围、限定服务时间)防范未成年人用户过度依赖或者沉迷相关产品的义务、采取有效措施稳定可持续的提供服务的义务、违法整改义务、建立健全投诉举报机制义务等。(9)科技伦理在法律法规和相关规定层面,科技伦理审查办法、关于加强科技伦理治理的意见 均对于科技伦理方面的合规要求予以规定;在行业规范层面,新一代人工智能伦理规范等文件均已经从原则上对于人工智能领域的科技伦理规则进行了一定程度的规定。具体要求如下:(a)科技伦理(审查)委员会设立根据科技伦理审查办法,如大模型服务提供者涉及以人为研究参与者的科技活动,包括利用人类生物样本、个人信息数据等的科技活动,或不直接涉及人或实验动物,但可能在生命健康、生态环境、公共秩序、可持续发展等方面带来伦理风险挑战的科技活动,应当负责进行科技伦理审查;如研究内容57大模型合规白皮书科技伦理(审查)委员会对审查批准的科技活动开展伦理跟踪审查涉及科技伦理敏感领域的,应设立科技伦理(审查)委员会,其他有科技伦理审查需求的单位可根据实际情况设立科技伦理(审查)委员会。大模型服务提供者应在设立科技伦理(审查)委员会后 30 日内,通过国家科技伦理管理信息登记平台进行登记,登记内容包括科技伦理(审查)委员会组成、章程、工作制度等,相关内容发生变化时应及时更新,并在每年 3 月 31 日前,向国家科技伦理管理信息登记平台提交上一年度科技伦理(审查)委员会工作报告。(b)科技伦理审查流程根据科技伦理审查办法,科技伦理(审查)委员会开展科技伦理审查的流程如下:(c)伦理审查复核根据科技伦理审查办法,针对纳入科技部发布的需要开展伦理审查复核的科技活动清单的科技活动,通过科技伦理(审查)委员会的科技审查后,除非国家实行行政审批等监管措施且将符合伦理要求作为审批条件、监管内容的,还需由开展技术活动的单位报请所在地方或相关行业主管部门组织开展专家复核;开展技术活动的单位应在纳入清单管理的科技活动获得伦理审查批准后 30 日内,通过国家科技伦理管理信息登记平台进行登记,登记内容包括科科技伦理(审查)委员会根据科技伦理审查申请材料决定是否受理申请并通知申请人依据科技活动伦理风险发生的可能性和严重、紧急程度,科技伦理(审查)委员会采用一般/简易/应急程序进行科技伦理审查,作出审查决定,申请人对审查决定有异议的,可向作出决定的科技伦理(审查)委员会提出书面申诉科技活动负责人向科技伦理(审查)委员会申请科技伦理审查58大模型合规白皮书技活动实施方案、伦理审查与复核情况等,相关内容发生变化时应及时更新,并在每年 3 月 31 日前向国家科技伦理管理信息登记平台提交上一年度纳入清单管理的科技活动实施情况报告。根据科技部于 2023 年 10 月 8 日附随科技伦理审查办法发布的需要开展伦理审查复核的科技活动清单,“具有舆论社会动员能力和社会意识引导能力的算法模型、应用程序及系统的研发”属于需要开展伦理审查复核的科技活动。因此,大模型服务提供者如涉及大模型研发,除通过科技伦理(审查)委员会的科技审查以外,极有可能还需进行伦理审查复核。(d)科技伦理治理除前述程序性要求以外,在实体层面,大模型服务提供者应当重视在研发和提供大模型服务过程中的科技伦理治理,重点关注研发规范与供应规范,其中重点内容包括:(i)提升数据质量。在数据收集、存储、使用、加工、传输、提供、公开等环节,严格遵守数据相关法律、标准与规范,提升数据的完整性、及时性、一致性、规范性和准确性等。(ii)增强安全透明。在算法设计、实现、应用等环节,提升透明性、可解释性、可理解性、可靠性、可控性,增强人工智能系统的韧性、自适应性和抗干扰能力,逐步实现可验证、可审核、可监督、可追溯、可预测、可信赖。(iii)避免偏见歧视。在数据采集和算法开发中,加强伦理审查,充分考虑差异化诉求,避免可能存在的数据与算法偏见,努力实现人工智能系统的普惠性、公平性和非歧视性。(iv)加强质量管控。强化人工智能产品与服务的质量监测和使用评估,避免因设计和产品缺陷等问题导致的人身安全、财产安全、用户隐私等59大模型合规白皮书侵害,不得经营、销售或提供不符合质量标准的产品与服务。(v)保障用户权益。一方面,大模型服务提供者可以拒绝或避免开发以损害他人权益为主要目的的或者容易受到恶意利用的产品或服务;另一方面,在产品与服务中使用人工智能技术应明确告知用户,应标识人工智能产品与服务的功能与局限,保障用户知情、同意等权利,为用户选择使用或退出人工智能模式提供简便易懂的解决方案,不得为用户平等使用人工智能设置障碍。(vi)推动伦理安全建设。大模型服务提供者应建立健全覆盖管理、研发、供应、使用等全生命周期的风险治理体系、事件应对体系等。具体来说,大模型服务提供者可以采取建立验证算法、风险预警、记录和回溯机制等必要措施,持续监测和降低风险;同时定期分析风险监控报告并反馈和优化管理机制,完善治理体系。此外,大模型服务提供者可以建立事件应对体系,设立人工紧急干预机制、中止应用机制、救济金基金等必要保障机制,并明确事故处理流程,确保可以在AI伦理安全风险发生时作出及时响应。3.大模型业务中各方合规义务一览表(下表仅大致划分了各项义务的主要承担方,仅作参考)合规要素合规义务主要义务主体服务提供方技术支持方用户监管手续与业务资质算法备案安全评估一般性资质包括 ICP 证,特殊资质包括网络文化经营许可证、网络出版服务许可证、信息网络传播视听节目许可证等60大模型合规白皮书合规要素合规义务主要义务主体服务提供方技术支持方用户内容合规发布内容合规AIGC 标识及时处理违法内容数据训练合规数据质量保证数据来源合规数据标注算法技术合规反歧视机制算法技术透明性提供必要支持个人信息保护个人信息来源合规个人信息去标识化个人信息跨境合规知识产权保护和竞争法不得侵害他人依法享有的知识产权尊重他人商业秘密开源软件使用合规不得利用算法、数据、平台优势,实施垄断和不正当竞争行为数据与网络安全数据来源合规数据跨境合规61大模型合规白皮书合规要素合规义务主要义务主体服务提供方技术支持方用户网络安全不得利用互联网技术从事违法活动网络安全监管建立网络安全等级保护制度建立网络安全保障体系产品合规指导、保护用户稳定服务违法处理与整改建立投诉机制科技伦理科技伦理审查实践科技伦理规范4.运营角度的其他考量(1)大模型运营的要素(a)大模型运营的标的在大模型相关的运营交易中,往往涉及技术支持方、服务提供方、终端用户等主体,各主体之间所涉及的标的亦有所不同。以当前的实践为例:(i)对于技术支持方提供大模型软件许可的场景,该等许可的标的实际上是软件模型。通常而言,大模型软件许可协议会针对许可标的予以特别规定。例如,如果被许可方仅需利用许可方已有的训练后模型,则被许可方根据许可协议取得训练后模型一定的使用权即可;但在很多场景下,被许可方需要的并非已有的训练后模型,而是定制化的训练62大模型合规白皮书后模型,对于该等定制化的训练后模型的权利归属、使用条款,双方有必要在许可协议中予以进一步约定。(ii)对于服务提供方面向终端用户提供互联网平台服务的场景,其提供的服务通常为大模型交互对话、文字识别、自然语言处理等大模型产品服务,即以大模型为核心的服务产品。(b)大模型软件与传统软件的区别(i)软件开发方式对于传统软件,软件开发者更关注软件的功能需求,即软件必须实现的功能。因此,软件开发者需要使用各种模型对相关功能需求进行描述,数据处理等规则往往已经被事先设计确定。而对于大模型软件而言,较之于功能需求,模型、训练模型的数据以及支撑模型训练的算力更为关键。模型开发者使用大量的数据对训练模型进行持续训练,使之归纳出处理新数据的规则。待训练模型通过学习知识成为具有推理和决策能力的训练后模型,从而实现智能化。(ii)数据使用方式在传统软件开发过程中,通常并不需要收集并使用大量的数据。但在大模型软件的开发过程中,软件开发者必须借助大量的高质量数据样本对大模型进行训练,并在训练过程中不断优化参数以提高运行效率和准确性。训练数据通常根据具体的应用场景进行确定。以计算机视觉应用场景为例,利用现有的开源数据集通常难以满足特定的视觉应用场景需求,因此需要采集足够多的来自于实际应用场景的真实图像或视频数据,并对这些数据进行一定的处理,例如数据清洗、数据标注等。(iii)软件部署方式从软件使用者的角度,大模型软件的安装部署方式与传统软件无明显差异,但是从运营方式和商业模式来看,二者还是存在一定区别。对于传统软件而言,63大模型合规白皮书其对算力的要求相对较低,因此通常是由企业购买后安装在其自有服务器上,相关数据也通常存储在本地计算机或服务器中。而对于大模型软件而言,新兴应用场景产生的海量数据对大模型算力的需求持续加大,例如云游戏、自动驾驶等对数据传输的速度和量级都提出了更高的要求,而通过云计算和云部署的方式便可以在很大程度上解决上述问题。在该等情形下,相关数据则被传输并存储在云端。(2)大模型运营的关注要点(a)知识产权相关(i)知识产权权属在传统软件许可协议中,无论许可标的是目标代码还是源代码,双方均应当对相关知识产权的权属安排进行提前约定,以免后续产生纠纷。一般而言,软件许可协议的知识产权归属安排会根据时间顺序采用“三段式”的叙述逻辑,即背景知识产权、前景知识产权和改进知识产权。其中,背景知识产权是指协议一方在履行协议前拥有或取得的技术成果及相关知识产权,前景知识产权是指在双方合作期间产生的知识产权,而改进知识产权则是指对前景知识产权进行的修改、改编或提升,包括但不限于对前景知识产权相关的功能、性能、部件或模块的变更等。如上文所述,模型是由训练程序从训练数据中归纳出的某种“推理规则”,在此过程中,训练数据的质量和标注精度对模型的准确性起到至关重要的作用,换言之,训练程序输入不同的训练数据后所输出的模型也不尽相同。一般而言,模型的训练分为静态训练(statictraining)和动态训练(dynamictraining)两种,因此,模型也分为静态模型与动态模型。对于静态模型,模型训练好则长期投入使用,而对于动态模型而言,随着新数据的不断输入,通过对这些数据的整合,模型也将不断进行更新迭代。因此,在大模型软件许可中,若许可方许可的仅是静态模型,则被许可方64大模型合规白皮书在具体的应用场景下使用该等模型,模型不会在被使用时同步自我演化或改进,被许可方只能通过许可协议要求许可方向其定期提供更新后的模型。但是,若被许可方获得的是动态模型的许可,由于被许可方持续不断地向模型输入实际应用场景的数据,模型也将被不断训练进而形成新的版本。在该等情形下,由于模型在使用被许可方所提供的数据过程中实现了自我改进,被许可方本身便可以对该等改进所形成的前景知识产权主张相应的权利。即使在许可方较为强势进而主张相关前景知识产权为自己单独所有的情况下,被许可方也可以考虑要求许可方就最新版本的模型向自己提供一项免费的许可,对此,双方还应当在许可协议中进一步明确许可费、更新维护等相关事项。(ii)AIGC 的保护大模型运营还面临着 AIGC 可版权性的问题。在我国的现行法律框架下,AIGC 的相关权益可能以以下路径获得保护:(1)著作权法;(2)反不正当竞争法;(3)民法典。AIGC 通常表现为音乐、图画、文字、视频、代码等内容或表达形式,表面上符合著作权法对作品的形式要求。而 AIGC 的可版权性的关键在于是否存在人类智力成果的贡献。也即是说,如果人类对 AI 的最终生成结果具有控制力,AIGC 存在人类的独创性贡献,就可以成为受著作权法保护的作品。反之,则可能无法获得著作权法的保护。至于人类要参与到何种程度才能构成对内容的独创性贡献,当前并没有形成统一定论。因此,在著作权法中新设邻接权、在民法典虚拟财产设置针对 AIGC 的具体规则等方式对 AIGC 相关权益予以保护的论题存在大量的讨论。而利用反不正当竞争法进行保护,主要是集中于大规模收集和生产的数据或信息,大规模盗用或以不正当手段获取 AIGC 等场景。AIGC 虽然在权利属性方面尚存争议,但这并不阻碍 AIGC 的后续利用。目前以技术服务费、内容许可费等收益方式是 AIGC 后续利用的常见模式。相应的,关于生成物的的权利归属、后续利用范围和限制等均应和用户在协议中予以明确约定。65大模型合规白皮书(iii)潜在的知识产权侵权风险大模型训练中可能产生潜在的知识产权侵权风险。如前文所述,大模型训练主要包括训练数据的收集、存储、使用等环节。而根据训练各个环节所使用的数据或内容所构成的法律客体的不同,可能存在侵犯著作权、商业秘密等知识产权的风险,或者因行为的不当性构成不正当竞争行为。针对数据收集行为,数据的收集者更可能基于批量的数据、重复的获取行为等被追究反不正当竞争法项下的责任。针对数据存储行为,大模型开发者通常需要将收集到的原始数据存储到服务器中,在这一过程中会形成数据或内容的副本。如该等存储的内容可能构成著作权,在相关副本需要长时间停留在服务器的情况下,可能落入“复制权”的控制范畴;而如果不存储原始数据,仅在训练时临时调用,则可能因为没有形成“永久性复制件”,从而不会受到著作权法规制的范畴。针对数据使用行为,可能涉及对原始数据的修改、加工、翻译等操作,与之相应,则存在侵犯改编权、翻译权等著作权权利的风险。在落入著作权权利范畴的情况下,就数据训练过程能否适用合理使用规则也是全球范围内探讨的重点问题。为迎接人工智能等新技术,2019 年 3 月 26 日欧盟通过了单一数字市场版权指令,新增了“不限制目的的文本和数据挖掘”这一豁免情形,即在权利人未以适当方式保留文本和数据挖掘权利的情况下,基于文本和数据挖掘的目的,复制、提取合法访问的作品或其他客体的行为被纳入责任豁免机制。日本著作权法于 2018 年增设了新的合理使用条款“不以欣赏作品原有价值为目的的利用”。依据该条规定,只要模型训练阶段的作品利用行为不存在“根据作品的性质、目的和使用情况,不合理地损害版权人利益”的情形,大概率可以受到该条款的责任豁免。目前我国现行著作权法规定的“合理使用”情形难以涵摄大模型训练的场景。具体而言,AIGC 场景可能适用的情形只有三种,包括“个人学习、研究、欣赏目的”“适当引用”“科学研究”。其中,“个人学习、研究、欣赏目的”66大模型合规白皮书的合理使用对作品使用的目的进行了严格的限制,而 AI 模型训练基本是为了开发商业化产品,具有商业动机,难以被解释为该情形。“适当引用”指的是“为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”,而使用训练数据的主要目的是为了生成新作品,与该种情形存在较大出入。“为科学研究使用作品”需同时满足“教学或科研人员”的主体要件,以及“少量复制”的要求,该等要求与 AI 模型训练中大量复制使用作品的现状不符。但是对于大模型而言,确保训练数据中包含的作品全部获得作品著作权人的许可在现实中并非易事。一方面,大模型开发者需要花费大量的时间和成本将可能受保护的作品从训练数据中识别出来;另一方面,针对识别出来的受保护的作品,大模型开发者还需逐一地与作品的著作权人进行协商取得其许可,并支付许可费用。考虑到不同作品许可谈判的难度以及大模型开发的时效性,在实践中逐一取得相关作品著作权人许可并无可行性。因此,对于大模型训练阶段知识产权风险的防控亟待后续著作权法等相关法律法规进一步明确、集体管理等支付提供有效的指引。针对大模型产品的著作权侵权问题,目前业内出现了一种新的潜在方案,以缓释大模型产品使用者的知识产权侵权疑虑。2023 年 11 月 6 日,在发布最新的 GPT-4 版本“GPT-4Turbo”时,针对著作权侵权难题,OpenAI 一并提出了“著作权盾”的解决方案,即在 OpenAI 的客户因使用其产品导致著作权侵权的法律诉讼时,OpenAI 将介入并为其客户进行辩护,且承担因此发生的相关费用,具体的方案仍待 OpenAI 进一步澄清。52后续有待观望这一方案在多大程度上能够减轻大模型产品的著作权侵权问题。(b)数据相关(i)数据使用大模型运营中涉及的数据主要包括模型训练阶段使用的原始训练数据和训52https:/ 2023 年 11 月 22日。67大模型合规白皮书练数据集,以及模型使用阶段的输入数据和输出数据,而模型使用阶段的数据存在被用于训练模型的可能性。在大模型软件许可中,由于并非所有的被许可方均希望提供数据给许可方以训练模型,协议双方可以约定许可方是否能使用被许可方的相关数据进行模型训练,在许可使用的情形下通常会对许可方使用相关数据的目的和范围进行限制。(ii)数据权属鉴于一般认为对于衍生数据权利的确认并不代表否认原始数据主体的权利,模型训练阶段使用的原始训练数据和模型使用阶段的输入数据的相关权益应当分别归属于原始数据主体和输入数据主体,但模型训练阶段使用的训练数据集由于经过收集、清洗、标注等筛选处理,其相关权益应当归属于模型开发者,而模型使用阶段的输出数据由于其法律属性界定尚存在争议,通常需要协议双方明确约定相关数据的权益归属、使用方式等内容。(iii)数据来源由于在大模型运营中,模型使用阶段的数据有可能被用于训练模型,协议双方均应当确保自身使用的数据具有合法来源。对于大模型而言,获取数据的方式主要包括数据交易、自行采集和开放数据爬取,其中,数据交易是指通过合法的交易方式从数据提供方处获取相关数据,自行采集是指通过 APP、传感器等方式直接采集数据,开放数据爬取则是指通过数据爬虫等方式获取开放的数据。前两者获取数据时应当注意要确保取得相关数据权利主体的授权,通过开放数据爬取时则应当重点关注数据爬虫行为本身是否合法;对于许可方而言,不同数据种类存在不同注意事项,如除法律另有规定,对于个人信息应当直接或要求数据提供方取得个人信息主体同意,且应注意采取合理方式履行提示或者说明义务,如在用户协议中对相关内容加粗处理;对于被许可方而言,可以在协议中要求许可方对其提供的模型不侵犯第三方权利作出陈述与保证,而在提供数据给许可方以训练模型时,被许可方也应当履行相关合规审查义务,如获得数据主体授权、不违反保密义务等。68大模型合规白皮书(iv)数据质量与数据标注根据AIGC 暂行办法第 7 条规定,生成式人工智能服务提供者应当采取有效措施提高训练数据质量。提高训练数据的质量对于避免误导用户、避免生成式人工智能被错用、误用、滥用,对于促进大模型运营都起着至关重要的作用。AIGC 暂行办法第 8 条进一步规定,在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合AIGC 暂行办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升遵法守法意识,监督指导标注人员规范开展标注工作。数据标注是指对未经处理的语音、图片、文本、视频等原始数据进行加工处理,使其成为结构化数据让机器可识别的过程。数据标注由标注人员进行,人为错误或个人主观意识不可避免会反映在数据标注过程中,影响数据质量,因此制定清晰明确的标注规则、对标注人员进行培训是提高生成式人工智能的可靠性与可信度不可或缺的关键环节。例如,全国信息安全标准化技术委员会于2023年10月11日发布的 生成式人工智能服务安全基本要求(征求意见稿)在“5.3语料标注安全要求”节从标注人员、标注规则、标注准确性三个层面,对服务内容提供方的数据标注工作提出了具有可操作性的安全标准。(v)数据安全在大模型运营中,为训练模型需要采集各行业领域的不同类型的数据,可能涉及敏感个人信息、重要数据等对安全保护有特殊要求的数据类型,也可能涉及数据出境等问题。对于敏感个人信息和重要数据,以自动驾驶为例,智能驾驶汽车通过摄像头等传感器每时每刻都在收集车主等的个人信息、车辆行驶信息等数据,根据汽车数据安全管理若干规定(试行),车辆行踪轨迹、音频、视频、图像和生物识别特征等信息属于敏感个人信息,而涉及个人信息主体超过 10 万人的个人信息属于重要数据。如汽车数据处理者对相关数据处理时存在安全问题,可能导致个人信息主体的人身、财产安全以及国家安全受到损害。对此,法律69大模型合规白皮书法规规定汽车数据处理者应当具有直接服务于个人的目的,包括增强行车安全、智能驾驶、导航等;应当报送汽车数据的安全防护和管理措施,包括保存地点、期限等。对于数据出境,被许可方应当在协议中明确要求许可方遵守数据出境的合规要求和履行数据出境申报义务等。(c)开源相关开源作为推动大模型发展的重要力量,已成为当前人工智能领域的发展趋势之一。开源在促进大模型研发创新的同时,也推动和降低了大模型落地以及人工智能产业落地的门槛。虽然大模型软件与传统开源软件在计算机软件属性方面相似,但考虑到大模型软件的开发及其主要应用场景与传统软件仍存在一定区别,因此其开源合规问题也具有一定的特殊性。具体而言,大模型开发者在大模型开发阶段至少应当关注大模型本身的开源合规问题和模型权重的开源合规问题。2023 年 7 月 19 日,Meta 在其官网宣布大语言模型 Llama2 正式发布,这是 Meta 大语言模型的最新版本,也是 Meta 声称的首个采用开源模式的大语言模型。然而,Llama2 并非完全意义上的“开源”,事实上,Llama2 对其商业用途做了一定的限制。例如,在 Llama2 版本发布之日,倘若被许可方或被许可方关联公司提供的产品或服务的每月活跃用户数在上一个日历月中超过7 亿,则必须向 Meta 申请许可证,Meta 可以自行决定是否授权。因此,大模型开发者通过利用开源方式进行大模型开发时,一方面,应当梳理开发所使用的开源代码和许可证类型,另一方面,在明确开源代码及许可证类型后,应当进一步明确各类许可证下模型的使用方式,特别应当注意不同许可证对模型的用途所施加的限制,从而避免发生侵权或违约风险。除大模型本身的开源合规问题外,模型权重的开源合规问题也应当引起大模型开发者的重点关注。以清华大学开放的 ChatGLM-6B 和 ChatGLM2-6B 模型为例,相比于大模型本身,ChatGLM-6B 和 ChatGLM2-6B 对模型权重设置了更为特殊的许可条件。具体而言,模型权重对学术研究完全开放,但是模型权重的商业使用则需要完成登记并获得授权。因此,大模型开发者还应当注意区分模型本身和模型权重所适用的许可条件。70大模型合规白皮书三、未来展望与发展建议(一)未来展望:大模型合规的前沿1.大模型技术创新发展与合规风险并存随着深度学习和其他人工智能技术的快速发展,大模型的结构和性能都得到显著优化。尤其在大模型的规模、复杂性和应用范围上,技术进步为其提供了强大支持。然而,快速的技术进步也带来了新的合规挑战,尤其体现在数据隐私、模型透明度和伦理道德等方面。模型结构的优化是为了满足更为复杂的任务需求。例如,Transformer 架构使得模型可以更好地处理长序列数据,显著提升在自然语言处理和其他序列任务上的性能,且神经网络的不断深化使得模型可以学习到更为复杂的特征和规律。但是这种优化也为模型的可解释性和透明度带来挑战,大模型的内部结构和操作成为了一个“黑盒”,使得外部观察者很难理解其具体的工作原理。与此同时,技术进步也带来了数据处理和计算的新能力,即模型可以训练和处理前所未有的大规模数据集,为模型训练提供丰富数据,但这也引发了对于数据隐私和合规的关注。在欧洲、北美和其他地区,政府和监管机构对数据隐私和合规提出严格要求,对企业和研究机构在处理用户数据时遵循明确的指导原则提出要求。2.大模型合规框架走向标准化与国际化(1)全球合规标准的趋同与差异随着全球化的加速和技术的普及,大模型的合规问题不再是单一国家或地区的关注点,而是各国共同面临的挑战。在这一背景下,合规标准在全球范围内呈现出趋同的趋势,但各国之间因文化、法律和经济发展水平的差异,仍存在区别。技术普及、国际经贸往来和大型企业的全球化策略都在推动各国合规标准统一。例如,对数据隐私的关注、对模型透明度的要求以及对技术应用的71大模型合规白皮书伦理道德边界设定,使得各国在这些共同议题上逐渐形成共识。然而由于文化背景、历史传统和经济发展阶段的不同,各国处理大模型合规问题所采取的方法和策略也略有不同。例如,欧盟的 GDPR 更强调个人隐私权益保护,美国更强调企业权益与用户权益之间的平衡。(2)国际合作与共建合规框架在全球经济一体化的背景下,单一国家难以独立解决大模型合规的问题。因此,国际合作与共建成为趋势,旨在构建一个公平、透明、有效的大模型合规框架。随着技术跨境应用和数据跨境流动,各国意识到只有通过合作,才能真正解决跨国合规问题。同时,大型技术企业和研究机构的跨国活动也需要统一的合规标准指导。联合国、G20、世界经济论坛等国际组织和论坛,将成为各国讨论和推进共建合规框架的平台,各国能够借此分享经验、协调差异,并共同制定合规指导原则和标准。随着全球经济技术进一步融合,国际合作与共建的趋势将日益凸显,各国之间交流合作将更加深入,共同构建稳定、公正的大模型合规环境。3.社会文化和伦理逐渐与合规体系相融(1)社会公正是大模型合规的前提大模型的发展与应用涉及到社会、文化和伦理等多重维度,正确理解和处理这些维度是确保大模型健康、合规发展的关键。社会公正是大模型发展的前提,大模型的开发与应用过程应符合公平正义,算法决策应避免偏见和歧视,促进公平。同时,大模型应尊重文化多样性。不同文化背景下,对于同一问题的看法和解决方法可能存在巨大差异,需要充分考虑大模型合规中的文化差异,确保大模型的决策不违反当地文化习俗和价值观。(2)大模型伦理问题需多角度对待随着技术应用全球化,大模型的伦理问题需要从多元文化的视角审视,以72大模型合规白皮书确保模型在不同文化背景下都能得到合理应用。虽然公平、透明和可解释性等伦理原则具有普适性,但不同文化背景下,其具体实施方式可能存在特殊性。因此,需要在普适性和特殊性之间找到平衡,确保伦理原则应用全球化的同时,考虑地方文化的特殊性。同时,为确保大模型在全球范围内合规应用,需要加强跨文化伦理研究,探讨不同文化背景下的伦理问题和挑战,并为大模型开发提供指导,为大模型应用全球化提供坚实的伦理基础。4.行业应用面临不同合规挑战与监管随着大模型在各个行业广泛应用,不同行业和领域对大模型的合规需求也呈现出明显差异性。(1)不同行业合规需求存在差异 金融:在金融领域中,大模型的决策可能直接影响资金流动和市场稳定性。因此,金融行业对大模型的准确性、稳定性和透明性要求极高,且需考虑数据隐私和安全性问题。医疗健康:在医疗健康领域中,大模型决策涉及患者的生命健康,大模型的误判可能导致严重后果。因此,医疗行业对大模型的准确性和可解释性要求严格,且需满足医疗数据的保密性和合规性要求。公共管理:在公共管理领域中,大模型可能用于资源分配、公共决策、政务服务等核心环节。因此,大模型合规要求不仅涉及技术层面,还需保证决策的公平、公正和透明,以及服务的准确可信。新闻媒体:在新闻媒体领域中,需考虑内容的真实性、多样性和公平性,确保提供的内容不会误导公众或加剧社会分化。因此,新闻行业对大模型的可理解性和可靠性要求严格,且须满足新闻数据的准确性和真实性要求。73大模型合规白皮书(2)大模型行业应用评估与监管趋于完善随着未来大模型在各行业的应用广泛度提升,针对大模型相关的评估与合规监管的重要性也日益凸显,相关评估和监管机制需不断完善。大模型的独立评估:可由第三方机构对大模型进行独立的评估,确保模型的决策公正、准确,并符合行业的特定要求,以提高大模型在公众中的信任度,确保其合规应用。持续监管与审计:对于已经部署的大模型,持续监管和审计也需进一步加强,以及时发现并纠正潜在问题,确保大模型在实际应用中仍满足合规要求。建立反馈机制:大模型在实际应用中可能出现未知问题,完善反馈机制可进一步畅通大模型开发者和使用者的沟通渠道,以便用户和利益相关者可以及时提出意见和建议,帮助大模型持续改进。合规性指导与教育:需将合规性指导和教育提上日程,以确保大模型开发者和使用者都能够明确合规要求,帮助其更好理解和遵循相关规定。5.治理路径分阶段、有弹性地构建在面对大模型合规问题时,固化规则和僵硬管理往往难以适应技术快速演进和应用场景多样性。因此,弹性治理理念应运而生,主张构建灵活、适应性强的治理路径。弹性治理并非放任自流,而是在明确的指导原则下,给予大模型开发者和应用者一定自主权,使其能够针对特定场景适当调整。弹性治理具有以下特性:适应性,即弹性治理对于新技术和应用场景的出现能够快速反应,不会因为固化规则而制约创新。多元性,即弹性治理考虑到不同文化、社会和行业的特点,可在明确框架内进行多样化实践。持续性,即弹性治理强调持续监督和反馈,而非一次性审核,确保大模型始终保持在合规的轨道上。74大模型合规白皮书(二)发展建议:构筑大模型合规生态1.政府推动构建行业新秩序政府应通过为企业提供政策指导,为行业构建有利于创新与合规的新秩序,推动行业有序发展和健康成长。(1)制定与完善相关法律法规,构建不同阶段合规制度(a)横纵向监管结合,兼顾治理的统一协调与规则的垂直细分大模型的出现标志着社会生产方式的划时代革新,其覆盖的产业版图极为全面,包含从芯片、高性能计算集群、图形处理器等硬件部署,到数据及各类语言的学习与处理、算法与模型搭建、内容生成、全场景泛语言多任务的处理应用的软件研发运营;其涉及的法律领域相当广泛,包括网络安全与数据治理、个人隐私保护、知识产权、反不正当竞争、产品市场监督等各类合规要素。针对这一复杂多变的“庞然大物”,境外各主要地区的立法思路不约而同地遵循了“横向监管”与“纵向监管”两条主要路径。所谓横向监管,指以大模型这一整体概念为核心,建立一套统一的、普遍适用于各类大模型的、跨越多个行业不同主管部门的监管规则,目的是为大模型监管提供统一的标准以规制并引导行业发展,所体现的立法理念是“概念先行”。其表现形式通常为一部综合性法律法规(“横向法规”),配套一系列横向的统一监管工具(“横向监管工具”),例如登记、备案及评估系统等。横向监管的优点主要体现在以下几个方面:(1)一致性。横向监管将大模型所涉及的普遍风险进行了统一规定,使得各类大模型间的监管标准一致,可以减少监管规则的冲突、混淆与重复,降低企业及机构的合规成本;(2)开放性。横向监管可以对大模型采取较为广泛和开放的定义,并阐述大模型所适用的普遍原则(例如欧洲、美国、英国等地均在各类法规政策中反复强调的合法、安全、透明、稳健、反歧视、人工监督、符合伦理、保护个人隐私、增进社会福利等原则),使其可以涵盖大模型未来的各种创新形式,一定程度上避免因为旧概念无法适75大模型合规白皮书用于新发展而带来的立法滞后、监管缺失以及重复立法、资源浪费,也避免因为某一大模型可能同时落入多个纵向法规的规制范围而产生法规的适用冲突;(3)全面性。横向监管可以将各类合规要素均纳入综合性立法的考量之中,避免遗漏一些不在特定纵向监管范围内的问题;(4)可预测性。单一且固定的横向监管工具为企业提供了监管的可预测性。所谓纵向监管,指将大模型根据不同功能进行拆解细分,并针对每一种功能类型的大模型单独规定其合规要点,以便更精确地解决某一领域存在的特定问题,所体现的立法理念是“实践先行”。其表现形式通常为多部针对性法律法规并行(“纵向法规”)。纵向监管的优点主要体现在以下几个方面:(1)针对性。纵向监管可以更有效地解决某一特定类型的大模型所存在的特定问题,提高法律法规的可适用性与治理效率,做到对症下药、量身定制,避免过于宽泛的合规要求所导致的高昂合规成本以及部分条款适用性存疑所导致的合规焦虑;(2)灵活性。纵向监管允许监管机构在短时间内针对新的技术或行业发展及时推出新的监管规则并调整监管策略,但因避免由于法律体系过于庞大,需要考虑条款间协调性与新旧条款融合衔接。参考各国治理策略,我国对于大模型的监管可以考虑兼采横向、纵向监管之所长,针对不同的生产环节,分别适用不同的监管策略。一方面,大模型和人工智能二者在运行逻辑上紧密相连,因此,可以考虑采用以单部横向法规作为主体,并配合统一的横向监管工具。另一方面,针对大模型中的重点类型、主要功能,可以设置多部针对性法律法规予以规制;同时,考虑到不同类型的大模型所需要遵守的标准以及监管重点不同,在横向监管工具的具体适用中(例如评估准则、备案信息清单等),可以嵌入纵向监管标准(例如针对特定行业的垂直大模型委托第三方机构制定行业标准)。在大模型产品、大模型服务的发布前环节(包括设计、开发、部署),可以考虑采取“纵向监管优先 横向监管兜底”的方式,即倘若企业所研发的大模型相关技术(例如深度合成)落入某一特定纵向法规的管理范畴,则该纵向法规的要求应当优先适用,但是倘若针对该等技术并无任何可适用的现存纵向法规,则可以由横向法规作为兜底性条款起到规范作用,避免监管缺口。针对产品和/或76大模型合规白皮书服务的审核环节以及使用环节,可采用固定的横向监管工具进行统一监管,降低合规成本。同时,在具体的法律条款中,亦需要针对不同的环节设定不同等级的合规要求。(b)明确责任主体,确定责任分配目前,总体而言,我国现行的大模型监管体系主要采取的是纵向法规与横向监管工具并行的策略,现行的主要法律法规和相关规定针对的主要是特定的深度合成等技术本身,同时采用了包括算法备案在内的、未来可能能够扩展适用于其他类型的监管工具。然而,各项规定之间的概念难以实现统一已经成为了目前较为凸显的问题之一。例如,深度合成管理规定区分了“深度合成服务提供者”和“深度合成服务技术支持者”;AIGC 暂行办法主要明确了“生成式人工智能服务提供者”的合规义务;算法推荐管理规定则主要针对“算法推荐服务提供者”提出了合规的系列要求。但事实上,大模型产业链中从研发到投放市场、交付使用,所涉及的主体众多,所涉及的法律关系亦较为复杂,包括自行及委托研发、人工智能集成、商业运营、分销、跨境许可等,概念的划分模糊可能导致责任承担不明晰,监管问责也将付之阙如。欧盟的 人工智能法案 提案可能可以为我国的法律规范体系提供部分思路。人工智能法案将责任主体划分为提供方、部署方、进口方、分销商四种角色。由于提供方对于系统的控制力度最强,因此,提供方在人工智能法案项下需要承担的合规义务相对最重,但当部署方、进口方和分销商对系统进行了署名或者进行了实质性的修改,从而被认为在相当程度上控制了系统时,将被视为提供方,亦需要承担较重的合规义务。(2)为合规大模型的研发与应用提供资金支持和税收优惠 资金支持:为鼓励企业和研究机构研发符合合规要求的大模型,政府可以设立特定的资金池,专门用于支持该方面的研究和项目。此类资金支77大模型合规白皮书持不仅能够缓解企业和研究机构在研发阶段的资金压力,更能够引导整个行业向合规方向发展。税收优惠:除了直接资金支持,政府可以通过税收优惠的方式,为大模型的研发与应用提供更多激励。例如,对于在大模型研发和应用方面做出显著贡献的企业以及获奖企业等,可以给予一定比例的税收减免或退税,从而鼓励更多企业参与大模型的研发与应用。(3)与行业进行深度合作,共建合规监管体系在构建大模型合规生态的过程中,政府与行业之间的合作尤为关键。政府可以通过各种渠道,如研讨会、论坛等,与行业进行深度互动,了解行业的实际需求和问题,打造出既能满足技术发展需求,又能确保社会公众利益的合规框架。建立沟通机制:政府应当建立如定期政策研讨会、行业论坛、工作小组等与行业之间的常态化沟通机制,在确保行业声音被真正听到的同时,也让政府的政策制定更加接地气、具有针对性。共同制定标准:技术与合规的标准并非一成不变,随着技术发展,这些标准也需要随之调整。政府应该与行业专家、高校学者、企业代表共同制定和完善相关技术与合规标准,确保其兼顾科学性与实用性。鼓励行业自律:除了外部监管,政府应当鼓励行业自我监管。例如,支持行业组织制定专门的行为准则或伦理守则,为行业内的企业和个人提供行为指导。组织培训与教育:对于大模型合规的要求和标准,不仅行业内部需要了解,公众也需要有所认识。政府可以通过组织培训和教育活动,帮助行业和公众更好地理解和应对合规性问题,协助用好大模型这一生产力工具。78大模型合规白皮书2.企业创新与责任担当(1)注重大模型的自我治理与社会责任在数字化时代,企业的责任不仅仅局限于提供高质量的产品和服务,还需要确保其行为和创新对社会产生正面影响。对于从事大模型研发和应用的企业而言,自我治理和担当社会责任至关重要。建立完善的自我监管机制:企业应建立一套内部审核与评估机制,确保大模型的研发与应用过程中能够满足法律、伦理和社会的要求,其包括但不限于对模型的输入输出内容进行审查、对模型的决策逻辑进行透明化,以及定期进行模型的合规性检查。强化企业社会责任文化:企业应当将社会责任意识融入公司文化中,积极参与公益活动,加强与社区和非政府组织的合作,以弘扬企业的正面形象和增强公众信任。与社会持续沟通交流:企业需定期与社会各方进行沟通与交流,通过公开座谈会、听证会或社交媒体平台等方式,听取外部对其大模型应用的意见和建议。公开透明的责任报告:企业应考虑定期发布关于大模型的责任报告,内容包括模型的研发、应用、影响评估以及面临的挑战和解决方案,向公众展示其在合规、伦理和社会责任方面所做的努力。促进多方利益平衡:在追求利润的同时,企业还需确保技术创新带来的社会效益,这意味着在决策过程中要充分考虑消费者、员工、股东和社会的利益,并努力实现其中的利益平衡。(2)重视技术研发与模型优化技术的不断进步与创新是推动大模型走向合规的核心动力。企业若想在竞79大模型合规白皮书争激烈的市场环境中长期稳定发展,必须将研发和模型优化置于首位。持续增加研发投入:企业应持续增加对技术研发的资金投入,鼓励团队深入研究和探索更先进、更高效的模型算法。这不仅能提高模型的性能,还能为企业在合规性方面带来先发优势。与学术界紧密合作:与全球顶尖的学术机构和研究者建立合作关系,可以帮助企业紧跟最新的技术发展趋势,确保技术研发的方向与国际前沿水平保持一致。关注用户反馈与需求:用户是大模型应用的最终受益者,企业应定期收集并分析用户反馈,根据反馈对模型进行优化,确保其更好地满足用户实际需求。跨领域技术融合:大模型的发展不仅仅依赖于单一技术,还需要与其他技术领域(如隐私计算、边缘计算等)进行融合,从而带来更加高效、安全和合规的应用解决方案。(3)加强与其他参与方的沟通与合作大模型的研发、应用和管理是一个涉及多方的复杂过程。为确保大模型的合规性和有效性,企业不能单打独斗,必须加强与各相关参与方的沟通和合作。这不仅有助于企业更好理解和应对合规性挑战,还能为整个行业带来更加完善和统一的合规框架。只有在各方共同努力下,大模型才能真正为社会带来持久和广泛的价值。与政府和监管机构建立对话机制:企业应主动与政府和相关监管机构建立常态化的对话与沟通机制,及时了解政策方向和监管要求,为政策制定提供行业实践和技术建议。与同行业企业展开合作:在合规性问题上,企业之间不应仅视对方为竞争对手,应当共同研发技术标准,分享最佳实践案例,以及协同应对潜80大模型合规白皮书在的技术、安全和伦理挑战。同时,企业也应与国际组织和跨国公司建立合作关系,共同探讨和制定国际合规标准和最佳实践方式。参与或创建多方协同的行业联盟:通过参与或创建行业联盟,企业可以与各方共同探讨合规性问题,分享资源,合作研发,从而提高整个行业的合规性水平。3.社会组织加强协同合作(1)加强大模型监督与评估随着技术快速发展,确保大模型的合规性和公正性至关重要,而社会组织在大模型的监督与评估中发挥的作用不可忽视。例如,非政府组织、研究机构和行业协会通过编制发布大模型开发与运营相关的行业性规范,可以保证大模型技术在带来革命性改变的同时,不损害公众利益。设立第三方评估机构:设立独立于企业和政府的第三方评估机构,开展客观、公正的大模型评估,深入挖掘和识别模型中的偏见、不公和其他潜在问题。提高透明度和可解释性:通过监督企业公开或部分公开其模型的工作机制、数据来源和训练方法,提高整个行业的透明度,使复杂的模型更加可解释,帮助公众和决策者更好理解模型的决策逻辑。举办公开评估和测试:组织公开的模型评估和测试活动,提高社会影响力,助力推动行业标准制定,鼓励企业采用更高的技术和伦理标准,促进模型透明度提升。(2)开展大模型相关的教育与培训社会组织应加强大模型技术宣传和教育培训,培养一批有知识、有技能、有责任心的新一代从业者,确保大模型技术在发展中获得公众支持和信赖,为81大模型合规白皮书其在各个行业的应用创造有利条件。组织专题讲座和研讨会:通过定期的讲座、研讨会或工作坊,企业分享最新科研成果,向公众、政府官员传递关于大模型的最新研究、最佳实践和伦理标准,政府人员也能够及时分享与公布最新政策。开发教育课程:建议与教育机构合作,制作并发布易于理解的教育材料并进行推广,如视频、动画、互动教程等开发大模型所需的相关技术教育课程,向未来技术人员和决策者提供充分的知识普及。与企业和研究机构合作:与行业领先的企业和研究机构合作,确保其教育和培训内容与实际应用和前沿研究保持同步,推动产学研快速转化。(3)与政府、企业建立对话机制社会组织作为核心媒介应为企业和政府的沟通提供交流载体,通过持续、透明和多方参与的对话,使相关主体共同参与大模型合规决策。建立交流互动平台:通过设立定期的圆桌论坛、工作小组或研讨会,为政府、企业和公众之间建立沟通桥梁,促进政府、企业和其他利益相关者提供交换观点、分享经验和探讨解决方案的平台,加强互信和合作。收集和响应公众反馈:作为与公众之间的桥梁,社会组织应当为公众打造分享观点、提出疑虑和建议的平台,定期收集公众对大模型应用的看法和反馈,以深入探讨大模型技术背后的伦理和社会影响。同时,将社会声音反馈给企业与政府,帮助企业和政府调整策略,确保技术真正服务于社会。应对突发事件:在大模型应用中可能出现的突发事件或争议情况下,社会组织可以作为调解者或顾问,协助各方共同应对和解决问题。主编单位:金杜律师事务所上海人工智能研究院华为技术有限公司上海昇思 AI 框架&大模型创新中心专家指导委员会:宋海涛、聂卫东、李学尧、王永全、丁诚编审委员会:张逸瑞、陈府申、钱琪欣、刘燕京、杨浩、房思哲编辑委员会:主编:孙丽、冯宝宝成员:邓志辉、朱佳蔚、吴之洲、张一凡、张中阳、张津豪周彤、侯玉杰、贾挺猛、唐晟凌、黄中斌、康起明蒋世聪、潘一颿(姓氏笔画排序)声明:本出版物不代表金杜律师事务所对有关问题的法律意见,不代表上海人工智能研究院对有关问题的立场,仅供读者参考。任何仅仅依照本出版物的全部或部分内容而做出的作为和不作为决定及因此造成的后果由行为人自行负责。如您需要法律意见或其他专家意见,应该向具有相关资格的专业人士寻求专业的法律帮助。本出版物中,凡提及“香港”、“澳门”、“台湾”,将分别被诠释为“中国香港特别行政区”、“中国澳门特别行政区”、“中国台湾地区”。版权声明:金杜律师事务所、上海人工智能研究院 2023 年版权共同所有如需了解更多信息,请访问

    浏览量0人已浏览 发布时间2023-12-08 81页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 百炼智能:2023年1月-11月大模型招标需求分析简报(21页).pdf

    大模型招标需求分析简报(2023年1-11月)2023.2023.1 12 2百炼智能知了标讯出品1.数据来源报告数据由百炼智能知了标讯平台整合,数据来源为互联网公开信息,非公开信息暂未覆盖。2.数据周期报告统计周期为2023年1月1日-11月30日,具体数据指标请参考各页标注。3.版权声明报告中所有的文字、图片、表格均受有关商标和著作权的法律保护,没有经过本公司许可,任何组织和个人不得以任何形式复制或传递,报告中所涉及的所有素材版权均归本公司所有。任何未经授权使用本报告的相关商业行为都将违反中华人民共和国著作权法和其他法律法规以及有关国际公约的规定。4.免责条款本报告中行业数据及市场预测主要为百炼智能采用公开大数据分析所得,仅供参考。受研究方法和数据获取资源的限制,本报告只提供给用户作为市场参考资料,本公司对该报告的数据和观点不承担法律责任。任何机构或个人援引或基于上述数据信息所采取的任何行为所造成的法律后果均与百炼智能无关,由此引发的相关争议或法律责任皆由行为人承担。报告说明大模型招标需求分析大模型招标需求驱动因素分析CONTENTS目录需求概况需求规模需求区域需求行业需求产品技术服务类需求及代表需求方分析大模型招标需求预测与发展建议硬件设备类需求及代表需求方分析01大模型招标需求驱动因素分析宏观经济因素随着云计算、人工智能和大数据技术的快速发展,大模型的发展逐渐进入快车道。2023年,不论是国际市场还是国内市场,大模型赛道均吸引了大量资本入驻。在需求端,企业和政府机构也逐渐开始尝试运用大模型来进行决策分析、市场预测和优化业务流程。据IDC预测,2026年中国AI大模型市场规模将达到264亿美元。当下,人工智能将进入大规模落地应用关键期。20232023年年大模型热点融资事件大模型热点融资事件20232023年上半年人工智能融资概况年上半年人工智能融资概况中国人工智能市场规模预测中国人工智能市场规模预测资料来源:IDC,百炼智能制图智谱AIB-4轮 25亿元人民币(2023年累计)主营业务:基础大模型投资方:美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等月之暗面天使轮 近20亿元人民币主营业务:基础大模型投资方:红杉、今日资本、砺思资本等百川智能A1轮战略融资 3亿美元 主营业务:开源大模型及应用投资方:阿里巴巴、腾讯、小米等全球人工智能融资13871387件件获得投资大模型公司国内国内2020家家国内公司融资金额千万千万-数亿元数亿元0 5,000 10,000 15,000 20,000 25,000 30,000 2021年2022年 2023年 2024年 2025年 2026年市场规模(百万美元)政策与法规因素各地扶持政策指导各地扶持政策指导政策和法规的调整及实施,对大模型的落地起到重要作用。不同国家和地区对于大模型的监管和管理存在差异。当下,国内市场政策环境利好。近两年,各大城市相继制定了多项鼓励和支持大模型发展的政策,例如提供税收优惠和创新基金等。在数据隐私和安全层面,人工智能相关治理体系也日渐明朗并趋于体系化,对推动行业规范化发展有较强的促进作用。人工智能治理相关法律规制人工智能治理相关法律规制2023年5月,北京市政府12天内连发3个AI相关文件:5月19日,发布北京市通用人工智能产业创新伙伴计划5月30日印发北京市促进通用人工智能创新发展的若干措施5月30日印发北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)北京2022年9月,出台全国首部AI省级法规上海市促进人工智能产业发展条例2023年11月7日,上海市经济和信息化委员会等五部门联合印发上海市推动人工智能大模型创新发展若干措施(2023-2025年)上海2023年5月31日,印发深圳市加快推动人工智能高质是发展高水平应用行动方案(2023-2024年),以最充足的算力、最大的政策支持、最优的产业生态、最好的人才环境、最丰富的场景应用,打造国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区深圳资料来源:中国信通院碎片式立法行业立法小切口立法地方立法电商法电商法第第1818条条民典法民典法第第10191019条条个人信息个人信息保护法保护法反对不当反对不当竞争法竞争法非个性化选项第24条大数据杀熟可解释权深度伪造网络侵权算法推荐深度合成生成式人工智能智能交通智能金融智能医疗深圳上海浙江人工智能法技术与创新因素技术进步和数字化转型积累是大模型发展的核心,也是实现商业化增长的主要驱动因素之一。就通用大模型的发展而言,其内核是“基础”,即围绕算力、算法、数据3大核心要素做技术革新;对于产业大模型,内核则是“应用”,即围绕垂直场景、专有数据进行个性化的应用拓展。目前,国产大模型在通用、产业领域双线深耕,给大模型商业化落地提供了较为丰沃的创新土壤。算力1大模型发展的背后是庞大的算力支撑。虽然我国算力与国际顶级水平仍有差距,但目前发展增速超前,国内算力芯片公司也在“快马扬鞭”追赶。根据中国信息通信研究院发布的中国综合算力指数(2023年)白皮书,我国算力总规模位居全球第二,近5年年均增速近30%。数据3数据是算法训练的养料。形成模型理解能力,需要训练大量数据,从某种意义上讲,数据质量决定了模型精度。目前,我国网民数量超过8亿,移动电话用户突破14亿,均居全球第一,使得我国是世界上产生和积累数据体量最大、类型最丰富的国家之一。算法2算法是AI 解决问题的核心机制。国产大模型的模型结构和算法优化底层逻辑,与国际先进水平相比并没有本质上的差异。目前,多款国产通用大模型相继出世,性能迭代速度喜人,在智能化技术的推动下,短期内有望实现与全球并跑。基础层基础层应用层应用层垂直场景1大模型早期商业化主要来自基础层和模型层,中后期则逐渐向垂直场景延伸。为不同用户或场景进行个性化建模的定制化需求,成为产业大模型发展的主攻方向。目前,国产大模型在营销、政务、客服等多个垂直场景建设已初见成效。专有数据2对于垂直行业或业务场景而言,大模型的应用需要更多的行业知识融入,以及专有数据“特训”。目前,我国在金融、能源等多个行业的数字化建设已经达到了较高的水准,具有较强的数据基础。02大模型招标需求分析自Open AI发布GPT-3.5以来,大模型被广泛关注已有一年多的时间。目前,国内各大厂商的“百模大战”如火如荼,大模型的商业化需求已始萌芽。在 2023年1月-11月期间,招投标市场已经发起124次采购需求,涉及采购金额达29,696.81万元。7月起,随着国内130个大模型相继问世,大模型招标需求量开始呈现明显上升趋势。11月迎来增长高峰,需求量较前月翻至近3倍。市场概况市场概况1.需求概况采购次数(次)124124采购金额(万元)29,696.8129,696.81采购商数量(家)103103市场规模变化趋势(按采购次数)市场规模变化趋势(按采购次数)大模型发展大事记大模型发展大事记0554045501月2月3月4月5月6月7月8月9月10月 11月采购次数2023年7月中国累计已经有130个大模型问世数据来源:赛迪顾问2023年8月百度、字节、商汤、百川智能、智谱华章等 8 家企业/机构的大模型产品首批通过备案2022年11月Open AI发布GPT-3.5,ChatGPT首次向公众推出2023年11月网易有道、蚂蚁集团、面壁智能、月之暗面等 11 家企业/机构的大模型产品第二批通过备案当前,大模型在招投标市场预算规模集中在10万-500万区间。需求两极分化明显,选择投入10万-50万预算进行小规模尝试的企业最多,同时也有不少以国央企为代表的企业开始释放百万级项目预算。与此同时,下半年平均项目预算呈现直线上升趋势,11月平均项目预算已突破五百万大关。此外,需求方在硬件设备、技术服务上的预算投入旗鼓相当。需求预算规模分布需求预算规模分布2.需求规模050万以下10万-50万50万-100万100万-500万 500万-1000万 1000万以上需求次数7-117-11月月平均项目预算变化趋势平均项目预算变化趋势需求类型单个平均项目预算(元)硬件设备3,363,734 技术服务3,679,044 各需求类型平均预算各需求类型平均预算7-11月期间,大模型平均项目预算呈现直线上升趋势,11月尤其明显。据爱分析推算,企业在2024年将开始大量释放大模型预算,规划中大模型占AI预算约10%,预算规模大多为数百万元。0 1,000,000 2,000,000 3,000,000 4,000,000 5,000,000 6,000,000 7,000,000 7月8月9月10月11月平均项目预算(元)大模型需求目前主要分布在一线城市群。在当地的政策指导下,北京、广东、江浙沪区域率先开始在大模型方面进行投入。区域间,不同行业的推进力度有所差异,北京地区的通讯运营商行动最敏捷,广东、江浙沪地区的国有企业大模型改革推进迅猛。需求区域分布(按采购次数)需求区域分布(按采购次数)3.需求区域分布排名行业采购次数1通讯运营商92银行73国有企业6010203040北京 广东 上海 浙江 江苏 四川 重庆 湖北 甘肃 河北 河南 湖南 辽宁 山东 陕西 天津 福建 贵州 山西 云南采购次数北京地区高需求行业北京地区高需求行业排名行业采购次数1国有企业92券商33通讯运营商3广东地区广东地区高需求行业高需求行业排名行业采购次数1国有企业72通讯运营商62(并列)学校6江浙沪地区高需求行业江浙沪地区高需求行业目前国内大模型总数达目前国内大模型总数达238个,近五成集中在北京。个,近五成集中在北京。据北京经信局数据,截至10月初,北京发布大模型数量达115个,其中通用大模型12个,垂类大模型103个。11月,广东出台“通用人工智能发展22条”,力争算力规模全国第一,国有企业率先发起行动。整体而言,大模型在各行业推进力度差异较大。投入建设最为积极的是拥有较强的数据、算力以及 AI 基础的国有企业、政府及事业单位、通讯运营商,其需求主要围绕政务建设、公共服务等技术服务应用场景。此外,高等院校也在加紧大模型方面的投入,紧锣密鼓孵化相关项目和人才,其主要需求为教学、科研相关硬件设备。比如,北京大学推出的ChatLaw垂直大模型、哈尔滨工业大学发布的“本草”大模型,复旦大学的“moss”大模型等等,都是国内大学在大模型研究方面的杰出代表。需求行业分布(按采购次数)需求行业分布(按采购次数)4.需求行业分布需求行业分布(按采购金额)需求行业分布(按采购金额)硬件设备类硬件设备类需求关键词服务器、推理工作站技术赋能中心、教学系统实验室建设学校采购偏好学校采购偏好技术服务类技术服务类需求关键词城市级大模型、产业公共服务平台、政策智能问答国有企业、政府及事业单位采购偏好国有企业、政府及事业单位采购偏好技术服务类技术服务类需求关键词软件及算力服务、渠道垂直大模型、反诈大模型AIGC数字人通信运营商采购偏好通信运营商采购偏好据统计,技术服务类大模型需求占比最高,高达70.16%。大模型专用的硬件设备类需求虽占比不高,但目前仍是整体人工智能建设的核心。以服务器为例,其招投标市场规模在2022年已达588.86亿元,采购次数逐年稳步增长。从具体需求来看,硬件设备采购以算力、服务器、GPU等基础设施为主,技术服务类则开始呈现出场景化趋势,比如营销、客服、诊疗等垂直场景。不论是硬件设备,还是技术服务,目前的主要需求仍处于早期的基础层和模型层。不论是硬件设备,还是技术服务,目前的主要需求仍处于早期的基础层和模型层。需求类型占比(按采购次数)需求类型占比(按采购次数)5.需求产品分析硬件设备类需求产品关键词硬件设备类需求产品关键词技术服务类需求产品关键词技术服务类需求产品关键词技术服务类需求核心群体为国有企业、通信运营商、政府及事业单位、学校。其中,达州市云上智慧数字科技有限公司、中国南方电网有限责任公司、中国科学院自动化研究所为预算金额TOP3的采购公司。预算金额比较高的项目,主要为基于业务场景的基础大模型应用建设。需求行业占比(按采购次数)需求行业占比(按采购次数)5.1 技术服务类需求分析技术服务采购公司技术服务采购公司TOP10TOP10(按金额)(按金额)排名招标公司需求项目1达州市云上智慧数字科技有限公司城市大脑二期项目设计,城市大脑二期项目2中国南方电网有限责任公司电力跨模态大模型与嵌入式微模型构建关键技术研究,智能客服预训练大模型全语音示范应用开发实施建设项目,营业厅全业务服务智能机器人试点研制等3中国科学院自动化研究所复杂任务决策大模型及平台关键技术研发4联通在线信息科技有限公司防电信诈骗产品反诈大模型研发项目5中国电信股份有限公司数字人意图识别,企微知识库AI助理,知识问答机器人服务项目,渠道垂直大模型开发项目,业务平客户服务大语言模型微调和向量召回技术研究项目,营销大模型推荐中心建设项目等6杭州市发展和改革委员会政策智能问答大语言模型调用服务,场景建设7上海大学基于教育大模型智慧教学资源与智能教学系统,大模型底座及智慧教学资源管理与知识图谱构建,基础大模型引擎平台等8郑州数智技术研究院有限公司城市级大模型联合研发项目9中国融通文化教育集团有限公司大模型场景验证服务项目10广东技术师范大学AI算力大模型,多模态大模型,NLP大模型,支撑软件国有企业 29.9%通信运营商20.7%学校10.3%政府及事业单位13.8%银行6.9%民营企业5.7%券商3.4%医院2.3%保险公司1.1%国有企业 通信运营商学校政府及事业单位银行民营企业券商医院保险公司中国电信对大模型的布局较早,其打造的星辰语义大模型目前已正式发布千亿参数版本。自2017年起,中国电信便开始采购AI技术服务类产品,其在大模型建设侧的投入逐年加大,且非常注重生态合作,与大模型头部厂商科大讯飞开展了近20次合作。此外,中国电信持续致力于量子计算云平台的性能提升。据悉,到2025年,中国电信将接入不低于五百量子比特的量子计算机;到2030年,平台将对接不低于1万量子比特的超级量子计算机。5.1.1 技术服务类代表需求方分析中国电信合作供应商合作供应商TOP10TOP10(按采购次数)(按采购次数)采购次数(次)808808采购金额(亿元)9.199.19供应商数量(家)242242采购需求增长趋势(近采购需求增长趋势(近5 5年)年)举例:8月18日,中国电信股份有限公司全渠道运营中心基于渠道侧业务场景,采购渠道垂直大模型等人工智能应用,项目金额为396万元人民币。截至11月,中国电信在大模型方面的采购预算超1000万人民币。AIAI技术服务类技术服务类需求概况需求概况科大讯飞、广东亿迅科技、浩鲸云计算是中国电信的主要供应商。大模型专用的硬件设备需求核心群体为学校,其次是国有企业、银行、通信运营商。从需求金额来看,学校占据了硬件设备采购金额TOP10中的5位。可以看出,全国多所高校已经开始针对大模型的教学及科研工作,投入大量的设备预算。需求行业占比需求行业占比(按采购次数)(按采购次数)5.2 硬件设备类需求分析技术服务采购公司技术服务采购公司TOP10TOP10(按金额)(按金额)排名招标公司需求项目1甘肃紫金云大数据开发有限责任公司AI大模型实训算力服务平台项目2杭州宁丽科技有限公司大模型AI训练算力服务项目3清华大学大模型系统教学实践平台,机器学习大模型训练服务器4武汉数据智能研究院大模型算力服务器5中航信移动科技有限公司大模型训练云服务6重庆大学AI大模型训练推理计算服务器7东北财经大学大模型训练服务器,算力平台建设项目,沉浸式数智体验馆设备,深度学习训练与推理服务器,小模型共享训练服务器,数据中心集群配件,推理工作站8厦门理工学院深度学习大模型训练服务器9云南艺术学院实验室建设10中国电信股份有限公司GPU服务器租赁,租赁服务,公网带宽,GPU服务器租赁,租赁服务,机柜,交换机,GPU服务器租赁学校 45.7%国有企业 22.9%保险公司 2.9%民营企业 2.9%银行 11.4%通信运营商 8.6%政府及事业单位 2.9%医院2.9%学校 国有企业保险公司银行民营企业通信运营商政府及事业单位医院清华大学的硬件设备采购需求主要用于教学及科研。据悉,5月27日,清华大学NLP实验室联合智源研究院成立的OpenBMB已发布最高有100亿参数规模的开源大语言模型CPM-BEE。这一研发成果离不开基础科研设施的支撑。以清华大学服务器采购需求为例,近5年来,清华大学共计采购575次,涉及金额高达6.81亿元。采购需求逐年递增,2022年达到峰值。其合作供应商较为稳定,与头部3家供应商的合作次数均超过10次。5.2.1硬件设备类代表需求方分析清华大学合作供应商合作供应商TOP10TOP10(按采购次数)(按采购次数)采购次数(次)567567采购金额(亿元)6.656.65供应商数量(家)145145采购需求增长趋势(近采购需求增长趋势(近5 5年)年)举例:9月28日,清华大学公开采购大模型系统教学实践平台,主要用于大模型系统教学及科研,项目预算为700万元人民币。服务器硬件设备需求概况服务器硬件设备需求概况清华大学的供应商合作较为稳定,与头部供应商景宏安信、超博电子、长城网、国力中科合作次数均超过10次。03大模型招标需求预测与发展建议企业端大模型需求发展趋势研发投入加码1大模型的发展离不开巨大的算力支持。在未来一段时间内,不论是政府、企业还是机构,都将持续加大AI基础设施的建设。同时,未来基础设施需求会更加贴合上层应用,呈现一定的差异化趋势。在需求激增的背景下,国产芯片公司也将迎来更多市场机遇。行业场景分化3目前,完全实现大模型商业化落地还有一定距离。长时间来看,开源大模型性能的提升,将逐步拓展大模型应用的边界。同时场景应用的崛起催生出大量需求,也将带来更多行业机会。例如,金融机构使用大模型来进行风险管理和投资决策,制造业通过大模型优化供应链管理等更为细分的场景应用。价格服务内卷4由于当下大模型的发展仍处于早期阶段,短期内,各大国央企、厂商、机构将持续加大基础设施及模型层投入,整体预算水平较为充裕。借鉴互联网行业早期发展趋势,随着各大机构陆续开始跑马圈地,市场竞争趋向白热化,价格和服务“内卷”的阶段即将到来,企业端用户将以更优惠的价格满足其大模型应用需求。国央企引领需求2随着政府对于科技创新的重视和扶持政策的推动,国央企将率先发起大模型采购需求,核心是将大模型切实投入到城市发展、工业制造等领域,赋能产业实体。大型企业、高教机构则率先以通用大模型的研发进行突破,主要诉求为基础设施建设及合作生态的打造。随着垂直应用的落地,核心需求方将逐步转向中小型企业。依据大模型需求驱动因素及当下招标需求分析推断,未来企业端需求将呈现研发投入加码、国央企引领需求、行业场景分化、价格服务内卷4大趋势:大模型业务发展建议发展路径选择发展路径选择企业在选择发展方向时,要注意时刻关注市场大盘及行业动态,同时考虑与自身的数据、技术、人员、资金能力相结合,找准在市场中的定位和价值。研发及人才投入研发及人才投入当下,研发效率是关键。建议企业在加大对研发团队投入的同时,提高技术研发的有效性和效率。同时加强与高校或科研机构合作,共同开展研究项目,以提高研发水平。数据量及质量数据量及质量未来,数据质量和数据量将是下一阶段大模型能力涌现关键中的关键。建议加强数据的采集和存储,注重数据的清洗和预处理工作,同时注意特色数据壁垒的构建。场景及行业纵深场景及行业纵深场景及行业应用是大模型商业化的核心。建议企业在切入新的行业及场景时,与行业内的领先企业或机构合作,深入挖掘痛点和需求,共同探索大模型的行业应用和创新。渠道生态合作渠道生态合作大模型属于重投入的领域,单独一家公司(尤其是中小型企业)的资金和人员有限,且较难形成强大的市场竞争力。寻找合作伙伴,构建渠道生态系统,更易形成合力。网址:www.bailian.ai电话:商务合作邮箱:bdbailian.ai媒体合作邮箱:marketbailian.ai用科技,让B2B营销更简单!总部:北京 分公司:上海|深圳|保定|西安 直属服务中心:广州|长沙 关注百炼智能咨询营销小助手

    浏览量0人已浏览 发布时间2023-12-08 21页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 阿里云:释放算力潜能加速应用构建Serverless 为 AI 创新提速(2023)(27页).pdf

    释放算力潜能加速应用构建Serverless 为 AI 创新提速赵庆杰 阿里云Serverless 基础架构团队负责人2023年12月1日目录01AI 应用的发展趋势以及面临挑战02Serverless 技术加速 AI 应用的构建03Serverless AI 应用案例AI 应用场景极速增长百花齐鸣的AI 应用市场竞争下,“迭代速度”成为关键因素之一异构计算GPUCPUNPUFPGA资源调度资源虚拟化分布式调度基础设施:数据存储与高性能网络模型训练AI 计算开发者领域AI 工具算法框架AI Studio算法库AI 在线应用(推理)AI应用PaaS 平台网关鉴权快速部署服务依赖AI 应用面临的挑战AI 应用的构建复杂,且需要多环境部署支持,需要与非 AI 应用集成随着 AI 应用功能逐渐丰富,调用链路长极大影响问题的快速发现AI 应用组件无法复用,持续重复造轮子,浪费资源成本,如绿网能力,队列等网关通用能力,安全鉴权,限流保护,多协议支持,防护攻击等AI 计算力面临的挑战GPU 资源紧缺且成本高,需要持续保有购买卡型不统一导致算力不统一,进而影响应用层架构随着计算规模的提升,容错能力也越来越重要大数据的读取,以及模型的快速加载,对于底层的技术要求越来越高AI 技术概览GPU 太贵,型号那么多,换代快,怎么架集群找不到 GPU机器用机器利用率太低了!那么多机器都闲着听说GPU很快,但是我们工程师用起来反而比 CPU 慢硬件复杂度资源管理复杂度全系统优化复杂度调度效率复杂度经常听到的问题?Serverless AI 应用解决方案如何高效率低成本落地如何方便快捷部署使用工程相关算法相关接口相关 工程能力比较强,更希望有一个平台可以提升整体的研发效能,降低运维成本;往往和实验室/公司内的设备有强关联,需要有安全保障等;负责 AI 应用平台建设和管理负责 AI 模型开发调试通过 API 等对接口进行工程化封装 算法能力比较强,希望有一个好用的 AI 模型管理平台;希望可以在本进行开发调试、线上进行测试的时候,有一个便捷的环境等;工程能力比较强,更希望有一些项目案例等,可以帮助业务快速的发布和上线;有完整的应用开发、调试、发布流程等;AI 开发者模型相关工程相关算法相关接口相关不同角色,在 AI 场景下的诉求函数计算提供构建现代化高可用 AI 应用的简化路径,是 AI 应用的最佳实践Serverless 开发平台 AI 场景三步上手最佳实践,一键模型托管,上手门槛降低 80%;快速弹性 CPU GPU 实例赋能 AI 应用降本提效;上手简单,降本提效Model Scope,Hugging Face 开源生态联动;LangChain 等 AI 开源框架与阿里云产品高集成;最佳实践,心智强化拥抱开源,开放生态10 应用场景,50 应用案例,一键部署,快速体验;覆盖 2W AI 应用开发者,打造阿里云函数计算 AI 第一心智;电商软件开发教育医疗创作函数计算NASAPI GWRDSGreenWebMQARMSModelScopeHugging Face通义千问App Store其它模型 Plugin旅游行业Serverless 开发中心模型/应用生态函数计算 AI 场景特定能力AI 场景/行业场景化案例库应用全生命周期管理Composer应用多环境管理BaaSFaaS函数计算 MaaS应用流水线场景化 AI 应用数据来源于阿里云业务数据Serverless GPU 按请求付费Serverless GPU虚拟化技术算力强隔离,显存强隔离故障强隔离GPU兼容原生应用业务流量Serverless GPU两级资源池热资源池:避免 Node 级别 ScaleOut 引起的分钟级别冷启动。资源供给:FC GPU/IaaS GPU两级资源池共同保证 GPU 资源供给。使用成本:FC GPU资源池平台持有,用户只为真实使用付费。热资源池,实时弹性,平台持有,用户低成本Serverless GPU 按请求付费免费额度:函数计算为首次开通服务的用户提供免费试用额度:GPU试用额度:前100万GB*秒GPU资源使用免费。注意:免费额度不包含公网出流量。领取后 3 个月有效期。计费项单价函数调用次数0.002元/万次GPU 使用量0.00005元/GB*秒GB 级镜像实例秒级启动挑 战典型负载模式:一次性提交大量任务,启动数百-数千实例处理共享存储带宽有限,大规模实例启动打满带宽共享存储延时 10-20 ms,比块存储慢 10X 以上思 路镜像中存在大量冗余数据,按需加载远端数据结合多种存储服务构建层次化的缓存体系通过负载感知的方式最大化缓存效果结 果块存储的性能,共享存储的成本GB 级镜像启动开销 3 秒SD 78GB 模型启动 20 秒最大镜像支持 15 GB实例节点共享存储(对象存储 oss)L2 缓存,跨机器传输,延时 90%IO 实时公平流控数据来源于阿里云业务数据AI 应用的集成:一键部署 AI 应用函数计算NASPAIGreenWebOSSAI 应用场景/行业基于开源模型和通义千问进行图片生成,旅游攻略等内容生成内容电商数据归因分析、内容生产、话术整理等直播预料问答教育/客服Serverless 开发平台基础能力应用管理多环境流水线/CICD可观测能力WebIDEAI 场景特定能力场景化模板案例排队模型内容安全默认 API/UI基础模型管理致力于构建现代化高可用 AI 应用最短路径ModelScopeHuggingFaceCivitai通义千问其它大模型Custom(自定义)Custom(自己项目)云市场通义千问应用市场其它大模型Plugin 函数计算 AI 开发模式啥都没有,思路探索AI 场景将会提供 Stable Diffusion,LangChain,OCR 等多种形式的 AI 应用案例,用户可以一键选择,快速部署,直接使用HuggingFace/ModelScope用户只需提供 HuggingFace、Modelscope的模型地址/创空间地址,即可快速构建 AI 应用,并天然具备 API 调用能力或 UI 使用能力热门场景/热门模型针对行业内热门应用、场景、模型,提供定制化 UI,进一步提升使用体验,例如 Stable Diffusion 应用提供包括模型管理在内的应用管理页面有模型,有代码,随时可用只有模型、只有代码、或有模型又有代码的用户,可以使用通用的 Serverless 应用管理能力/Web 应用管理能力,帮助用户更好,更方便的使用函数计算开发者函数计算消息中间件绿网硬盘挂载数据库对象存储私有网络 用户API 调用UI 使用应用案例上传模型上传代码代码仓库Serverless 开发平台AI 应用场景应用管理可观测应用流水线云上开发模型管理域名管理安全管理开发流程多环境Serverless AI 应用案例Serverless 函数计算 GPU 应用场景选型指南(针对推理)您的工作负载是在线还是离线任务?您的工作负载对延迟是否敏感?您的工作负载对 GPU集群的利用率高吗?您的 GPU 工作负载是否有成本高、弹性慢、运维复杂的困扰?选择自建 GPU 集群选择【函数计算 GPU】异步调用模式(支持异步任务状态管理)选择【函数计算 GPU】同步调用 准实时推理(自动弹性伸缩,有秒级冷启)YesNo在线离线NoYesNo秒级延迟毫秒级延迟选择【函数计算 GPU】同步调用 实时推理(GPU 预留 自动弹性伸缩)60%我很有钱降本提效Serverless 应用中心一键部署 SD 应用Serverless 应用中心一键部署知识库应用Stable Diffusion WEB UIStable Diffusion 后台专属 Stable Diffusion 环境Serverless函数计算平台大语言模型知识库应用Serverless函数计算平台AIGC 应用场景秒级弹性大规模 GPU 集群按量付费降本提效应用中心一键部署GPU 资源免维护如何快速体验、快速上手如何方便快捷的部署使用如何高效率、低成本落地如何高可用、高性能运行人人都可以拥有自己“专属”的 AIGC 环境优秀的开发者体验提效降本的现代应用心智快速弹性的 CPU GPU 实例完备的开发者套件AI 应用一键部署,快速上手;AI 应用一键多环境划分,标准 GitOPS 流程;ModelScope 一键托管;AI Plugin一键发布到通义千问;阿里云函数计算与应用中心,具备与生态连通,与开源结合,快速上手、一键部署的完整通路,优秀的开发者体验。高效能低成本进行 AI 应用的开发与部署是无数 AI 开发者/企业的重要关注点,Serverless 架构凭借高资源利用率与按量付费模式,以及服务端免运维的开发者心智,成为一众 AI 开发者/企业的首选;完备的开发者套件,是开发者将 AI 应用部署到云原生架构必不可少的一环,在这一部分,阿里云 Serverless 架构拥有Serverless Devs,应用中心等完备的开发者套件,可以帮助开发者从 0 到 1 再到 N,将业务 Serverless 化,并提供全生命周期管理能力。GPU 实例是 AI 领域不可或缺的计算资源,在高昂的成本下,可弹性,且可快速弹性的 GPU 实力成为 AI 应用不可获取的部分。阿里云函数计算拥有快速弹性的GPU 实例,以及大规格的函数计算性能实例,这部分是承载 AI 应用稳定、高性能推理的重要环节。Stable Diffusion 与平台集成实践方案企业级内部设计平台使用中心化批量出图模式AI创作设计解决方案合作SD WebUIServerless GPU函数与用户映射阿里云SD WEBUI服务秒级创建和销毁支持1人多卡调度,按量使用,即开即用模型/图片统一管理专属性能加速定制插件AK 校验企业自主设计平台portal内部账号体系与阿里云大账户打通团队成员的账单可以结算到人SD API 处理Serverless GPUFC 异步队列提供WEBUI api/diffuser api 两种api调用方式API异步队列调用秒级资源动态弹性伸缩动态切换lora、controlnet模型亲和调用API接口对接个性化 C 端APP/web 调用Serverless WebUI-方案优势解析优势项社区webui自建webuiServerless WebUI部署方式台式PC安装,需要3090/4090等桌面级显卡支持,用户自行安装部署webui购买GPU服务器搭建webui服务,用户自行安装部署webui一键拉起,预置好标准镜像,即开即用模型、插件管理开源安装后,git下载到本机,需要用户diy,概率性存在因网速、环境等原因下载插件时卡死开源安装后,git下载到本机,需要用户diy,概率性存在因网速、环境等原因下载插件时卡死预置中英双语版本、controlnet、pix2pix等常用插件,模型、插件、输出图片等目录支持挂载为oss共享存储目录,可统一管理和维护,webui服务重启不受影响性能优化webui原生提供lowvram、xformer等加速方式ecs提供AIACC加速器默认支持模型以及镜像加速能力企业级特性单机版,不具备企业级特性需要自建调度系统,处理用户与GPU实例之间的对应关系,将用户调度到指定webui服务,但是无法实现在一个webui服务上实现多卡调度1.多人团队可通过独享 SD 函数,使用互不干扰2.支持单服务多卡集群按使用量弹性伸缩,保证集群使用率3.提供账号体系,支持用户鉴权,按用户身份区分可看到的模型、图片成果4.按请求收费,按使用量收费,毫秒计费特殊辅助插件跟社区一致跟社区一致1.模型及对应的高质量提示词自动关联提示2.基于模型的提示词扩展3.训练/finetune插件,隔离训练/出图使用资源服饰穿搭实践LoRA训练Tag 生成|编辑训练ControlNet成果展示1成果展示2图片有 AI 生成大语言模型知识库应用场景智能客户聊天社区自动问答医疗领域问答电商平台搜索问答IT/HR 系统智能问答智能教育辅导如企业客服,通过与呼叫中心/聊天机器人服务结合,可自动基于企业知识库就客户提出的问题进行聊天回复;如RocketMQ开源知识社区,专门针对RocketMQ领域的知识问答及代码示例;如游戏社区使用游戏的信息(例如游戏介绍,游戏攻略等)构建社区知识库,自动回复社区成员提供的问题;如罕见病专业知识回复,有限医疗资源情况下进行自助服务;如中医知识问答,针对海量的中医知识进行归纳汇总,解答病患问题;儿童保健及护理,儿童常见病咨询,营养咨询等如使用商品信息搜索,使用商品信息构建商品数据库,消费者可通过检索 问答的方式快速了解商品的详细信息;如特定商品检索,如节日礼物,周年庆,亲情礼品等,根据特定信息进行定制检索,快速触达用户如使用企业内部 IT/HR 使用手册构建企业知识库,企业内部员工可通过该知识库快速解决在 IT/HR 上遇到的问题。如使用教材和题库构建不同教育阶段的知识库,模拟和辅助老师/家长对孩子进行教学。大语言模型知识库的基本原理私域数据向量化将非结构化内容进行向量处理01输入提示词预埋将用户的输入问题,跟系统问答的预埋提示词整合作为大模型输入02大模型结果输出解构化对大模型输入的内容进行结构化输出03基本流程技术细节架构图l 1.LLMl 2.embeddingl 3.controlled text generation知识库问答UnstructuredLoader本地文档内部数据TextTextSplitterTextChunksEmbeddingVectorStoreVectorSimilarityQueryVectorTop KRelatedChunksEmbeddingPromptTemplatePromptLLMResponseQuery用户身边 0 成本的“高级技术专家”,致力于提升云原生产品使用体验、降低云原生应用生产门槛函数计算产品 基于云原生大模型智能问答实践知识问答领域知识专家利用大模型技术实现云原生资源配置的交互式创建、修改与应用等,提升资源维管效率集成云原生已有的系统诊断能力,面向业务应用构建具备全栈技术能力的辅助诊断助手面向云原生中间件产品,实现云原生动态脚手架应用快速构建,降低业务应用构建门槛面向云原生打造云原生知识大脑资源生成面向容器,生成云原生资源配置应用构建面向中间件,构建云原生业务应用故障诊断面向应用,整合全栈故障诊断能力云原生大模型践行可扩展架构设计,便于更多的云原生产品因大模型技术而受益整体系统架构知识库清洗/分块特征提取知识多路召回GatewayPilot Server场景识别KubernetesPOP 服务接口Prometheus大语言模型知识图谱审计日志场景服务接口输出渲染通义千问模型(微调)ARMS 应用监控接口应用脚手架构建服务知识召回模型生成插件调用知识大脑接入服务中枢系统(评估中)认证授权对话接口公开数据内部数据已接入/实现模块支持扩展模块阿里云产品模块Widget开发IDE云服务图例LLM ProxyPlugin Server统一知识大脑访问接口内置插件扩展插件利用大模型快速理解用户诉求,匹配合适的触发器设置、生成满足业务诉求的脚手架代码函数创建代码自动生成创建一个函数,当发现ARMS应用下线时发送一个消息到消息队列云原生大模型请输入您的问题触发器配置:触发器类型:应用实时监控服务事件类型:arms:Agent:OffLine调用方式:异步调用函数代码:def handler(environ,start_response):logger=logging.getLogger()logger.info(Publish To TestTopic)status=200 OK触发器自动配置创建函数通过云原生大模型对话式唤起现有Serverless监控面板,面向应用整合常见Ops操作监控运维ServerlessServerless 函数监控大盘函数监控大盘ServerlessServerless 函数操作终端函数操作终端对话式监控对话式监控&Ops&Ops方式方式现有监控方式现有操作方式ChatOpsServerless监控图表云原生大模型辅助诊断云原生大模型执行操作

    浏览量0人已浏览 发布时间2023-12-08 27页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国移动研究院:善智者动于九天之上(2023)(20页).pdf

    2023 移动云杯 演 讲 人 中 国 移 动 研 究 院 袁 向 阳2023移动云杯构 建 面 向 通 用 智 能 时 代 的 大 模 型 体 系02共 建 共 享 人 工 智 能 开 放 合 作 新 生 态03中 国 移 动 九 天 人 工 智 能 创 新 发 展 与 实 践012023 移动云杯01中国移动九天人工智能创新发展与实践2023 移动云杯组建高水平研发团队在央企中超前布局人工智能中国移动集团AI人才超1500人成立“九天”人工智能特区IEEE Fellow、中国移动集团级首席科学家 冯俊兰 博士领衔AI人才投入2013 攻关智能客服和大数据分析沉淀平台、拓展语音、图像领域 正式发布九天人工智能平台 成立九天团队“特区”“九天”成为集团人工智能品牌起步探索跨越发展 获批建设“智慧网络国家新一代人工智能开放创新平台”牵头组建“中央企业人工智能协同创新平台”201920222016拓展突破全面布局300 家外部客户科创国家队央企领头羊39亿 年赋能价值27 大领域智能化应用牵头组建“中央企业人工智能协同创新平台”建设“智慧网络国家新一代人工智能开放创新平台”承担国家级科创项目承担科技部、发改委、国资委、工信部、教育部共 16 项人工智能重大重点项目丰富的能力供给领先的技术水平显著的赋能成效129 篇顶会顶刊论文19 大国际竞赛(DNS 2022、CIKM AnalytiCup等)TOP10742项发明专利研发大模型:通用大模型 行业大模型研发 全领域算法:200 视觉、语音、NLP等算法100 网络智能化算法7.2万亿 能力调用次数智能交互平台AutoX平台AI能力平台深度学习平台智能推荐平台网络智能化平台毕昇教育平台城市AI平台基础大模型客服、政务等行业大模型100 项:网络智能化200 项:视觉、语音、NLP.医疗工业交通教育政务管理市场网络安全客服基础设施层平台能力层应用层2023 成立九天人工智能研究院 打造国资人工智能大平台2023 移动云杯个人应用(C)家庭应用(H)政企应用(B)网络应用(N)管理应用(M)300 单位10亿 客户39亿 年赋能价值2023 移动云杯智能编排智能调度模型部署插件管理知识向量化基于体系化人工智能的算、网、智一体化服务运营 入 驻 通 用 大 模 型开 源 通 用 大 模 型 算 力 网 络大 规 模 智 算 中 心人工智能训推技术服务平台九 天 基 础 大 模 型九 天 行 业 大 模 型 模型评测大小模型协同模型体验数据汇聚安全审核大大大9.4 EFlops算力规模算力网络前瞻布局5.5 EFlops超大单体智算中心训推一体九天人工智能平台打造新型MaaS能力汇聚700PB高质量数据共建共享九天众擎基座大模型自主攻坚九天基础大模型打造多类行业大模型2023 移动云杯多 种 类 型 基 础 大 模 型特 色 一特 色 二特 色 三在71%的中文测试集主流指标上,超过业界同等参数规模模型3B/7B/57B/100B 中国移动自主构建语言、视觉、语音等多种类型大模型,具备供给侧增强、持续训练、异构软硬件灵活部署几大显著的技术特色,整体性能指标实现国内主流水平,能更好满足企业全场景全部署的大模型落地需求2023 移动云杯测评系统智算引擎 九 天 基 础 模 型通 信能 源航 空医 疗政 务建 筑交通运输基础设施冶 金人 工 智 能 训 推 技 术 服 务 平 台算 力 网 络大 规 模 智 算 中 心数 据 汇 聚 平 台01自主技术攻坚 以九天基础模型为基础,联合通信、能源、航空等行业的骨干企业,共建共享“九天众擎”基座大模型,加速国民经济主体行业的智能化转型升级,促进我国战略性新兴产业发展,带动我国整体生产力提升 训练数据规模超两万亿Tokens,融合通信、能源、钢铁、建筑、交通等8大行业专业知识,叠加专项训练和优化自主设计自主开发全链路核心技术掌控03安全可信可控完善安全保障机制解决幻觉痛点05专业高效服务快速响应持续支持赋能全场景业务需求两万亿Tokens融入8大行业知识专项训练和优化02行业定向增强开放算力基础模型训推平台04普惠开放共享2023 移动云杯共建共享大模型预训练、微调、推理一体化研发工具链,提供提供PaaS大模型训推一体化研发能力和新型MaaS(模型即服务)能力,降低大模型在行业应用门槛申请体验地址:http:/jiutian.hq.cmcc/largemodel/llmstudio/大模型体验私域知识增强及业务助手技术特色面向企业智能化转型痛点提供简洁极致的用户体验打造开放的插件集成生态实现与业务的快速闭环落地2023 移动云杯强稳健性,在业务稳健性和大模型多样性之间取得平衡高可控性,实现大模型和信息场的联动复杂AI系统强系统集成能力网络大模型客服大模型海算政务大模型.医疗大模型司法大模型能源大模型运输大模型航空大模型 10月中国移动合作伙伴大会发布九天网络大模型,升级客服、海算政务大模型2023 移动云杯02构建面向通用智能时代的大模型体系2023 移动云杯提供基础专业数据行业大模型复杂系统AI及强系统集成能力持续学习行业规范与知识高动态自适应强任务主导性高准确率高可靠性符合生产指标基础大模型强信息集成能力强理解能力强生成能力2023 移动云杯03共建共享 人工智能开放合作新生态2023 移动云杯关键技术联合攻关构建先进智算基座共建大模型,增强九天行业市场落地能力共同制定AI标准,以开源带动产业技术发展基于“九天揽月”人工智能产业合作计划,全新设立“九天”人工智能大模型开放合作生态。目前已有36家合作伙伴加入“九天”人工智能大模型开放合作生态,包括9家高校和新型研发机构、17家人工智能基础软硬件骨干企业、1家三甲医疗机构、5家中央企业、4家行业和标准化组织2023 移动云杯移动云 九天=智慧云AI能力面向中小AI企业、垂直行业客户以及开发者在移动云上提供了丰富的九天人工智能产品,现已累计开放超过50项AI能力智算服务面向大规模AI算力需求的企业机构及开发者用户,基于移动云的丰富AI算力资源,通过九天智算平台提供新型的智算服务2023 移动云杯AI能力50 OCR平均准确率95%服务可用性99.95%数据可靠保障99.9999个9智算训练可视化建模深度学习智算推理模型仓库镜像仓库模型服务领域定制平台智能交互平台行业领域定制平台OCR定制平台语音定制平台大模型服务平台智算平台AI能 力情感分析机器翻译知识图谱卡证票据人脸识别文档识别口罩检测区域入侵检测打架斗殴检测文本审核图像审核WEB审核基础大模型行业大模型.语音识别语音合成语音扩展智能交互平台RPA流程机器人自然语言处理图像能力视频解析内容审核大模型智能语音智能服务微调/精调增量训练SFTRLHF模型评估部署/推理Prompt插件库调试编排智能体2023 移动云杯九天毕昇平台 开设AI教学课程 可无缝对接实验 提供作业实践环境 提供丰富算力 预置主流算法框架 性能业界领先 提供丰富AI竞赛 联合开设挑战赛 大创项目支撑平台 提供在线笔试环境 预置大量历年真题 实习岗位发布教学实训科学研究创新活动实习就业九天毕昇平台全面赋能AI教学、实训、科研、双创、就业求职等全场景,开放并支持与高校共建AI人才培养新模式随时在线的云端教学平台授课/实验/作业/考试闭环降低优质授课服务边际复制成本高品质的产教融合课程资源适配平台环境的实验代码充沛的CPU/vGPU算力2023 移动云杯九天已服务高校300 所,为18万 用户提供服务2023 移动云杯移动云API大赛辽宁AI创意赛AI 创新创业大赛智能网络AI建模赛无线大数据竞赛海洋目标挑战赛智慧城市专题赛无线大数据竞赛复杂网络建模赛工业质检赛中国移动创马赛互联网 大创赛兴智杯人工智能专题赛计算机设计大赛CCF数据与计算智能大赛中国软件杯大赛校内“九天杯”AI打榜赛校内“九天杯”AI打榜赛中国大学生服务外包大赛中国软件杯大赛互联网 大创赛算网创新大赛.累计支持竞赛超过 30 场,服务选手超过 13000 人“九天”智慧网络专题赛2023 移动云杯提交作品75份报名人数392人报名团队264支暨高校赛道九天应用赛题

    浏览量0人已浏览 发布时间2023-12-08 20页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 计算机·人工智能行业GPTs更新(二):视频应用凸起-231203(16页).pdf

    请务必阅读正文之后的免责声明及其项下所有内容20232023年年1 12 2月月3 3日日GPTsGPTs更新更新(二)(二)视频应用凸起视频应用凸起行业研究行业研究 行业专题行业专题 计算机计算机 .

    浏览量0人已浏览 发布时间2023-12-08 16页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 计算机行业AIGC系列报告(五):大模型多模态应用深化AI Agent为应用普及提速-231204(16页).pdf

    敬请阅读末页的重要说明 证券研究报告|行业深度报告 2023 年 12 月 04 日 推荐推荐(维持)(维持)AIGCAIGC 系列报告(五)系列报告(五)TMT 及中小盘/计算机 追踪当前追踪当前.

    浏览量0人已浏览 发布时间2023-12-08 16页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 边缘AI行业深度:发展趋势、相关机遇、产业链及相关公司深度梳理-231204(31页).pdf

    1/31 2023 年年 12 月月 4 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 边缘边缘AI行业行业深度:深度:发展趋势发展趋势、相关机遇相关机遇、产产业链业链及相.

    浏览量0人已浏览 发布时间2023-12-07 31页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • AI PC行业深度研究报告:AI PC革新端侧AI交互体验PC行业有望量价齐升-231206(27页).pdf

    证 券 研 究 报证 券 研 究 报 告告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210 号 未经许可,禁止转载未经许可,禁止转载 行业研究行业研究 消费电子消费电子 20.

    浏览量0人已浏览 发布时间2023-12-07 27页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • AI PIN深度:概述、历史意义、产业链及相关公司深度梳理-231204(15页).pdf

    1/15 2023 年年 12月月 4 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 AI PIN深度:深度:概述概述、历史意义历史意义、产业链产业链及相及相关公司深度梳理. 

    浏览量0人已浏览 发布时间2023-12-07 15页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 毕马威:人工智能全域变革图景展望:跃迁点来临(2023)(54页).pdf

    人工智能全域变革图景展望:跃迁点来临(2023)2023年12月1 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)卷首语风起于青萍之末,浪成于微澜之间。由ChatGPT所带来的新一轮人工智能热潮迅速席卷全球,可以被看作是推动数字经济时代生产力范式变革的标志性产品。人工智能的广泛应用将给人类未来的生产和生活方式带来巨大而深远的影响,并有望作为新的底层通用技术,点燃第四次科技革命!值此产业重要机遇期,毕马威携手中关村产业研究院通过行业调研和专家访谈,结合深入研究在本报告中共同发布了人工智能产业未来发展的十大趋势,期待能为AI产业界带来有益参考,锚定机遇,化解挑战。近年人工智能发展突飞猛进,全行业领域均面临如何融合应用智能技术的关键之问,巨大应用潜力背后是新硬件、新算法、新数据的全面涌现。我们有幸见证人工智能领域新技术应用释放出的巨大新产业、新业态、新经济潜力,正如题目所言,我们正处在“跃迁”的关键时点。在此时机中关村产业研究院联合毕马威发挥智库作用,对人工智能全域变革图景的探讨非常有意义,我们期待以此为起点,见证更多人工智能领域创新主体的蓬勃活力与成绩,见证人工智能全域变革的未来!江立勤毕马威中国客户与业务发展主管合伙人娄毅翔中关村发展集团副总经理 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。目录导读03中国人工智能产业洞察13人工智能产业发展十大趋势25关于毕马威5005关于中关村产业研究院51 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。全球人工智能产业洞察06一、全球人工智能企业格局08二、全球人工智能产业生态14一、中国人工智能企业格局16二、中国人工智能产业生态26一、技术变革33二、应用创新39三、安全治理43四、生态协同3 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)导读人工智能技术的飞速发展给人类社会的生产生活方式带来重大变革影响。人工智能应用场景日渐丰富,AI技术在金融、医疗、制造、交通、教育、安防等多个领域实现技术落地。人工智能的广泛应用及商业化,加快推动了企业数字化转型、产业链结构重塑优化以及生产效率的提升。人工智能产业链划分为基础层、技术层、应用层,本篇报告定义人工智能核心层为基础层和技术层,人工智能核心企业为处于基础层、技术层的企业。人工智能基础层包含数据、算力、算法三驾马车,代表性企业1有英伟达、百度、地平线机器人等。人工智能技术层主要包含计算机视觉与模式识别、自然语言处理、类脑算法、语音技术、人机交互五类,代表性企业2有OpenAI、旷视科技、智谱华章等。人工智能应用层包含所有AI技术与传统应用结合形成的产业种类(图1)。图1:人工智能产业图谱1结合CB Ranking排名和全球AI企业投融资情况列出三家国内外企业2同上应用层制造业交通运输业医疗业金融业文娱业基础研究工业质检工业远程控制预测性维护具身智能调用自动驾驶高精定位车路协同智能物流医疗影像远程医疗药物研发临床决策支持银行风控金融科技客户服务个性化推荐泛娱乐元宇宙游戏超高清视频量子物理能源科学材料科学天文探索技术层计算机视觉与模式识别自然语言处理类脑算法语音技术人机交互特征提取三维重建图像识别文字识别知识图谱信息抽取机器翻译问答系统脉冲神经网络增强学习对抗式神经网络语音合成声纹合成语音增强视觉交互音频交互传感器交互通用大模型行业大模型训练基础层数据算法算力数据生命周期管理数据采集数据传输数据存储数据清洗数据共享数据销毁数据安全数据脱敏管理数据监控审计数据分类分级安全事件应急数据治理数据资产管理数据挖掘数据标注数据中台AI开放平台AI开源框架TensorFlowPyTorchOpenCVCaffeAngelPaddlePaddleAI芯片云服务GPUFPGACPURISC-VASIC类脑芯片SaaS公有云PaaS私有云IaaS混合云异构智能计算服务器数据来源:中关村产业研究院绘制4 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)安全治理生态协同本报告从人工智能产业的全球情况和中国情况出发,分析人工智能产业发展现状,并结合市场观察提出了人工智能产业的十大趋势,深度剖析了各个趋势的发展情况与核心驱动力(图2)。图2:报告思路框架示意图数据算法算力AIGCAI4S具身智能脑机接口AGI制造交通医疗金融基础研究应用创新技术变革落地千行百业,开启智能未来人工智能产业发展洞察 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。资料来源:中关村产业研究院,毕马威分析 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。全球人工智能产业洞察6 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)一 全球人工智能企业格局全球人工智能产业洞察4中关村产业研究院数据库美国人工智能企业数量位居全球首位,中国紧随其后,英国位居全球第三。美国人工智能企业数量约1.3万家,在全球占比达到33.6%,中国占比为16.0%,英国为6.6%,以上三个国家的人工智能企业数量合计占到全球的56.2%(图4)。亚洲的印度、日本、韩国,北美的加拿大,欧洲的德国、法国等国家也具有较好的基础,位居第二梯队。图3:2013年-2022年全球当年新增AI注册企业数量1,124 1,541 2,306 3,079 3,714 3,695 3,100 2,693 1,940 1,106 0040002013年2014年2015年2016年2017年2018年2019年2020年2021年2022年家数据来源:Crunchbase,中关村产业研究院、毕马威分析图4:全球人工智能企业主要分布国家美国中国英国印度加拿大德国日本以色列法国韩国数据来源:Crunchbase,中关村产业研究院、毕马威分析12,9255,7342,3572,0801,5151,23398996793886050-2000501-10000 5000 10000全球人工智能企业数量由爆发式增长转入稳步增长区间。截至2023年6月底,全球人工智能企业共计3.6万家4。人工智能企业数量逐年增长,2016年-2019年全球人工智能企业爆发式增长,每年新增注册企业数量超3,000家(图3),尤其是2017年新增注册企业数量达到顶峰(3,714家)。2019年开始,人工智能新增注册企业数量有所下降,2022年当年新增注册企业数量与2013年基本持平。01全球人工智能企业3.6万家,中美企业数量名列前茅7 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)5据中关村产业研究院数据统计,数据统计截至2023年6月30日图5:全球人工智能独角兽企业按国家分布情况数据来源:中关村产业研究院数据库,毕马威分析美国中国以色列英国加拿大印度法国德国新加坡其他131家108家8家8家6家5家4家3家3家15家截至2023年6月底,全球人工智能领域独角兽总数达291家5,分布在20个国家。如图5所示,来自美国的独角兽企业有131家,占全球总数的 45%;来 自 中 国 的 独 角 兽 企 业 有 108家,占全球总数的37%。以色列、英国、加拿大分别位列全球第三、第四、第五位。02中美在全球人工智能独角兽中平分秋色8 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图6:2018年-2023年上半年全球人工智能企业融资及占比情况数据来源:CB Insights,中关村产业研究院、毕马威分析27332469.412.010.910.911.018.905006008002018年2019年2020年2021年2022年2023年上半年融资金额(亿美元)人工智能占全球风险投资比重(%)人工智能领域企业融资占全球风险投资比重逐年提升。受宏观政策变化等因素影响,全球人工智能企业风险投资放缓,2022年投资案例2,956起,披露投资金额458亿美元;2023年上半年风险投资案例下降,披露投资金额246亿美元,较上年同期下降14.6%(图6)。不过,全球人工智能企业风险投资案例数和融资金额占全球风险投资比重逐年提升,2023年上半年全球人工智能企业获得风险投资占全球风险投资总额比重达18.9%,创近年新高。二 全球人工智能产业生态全球人工智能产业洞察01人工智能领域全球风投热度持续提升9 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)数据来源:CB Insights,中关村产业研究院、毕马威分析图7:2022年全球主要国家人工智能企业融资规模占比美国以色列印度日本法国其他58%7%5%3%2%1%1%美国仍是人工智能领域风险投资重要聚集地。从国家分布来看,美国人工智能企业吸引风险投资最多,风险投资金额占全球比重近六成,其次是中国,占比达12%(图7)。9中国英国德国人工智能全域变革图景展望:跃迁点来临(2023)10 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)具体来看,在2022年全球AI领域投融资最多的前十大案例中(表1),50%的案例发生在美国,涉及游戏、航天航空、安防、云原生和可再生能源等;中国上榜企业分别是智表1:2022 年全球AI领域融资金额Top10序号公司名称数据来源:CB Insights,中关村产业研究院、毕马威分析01Epic Games02SpaceX03Anduril04Securonix05地平线机器人06VerSe Innovation07Intersect Power08Coda Payments09PhotonDelta10粤芯半导体美国私募2022/4$2.0B$31.5B游戏美国未披露2022/5$1.7B$127.0B航天航空美国E轮2022/12$1.5B$8.5B安防美国D轮2022/2$1.0B-云原生中国战略投资2022/10$1.0B-智能驾驶印度J轮2022/4$805M$5.0B移动端软件美国风投2022/6$750M-可再生能源新加坡C轮2022/4$690M$2.5BWeb端软件荷兰未披露2022/4$681M-芯片&半导体中国B轮2022/6$671M-芯片&半导体国家轮次时间融资金额估值产业方向能驾驶公司地平线机器人和芯片及半导体公司粤芯半导体。此外,也有来自印度、新加坡和荷兰的企业进入榜单。11 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)6中关村产业研究院根据CSRankings整理。CSRankings(全称Computer Science Rankings),是对全球顶尖计算机科学机构进行的排名,以全球计算机科学领域学者在顶级学术会议上发表的论文数量作为排名指标。2023年,CSRankings共分为人工智能、系统、理论、跨学科四个大领域以及27个细分领域。本报告使用的所有数据均截止至2023年6月30日,下同。7AMiner,数据统计截至2023年6月30日8AMiner,数据统计截至2023年6月30日图8:全球拥有Top100人工智能核心层相关专业的学校数量分布数据来源:CS Ranking,中关村产业研究院、毕马威分析美国中国德国英国加拿大以色列澳大利亚新加坡其他55所4所12所3所4所4所5所6所14所1,131人次277人次108人次107人次60人次39人次36人次32人次19人次18人次美国中国英国德国加拿大澳大利亚新加坡瑞士法国日本数据来源:Aminer,中关村产业研究院、毕马威分析图9:全球人工智能领域顶尖人才国家分布情况人工智能技术的蓬勃发展离不开人才和科研院所的加持。从顶尖科研院所6来看,人工智能核心层全球前100的排名机构中,美国占据55所,中国以14所排名第二,德国和英国分列第三和第四位(图8)。从全球人工智能人才7情况来看,美国人工智能人才数量全球最多,人才数量遥遥领先于其他国家。美国入选2023年AI20008的学者数量最多,共有1,131人次,占全球总数的56.6%;其次是中国,共有277人次入选,全球占比约七分之一(图9)。02美国人工智能核心层学科领域高校实力强劲,人才数量大12 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)从全球人工智能最具创新力城市百强榜单9来看,美国、中国上榜城市数量最多,分别为33个和19个。再从全球前十上榜城市来看,美国占据3位,其中旧金山湾区、纽约分别图10:全球人工智能最具创新力城市Top100按国家分布情况数据来源:Aminer,中关村产业研究院、毕马威分析33美国19中国13其他6德国5澳大利亚5加拿大5英国2法国2韩国2日本2瑞士2西班牙2意大利2印度9Aminer,全球人工智能最具创新力城市的创新指数主要从论文、学者、机构、国际四个细分方向评估位居全球首位和第三位,中国仅北京上榜全球前十,位列全球第二位(图10)。美国中国德国澳大利亚加拿大英国法国韩国日本瑞士西班牙意大利印度其他03中美城市人工智能创新实力领先 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。中国人工智能产业洞察14 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图11:2013年-2022年中国年度新增注册AI企业数量10中关村产业研究院人工智能企业数据库数据来源:中关村产业研究院,毕马威分析6528463005006002000022当年成立的人工智能企业数(家)年份中国人工智能企业数量位居全球第二位,核心企业5,000余家。我国人工智能领域企业密集诞生在2015年至2018年之间,约三分之二的人工智能领域核心企业成立年限在5-10年2017年人工智能领域新增注册企业数量超500家,达到十年间顶峰。随着有效投资增长乏力,后逐年减少,2022年新增注册企业数减少到63家(图11)。2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。一 中国人工智能企业格局中国人工智能产业洞察01中国人工智能领域核心企业5,000余家1015 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图12:中国主要省市人工智能企业分布情况17家21家28家34家50家54家64家65家73家80家85家151家407家466家897家1,104家1,638家北京市香港特别行政区广东省上海市浙江省江苏省四川省安徽省湖北省福建省山东省陕西省天津市湖南省重庆市河南省辽宁省400101-40010-1000-9人工智能企业主要集聚于北京、广东、上海、浙江等地。从地域来看,我国人工智能企业主要集中在北京市、上海市、广东省、浙江省,形成京津冀、长三角、粤港澳三足鼎立的格局(图12),其中北京市人工智能企业数量1,600余家。数据来源:中关村产业研究院,毕马威分析北京、上海、广东独角兽数量位居前三。中国人工智能独角兽企业数108家,其中,北京市有41家,位居全国首位。上海市和广东省位列二、三,分别拥有人工智能独角兽企业24家和23家(图13)。11中关村产业研究院人工智能企业独角兽数据库图13:全国人工智能独角兽企业分布情况数据来源:中关村产业研究院,毕马威分析北京41家上海24家广东23家浙江8家山东2家其他4家江苏6家02人工智能企业地域分布较为集中16 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图14:近十年中国人工智能领域股权投资情况数据来源:IT桔子,中关村产业研究院、毕马威分析融资规模增速有所放缓。受行业发展、资本市场环境变化等宏观环境因素影响,人工智能行业投融资活动在经历2014年-2017年快速增长至2017年峰值后虽有所回落,但仍保持较高水平(图14)。2022年中国人工智能行业投融资数量和金额均出现下滑。人工智能领域投资阶段后移特征明显。从投资阶段来看,随着科创板等对高科技企业的加持,AI领域的投资逐渐从天使轮等早期投资阶段向C轮、D轮等晚期投资阶段,投资阶段后移特征明显。天使轮投资占比由2013年的36%下降至2022年的11%(图15)。0 0 00022天使轮种子轮A轮B轮C轮D轮E轮F轮G轮H轮战略投资Pre-IPO数据来源:IT桔子,中关村产业研究院、毕马威分析图15:近十年人工智能领域股权投资按投资阶段划分01中国人工智能股权投资阶段后移特征明显,细分领域走势分化050002500300035000200400600800320002020212022当年投资金额(亿元)投资案例(起)投资案例当年投资金额二 中国人工智能产业生态中国人工智能产业洞察17 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图16:“三驾马车”各细分领域投资事件和投资额情况从细分领域来看,算力、数据平台、自然语言处理、计算机视觉与图像四个细分领域风险投资增速明显加快;机器学习、深度学习等领域风险投资趋缓(图16)。数据来源:IT桔子,中关村产业研究院、毕马威分析*数据截止至2023年10月共936936起投资事件,总投资额为6,6756,675亿亿人民币229802012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年算法92441981142012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年共1,7291,729起投资事件,总投资额为3,2003,200亿亿人民币24321181382012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年共243243起投资事件,总投资额为692692亿亿人民币456年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年共254254起投资事件,总投资额为1,1771,177亿亿人民币自然语言处理领域计算机视觉与图像机器学习领域深度学习领域共703703起投资事件,总投资额为1,6991,699亿亿人民币模式识别领域共755755起投资事件,总投资额为4,5314,531亿亿人民币算力领域582012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年算力数据共981981起投资事件,总投资额为1,4961,496亿亿人民币共128128起投资事件,总投资额为326326亿亿人民币数据平台领域数据挖掘领域8284602012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年6868352012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年9232012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年18 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图17:AI应用领域投资事件和投资额情况人工智能技术已广泛渗透到社会各个领域,生活服务、智慧医疗、智能制造、智能汽车、物流仓储投资事件较多,占人工智能全部投资事件的75.7%(图17)。共7,2237,223起投资事件,总投资额为25,30125,301亿亿人民币共2,2642,264起投资事件,总投资额为6,0716,071亿亿人民币共1,7761,776起投资事件,总投资额为4,9044,904亿亿人民币共1,0091,009起投资事件,总投资额为7,5407,540亿亿人民币生活服务领域智慧医疗领域智能制造领域智能汽车领域0561972012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年共786786起投资事件,总投资额为4,2524,252亿亿人民币物流仓储领域6098292073662332012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年2425625220522012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年702521891332012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年3827589271127732012年2013年2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年233数据来源:IT桔子,中关村产业研究院、毕马威分析*数据截止至2023年10月19 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图18:近十年人工智能领域股权投资地域分布Top10数据来源:IT桔子,中关村产业研究院、毕马威分析人工智能地域集聚趋势明显,北京有领先优势。从地域分布来看,人工智能领域风险投资主要集中在北京市、上海市、广东省、浙江省和江苏省等五省市。具体来看,北京市股权投资案例数量和金额均在全国遥遥领先,其中投资金额是上海市的4倍有余,是广东省的近7倍(图18)。地域投资案例(起)投资金额(亿元)北京上海广东浙江江苏湖北山东福建安徽四川2,5721,2631,3372811148,5461,9481,30572952人工智能全域变革图景展望:跃迁点来临(2023)1920 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)中国人工智能领域高校及科研院所数量位居全球第二12,其中,技术层专业(如:计算机视觉、自然语言处理等)实力优势明显。选取基础层、技术层、应用层每层专业课程实力排名前10的中国高校院所,观察中国Top10在国际院校排名情况,可以看出,我国技术层前十的高校集聚在全球排名前30,但在基础层和应用层排名前十的高校,仅入选全球百强(图19)。图19:中国人工智能领域科研院所在世界Top100分布情况AI基础层10th20th30th排名AI应用层AI技术层40th50th60th70th80th90th100th注:气泡大小代表我国高校的数量,气泡位置代表我国高校在世界top100的排名数据来源:CS Ranking,中关村产业研究院、毕马威分析12 CSRanking02中国技术层学科实力全球相对优势明显21 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)2023年,中国入选Aminer“全球2000位最具影响力的人工智能学者榜单”的人数达277人(图20),相较美国仍有较大差距,存在顶尖人才少、复合型人才缺失、人才供给不均衡等问题。以北京为例,北京AI产业位居全国第一,但产业人才仍有较大缺口。根据中关村产业研究院测算,到2025年,预计北京AI人才需求量约为54万人,缺口将达37万人(其中核心产业技术人才16万,复合型AI技能人才21万)。图20:2019-2023年中国顶级AI人才数量及占全球比重22778.7%9.8.1.6.9%0%5003002019年2020年2021年2022年2023年中国入选人数(人次)占全球比重数据来源:Aminer,中关村产业研究院、毕马威分析03中国顶尖AI人才数量稳步增长,但产业技术人才缺口仍巨大22 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)我国急缺计算理论、人机交互、安全与隐私、计算机系统等方向的顶尖学者。从人才所属领域来看,入选的顶尖人才主要集中在多媒体、芯片、物联网等领域,在人机交互、计算理论领域我国无人入选;在安全与隐私、计算机系统领域,仅有1人次入选;在机器人、知识工程子领域,只有2人次入选(图21)。图21:2023年最具全球影响力的中国人工智能学者按细分领域分布数据来源:Aminer,中关村产业研究院、毕马威分析45人次31人次26人次24人次20人次20人次16人次12人次10人次9人次7人次4人次4人次2人次2人次1人次1人次0人次0人次055404550多媒体芯片技术物联网信息检索与推荐数据挖掘计算机视觉可视化自然语言处理计算机图形数据库计算机网络语音识别机器学习知识工程机器人计算机系统安全与隐私人机交互计算理论23 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)北京、上海人工智能创新实力位居全国前列。北京市科技研发技术实力最为雄厚,国家新一代人工智能开放创新平台、千亿级大模型的数量、产业集聚规模等均领跑全国。上海市加快建设上海国家新一代人工智能创新发展试验区、上海(浦东新区)人工智能创新应用先导区,形成了以浦东张江、徐汇滨江为引领,以杨浦、长宁、静安等各区联动,自贸区临港新片区和闵行码头创新驱动蓄势待发的人工智能产业集群。浙江省泛人工智能企业主要集中在环杭州湾地区,杭州市引领全省人工智能产业的特色化发展,被列入国家新一代人工智能发展试验区,湖州德清县被列入全国首个县域国家新一代人工智能创新发展试验区。广东省深圳市、广州市先后获批建设国家新一代人工智能创新发展试验区和国家新一代人工智能创新应用先导区,目前已形成广州、深圳为主引擎,珠三角其他地市为核心、粤东西北各地市协同联动的区域发展格局(表2)。表2:中国人工智能产业重点省市情况数据来源:公开资料,中关村产业研究院、毕马威分析城市政策支持高校及科研院所国家新一代人工智能开放创新平台大模型(千亿级以上)产业集聚北京市具有全球影响力的人工智能创新策源地 北京市促进通用人工智能创新发展的若干措施 北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)清华大学 北京大学 中国科学院 北京航空航天大学 北京理工大学 北京智源人工智能研究院 北京通用人工智能研究院 自动驾驶国家新一代人工智能开放创新平台(百度)智能供应链人工智能开放创新平台(京东)图像感知人工智能开放创新平台(旷视)安全大脑人工智能开放创新平台(360)智慧教育人工智能开放创新平台(好未来)智能家居人工智能开放创新平台(小米)百度文心大模型 智谱科技ChatGLM 云知声山海大模型 快手K7大模型 昆仑万维天工大模型 中国科学院紫东太初大模型 京东言犀大模型 字节跳动火山方舟大模型 中关村软件园 中关村集成电路设计园 中关村(京西)人工智能科技园 中关村壹号园区 北京通用人工智能创新园 亦庄自动驾驶示范区 中关村工业互联网园区 中关村智能装备产业园上海市更具国际影响力的人工智能“上海高地”上海市促进人工智能产业发展条例 关于推进本市新一代人工智能标准体系建设的指导意见 上海市人工智能产业发展“十四五”规划 上海交通大学智能计算与智能系统重点实验室 上海科技大学 复旦大学类脑智能科学与技术研究院 公安部第三研究所 同济大学人工智能研究所 上海理工大学上海人工智能研究院 上海人工智能实验室 智能视觉国家新一代人工智能开放创新平台(商汤)视觉计算人工智能开放创新平台(依图)营销智能人工智能开放创新平台(明略)商汤日日新大模型 澜起科技孟子大模型 小i机器人华藏大模型 上海人工智能实验室书生大模型 张江人工智能岛 西岸智慧谷 马桥AI创新试验区 临港新片区信息飞鱼广东省全球新一代人工智能创新发展战略高地 广东省新一代人工智能创新发展行动计划(2022-2025年)香港中文大学(深圳)华南理工大学 中山大学 深圳智能机器人研究院 深圳人工智能与大数据研究院 医疗影像国家新一代人工智能开放创新平台(腾讯)基础软硬件人工智能开放创新平台(华为)普惠金融人工智能开放创新平台(中国平安)腾讯混元大模型 香港中文大学(深圳)凤凰大模型 华为盘古大模型 中国人工智能(广州)产业园浙江省全国领全国领先、国先、国际一流际一流的人工的人工智能产智能产业创新业创新发展高发展高地地 建设杭州国家人工智能创新应用先导区行动计划2022-2024年 杭州市建设国家新一代人工智能创新发展试验区行动方案 浙江大学 之江实验室 湖畔实验室 杭州市人工智能研究院 城市大脑国家新一代人工智能开放创新平台(阿里云)视频感知人工智能开放创新平台(海康威视)阿里巴巴通义千问大模型 西湖心辰西湖大模型 宇视科技梧桐大模型 恒生电子Light-GPT大模型 蚂蚁集团贞仪大模型 新华三H3C百业灵犀大模型 实在智能塔斯大模型 网易伏羲玉言大模型 杭州人工智能产业园 萧山机器人小镇 浙大科学园 云栖小镇04中国人工智能区域创新集聚效应初显24 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)人工智能全域变革图景展望:跃迁点来临(2023)24 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能产业发展十大趋势大模型爆发以来,人工智能技术发展日新月异,创新成果纷纷涌现,基于对国内外主流科技公司最新布局、科研论文最新热点等的梳理,结合产学研各界专家研讨意见,本章从技术变革、应用创新、安全治理、生态协同四大维度总结出人工智能产业发展十大趋势,希望为有志于投身人工智能领域的企业和个人提供有益参考。26 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)一 技术变革人工智能产业发展十大趋势多模态预训练大模型主要包括三层含义:首先,“大模型”也称基础模型(FoundationModels),指基于大规模数据训练的模型,具备应用领域广泛的特点;其次,“预训练”强调大模型训练发生在模型微调(fine-tuning)之前,大模型在预训练阶段能够集中学习到尽可能泛化的通用特征,在微调阶段则需结合较小规模、特定任务的数据集进行调整,从而达到广泛适用各类任务场景的效果;最后,“多模态”指用于训练大模型的数据来源和形式具有多样性,例如,人类通过视觉、听觉、嗅觉等多种感官获取信息,继而通过声音、文字、图像等多种载体进行沟通表达,就是多模态的输入和输出。预训练大模型发展起源于自然语言处理(NLP)领域,当前已进入“百模大战”阶段,预计随着大模型创新从单模态转向多模态,多模态预训练大模型将逐渐成为人工智能产业的标配。2017年,Transformer模型提出,奠定了当前大模型的主流算法架构;2018年,基于Transformer架构训练的BERT模型问世,其参数量首次突破3亿规模;随后T5(参数量130 亿)、GPT-3(参 数 量 1750 亿)、Switch Transformer(参数量1.6万亿)、智源“悟道2.0”大模型(参数量1.75万亿)、阿里巴巴达摩院多模态大模型M6(参数量10万亿)等预训练语言大模型相继推出,参数量实现了从亿级到万亿级的突破;2022年底至今,ChatGPT引爆全球大模型创新热潮,国内科技厂商竞争尤为激烈。据不完全统计13,全国从事人工智能大模型研发的企业已超过100家,其中80余个大模型已公开发布,真正进入了“百模大战”阶段。目前,国内大模型虽在市场影响力方面稍逊色于GPT系列模型、PaLM-E等,但在中文语料训练、中国文化理解方面具备本土优势。此外,国内制造业等实体产业为大模型提供了丰富的训练数据和应用场景。未来,在大模型面向产业赋能方面,中国大模型极有可能后发先至,也会是国内大模型竞争的关键因素之一。13“百模大战”正酣,运营商AI大模型如何出圈?,通信产业网,2023年8月7日,http:/ 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)值得注意的是,目前所公开的模型大部分仅支持文本输入,较为前沿的GPT-4还支持图像输入,但模型的输出只能实现文本和图像两种 模 态,2023年 9月 底 以 来,OpenAI 将ChatGPT 4升级至GPT-4 with vision(GPT-4V),增强了视觉提示功能,在相关样本观察中,GPT-4V在处理任意交错的多模态输入(interleaved multimodal inputs)方面表现突出。多模态的模型训练方法更接近于人类接收、处理、表达信息的方式,能更为全面地展现信息原貌,是未来人工智能模型演进的重点方向(图22)。AI大模型将从支持文本、图像、音频、视频等单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。这意味着,各家大模型的比拼重点将不再是单一模态下参数量的提升,而是转向多模态信息整合和深度挖掘,通过预训练任务的精巧设计,让模型更精准地捕捉到不同模态信息之间的关联。图22:大模型技术迭代历程2017Transformer2018GPT-12019GPT-22020GPT-32022ChatGPTKosmos-12018BERT2019RoBERTa2020ALBERTPALM-EVision TransformerDDPMMidjourneyStable DiffusionDALLE-22023GPT-4GPT-4V单模态预训练大模型阶段输入文本生成图像2020202120222023CLIP2021DeBERTaDALLE输入文本输出文本多模态预训练大模型阶段ImageBind数据来源:公开资料,中关村产业研究院,毕马威分析28 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)目前,多模态预训练大模型发展思路主要有三:一是利用单模态模型如LLMs(大型语言模型)来调动其它数据类型的功能模块完成多模态任务,典型代表有Visual ChatGPT、Hugging GPT等;二是直接利用图像和文本信息训练得到多模态大模型,典型代表有KOSMOS-1等;三是将LLMs与跨模态编码器等有机结合,融合LLMs的推理检索能力和编码器的多模态信息整合能力,典型代表有Flamingo、BLIP2等。随着技术日臻成熟,多模态预训练大模型将是AI大模型的主流形态,堪称下一代人工智能产业的“标配”。案例1:国产大模型从三模态走向全模态自2019年起,中科院自动化研究所以“图-音-文”多模态技术为核心,确立了多模态大模型布局,从其两代大模型迭代中,可以窥见国产大模型的多模态发展趋势。2021年,中国科学院自动化研究所与武汉东湖高新区共同打千亿参数规模的三模态大模型“紫东太初”,该大模型打通了语音、图像、文字三种模态数据,可以自动学习跨模态数据之间的关系,通过自监督学习和知识嵌入来解决小数据泛化和理解问题,形成了完整且智能的表示、推理和生成能力。2023年,中国科学院自动化研究所和武汉人工智能研究院推出新一代大模型:全模态大模型“紫东.太初2.0”版本,在文本、图像、语音三模态的基础上,融入 3D 点云、视频、信号等更多模态数据,能支持多轮问答、文本创作、图像生成、3D 理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力。资料来源:公开资料,中关村产业研究院,毕马威分析29 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)围绕AI大模型的商业化竞争不断加剧,作为模型训练“原料”的数据(尤其是高质量数据),正迎来短缺危机。根据一项来自Epoch Al Research团队的研究14,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。这意味着,如果没有新增数据源或是数据利用效率未能显著提升,那么2030年以后,AI大模型的发展速度将明显放缓。数据智能指的是从数据中提炼、发掘、获取有揭示性和可操作性的信息,从而为人们在基于数据制定决策或执行任务时提供有效的智能支持。数据智能融合了数据处理、数据挖掘、机器学习、人机交互、可视化等多种底层技术,可划分为数据平台技术、数据整理技术、数据分析技术、数据交互技术、数据可视化技术等部分。大模型的训练需要大量的高质量数据,但是目前在数据质量方面还存在一定的问题,包括数据噪声、数据缺失、数据不平衡等问题,均会影响大模型的训练效果和准确性。预计大模型领域不断迸发的高质量数据需求,将倒逼数据在大规模、多模态、高质量三大维度上的全面提升,数据智能相关技术有望迎来跨越式发展。14Pablo Villalobos et al,Will we run out of data?An analysis of the limits of scaling datasets in Machine Learning,Oct 26,2022,https:/arxiv.org/pdf/2211.04325.pdf02高质量数据愈发稀缺将倒逼数据智能飞跃30 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)以数据平台技术为例,湖仓一体技术(DataLakehouse)充分整合了数据湖和数据仓库的优势,支持端到端的流式计算,有利于全面挖掘数据价值,实现即时数据洞察,为环湖服务(包括多维分析、预测分析、数据科学、机器学习、大数据处理、决策支持等)创造了良好的先决条件。云原生容器化技术有利于构建弹性可靠、松耦合、易管理、可观测的数据应用系统,从而实现数据处理能力跨区域、跨平台甚至跨服务商的规模化复制。预计,基于云原生容器化环境,支持流、批数据处理的“湖仓一体”架构将成为新一代数据平台的底座,助力数据质量提升。此外,现代数据栈(Modern Data Stack)、数据编织(DataFabric)等新型数据整理技案例2:湖仓一体架构助力企业级数据智能化发展数智时代下用户对数据处理能力的需求呈现四大变化:数据量(尤其是非结构化数据)暴涨,对数据的实时反馈需求提高,AI计算框架兼容性要求提高对模型开发和机器学习全生命周期平台化能力的要求提升,以数据仓库、数据湖为代表的传统数据治理技术架构难以完全满足需求。基于此,美国“数据 AI”独角兽企业Databricks采用的云中湖仓一体架构与数智时代数据治理需求的适配潜力较大。Databricks起源于学术界和开源社区,由多位科学家创业者于2013年创立,2021年融资后估值为380亿美元。Databricks采用了结合数据湖和数据仓库优势的新范式“湖仓一体”架构,用户可直接在低成本的、高灵活度的数据湖上实现与数据仓库类似的数据管理和ACID事务功能,并提供实时流批处理技术。目前,Databricks的产品可以在AWS、Azure等云服务平台上使用,企业可以更快地处理和分析海量数据,同时还能支持构建和部署人工智能应用程序。术将极大提高数据处理效率,降低数据使用难度。机器学习、图计算等数据分析技术将有效拓展数据分析的维度和深度,有利于满足日益复杂的数据分析需求。自然语言处理等数据交互技术与向量数据库相结合,能够使计算机系统充分理解人类语言,在人机问答、知识检索等场景中,创造自然高效的用户体验。总的来说,随着信息技术的不断普及,技术创新热点层出不穷,数据智能技术也在不断进步,核心驱动力始终在于将无实际意义的数据转化为能传递信息和知识甚至帮助人们思考决策的有效工具,大模型的爆发式发展、算力的不断提升将为数据智能的持续突破按下加速键。资料来源:公开资料,中关村产业研究院,毕马威分析31 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)算力是大模型训练的“燃料”,以高效且成本较低的方式为人工智能发展注入源源不断的核心动力,已逐渐成为产业界共识。深度学习出现之前,用于AI训练的算力增长大约每20个月翻一番,基本符合摩尔定律;深度学习出现之后,用于AI训练的算力大约每6个月翻一番;2012年后,全球头部AI模型训练算力需求更是加速到每3-4个月翻一番,即平均每年算力增长幅度达到惊人的10倍;目前大模型发展如火如荼,训练算力需求有望扩张到原来的10-100倍,算力需求的指数级增长曲线将更加陡峭15。然而,这也意味着发展AI需要巨大的算力成本投入。以构建GPT-3为例,OpenAI数据显示16,满足GPT-3算力需求至少要上万颗英伟达GPU A100,一次模型训练总算力消耗约3,640PF-days(即每秒一千万亿次计算,运行3,640天),成本超过1,200万美元,这还不包括模型推理成本和模型后续升级所需的训练成本。此背景下,变革传统计算范式成为必然趋势,产业界正加速推动芯片和计算架构创新。例如,谷歌自2016年以来就不断研发专为机器学 习 定 制 的 专 用 芯 片 TPU(TensorProcessing Unit,张量处理器),并利用TPU进行了大量的人工智能训练工作。英伟达则抓住AI大模型爆发契机大力推广“GPU 加速计算”方案。此外,也有观点认为TPU、GPU都并非通用人工智能的最优解,指出量子计算具有原理上远超经典计算的强大并行计算能力,IBM在2023年宣布将与东京大学和芝加哥大学合作建造由10万个量子比特(量子信息处理的基本单位)驱动的量子计算机,有望推进量子计算在新药物研发、探索暗物质、破译密码等方面的应用。15ChatGPT到底需要多少算力,华尔街见闻,2023年2月15日,https:/ B.Brown,Benjamin Mann,Language Models are Few-Shot Learners,May 28,2020()03智能算力无处不在的计算新范式加速实现32 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)新硬件、新架构竞相涌现,现有芯片、操作系统、应用软件等都可能被推翻重来,预计有望实现“万物皆数据”“无数不计算”“无算不智能”,即智能算力将无处不在,呈现“多元异构、软硬件协同、绿色集约、云边端一体化”四大特征。多元异构体现为CPU、GPU、ASIC、FPGA和NPU、DPU为代表的“XPU”芯片使得算力日趋多元化,传统x86架构之外,ARM、RISC-V、MIPS等多种架构也正在被越来越多的芯片公司所采纳,异构计算加速崛起。软硬件协同设计要求高效管理多类型资源,实现算力的弹性扩展、跨平台部署、多场景兼容等特性,例如,可以不断优化深度学习编译技术,提升算子库的性能、开放性和易用性,尽可能屏蔽底层处理器差异,向上兼容更多AI框架。绿色集约强调了对于数据中心和5G设施,平衡算力提升和能耗降低问题的重要性,包括提高绿色能源使用占比、采用创新型制冷技术降低数据中心能耗、综合管理IT设备提高算力利用效率等。云边端一体化则是在云端数据中心、边缘计算节点以及终端设备三级架构中合理部署算力,推动算力真正满足各类场景需求,边缘智能、AR/VR、自动驾驶等新一代计算终端渗透率有望大幅提升。案例3:高端芯片助力生成式人工智能和高性能计算近年来,国内外大型科技公司竞相开发基于海量数据的人工智能算法模型,当它们进化得更加复杂时,传统算力已无法满足计算速度的要求,AI芯片便显得尤为重要。AI芯片包括CPU(中央处理器)、GPU(图像处理器)等,为人工智能提供算力支撑,堪称AI的“超级大脑”。为满足科技公司的业务需求,芯片厂商备受瞩目,一些高端芯片及相应的显卡已是一卡难求。2023年5月底,英伟达发布专为生成式人工智能和高性能计算设计的新一代NVIDIA GH200Grace Hopper超级芯片,并配备全球首款HBM3e处理器,全新Grace Hopper超级芯片将于2024年第二季投产,众多科技公司如谷歌、微软和Meta等将率先部署。目前,美股英伟达市值一度飞升,已成为全球首家市值超过1万亿美元的芯片公司17。17当英伟达市值站上芯片之巅,中国电子报,2023年5月31日,https:/ 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)全球人工智能角逐的制胜点除芯片、数据等核心领域外,场景应用创新也极其重要,一方面,场景应用中出现的短板和不足,能为技术突破提供切入点;另一方面,场景应用能否获得商业成功决定了产业化能否顺利推进。大模型技术将重塑生产消费的基本形态,以AIGC、AI4S、AGI为代表的应用场景中有望出现大量范式转换机会。二 应用创新人工智能产业发展十大趋势AIGC(ArtificialIntelligenceGeneratedContent,人工智能生成内容)即利用各类机器学习算法,从数据要素中学习,使机器能自动生成全新的文本、图像、音频、视频等多媒体内容,是继专业生产内容(PGC)、用户图23:AIGC应用落地时间表生产内容(UGC)之后的新一代内容创作方式(图 23)。现阶段大模型最主要的应用方向就是AIGC,主要包括AI写作、AI编程、AI绘画、AI视频生成等。2020年前20202022202520302050初步探索基本形成准备阶段文本文本 OpenAI OpenAI ChatGPT Meta Meta OPT-175B代码代码 OpenAI OpenAI GPT-4 Microsoft Microsoft Deep TabNine图像图像 Stability Stability AI Stable Diffusion Open Open DALL-E视频视频 DeepMindDeepMind DVD-GAN 清华大学等清华大学等DreamDiffusion 垃圾邮件识别 翻译 基础问答 基础文案写作 初稿生成 更长文字 第二稿完成 垂直微调(科学类论文等)高于人类平均水平的终稿生成 高于职业作家水平的终稿生成 单行代码 自动生成 多行代码生成 更长代码 更高的准确率 更多语言 更多垂线布局 文本到产品(草稿)文本到产品(终稿),优于全职开发者 艺术作品 Logo设计 照相摄影 模型模拟(产品设计、建筑等)终稿生成(产品设计、建筑等)终稿生成,优于职业艺术家和设计师等 基础/初稿视频及3D文件 第二稿生成 AI Roblox 个性化电子游戏和电影 脑电图信号生成高质量图像数据来源:红杉资本,中关村产业研究院、毕马威分析人工智能全域变革图景展望:跃迁点来临(2023)3304人工智能生成内容(AIGC)应用向全场景渗透34 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)传统人工智能偏重于数据分析能力,AIGC则将人工智能的价值聚焦到了创造上,其所创建的内容来源于历史数据和内容,却不是简单复制历史,而是衍生出新内容。得益于大模型、深度学习算法、多模态等技术的不断进步,近年来各种内容形式的AI生成作品百花齐放,尤其是2022年,AIGC呈现出爆发态势。其 中,最 引 发市 场 关注 的 是 StableDiffusion和ChatGPT。Stable Diffusion于2022年10月发布,用户输入文字描述后即可得到AI生成的图像,使得AI绘画作品风靡一时。ChatGPT于2022年底面世,其人机文本对话功能和文本创作能力将机器水平推向新高,在全球范围里掀起了一轮AIGC创新热潮。2023年以来,AIGC领域文生文、文生图等垂直赛道划分愈发清晰,由于人类社会语言文化相较图片类视觉艺术的理解难度更高、对出现失误的容忍度更低,因此,文生文等类ChatGPT应用大规模普及的难度相对更大且进展更慢,文生图领域应用创新热度则相对更 高。随 着 DiscoDiffusion、StableDiffusion、DALL-E2、Midjourney等对公众开放,文生图应用在C端的普及已初见成效。AIGC的发展源头在数字内容创作领域,从单模态内容到多模态数字化内容创建已初显雏形,预计未来会进一步提高人类创造内容的效率,丰富数字内容生态,开启人机协同创作时代,各种需要创意和新内容的场景,都可能被AIGC重新定义,AIGC向全场景渗透指日可待。具体到场景来看,AIGC目前集中在创造性工作场景中,包括广告营销、游戏创作、艺术设计等。一方面,创意属于稀缺资源,AIGC的创造性对激发灵感、辅助创作、验证创意等大有助益;另一方面,互联网大规模普及使得“一切皆可线上”,数字内容消费需求持续旺盛,AIGC能更低成本、更高效率地生产内容,经济性愈发凸显。不过,AIGC在内容准确性、细节把控度、风格个性化等方面仍有较大优化空间,AIGC潜力能否充分释放取决于和业务需求能否有效结合。例如,在客服场景中,多轮人机对话式客服不仅能改善用户体验,还节约了人工客服成本,但AIGC内容仍难以应对某些极为细分和高复杂度的需求。在芯片研发场景中,AIGC生成的3D模型能帮助优化芯片元件位置,将产品开发周期从几周缩短至几小时,但对于某些定制化芯片往往还需额外投入参数训练。在医疗科技场景中,AIGC基于真实病例数据生成的新数据解决了因医疗数据的稀缺性、敏感性造成的数据缺乏问题,为药物研发、精准医疗、医疗影像等领域提供数据生成服务。长期来看,AIGC实现全场景渗透的本质是机器创造能力的低成本复制,必然离不开大规模高质量数据和低成本算力的托底,AIGC有望成为新一代内容生产基础设施。35 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图7:AI for Science模型与基础软件发展情况05人工智能驱动科学研究(AI for Science)从单点突破加速迈向平台化AI4S(AI for Science,人工智能驱动的科学研究)是利用AI的技术和方法,去学习、模拟、预测和优化自然界和人类社会的各种现象和规律,从而推动科研创新。AI4S可显著降低前沿科技研究中的智力成本并提升研究效率,主要应用领域包括生命科学、气象预测、数学、分子动力学等,有望成为和经验范式、理论范式、计算范式、数据驱动范式互相促进的第五大范式。业界一般认为2017-2021年是AI4S的概念导入期,此期间相关模型精度、技术路径、学科 门 类、应 用 场 景 持 续 完 善,出 现 了DeePMD加速分子动力学模拟、AlphaFold2破解蛋白质折叠预测难题等一批创新成果。结合全球AI4S领域基础模型和软件的发展情况来看18,2022年以后,全球范围AI4S领域的模型和基础软件数量明显增多,且功能由“辅助”“优化”更多转向“启发”“指导”,一定程度上表明AI4S已由概念导入期的“单点突破”发展过渡到“平台化”发展(图24)。具体到中国AI4S发展情况来看,生物医疗、材料化学等领域的AI4S发展相对迅速,其他领域则仍处于起步阶段,应用场景方面主要为专业化领域的单一场景应用,尚未出现跨领域应用。不过,中美欧三地AIfor Science已发表论文数量超过了全球总数的80%,且中国数量领先,预计未来中国AI4S创新成果有望加速涌现。18最新报告:我国AI for Science论文发表数量最高,中国科技网,2023年7月6日,http:/ 数据来源:中国科技网,毕马威分析,中关村产业研究院20020202120222023AI for Science基础软件物理驱动PINNsFermiNetDeepWF自监督学习求解偏微分方程,并广泛应用于电磁、流体仿真等自监督学习求解薛定谔方程数据-机理融合JAX-CFD流体力学超分求解秦岭翱翔流体力学湍流耦合求解DeePMD深度势能加速分子动力学模拟蛋白质生成AI for Science模型数据驱动Cosmosflow神经网络预测天天文学文学宇宙常数神经网络预测生物学蛋白质结构达到了一起观测的精度HallucinationSCUBAProteinMPNNRF diffusionABACUS-RAlphaFoldESM-IFAlphaFold2ProGen生成式蛋白质设计AlphaTensor实现快速矩阵乘算法东方翼风水分子团簇大模型东方御风加速流体力学机翼仿真GraphCastFengWu预测短临降水天气预报Pangu Meteorology Model天气预报精度超越数值预报FourCastNetMetNet天气预报速度提升45000 倍SciBert生物医学、计算机科学预训练语言模型机器化学家阅读文献、自主设计实验、覆盖材料开发全流程Galactica科学研究大语言模型药物文献大模型ClaraDeePMDMindScience(SPONGE,Elec)ModulusMindScience(Chemistry)MindScience(Flow)PaddleHelixJAX-MDDeepFlameUniFoldPaddleScienceJAX-CFDAI指导和加速科学实验AI启发理论及算法发现AI加速和优化科学计算AI辅助科学文献研究36 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)AI4S的平台化发展主要依靠四大工具的建设:模型算法和数据分析方法、高效率高精度的实验表征方法、数据库和知识库、专用芯片和高效整合的计算能力。落地路径主要为在共性平台和功能套件的基础上,针对特定学科的应用研究进行垂直整合,其他落地模式仍有待探索。目前亟需克服密集型计算数据庞杂无序、学科知识壁垒高、跨学科研究生态整合难度大等痛点。预计随着相关科研机构和科技企业不断沉淀底层数据分析和结构仿真设计能力,将更多“科学问题”转化为“计算和工程问题”,AI4S领域有望出现类似Transformer、GPT-3等的通用模型和框架,涌现一批“高效便捷、开箱即用”的科学研究智能化工具。在“单点突破”阶段,AI4S发展由科研学者主导,数据、模型、算法及方法论的原创性是市场关注重点,AI4S在特定任务或场景中的“单点应用”初步证明了对应解决方案的落地价值。“平台化”发展则意味着,需要将这些已被证明的价值能力沉淀为平台化工具,提升对下游的通用性价值,与此同时,产业界对于AI4S的工程化需求也逐渐增加,工程师和科研学者将共同主导AI4S下一阶段的发展。37 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)一般来说,学术界将人工智能的发展阶段分为专用人工智能、通用人工智能和超人工智能。专用人工智能指机器具备表象性的智能特征,包括像人一样思考、感知环境以及像人一样行动,是机器学习的时代,典型案例如第一个战胜围棋世界冠军的人工智能机器人AlphaGo。通用人工智能(AGI,ArtificialGeneral Intelligence)指与意识、感性、知识、自觉等人类特征相连结,能够执行人类智力行为的机器智能。超人工智能指的是在科学创造力,智慧和社交能力等多方面都比人类大脑聪明很多的智能。目前,人工智能逐步向通用人工智能发展。通用人工智能的技术原理强调两大特性:一是需要基于先进算法实现智能处理和决策,包括深度学习、强化学习、进化计算等;二是需要具备和人类大脑相似的认知架构,包括感知、记忆、分析、思考、决策、创造等模块。ChatGPT在文本对话领域表现出和人类行为的相似性,被认为是人类通往AGI道路上的重要里程碑式产品,但在实际应用环境中,ChatGPT仍存在数据在线更新能力缺乏、多模态信息不足等问题。参照AGI技术原理来看,ChatGPT在感知尤其是实时感知能力等方面,仍需进一步优化,而具身智能、脑机接口等技术的发展恰恰能带来有效助力。具身智能(Embodied AI)是指具备自主决策和行动能力的机器智能,它可以像人类一样实时感知和理解环境,通过自主学习和适应性行为来完成任务。脑机接口(Brain ComputerInterface)是指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换,结合大脑解码技术等让机器更好地理解人类认知过程。06具身智能、脑机接口等开启通用人工智能(AGI)应用探索38 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)在具身智能方面,2023年2月,微软发布论文ChatGPT for Robotics:Design Principlesand Model Abilities,提出了ChatGPT应用于机器人的设计原则,并总结了两者结合后带来的跨平台、跨任务机器人控制等多项解决能力。2023年3月,谷歌联合柏林工业大学团队发布多模态具身视觉语言模型PaLM-E,该模型可执行各种复杂的机器人指令且无需重新训练,已表现出较好的迁移能力。2023年7月,AI科学家李飞飞团队公布了利用大型语言模型(LLMs)和视觉语言模型(VLMs)驱动的机器人项目VoxPoser,人类可以用自然语言给机器人下达指令,机器人直接能够听懂人话,无需额外数据和训练。在脑机接口方面,2023年5月,日本荒谷研究开发部通过非侵入式脑机接口与ChatGPT结合的方式,成功实现了脑电波控制邮件发送。总的来说,具身智能、脑机接口均是AGI不可或缺的技术底座,未来一段时间内,相关研究将进入拓宽加深期。目前,具身智能和脑机接口技术均处在早期技术孵化阶段,存在核心技术不成熟、研发成本较高、场景化应用难度高、监管制度缺位等突出问题,距离实现商业化应用还有较长一段距离。一些研究机构和企业已经开始探索具身智能、脑机接口如何与ChatGPT相结合,有望催生一批更符合AGI特征的应用。案例4:Synchron全球首家获得FDA批准对永久植入性设备进行临床试验的BCI公司Synchron成立于2017年,总部位于美国纽约。目前该公司的主要研究方向为神经恢复、神经调控和神经诊断。Synchron是全球首家获得FDA批准对永久植入性设备进行人体临床试验的脑机接口公司,其获得先发优势的原因主要在于两方面:产品优势和植入方法的创新。在产品优势方面,由Synchron研发的Stentrode,直径仅为8毫米,长度仅为40毫米,能够携带16个电极传感装置;体积的小巧使得Stentrode产品易于植入,仅需2小时即可完成;此外Stentrode产品使用柔性镍钛合金制成,该种材料被广泛应用于植入式医疗器械,具有良好的生物相容性。在植入方法创新方面,Synchron采用神经介入方法,通过颈静脉将Stentrode植入到大脑运动皮层下,然后与血管壁进行融合固定,此方法避免开颅,安全性更高,感染风险更小,因此其受到的法规监管更为宽容,能够更快进入临床实验。目前Synchron的临床试验进展取得了不错的效果。资料来源:公开资料,中关村产业研究院、毕马威分析39 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)三 安全治理人工智能产业发展十大趋势深度神经网络大模型的预训练以及在大规模人机交互过程中强化学习必将带来人工智能以认知发展为导向的“自我进化”,如何确保这种自我性特征对人类社会有益而无害,是目前需要面对的巨大挑战。人工智能带来的挑战主要体现在技术安全、应用安全和数据安全等三方面。从技术安全看,人工智能技术的复杂性和不透明性造成了“黑箱”困境。人工智能模型包含大量的代码,人工智能的设计者利用各种来源的数据训练算法,进行建模,获得结果。随着算力的提升,海量数据被收集利用,机器学习逐渐普及,人工智能高速迭代,在不依赖人工调整的情况下,能够自我学习和更新,不过,人工智能的设计者很难说明人工智能的决策过程和结果,造成了其结果的“不可解释”。从应用层面看,随着大模型与 AIGC 的快速融合发展,生成的内容能够达到“以假乱真”的效果,人人都能轻松实现“换脸”“变声”,人工智能在应用层的风险也相应增加,所带来的虚假信息、偏见歧视乃至意识渗透等问题无法避免,对个人、机构乃至国家安全都存在较大的风险。此外,随着人工智能技术的发展及应用的泛在化,越来越多的工作将被机器取代,失业人群增加,这将对社会公平提出挑战。根据牛津大学和耶鲁大学的一项调研,研究人员预计未来AI将在多个领域赶超人类,例如,卡车驾驶(2027年),零售业(2031年),畅销书写作(2049年),外科医生工作(2053年)19。19Katja Grace,John Salvatier et al.When Will AI Exceed Human Performance?Evidence from AI Experts,Future of Humanity Institute,Oxford University AI Impacts,DepartmentofPolitical Science,YaleUniversity,https:/arxiv.org/pdf/1705.08807.pdf当前在人工智能领域无论是技术创新还是应用创新都堪称“万类霜天竞自由”,但自由是有限度的,日益复杂的算法规则和黑箱机制正在引发算法歧视、隐私泄露、虚假信息泛滥等科技伦理问题,加强安全治理刻不容缓,已经成为各方最大的共识。人工智能全域变革图景展望:跃迁点来临(2023)3907人工智能安全治理趋严、趋紧、趋难40 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)最后,从数据安全看,海量数据是人工智能发展的基石,在采集、使用和分析这些数据的过程中,存在数据泄漏、篡改和真实性难验证等安全隐患。随着AIGC技术的发展,数据安全问题的解决则更加趋难。用户在与大模型交互的过程中输入的提示词可能被用于迭代训练,并通过交互被提供给其他使用者。随着AIGC向多模态发展,其文件格式更加丰富,未来数据泄露问题将难以通过传统的数据防泄漏(Data leakage prevention)方法解决。20意大利宣布禁用ChatGPT,限制OpenAI处理本国用户信息,澎湃新闻,https:/ AI开发的ChatGPT这一具体产品为例,2023年3月31日意大利数据保护局以违反通用数据保护条例(GeneralDataProtectionRegulation,GDPR)为由暂时禁用ChatGPT20,并在此后提出了一系列整改要求。随后陆续有德国、法国、欧盟等发布数据监管措施。从立法层面而言,中美欧三国作为人工智能发展的领军国和地区,也均在积极进行探索。41 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)已有专门的立法对人工智能进行强监管。2021年4月,欧盟委员会提出了人工智能法案提案(图25),2023年6月14日法案在欧洲议会通过。按照立法程序,法案下一步将正式进入欧盟委员会、议会和成员国三方谈判协商,以确定法案的最终版本。届时该法案有望成为全世界第一部综合性人工智能治理立法,被各国监管机构广泛参考。从内容来看,该法案通过将AI应用分为不同风险级别,并针对不同等级风险实施不同程度的限制措施。值得注意的是,与GDPR类似,该法案具有域外效力,其第二条规定“法案适用于在欧盟市场上投放人工智能系统或将其应用于服务的供应商,无论供应商在欧盟或第三方国家设立”,随着未来法案的通过可能将进一步推动全球的AI监管和治理。欧洲于2022年10月发布了人工智能权利法案蓝图,提出了建立安全和有效的系统、避免算法歧视,以公平方式使用和设计系统、保护数据隐私等五项基本原则,且将公平和隐私保护视为法案的核心宗旨,后续拟围绕这两点制定完善细则。2023 年 1 月美国商务部国家标准与技术研究院(NIST)发布了人工智能风险管理框架(AI RMF 1.0),作为一份指导文件,供设计、开发、部署或使用人工智能系统的组织自愿使用,以帮助管理人工智能技术的诸多风险。与欧盟的法案属于正式立法不同的是,美国目前国家层面所颁布的框架和蓝图均为指导性文件,不具备法律效力。目前美国在人工智能领域的治理仍停留在行业自律为主、监管为辅的阶段。美国图25:人工智能法案风险级别划分数据来源:Bloomberg,中关村产业研究院、毕马威分析无监管AI驱动的电子游戏及垃圾邮件过滤器须遵守透明度义务用户与聊天机器人互动时必须被告知需通过合格评定用于控制就业、教育和公共服务的技术,由大型在线平台研发的用于推荐系统人工智能系统禁止使用政府社会评分、公共场所的实时生物识别不可接受风险有限风险风险极小或无风险高风险42 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)在人工智能领域积极倡导“以人为本”和“智能向善”,规制和引导新一代人工智能技术研发和转化。针对生成式人工智能的快速发展,自2023年1月10日起施行的互联网信息服务深度合成管理规定对以“AI换脸”为代表的深度合成技术进行了法律层面的约束。2023年7月13日由国家网信办联合多部委发布的生成式人工智能服务管理暂行办法(以下简称“办法”),已于2023年8月15日起施行。办法主要关注AIGC 内容安全,对生成式人工智能服务实行包容审慎和分类分级监管。此外,国务院2023年度立法工作计划显示,人工智能法已列入立法计划,草案预备年内提请全国人21科技部:人工智能法草案已列入国务院2023年立法工作计划,澎湃新闻,https:/ 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)人工智能在发展过程中面临的技术伦理与社会伦理风险表明,人工智能安全、可信的发展之路任重道远,在解决AI风险的过程中催生出可解释AI、联邦学习等技术创新机遇。对模型透明性和可解释性的要求推动可解释AI向纵深发展。随着机器学习模型在各个领域的广泛应用,人们对于模型的可信度和可解释性的要求也越来越高。2021年,联合国发布人工智能伦理问题建议书,“透明性与可解释性”成为其提出的十大AI原则之一22。透明性与可解释性是对AI系统的基本要求,是实现其他伦理价值的必要前提。可 解 释 AI(ExplainableArtificialIntelligence)通过对算法决策的解释赋予公众知情权和同意权,有助于提升公众对AI的信任;对算法黑箱、算法失灵等问题进行回应,通过算法透明机制倒逼开发者防范算法歧视,促进算法公平。可解释AI工具在2016年出现时功能较为简单,之后可解释AI工具越来越多且功能更加强大,可以同时对集成学习模型、图像识别模型以及自然语言处理模型等不同的机器学习模型和深度学习模型进行解释,为AI面临的可解释性问题提供了可行的解决方案23。目前,谷歌的模型卡片机制(Model Cards)、IBM的事实清单机制(AI Fact Sheets)及微软的数据集数据清单(Data-sheets for Datasets)等走在行业前列。随着越来越多的科技公司加大研发投入、布局可解释AI等AI伦理研究与应用场景,将会不断涌现出新的技术和方法,增加人们对于机器学习模型的信任和使用,促进人工智能技术的更广泛应用。22教科文组织会员国通过首份人工智能伦理全球协议,联合国网站,2021年11月,https:/news.un.org/zh/story/2021/11/109504223可解释AI发展报告2022打开算法黑箱的理念与实践,腾讯,2022年月https:/ 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)44为解决数据难以集中管理、隐私安全问题突出以及机器学习算法本身具有局限性等问题,联 邦 学 习 技 术 应 运 而 生。联 邦 学 习(Federated Learning)是一种机器学习框架,指根据多方在法律法规、隐私保护、数据安全等要求下,将数据样本和特征汇聚后进行数据使用和机器学习建模。联邦学习中各个参与方可以在不共享数据所有权的情况下,通过加密和隐私保护技术共享数据,有助于破解数据孤岛、保障隐私安全及减少算法偏差等。联邦学习自2016年首次由谷歌提出后,由科技企业在金融、安防、医疗、在线推荐系统等B端推广创新应用,逐渐成为解决合作中数据隐私与数据共享矛盾的新方法。目前联邦学习研究热点主要聚焦在机器学习方法、模型训练、隐私保护等方面,未来研究方向将更多涉及算法模型和安全隐私技术,如数据隐私、深度学习、差分隐私、边缘计算等24。联邦学习正成为新型的“技术基础设施”,有望成为下一代人工智能协同算法,隐私计算和协作网络的基础,使数据在合法合规、安全高效的基础上,实现数据价值流动。通过“为机器立心”,逐步实现人机价值观对齐。“人机价值观对齐”(AI Alignment,简称“价值对齐”“AI对齐”)要求AI系统的目标要和人类的价值观与利益对齐或保持一致。如果AI和人类的价值观不能对齐,可能会出现AI的行为不符合人类意图、在多种设定目标冲突时做出错误取舍、伤害人类的利益以及脱离控制等。目前AI对齐主要面临选择合适的价值观、将价值观编码在AI系统中及选择合适的训练数据等挑战,让AI系统真正理解人类的价值观并获得人类的信任是人机协作的重要课题。目 前 在 AI 对 齐 研 究 方 面,2023年 4月,DeepMind发表论文,从“提出合适的价值观”方 面 对 AI 对 齐 进 行 研 究;2023年 7月,OpenAI组建了由Ilya Sutskever(OpenAI联合创始人兼首席科学家)等领导的人工智能对齐团队,从“用技术方法实现对齐”方面进行研究;2022年7月,北京大学朱松纯团队发表AI对齐论文,提出通过设计“人机协作探索”游戏,尝试形成以人类为中心、人机兼容的协作过程,从而实现实时双向人机价值对齐。AI对齐是走向通用人机协作的第一步,未来AI对齐的研究方向不仅仅局限于单任务环境,将进一步探索多个任务中的人机价值对齐。此外,信念、欲望、意图等人机之间心理模型的因素是“为机器立心”的过程,也是重要研究方向。242022联邦学习全球研究与应用趋势报告重磅发布,网易,2022年9月,https:/ 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)人工智能产业生态协同主要体现在三方面,一是人工智能技术自身进步带来的数据、算力、算法协同,二是人工智能与传统产业等实体经济的协同;三是人工智能领域各参与主体之间相互协同。以开源创新为基石,以模型即服务(MaaS)这一崭新商业模式为核心,有望带动人工智能产业生态繁荣发展,最终实现人工智能高质量发展。四 生态协同人工智能产业发展十大趋势开源,即开放源代码。代码开源后,开发者可以公开获取版权限制范围内的模型源代码,并进行修改甚至重新开发。与之相反,闭源意味着只有源代码所有者(通常是软件开发商)掌握修改代码的权力。开源的自由度越高,越有利于吸引更多开发者参与到生态建设中(图27)。AGI强调人工智能的通用性,意味着其生态需满足大量细分场景和长尾需求,这种情况下,生态系统越是繁荣开放,越能穷尽可能地覆盖所有专用化、场景化乃至碎片化的需求,保证AGI生态的丰富性和完整性。进一步地,开发者越多,意味着底层模型和上层应用等的迭代速度也会越快。例如,在三大文生图大模型Midjourney、DALLE-3、Stable Diffusion中,Stable Diffusion是唯一选择完全开源的,在一定程度上使得其虽诞生最晚,但用户关注度和应用广度优于其他两类模型。但是,开源也存在一定风险,对于产业生态中的主体企业来说,选择开源某种程度上就意味着公开商业机密,不利于其构建竞争壁垒。此外,开源模式还可能会引发专利侵权风险,主要包括违反开源许可证的规定使用开源软件的侵权情形,以及因开源软件的贡献者引入有版权瑕疵的代码而引发的侵权情形,对开源的知识产权管理规则和流程规范建立提出了挑战。图27:开源的四个自由度数据来源:Richard Stallman,中关村产业研究院、毕马威整理Freedom 0Freedom 1Freedom 2Freedom 3用户可查看源代码允许后用户可修改代码用户可按需运行代码用户可拷贝并分发他人代码副本用户可修改代码,并向公众二次发布人工智能全域变革图景展望:跃迁点来临(2023)45(前提:获得源代码)(前提:获得源代码)09开源创新将是AGI生态建设的基石46 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)政策方面,2021年,开源首次被写入“十四五”规划,国家提出支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系,鼓励企业开放软件源代码、硬件设计和应用服务。2022年,“十四五”数字经济发展规划提出支持具有自主核心技术的开源社区、开源平台、开源项目发展;北京市政府也发文提出“开展大模型创新算法及关键技术研究,鼓励开源技术生态建设”。2023年,北京积极把握大模型爆发机遇,发布北京市促进通用人工智能创新发展的若干措施,提出系统构建大模型等通用人工智能技术体系,鼓励开源技术生态建设。产业方面,除了涌现出一批开源大模型外,百度 飞 桨(PaddlePaddle)、华 为 昇 思(MindSpore)、阿 里 达 摩 院 魔 搭(ModelScope)等开源社区也相继上线,预计还将出现更多开源创新模式,助力中国人工智能迈上新台阶。中国长期强调构建“开源”创新体系,预计随着鼓励人工智能技术创新生态和开源社区的相关政策不断出台,企业等主体积极参与建设,开源创新有望成为中国AGI生态的重要基石之一,推动中国在前沿理论创新方面取得重大突破,从“跟跑”走向“领跑”。案例5:开放原子开源基金会开源基金会是开源运营的一种模式,有助于聚集全国乃至全球众多开发者力量、加速重点开源项目培育、完善多方共赢的开源推进机制,推动开源成果在服务业等重点行业和应用场景中开展先导应用,探索创新发展新路径,支撑数字经济持续高速|发展。为加快构筑国家竞争优势的战略支点,形成自主软件生态,2020年6月,国务院批准成立开放原子开源基金会。基金会由华为、阿里、腾讯、百度、浪潮、招商银行、360等互联网龙头企业共同发起组建,拟对标国际三大开源基金会(Linux,OpenStack,Apache),加快培育具有国际竞争力的自主开源项目和产业生态,打造开源项目聚集地。目前开放原子开源基金会业务范围主要包括募集资金、专项资助、宣传推广、教育 培训、学术交流、国际合作、开源生态建设、咨询服务等业务。46资料来源:公开资料,中关村产业研究院、毕马威分析47 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)图28:MaaS模式下的AGI基础业态分析10模型即服务(MaaS)将是AGI生态构建的核心商业模式关乎整体生态能否实现从价值创造到价值实现的完整闭环,目前AGI生态的商业模式主要以AIGC相关的商业模式为代表,主要包括MaaS(Model as a Service,模型即服务),即大模型厂商将预训练模型开源,形成可调度、可管理、标准化API,按照API调用量来收费、按照产出内容收费、软件订阅收费、或按照模型租赁收费等形式。以GPT系列模型为例,OpenAI共制定了四种收费模式,分别是ChatGPT Plus订阅收费、API(除GPT模型接口外,还包括模型微调接口和嵌入接口)调用量收费、文生图按生成量收费和音转文按分钟收费、模型实例租用收费。业界目前对于MaaS的具体定义并未形成统一说法,API收费模式也只是MaaS的实现路径之一。不过,综合各主流厂商的公开表述,基本可以将MaaS模式的核心价值归纳为:降低算法需求侧的开发技术和使用成本门槛,使AI模型和应用成为简单易用、触手可得的工具。MaaS模式下,需求侧用户可以专注自身业务逻辑和使用体验,而不必关注底层技术细节,有利于解决AI“能用”但“不好用”这一关键落地瓶颈。而在供给侧,有望形成“通用大模型 领域大模型 行业大模型 企业/个人小模型”这一基础业态(图28),推动AI落地千行百业,最终实现AGI。换言之,MaaS将会是AGI生态构建的核心。数据来源:阿里云栖大会,中关村产业研究院、毕马威分析基础层:多模态基模型基础层:领域大模型中间层:行业大模型应用层多模态NLP大模型CV大模型多模态大模型AI4S大模型等计算/存储/网络/数据库基于API接口优化微调提供SDK产品/一体化解决方案变现智能硬件SaaS应用云/GPU/CPU跨模态48 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)48其中,通用大模型和领域专用模型处于基础层,发挥着基础设施的作用,具有通用性强、多模态乃至跨模态的特点,技术难度高且成本投入巨大,拥有高质量数据、强大的多元异构计算能力、自研大模型的科技巨头企业将是主要参与者;行业大模型在中间层,相较基础层来说更为直接地深入到特定行业,在模型训练方面会接入较稀缺的行业Know-how数据,在部署方面会更多采用API接口、SDK私部署的形式,呈现出工具化、平台化趋势。目前,基础层的主流厂商正积极推出行业大模型,例如国外有谷歌的AI医疗大模型,国内有百度旗下度小满推出的金融大模型,预计随着基础大模型走向开源、模型技术成本逐渐降低,未来还会有一批拥有垂直行业优质数据集、数字化转型服务经验丰富的中小科技企业加入中间层,推出更专业、更细分的行业大模型,当底层通用大模型竞争格局逐渐明晰之后,行业大模型将成为各家争夺的关键领域。企业和个人小模型处在应用层,在大模型基础上蒸馏、裁剪后再使用,具有高性价比、部署高效、安全可靠等特点,小模型功能会以插件形式与SaaS应用、智能硬件等相结合,成为AGI时代的流量入口,例如目前已有多家手机厂商布局手机大模型,预计企业和个人小模型有望在基础层和中间层大模型基本完善后迎来爆发式发展,除应用层软硬件厂商会迎来发展机遇外,普通用户也会迎来类似移动互联网阶段的自媒体形式的创作红利期。49 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)关于毕马威中国毕马威在中国内地、香港和澳门运营的成员所及关联机构统称为“毕马威中国”。毕马威中国在三十一个城市设有办事机构,合伙人及员工超过15,000名,分布在北京、长春、长沙、成都、重庆、大连、东莞、佛山、福州、广州、海口、杭州、合肥、济南、南京、南通、宁波、青岛、上海、沈阳、深圳、苏州、太原、天津、武汉、无锡、厦门、西安、郑州、香港特别行政区和澳门特别行政区。在这些办事机构紧密合作下,毕马威中国能够高效和迅速地调动各方面的资源,为客户提供高质量的服务。毕马威是一个由独立的专业成员所组成的全球性组织,提供审计、税务和咨询等专业服务。毕马威国际有限公司(“毕马威国际”)的成员所以毕马威为品牌开展业务运营,并提供专业服务。“毕马威”可以指毕马威全球网络内的独立成员所,也可以指一家或多家毕马威成员所。毕马威成员所遍布全球143个国家及地区,拥有超过265,000名专业人员。各成员所均为各自独立的法律主体,其对自身描述亦是如此。各毕马威成员所独立承担自身义务与责任。毕马威国际有限公司是一家英国私营担保有限责任公司。毕马威国际及其关联实体不提供任何客户服务。1992年,毕马威在中国内地成为首家获准中外合作开业的国际会计师事务所。2012年8月1日,毕马威成为四大会计师事务所之中首家从中外合作制转为特殊普通合伙的事务所。毕马威香港的成立更早在1945年。率先打入市场的先机以及对质量的不懈追求,使我们积累了丰富的行业经验,中国多家知名企业长期聘请毕马威提供广泛领域的专业服务(包括审计、税务和咨询),也反映了毕马威的领导地位。联系我们江立勤客户与业务发展主管合伙人毕马威中国电话: 86 10 8508 7077邮箱:陈俭德科技、媒体及电信行业主管合伙人毕马威中国电话: 86 21 2212 2168邮箱:张庆杰数字化赋能主管合伙人毕马威中国电话: 86 10 8508 4069邮箱:卢鹍鹏科技、媒体及电信行业审计主管合伙人毕马威中国电话: 86 10 8508 7805邮箱:50 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)关于中关村产业研究院北京中关村科技产业研究院有限公司(以下简称“中关村产业研究院”)是中关村发展集团为落实北京市政府批复的关于推进中关村发展集团综合改革的方案而成立,是中关村专注新技术、新产业、新经济的高端智库平台,是产业思想的提供者、产业要素的链接者、产业落地的促进者;致力于为政府机构、国内外创新创业企业、投融资机构、产业园区等提供高精尖产业研究与咨询、区域发展规划、创新政策服务、创新金融服务等服务。中关村产业研究院成立首年即获得“中关村高新技术企业”认定,2022年底荣获“国家高新技术企业”认定。中关村产业研究院从事智库研究领域包括且不限于:(1)高精尖产业研究,主要围绕信息产业、智能产业、新能源产业、医疗健康产业、新能源新材料等开展深入研究;(2)面向未来的前沿赛道研究,从技术视角、投资视角、政策视角、场景视角等视角长期积累前沿方向认知;(3)人口与特色化产业人才研究,形成“聚人促产”等方法分析工具,解决新兴产业人才“是谁”、“在哪”、“从哪来”、“怎么来”的问题;(4)先进科技成果转化模式研究,研究全球值得借鉴科技成果转化模式;(5)政策研究,支撑国家、北京市及地方区域的政策制定等工作;(6)城市更新与高品质科技园区研究,分析国内外典型科技园区发展经验、模式及案例,助力科技园区产业集聚发展;(7)绩效评价与项目全过程管理研究等。吕朋悦中关村产业研究院 高级合伙人(科创前沿事业部、公共事务部)电话: 86 邮箱: 杨洋中关村产业研究院 高级合伙人(产城发展事业部、产业组织咨询事业部)电话: 86 邮箱:张雪姣中关村产业研究院 高级合伙人(综合规划事业部)电话: 86 邮箱:刘敏中关村产业研究院 高级合伙人(大信息事业部)电话: 86 邮箱:联系我们庄明中关村产业研究院 高级合伙人(创新金融事业部)电话: 86 邮箱:51 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)研究团队王薇毕马威中国研究院副总监马曼毕马威中国研究院经理程苑芬毕马威中国研究院助理经理毕马威中国团队中关村产业研究院团队刊物设计:郑英彬毕马威中国设计专员张晓燕中关村产业研究院 高级研究员何佳璐中关村产业研究院 研究员研究指导:吕朋悦中关村产业研究院执行副院长52 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。人工智能全域变革图景展望:跃迁点来临(2023)52 2023 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。如需获取毕马威中国各办公室、中关村产业研究院信息,请扫描二维码或登陆网站:https:/home.kpmg/cn/zh/home/about/offices.htmlhttp:/ 毕马威企业咨询(中国)有限公司 中国有限责任公司,是与英国私营担保有限公司 毕马威国际有限公司相关联的独立成员所全球性组织中的成员。版权所有,不得转载。在中国印刷。毕马威的名称和标识均为毕马威全球性组织中的独立成员所经许可后使用的商标。二零二三年十二月出版http:/

    浏览量0人已浏览 发布时间2023-12-05 54页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
1115条  共56
前往
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部