上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

高书生:ChatGPT对文化元宇宙的启示(35页).pdf

编号:117691 PDF   PPTX  35页 2.43MB 下载积分:VIP专享
下载报告请您先登录!

高书生:ChatGPT对文化元宇宙的启示(35页).pdf

1、ChatGPT 对文化元宇宙的启示高书生AIGC:开启文化元宇宙新纪元解题:从生产的角度探索文化元宇宙不同的 生产方式专业生产内容PGC用户生产内容UGC人工智能自动生成内容AIGCAIGC文化元宇宙生产消费元宇宙初级阶段数字化文化消费新场景数字化文化体验文化元宇宙生产和消费同一元宇宙高级阶段数据数字化时代的生产要素数据如何保真?ChatGPT 的启示(一)ChatGPT 的训练数据集来源分为六类 维基百科:英文版维基百科中有超过 640 万篇文章,包含超 40 亿个词 书籍:故事型书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力 期刊:预印本和已发表期刊中的论文为数据集

2、提供了坚实而严谨的基础 Reddit 链接:WebText 是一个大型数据集,它的数据是从社交媒体平台 Reddit 所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标 Common Crawl:一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,它的文本来自不同语言、不同领域 其他数据集:由 GitHub 等代码数据集、StackExchange 等对话论坛和视频字幕数据集组成数据失真的结果互联网上的数据并不都是准确的,当错误的数据量足够大时,导致 ChatGPT 得出的结论也是错误的案例:有个基于 OpenAI 的 GPT-3 的医疗聊天机器人,建议病人自杀人

3、工智能模型的学习是基于历史数据,其中很可能存在不必要的偏见,这种偏见可能导致社会排斥和歧视扣好文化元宇宙的第一粒扣子AIGC 的充分必要条件AIGC 的数据集从何而来 中文互联网数据质量堪忧 从中华民族积淀了五千多年的文化资源转化公共文化机构释放数据公共文化资源数据要依法向公众开放这些年国家大力推动文化资源数字化,公共文化机构积攒了大量的文化资源数据,从中提取具有历史传承价值的中华文化元素、符号和标识,转化为文化生产要素,就可以为文化元宇宙提供丰富多彩的文化素材。我国是文明古国,也是文化资源大国,海量的文化资源大多数集中在公共文化机构,属于文化事业。公共文化机构的数据量 图书馆:截至 2021

4、 年底,全国县以上公共图书馆自建数字资源总量达 2.5 万 TB,通过国家数字图书馆“文津”搜索系统整合共享馆藏元数据超过 3.8 亿条,关联文本、图像、音视频等不同形态的图书馆资源数据体系日益完善 文化馆:全民艺术普及数字资源建设,截至 2021 年底,统筹整合入库音视频资源 43249 部(集),其中发展中心本级 13099 部(集)、地方 30150 部(集),资源来源包括 9522 场“村晚”活动资源、244 部“舞出中国红”广场舞展演活动资源及一批广场舞课程资源、457部“大家唱”群众歌咏活动资源、125 个“百姓大舞台”网络群众文化品牌活动资源、310名优秀“乡村网红”短视频资源、

5、1700 名“学才艺”师资资源与 1100 门培训课程资源等 博物馆:第一次全国可移动文物普查(2012 年始),共计 10815 万件/套采集 15 项文物基础信息,照片 5000 万张 美术馆:藏品 592663 件,藏品图片 820288 幅地方志三级 志书截至 2020 年 12 月 31 日,编 纂 完 成 5198 部,公开出 版 4917.5 部部门志行业志专题志截至 2019 年年 底,累 计出版 25100 余部乡镇志村志截至 2019 年年 底,累 计 出版 6000 余部整理 出版 旧志截至 2019 年年 底,全 国 地方 志 系 统 累 计达 3500 余部数字 方志

6、馆(数据库)截至 2019 年年 底,省 市 县三级建成 100 个民歌和民间故事民间歌谣和谚语舞蹈民歌 30 万首 民间故事 30 万篇民间歌谣 44941 首 民间谚语 576546 条舞蹈节目 26995 个戏剧剧种 394 个 唱腔 17402 段曲艺曲种 591 个 唱腔 11108 段器乐曲曲目 20698 首曲艺器乐曲戏剧中国民族民间文艺资源中央主要新闻单位的数据量人民日报图文数据库收录人民日报 1946 年创刊至今七十多年来的新闻报道,是一座大型的、纪实的、珍贵的资料库新华社所属的中国照片档案馆是世界上最完整、最系统、最全面的中国历史照片总汇,馆藏照片涵盖了自 19 世纪下半叶

7、以来各类中外珍贵历史资料图片 1500 余万底中央电视台广播电视音像资料馆将早期的 2 吋带、3/4吋磁带全部抢救完毕,近70 万盘磁带完成数字化转储,其中包括大量反映中国地理风光、生态植被、文化建筑的拍摄素材出版物数据库 在期刊领域,有同方知网、万方数据、龙源期刊、维普期刊等大型期刊数据库 在图书领域,综合性的有国家数字图书馆、读秀网、掌阅科技、中文在线、方正电子书等图书数据库 在图书领域,专题性的有人民出版社的中国共产党思想理论资源数据库、科学出版社的科学文库、社科文献出版社的皮书数据库等,以及专业性的如中华古籍资源库、爱如生、翰堂典藏、书同文等古籍数据库等汉字库6 万字(康熙字典 4 万

8、多字)日历库上起夏朝禹(公元前 2071.12.28),下迄清末帝(公元 1912.02.17)地名库每条地名均注文献出处及变更情况已制作 800 万字人名库收录 36 万人、2400 万字(比中国人名大辞典多 5 倍)作品库有 10 亿字,把每个人的作品归集于其个人名下附加库工具库、图片库、地图库、类书收藏库、资料汇编库等扫叶渭南“两河一山”文化数字记忆项目十个专题数据库 重点文物保护单位数据库(仰韶文化、龙山文化等为代表的农耕文明遗址)古代书院数据库(渭南地区书院可稽者五十余所)民间传说数据库(黄帝荆山铸鼎、大禹黄河治水、仓颉造字、女娲抟土造人)古代诗词歌赋数据库(仅全唐诗就收录有数百篇)

9、历史文化名城名镇名村数据库(还有为数众多的国家级和省级“民间文化艺术之乡”)历史文化名人数据库(“三圣故里”和“将相之乡”,宋代名相寇准等 80 多位宰相)渭南“非遗”数据库(国家级“非遗”17 项,省级“非遗”数百项)渭南古籍目录数据库(十万余册,其中部分古籍可实现全文数字化)渭南传统戏曲剧目剧本数据库(有“世界电影鼻祖”之称的华县皮影戏)渭南红色文化资源数据库(1919 1949 年间大量红色革命故事、红色文化遗迹和红色文献资源)数据驱动具有文化内涵的数据,才是真正的生产要素基础不牢地动山摇不能在沙漠上盖高楼数据标注ChatGPT 的启示(二)ChatGPT请模仿 杜甫 写一首诗测试结果:

10、呈现并不好(模仿诗歌,英语比汉语好)原因分析:语料库没有对汉语韵律、字节做标注和训练数据标注 分类 编目 特征描述百度山西数据标注基地 2018 年入驻山西综改示范区 办公面积超 19000 平方米,已有 5000 名数据标注师,已入驻 53 家代理商 基地累计产值超 5 亿元 已累计培育孵化 41 家数据标注企业 百度已在山西太原、山东济南、山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余7 个地域建设百度智能云数据标注基地中国知网太原数字出版数据加工基地 期刊 19.05 万本现刊 8.01 万本过刊全文回溯 11.5 万本 报纸 146.70 万篇重要报纸文献 137.38 万篇 博硕士

11、论文现刊 37.99 万本、过刊全文回溯 36.4 万本 年鉴、统计年鉴 2398 本 会议论文 12.1 万篇布局国家文化大数据标识基地标签、标注、标识不同于互联网域名解析文化数字化采用标识解析 域名解析 标识解析域名:结果:123.124.12.41域名解析系统(DNS)标识码:24-3结果:文化数据元数据信息+数字内容访问地址标识解析系统(ISLI)鉴权验证用户是否拥有访问系统的权利,版权认证解析提供文化数据元数据信息+数字内容访问地址关联以 ISLI 编码构建关联标识标识编码由十进制数字和三个字段构成国际标准关联标识符(ISLI)中国提案创建国际标准化

12、组织 2015 年发布唯一标识实体之间关联关系的全球通用标识符,ISLI 不改变已有标识标识解析数据互联互通(数据地址+核心元数据)0101数据分布式存储(物理分布、逻辑关联)0202数据确权(每个数据都有唯一身份证,伴随全生命周期)0303元宇宙元宇宙的核心要素:数字身份、数字货币、数字资产把电视机作为元宇宙的入口ISLI DRA 扮演元宇宙“户籍警”角色将机顶盒改造成为元宇宙发射器用 ISLI 标志码作为数字身份主权链213依据:推动标识解析与区块链、大数据等技术融合创新依据:我国主导的信息与文献相关国际标准实施:依托中国国家文化大数据标 识 注 册 中 心(ISLI DRA)4路 径:ISLI 同各联盟链对接元宇宙的治理成本不能重蹈互联网“先发展、后治理”的覆辙

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(高书生:ChatGPT对文化元宇宙的启示(35页).pdf)为本站 (淡然) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部