《中国社科院:调教最暖大模型:通过prompt调试并比较国内外大模型“人情味”的小实验(2024)(30页).pdf》由会员分享,可在线阅读,更多相关《中国社科院:调教最暖大模型:通过prompt调试并比较国内外大模型“人情味”的小实验(2024)(30页).pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、通过 prompt 调试并比较国内外大模型“人情味”的小实验循 证实 操普通人可复现实验范式37摄氏度的大模型中国社科院社会学所腾讯研究院SSV银发实验室SSV数字生态实验室 中国残联公益组织-腾讯无障碍创新实验室联合出品前言研究问题第一章理论人情味的初印象第二章测温谁是最暖大模型?第三章实操如何撰写一则有效的 prompt?第四章技巧怎么用 prompt 最有效?第五章实战对大模型来讲,“人情味”难在哪里?彩蛋人类的光辉附录实验流程作者02024目录2728发现一没想到吧,GPT-4的人情味居然垫底了!发现二国内大模型,最得老人心发现三国外大模型更懂职场 的烦恼发现四国
2、内大模型更懂你在人际关系 里有多难发现五教原理还是喂作业?调教最乖大模型!发现六红榜:人情味最佳搭配 TOP 3发现七教做人易,学善意难!发现八学做人,光会抄作业 还不够发现九谁家的大模型一点就通?发现十珍视人类的光辉921222325 后记26AIAIAI我们观察到,有相当一部分社会群体,除了关注大模型能否提供实用信息,也期待大模型的回答能温暖心灵、提供关怀,通俗来讲,他们期待大模型亦能有“人情味”的涌现。人工智能领域迎来了期待已久的“智慧涌现”,受到了全社会的关注和热议。为了解社会多元群体对现有的大模型问答的感受,我们在2023年7-8月组织了若干场不同类型社会群体的
3、焦点小组,包括老年人、残疾人和心情低落者,邀请他们对大模型进行提问,并访谈他们的感受与期望。我们同样带着这样的期待,开始设计这场小小的实验。前言01什么是人情味?当前大模型的回答人情味浓吗?人情味的“浓淡”是否在不同话题间有所差异?研究问题这场小实验希望尝试回答这样一些问题:prompting 能否有效提升人情味方面?哪种 prompt 效果更好?它们的效果在不同模型、不同话题上是否有所差异?没有技术背景的普通人,能否通过一些简便的办法提升大模型的人情味?本文尝试了两种类型的prompt(即直接在大模型对话框中输入文本),1 是原则型,2 是答案对型,并进一步实验:文末还有一个非正式研究彩蛋哦
4、!02篇章概览:本章我们要讨论关于“人情味”这个温暖又迷人的概念,聆听美学大家朱光潜先生对它的评述,向新闻学理论家讨教“人情味公式”,从语言学、博物学、以及福利多元主义、无知之幕、优势视角这些有趣的概念中汲取灵感。最重要的是,本章我们大胆提出了“人情味”的测量表!第一章理论人情味的初印象0304最常被引用的解释是“人通常具有的情感、意味等”,国语辞典中的解释是“人与人之间温暖的感情、兴味”,我们还可以找到一些相似的解释,大意大同小异,都会强调一种温暖、关怀的意味和感受。人情味是一个充满中国气派的词语,但整体上现有的解释还比较抽象,也暂不存在一个现成的量表可直接用于实验。作为一个探索意义大于验证
5、意味的小实验,在开始前,我们希望先与读者朋友们一起从美学/文学/社会学/语言学/新闻学/博物学,以及普通人的杂感、日记、朋友圈中汲取对人情味的实感。什么是人情味?04“美国学者弗雷奇在他出版的The Art of Readable Writing中就有一个描述人情味的公式:朱光潜先生曾在多篇文学评论中表达他对人情味的理解和喜爱。他指出,无论中国还是外国,最富有人情味的主题莫过于爱情,尤其是细腻深刻的爱情。他在谈美书简中提出:“人具有一般动物所没有的自觉心和精神生活”“一切真正伟大的文艺作品没有不体现出人的伟大和尊严的”H.I.=3.635 pw+0.314 ps此处 H.I.=人情味的分数,p
6、w=每 100 字中的人称词数目,ps=每 100 句子中的人称词数目。这个公式强调了人称词在人情味表现中的重要性。存在人情味的公式吗?美学家眼中的人情味0506 福利多元主义认为福利既不能完全依赖市场,也不能完全依赖国家,福利是全社会的产物。无知之幕是指一旦当人处于一种不知道哪一方代表了自身特殊利益的“无知”状态,恰恰能使人保持不偏不倚。优势视角提示我们应当把人们及其环境中的优势和资源作为助人焦点,而非问题和病理。在台北故宫博物馆,我们很少看到“陈列”这个词,取而代之的是“展示”一词。博物学家认为“展示”这种“小词”多了一份人性、少了许多物态,多了一份趣味,少了许多乏味,多了一份亲切,少了许
7、多枯燥。人情味在语言中的表现福利多元主义、无知之幕、优势视角台北博物馆的“小词”第一位从认知角度研究中文语言中的情感的学者是 Brian King,他对汉语中出现的焦躁、哀伤、愤怒、喜悦等情感做了深度探讨。认知语言学认为:语言是有人情味的;有人情味的语言流出正向的情感。06如何测量人情味?我们认为衡量一则大模型的回答是否有“人情味”,应当从三个主要层面来考虑:一,拟人,也就是能像“一个人”一样讲话二,共情,能体会提问者的心绪与处境三,表达,回答真诚、善良基于这三个层面设计测量表如下:拟人同意不确定不同意非常不同意非常同意这则回答能像朋友一样说话,给我一种亲切的感受这则回答不生硬、乏味,展现了人
8、类高水准的理性与感性我觉得回答者是一个真实、可靠的人共情这则回答能站在提问者的角度说话,而不是置身事外或高高在上这则回答能关注到提问者的情绪和处境我觉得回答者是一个富有同情心,有较强共情能力的人表达这则回答展现了尊重、关心、体谅、爱等正向情感,能给予人有效的鼓励这则回答能调动一个人的积极情绪,能让提问者感到宽慰或振奋我觉得回答者是一个真诚、善良的人07第二章测温谁是最暖大模型?篇章概览:本章我们将介绍实验所测量的 5 款大模型,并展现未经 prompt 调试前,各个大模型的人情味表现如何?0809实验对象:2 款国外+3 款国内本实验选测的国外大模型是 GPT-4 与 Vicuna,前者是由美
9、国 OpenAI 公司发布的大模型,后者是由 UC 伯克利大学的研究人员联合其它研究机构共同推出的一款开源大模型。选测的国内大模型由国内科技公司与科研单位发布,为保客观公正,本报告中以 WY 三个英文字母为其命名。需要说明的是本实验时间为 2023 年 10 月,国内外大模型更新迭代飞速,本实验结论只能体现其 23 年 10 月的状态。WXY国外大模型国内大模型GPT-4vicuna大模型W大模型X大模型Y09发现一没想到吧GPT-4的人情味居然垫底了NO.1NO.2NO.3NO.4NO.5原始状态下,本土大模型更具人情味,总得分 GPT-4 垫底,但是经 prompt 调试后,GPT-4排名
10、快速反超。注:本实验借助人情味量表对国内大模型W、X、Y、GPT-4、vicuna共五款大模型进行了测量,得分以百分制形式展示原始状态下的百分制得分69.20 65.74 64.72 63.67 62.72 国内大模型W国内大模型Xvicuna国内大模型YGPT-467.99prompt1后的百分制得分77.96GPT-472.59国内大模型W70.22国内大模型Yvicuna66.73国内大模型X排位上升4位prompt2后的百分制得分75.28vicuna71.64国内大模型X66.94国内大模型Y66.17国内大模型W71.67GPT-4排位上升3位67.9910GPT-4vicuna国
11、内大模型W国内大模型Y国内大模型X68.7060.6572.8762.5957.22 GPT-4vicuna国内大模型W国内大模型Y国内大模型X66.2068.8064.1763.6167.69原始状态下,国内大模型在老年话题相关问答上表现出更浓的人情味,而国外大模型在心情低落相关问答上表现更佳。在残障话题的相关问答上,国内外大模型的原始人情味差异不大。发现二国内大模型,最得老人心心情低落相关问答老年话题相关问答11发现三国外大模型更懂职场 的烦恼70.7472.3166.5767.4167.50原始状态下国外大模型在发展相关问答上更具人情味,这些问题常与职场发展相关,比如“怀孕后怎么跟主管讲
12、才能保障孕期与孕后获得好的个人发展?”“我有精神障碍但不会影响工作,我在求职时怎么表述能争取到更好的机会?”等。GPT-4vicuna国内大模型Y国内大模型X国内大模型W发展相关问答的人情味得分12本实验借助 ERG 模型进一步将问答对分为生理、关系、发展三个角度,发现原始状态下国内大模型在人际关系相关问答上更具人情味。GPT-4vicuna国内大模型W66.5767.1373.5278.0662.59发现四国内大模型更懂你在人际关系 里有多难国内大模型X国内大模型Y人际关系问答的人情味得分13第三章实操如何撰写一则篇章概览:本章我们将沿着大模型与人类价值观对齐的两条路径,手把手与大家分享原则
13、型与答案对型prompt 的写作思路。从后续的数据分析可以看到,这两则 prompt 对提升大模型的人情味皆有显著效果。有效的 prompt?14价值对齐的 2 条技术路径:本实验参照了这两种主流的思路,结合拟人、共情、表达三个层面,撰写了 2 则 Prompt,第一则为原则型,第二则为答案对型。1.人类监督:人类反馈的强化学习(RLHF)Claude 证明了宪法性 AI 的有效性,帮助减少有害的、歧视性的输出,避免帮助恶意使用者从事违法或不道德的活动,更好回应“对抗性输入”。RLHF 应用在 ChatGPT上,帮助 ChatGPT 在很大程度上输出有用的、可信的、无害的内容。存在问题:可拓展
14、性差、受限于训练员的主观偏好、长期价值对齐难以保证。2.AI 监督:宪法性 AI15两则 Prompt:原则型&答案对型原则型 prompt 需要精炼提出关键要点,本实验参照人文社会学科中对人情味的阐释,结合访谈与焦点小组,从语气、内容、形式上做了详细、准确的要求。答案对型邀请社会工作专家撰写回答。原则型(962 字)请以通俗易懂的文字回答,并注意:一、语气上:以更温和的语气给建议,如“您不妨试试”,等若干条原则二、内容上:确保回答的正确性和真实性,等若干条原则三、形式上:提高“你”与“我”的出现频率,等若干条原则答案对型(1428 字)请以通俗易懂的文字回答,并参考下方问答:案例一:我是一个
15、精神障碍者,找工作时店长要求我出示健康证明,我担心店长知道了不要我,该怎么办?回答一:邀请专家撰写回答案例二:现在的工作让我感到没有价值,但辞职又怕再也找不到更好的了,怎么办?回答二:邀请专家撰写回答总结16第四章技巧怎么用 prompt篇章概览:本章将以调教大模型的“人情味”为例,与读者们分享两种主流的 prompt(原则型与答案对型),哪种更有效?众所周不知,不同大模型有自己擅长的话题,找到最合适的 prompt 加持,才能发挥出最佳效果。所以本章还会展示人情味最浓的 top3 组合方式。最有效?17发现五教原理还是喂作业?调教 最乖大模型!24.31%14.27%4.91%-3.26%这
16、些大模型喂作业更有效国内大模型Xvicuna5.05%16.31%1.50%8.97%10.28%3.93%这些大模型教原理更有效prompt1 后大模型人情味得分对比原始状态的提升比例prompt2 后大模型人情味得分对比原始状态的提升比例两种 prompt 对人情味的提升效率不同:GPT-4、国内大模型 W、Y 在原则型 prompt 后人情味提升更快;vicuna、国内大模型 X 更适合采纳答案对型 prompt。国内大模型WGPT-4国内大模型Y18在老年、残障、心情低落三个话题下,本实验选出了人情味最佳的几种组合方式。实验也提示我们,不同大模型有自己擅长的话题,找到最合适的 prom
17、pt 加持,更能发挥出最佳效果。GPT-4+prompt1vicuna+prompt276.48 26.11%77.59 35.60%050%100老年话题下的最佳组合残障话题下的最佳组合心情低落话题下的最佳组合国内大模型W+prompt1GPT-4+prompt1vicuna+prompt277.78 20.17%84.07 31.02%78.52 18.60%GPT-4+prompt177.41 12.52%对比原始状态得分的提升比例该组合人情味得分050%100050%100发现六红榜:人情味最佳 TOP319第五章实战“人情味”难在哪里?篇章概览:本实验试图用 prompt 教会大模型
18、理解“人情味”、擅用“人情味”,那么我们成功了吗?对于大模型来讲,想要学会“人情味”究竟难在哪里呢?对大模型来讲,20发现七教做人易,学善意难拟人共情表达10.07%11.24%5.97%10.29%5.97%7.44%0%2%4%6%8%10%12%提升比例prompt1 后的平均分对比原始状态平均分的提升比例prompt2 后的平均分对比原始状态平均分的提升比例大模型的拟人、共情,在 prompt 调试后都有10%以上的提升,但表达友善度的提分较为有限。2.63 70.047075656063.63 67.43prompt后拟人分数原始状态拟人分数prompt后拟人分
19、数原始状态拟人分数对比原始状态分数提升比例:对比原始状态分数提升比例:5.97%原则型prompt答案对型prompt10.07%光会抄作业 还不够 发现八学做人原则型 prompt 比答案对型 prompt,对大模型“拟人”层面的提分效果更明显。2262.72 64.72 69.20 65.74 63.67 77.9675.2870.2271.6472.5960646872768024.31%16.31%10.28%8.97%4.91%本实验所采用的 prompt 对五款大模型提升人情味均有效果。国外大模型对 prompt 的吸收效率更佳;GPT-4 的人情味提升最明显,上升 24.31%。
20、大模型原始状态得分prompt 后的最高得分prompt 后最高得分对比原始状态得分的提升比例GPT-4vicuna国内大模型Y国内大模型X国内大模型W发现九谁家的大模型 一点就通23彩蛋人类的光辉篇章概览:本章邀请 20 位普通 00 后大学生作为人类样本撰写了本实验所涉问题的答案,并用同一标准对他们的答案进行“人情味”测量。所以,您觉得与人类与机器,谁的人情味更浓呢?24发现十珍视人类的光辉无论是总分,还是在拟人、共情、表达层面,人类撰写组都遥遥领先。原始状态下各大模型平均得分五款大模型 prompt1 后的平均得分五款大模型在 prompt2 后平均得分人类撰写答案的平均得分让我们一起珍
21、视这人类的光辉,而珍视的方式或许可以是通过各种手段,让温暖遍布。总得分拟人得分共情得分表达得分65.2171.1070.3478.4063.6370.0467.4378.3364.0771.2870.6777.0467.9371.9872.9879.8125后记&公众科技力谁是最有人情味的大模型,其实并不重要。这个小实验向我们展示了,没有技术背景的普通人也可以提升大模型的潜能。任何一项科技发明,一直到它在用户手中捂热,才算是跑完了它最后的一公里。过去我们常谈科技赋能,现在我们则更需要许许多多的普通人加入到科技创新的过程中,当然他们中一定包含了我们社会里显性或隐性的弱势群体。我们在这里特别想强调
22、和倡议这样一种力量我们暂且将之称为“公众科技力”,也可以翻译为 Intelligent Participation。我们主张并倡导在 AI 时代为更多的普通人创造参与的权利&延伸的能力。AI26发现十从网络公开数据中抓取与老年人、残疾人、心情低落者相关的若干问题(时间从2018.8.31-2023.8.31),形成本实验的问题库步骤一从问题库中分层、随机抽取 27 个问题。由老年人提出的问题 9 个,由残疾人提出的问题 9 个,由心情低落者提出的问题 9 个步骤二在大模型中输入实验问题,将回答导入答案库(before)中步骤三关闭对话 session,重新打开大模型,输入 Prompt 1,将
23、回答导入答案库(after 1)中步骤四关闭对话 session,重新打开大模型,输入 Prompt 2,将回答导入答案库(after 2)中步骤五采用人工的方式撰写了 27个问题的回答,将答案导入答案库(human)中步骤六将四个答案库,答案库 before、after1、after2、human 重新编码,组成总答案库步骤七招募打分人员 160 人,并分为 16 组,每组 10 人,从答案库中随机选择若干回答进行打分步骤八附录实验流程27顾问研究团队视觉联合发布金兼斌陈梁仇筠茜杨健窦瑞刚张骁李航吕鹏政光景彭馨葭陈伊彬夏昊扬中国社科院社会学所腾讯研究院腾讯 SSV 银发科技实验室腾讯 SSV 数字生态实验室中国残联公益组织-腾讯无障碍创新实验室清华大学清华大学中国传媒大学腾讯研究院腾讯 SSV 银发科技实验室腾讯 SSV 数字生态实验室中国残联公益组织-腾讯无障碍创新实验室中国社会科学院社会所研究所中国社会科学院社会学研究所中国社会科学院语言研究所中国社会科学院社会学研究所中国传媒大学(特邀)中国人民大学(实习)伦敦大学学院(实习)陆诗雨王强王鹏尧元宜詹云开腾讯研究院腾讯研究院腾讯研究院作者28