《科技行业:Llama 2升级迭代效果显著有望加速应用端落地-230730(16页).pdf》由会员分享,可在线阅读,更多相关《科技行业:Llama 2升级迭代效果显著有望加速应用端落地-230730(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、中 泰 证 券 研 究 所 专 业 领 先 深 度 诚 信 证券研究报告 2 0 2 3.7.3 0 Llama 2:升级迭代效果显著,有望加速应用端落地 分析师:闻学臣 执业证书编号:S0740519090007 2 图表:Llama1和Llama2的模型结构对比 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 2023年年7月月19日,日,Meta发布了发布了Llama2开源预训练大模型。开源预训练大模型。该模型是Llama1的更新版本,在公开可用的数据集上进行训练。与LLaMA相比,预训练语料库的大小增大约40
2、%,达到了2.0T。同时模型的上下文长度增加到了4k tokens,并采用了分组查询注意力机制(GQA,grouped-query attention)。Llama 2有有7B、13B、34B和和70B的四个版本,的四个版本,在多项基准测试中表现优异。在多项基准测试中表现优异。特别是在阅读理解和常识推理方面,70亿参数规模的Llama 2预训练模型的表现已经可以与当前顶尖的预训练语言模型GPT-3.5和PaLM-540B相媲美。Llama 2-Chat是Llama 2的微调版本,经过了多轮微调和优化以适用于对话任务。Meta发布了该模型的7亿、13亿和70亿参数规模的变体。Llama2:最大规
3、模:最大规模70B,部分任务评分可媲美,部分任务评分可媲美GPT-3.5和和PaLM-540B 模型名称 参数规模 内容长度 分组查询注意力 GQA 训练Tokens 学习率 Learning Rate Llama1 7B 2k 1万亿 3.0 E4 13B 2k 1万亿 3.0 E4 33B 2k 1.4万亿 1.5E-4 65B 2k 1.4万亿 1.5E-4 Llama2 7B 4k 2万亿 3.0E4 13B 4k 2万亿 3.0E4 34B 4k 2万亿 1.5E-4 70B 4k 2万亿 1.5E-4 相比Llama1,内容长度加倍,训练数据量达到2万亿tokens OYeXlVl
4、YjZeVCX9YgV8OdNaQmOmMtRsRkPmMqPlOtQoP9PrRwPxNsPzRNZqRmP3 图表:Llama2系列模型预训练损失情况 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 图表:Llama2系列模型预训练消耗算力(单位:万GPU小时)资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 Llama 2的预训练过程持续约的预训练过程持续约4个月个月,主要在主要在Meta自建的自建的AI研究超级计算集群研究超级计算集群
5、(RSC)和内部生产集群上完成。和内部生产集群上完成。所有模型训练总耗时约330万GPU小时。Llama 2使用来自公开数据源的预训练数据使用来自公开数据源的预训练数据,总计总计2万亿万亿tokens,其中,其中不包含任何不包含任何Meta用户数据。用户数据。预训练数据主要以英语为主,占比近90%,代码占比约8.4%,其次是德语、法语等其他语言的语料数据。高质量预训练:数据高质量预训练:数据集包含集包含2万亿万亿tokens,英语语料占比近,英语语料占比近90%18.43 36.86 103.83 172.03 02040608001802007B13B34B70BLan
6、guage Percent Language Percent en 89.70%uk 0.07%unknown 8.38%ko 0.06%de 0.17%ca 0.04%fr 0.16%sr 0.04%sv 0.15%id 0.03%zh 0.13%cs 0.03%es 0.13%fi 0.03%ru 0.13%hu 0.03%nl 0.12%no 0.03%it 0.11%ro 0.03%ja 0.10%bg 0.02%pl 0.09%da 0.02%pt 0.09%sl 0.01%vi 0.08%hr 0.01%英语训练数据占比89.70%。Unknown主要指代码数据,占比8.38%。4
7、 图表:Llama 2-Chat训练过程 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 要将Llama 2应用于实际对话场景,仅仅预训练是不够的,需要使用人类反馈进行进一步微调来优化模型的有用性和安全性。Llama 2-Chat正是通过一系列微调方法进行优化得到的专门面向对话的语言模型。Llama 2-Chat通过应用监督微调(SFT)创建了Llama 2-Chat的初始版本。随后,该模型使用基于人类反馈的强化学习(RLHF)方法进行迭代优化,主要有拒绝采样(Rejection Sampling,RS)和近端策略优
8、化(Proximal Policy Optimization,PPO)。Llama2-Chat:基于预训练模型,采用基于预训练模型,采用RLHF和和PPO等方法微调的对话模型等方法微调的对话模型 Step1:预训练得到Llama 2模型 Step4:运用安全和可用奖励模型进行RLHF,包含拒绝采样和近端策略优化过程 Step3:人类反馈训练安全(Safety)和可用(Helpfulness)奖励模型 Step2:SFO得到Llama-2-chat初始版本 Step5:得到Llama-2-Chat最终版本 5 图表:高质量SFT注释示例 资料来源:Llama2:Open Foundation a
9、nd Fine-Tuned Chat Models、中泰证券研究所 监督微调(监督微调(SFT):少量高质量数据可以更快地提升模型质量):少量高质量数据可以更快地提升模型质量 Meta发现SFT的数据质量非常重要,但第三方SFT的数据的多样性和质量都不够高。因此Meta进行了信息收集,一共收集了27540个注释(annotation),并在其中排除了Meta用户的数据信息。Llama2-Chat进行了两次有监督的微调。在微调过程中,每个样本都包括一个提示和一个回答。为了确保模型序列长度被正确填充,Meta 将训练集中的所有提示和答案连接起来,并使用一个特殊的token来分隔提示和答案。通过高质
10、量的输入和输出数据来达到Llama 2-Chat期望生成的数据 Helpfulness:根据提示给出相应的答案的能力 Safety:拒绝不合理或存在人身攻击的请求的能力 6 图表:奖励模型得分结果 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 运用运用RLHF提升对话能力,训练了安全性和可用性两个奖励模型提升对话能力,训练了安全性和可用性两个奖励模型 在监督微调后的基础上,研究人员使用了基于人类反馈的强化学习在监督微调后的基础上,研究人员使用了基于人类反馈的强化学习RLHF进一步优化进一步优化Llama 2-Cha
11、t:1)收集超过100万个人类偏好反馈样本,让标注者对模型生成的不同回复进行比较和选择,得到他们的偏好判断。2)使用这些偏好数据训练专门的有用性奖励模型和安全性奖励模型,以自动评估对话回复的质量。3)使用PPO和拒绝抽样等强化学习算法,让语言模型在这些奖励模型的指导下逐步逼近人类的偏好。Meta分别训练了安全性和有用性两个奖励模型。分别训练了安全性和有用性两个奖励模型。在基于Llama 2-Chat收集的内部测试集上表现最佳,其中有用性奖励模型在元有用性(Mega Helpful)测试集上表现最佳。同样,安全性奖励模型在Meta的测试集上表现最佳。总体而言,这两个奖励模型优于包括GPT-4在内
12、的所有模型。图表:奖励模型的扩展趋势 Meta Helpful Meta Safety Anthropic Helpful Anthropic Harmless OpenAI Summ.Stanford SHP Avg SteamSHP-XL 52.8 43.8 66.8 34.2 54.7 75.7 55.3 Open Assistant 53.8 53.4 67.7 68.4 71.7 55.0 63.0 GPT-4 58.6 58.1-Safety RM 56.2 64.5 55.4 74.7 71.7 65.2 64.3 Helpfulness RM 63.2 62.8 72.0 71
13、.0 75.5 80.0 70.6 Llama 2-Chat在有用性和安全性指标上取得了大幅提升在有用性和安全性指标上取得了大幅提升,在一系列基准测试在一系列基准测试上普遍优于当前公开的对话上普遍优于当前公开的对话chatbot模型模型。有用性方面,Llama 2-Chat 70B在内部分别与3万个提示进行的人类评估中,与ChatGPT旗鼓相当,胜出率达到36%,并大幅领先于其他开源模型;安全性方面,Llama 2-Chat也展现出较低的违规率和较高的平均安全性评分,与商业对话模型ChatGPT和PaLM-Bison相比胜率超过50%。7 Helpness人工评估:以显著优势优于开源模型,人工
14、评估:以显著优势优于开源模型,Llama 2-Chat 70B与与GPT-3.5相媲美相媲美 人工评估通常被认为是评判自然语言生成模型的黄金标准人工评估通常被认为是评判自然语言生成模型的黄金标准。Meta利用4000+个单次和多次的输入来比较开源模型和闭源模型的实用性和安全性。通过输入内容(事实内容、写作和内容生成、语言帮助、建议以及对话)产生输出内容,并人工判断两个模型输出的优劣性。Llama 2-Chat模型在单回合和多回合中都以显著优势优于其他开源模型模型在单回合和多回合中都以显著优势优于其他开源模型。Llama 2-Chat 70B模型以60%+的胜率优于MPT-7B-chat。Lla
15、ma 2-Chat 34B模型在与同等规模的Vicuna 33B和Falcon 40B模型的比较中具有超过75%的整体胜率。Llama 2-Chat 70B模型与ChatGPT相媲美。与GPT-3.5的竞争中,Llama 2-Chat 70B模型的胜率为36%,平局率为31.5%。Llama 2-Chat 70B模型以很大比例的胜率优于PaLM-Bison模型。图表:Llama 2-Chat模型与开源和闭源模型的实用性人工评估结果 图表:实用Prompt的例子 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 8 Sa
16、fety人工评估:安全性优于所有开源模型甚至是人工评估:安全性优于所有开源模型甚至是GPT-3.5,且在多轮对话中表现突出,且在多轮对话中表现突出 Meta根据安全类别收集了约2000条提示,要求评分者对模型进行安全违规判定。这些结果受到受到提示的限制、审查指南的主观性、内容标准以及个别评分者的主观性等影响。Llama 2-Chat的安全性优于所有开源模型甚至是GPT-3.5。Llama 2-Chat具有可比或更低的总体违规百分比,而ChatGPT和Falcon紧随其后,然后是MPT和Vicuna。多轮对话更容易引发不安全反应是模型测试中的普遍现象。尽管如此,与其他模型相比,Llama 2-C
17、hat在多轮对话仍然表现良好。图表:Llama 2-Chat模型与开源和闭源模型的总体安全性人工评估结果 图表:单论对话和多轮对话的违规百分比 Llama 2-Chat总体违规百分比约为5%,安全性能更高。Llama 2-Chat在多轮对话中的违规百分比低于15%,仍然优于其他模型。资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 9 开源模型评估:开源模型评估:Llama 2 70B优于所有开源模型优于所有开源模型 Llama 2 70B模型优于模型优于MPT、Falcon等开源模型等开源模型。Meta采用内部评估库
18、,对Llama 1、Llama 2、MosaicML Pretrained Transformer(MPT)model以及Falcon进行评估,评测领域有代码、常识推理、世界知识、阅读理解、数学、MMLU(大规模多任务语言理解评测基准)、BBH(BIG-bench的子集,仅包含目前模型表现无法超过人类的任务)和AGI Eval(类人能力的基准测试)。SOTA结果均出现在Llama 2测试中。Model Size Code Commonsense Reasoning World Knowledge Reading Comprehension Math MMLU BBH AGI Eval MPT
19、7B 20.5 57.4 41 57.5 4.9 26.8 31 23.5 30B 28.9 64.9 50 64.7 9.1 46.9 38 33.8 Falcon 7B 5.6 56.1 42.8 36 4.6 26.2 28 21.2 40B 15.2 69.2 56.7 65.7 12.6 55.4 37.1 37 Llama 1 7B 14.1 60.8 46.2 58.5 6.95 35.1 30.3 23.9 13B 18.9 66.1 52.6 62.3 10.9 46.9 37 33.9 33B 26 70 58.4 67.6 21.4 57.8 39.8 41.7 65B
20、30.7 70.7 60.5 68.6 30.8 63.4 43.5 47.6 Llama 2 7B 16.8 63.9 48.9 61.3 14.6 45.3 32.6 29.3 13B 24.5 66.9 55.4 65.8 28.7 54.8 39.4 39.1 34B 27.8 69.9 58.7 68 24.2 62.6 44.1 43.4 70B 37.5 71.9 63.6 69.4 35.2 68.9 51.2 54.2 图表:与开源模型相比,各模型学术基准测试的表现 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、
21、中泰证券研究所 10 预训练模型评估:编程能力和算术能力突出预训练模型评估:编程能力和算术能力突出 编程能力:编程能力:在HumanEval和MBPP代码生成基准测试中,Llama 2的表现总体优于Llama 1、MPT以及Falcon。常识推理:常识推理:在HellaSwag、WinoGrande和Commonsense QA等常识推理测试中,Llama 2在部分任务上强于Llama 1,在全部任务上优于MPT和Falcon。算术推理:算术推理:在GSM8K和MATH数学测试中,Llama 2 表现出色,强于Llama 1,遥遥领先于MPT和Falcon。图表:编程能力测试比较结果 图表:常
22、识推理测试比较结果 图表:算术推理测试比较结果 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 11 预训练模型评估:预训练模型评估:Llama 2 70B世界知识能力优于其他开源模型世界知识能力优于其他开源模型 世界知识:在NaturalQuestion和TriviaQA 开放域问答测试中,Llama 2 70B的表现优于其他模型,除在NaturalQuestion-0-shot被Faclcon 40B超过。阅读理解:在SQuAD和QUAC阅读理解测试中,Llama 2的表现略高于Llama 1和MPT,远高于Fa
23、lcon 7B。图表:世界知识测试比较结果 图表:阅读理解测试比较结果 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 12 预训练模型评估:综合表现突出,并在预训练模型评估:综合表现突出,并在Llama 1基础上进步明显基础上进步明显 综合表现:在MMLU多任务测试中,Llama 2模型优于其他模型,尤其是Llama 2 70B模型的表现遥遥领先其他模型;在AGI Eval学科考试评测中,Llama 2 70B在绝大部分学科上都强于其他模型,相比Llama 1的结果有显著提升。图表:综合表现测试比较结果 资料来源:
24、Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 13 闭源模型评估:部分任务接近闭源模型评估:部分任务接近PaLM 2持平,与持平,与GPT-4仍存在一定的差距仍存在一定的差距 除开源模型以外,Meta将Llama 2 70B的结果与闭源模型进行比较。Llama 2 70B在MMLU多任务测试和GSM8K数学测试上接近GPT-3.5,但在编码能力上存在显著差距。在TriviaQA和Natural Question开放域问答测试中,Llama 2的表现均超过PaLM,拥有接近PaLM-2-L的水准。但在GSM8K数学测试中,Ll
25、ama 2分数仍低于GPT-4和PaLM-2-L。在在BIG-Bench Hard(BBH)测试中测试中,Llama 2的成绩接近的成绩接近PaLM。Benchmark(shots)GPT-3.5 GPT-4 PaLM PaLM-2-L Llama 2 MMLU(5-shot)70 86.4 69.3 78.3 68.9 TriviaQA(1-shot)81.4 86.1 85 Natural Questions(1-shot)29.3 37.5 33 GSM8K(8-shot)57.1 92 56.5 80.7 56.8 HumanEval(0-shot)48.1 67 26.2 29.9
26、BIG-Bench Hard(3-shot)52.3 65.7 51.2 图表:与闭源模型相比,各模型学术基准测试的表现 资料来源:Llama2:Open Foundation and Fine-Tuned Chat Models、中泰证券研究所 14 Llama 2发布后,能够成为目前最有竞争力的开源模型发布后,能够成为目前最有竞争力的开源模型。目前有部分海内外应用端厂商会选择使用Llama进行精调,再进行有针对性的应用部署。Llama 2发布之后,部分厂商可以基于Llama 2进行模型精调和部署,能够获得比之前模型更佳的表现结果。对于一些应用端厂商,在进行基础模型迭代后有望大幅提升应用端产
27、品能力。我们认为应当更关注应用端公司,相关应用有望加速落地。对于大模型而言,提升效果最重要因素依旧是数据质量对于大模型而言,提升效果最重要因素依旧是数据质量。Llama 2相比Llama 1,除了常规扩大预训练的规模之外,最主要的就是对SFT使用的数据进行搜集,没有选择使用第三方的精调数据集。因此我们认为,应当更关注拥有高质量训练数据的模型厂商。应当更加关注大模型尤其是开源模型的安全性应当更加关注大模型尤其是开源模型的安全性。Llama 2模型训练了高质量的安全和可用性奖励模型,对模型的安全效果进行了RLHF约束。近期各国也陆续发布有关生成式人工智能的法律或监管规范。我们认为,在效果之外应当更
28、加关注模型的安全性,重视相关安全应用厂商机会。投资建议和风险提示投资建议和风险提示 15 模型厂商:未来的格局将是基础大模型模型厂商:未来的格局将是基础大模型+行业行业/场景模型,建议关注科大讯飞、三六零、格灵深瞳、云天励飞、云从科场景模型,建议关注科大讯飞、三六零、格灵深瞳、云天励飞、云从科技等;技等;应用场景厂商:任何一轮技术的创新最终都将带来应用的大发展、大繁荣,建议按照下列标准寻找应用机会:应用场景厂商:任何一轮技术的创新最终都将带来应用的大发展、大繁荣,建议按照下列标准寻找应用机会:1)与AIGC技术相关度更为直接的应用场景,内容的丰富与工具生产力的提升,建议关注金山办公、广联达、万
29、兴科技、中望软件、彩讯股份等;2)高价值、高壁垒、数据量大的垂直场景,如金融、医疗、教育等,建议关注恒生电子、同花顺、明源云、中科软、宇信科技、京北方、长亮科技、顶点软件、创业慧康、嘉和美康、久远银海、卫宁健康等;基础算力层厂商:建议关注服务器厂商浪潮信息、中科曙光、工业富联、宝信软件等;基础算力层厂商:建议关注服务器厂商浪潮信息、中科曙光、工业富联、宝信软件等;安全厂商:人工智能时代攻防双方都将迎来新的机会和挑战,建议关注深信服、安恒信息、启明星辰、三未信安、天安全厂商:人工智能时代攻防双方都将迎来新的机会和挑战,建议关注深信服、安恒信息、启明星辰、三未信安、天融信、安博通、迪普科技、奇安信
30、、亚信安全、融信、安博通、迪普科技、奇安信、亚信安全、中孚信息中孚信息、绿盟科技、山石网科、永信至诚等。、绿盟科技、山石网科、永信至诚等。风险提示:技术落地不及预期,竞争加剧等风险提示:技术落地不及预期,竞争加剧等 投资建议和风险提示投资建议和风险提示 16 重要声明重要声明 中泰证券股份有限公司(以下简称“本公司”)具有中国证券监督管理委员会许可的证券投资咨询业务资格。本公司不会因接收人收到本报告而视其为客户。本报告基于本公司及其研究人员认为可信的公开资料或实地调研资料,反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。本公司力求但不保证这些信息的准确性和完整性,且
31、本报告中的资料、意见、预测均反映报告初次公开发布时的判断,可能会随时调整。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。市场有风险,投资需谨慎。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。投资者应注意,在法律允许的情况下,本公司及其本公司的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本公司及其本公司的关联机构或个人可能在本报告公开发布之前已经使用或了解其中的信息。本报告版权归“中泰证券股份有限公司”所有。事先未经本公司书面授权,任何机构和个人,不得对本报告进行任何形式的翻版、发布、复制、转载、刊登、篡改,且不得对本报告进行有悖原意的删节或修改。