上海外菜乌克兰(上海外菜论坛/上海外菜vx)

上海品茶

孙昱昊-OpenChat及大模型低成本部署的可行性-掘金.pdf

上传人：张**

编号：159556

2024-04-05

PDF 24页 7.06MB

《孙昱昊-OpenChat及大模型低成本部署的可行性-掘金.pdf》由会员分享，可在线阅读，更多相关《孙昱昊-OpenChat及大模型低成本部署的可行性-掘金.pdf（24页珍藏版）》请在三个皮匠报告上搜索。

1、OpenChatOpenChat及大模型低成本部署的可行性及大模型低成本部署的可行性孙昱昊清华大学脑与智能实验室2019年Nature杂志封面文章发表-天机芯该成果获评中国年度十大科学进展清华大学脑与智能实验室首席科学家兼助理主任-宋森目录OpenChat：通往通用大模型的微调方法01.大模型低成本部署的可行性02.CONTENTS大模型与小模型的本质不同：单模型+prompt 解决多种任务通用性基座与微调模型我们的模型 OpenChat2023/07/01 OpenChat V12023/07/07 OpenChat V22023/07/30 LLama2-Based OpenChat

2、V32023/08/04 OpenChat 3.2&Online Demo2023/09/21 Paper:OpenChat:Advancing Open-source Language Models with Mixed-Quality Data2023/11/01 OpenChat-3.5-7B2023/12/10 OpenChat-3.5 12102024/01/06 OpenChat-3.5 0106 在多个评测超过ChatGPTOpenChat是开源模型中效果最好的OpenChat 3.5 0106平均表现超过ChatGPT-3.5超过Grok-1OpenChat训练数据4M hig

3、h-quality instructions collected from the open-source community1.7M Reasoning1.0M Coding0.6M Math0.2M Conversational/Instruct数据质量数据数量理工类文科类C-RLFT使用粗粒度的偏好数据完成与GPT-4的对齐OpenChat可作为Agent基座（盘古 Agents）ALF world中文情况没有针对性训练中文（中文数据占比小于0.1%）基座模型对多语言帮助很大开放线上试用https:/openchat.team/zh目录OpenChat：通往通用大模型的微调方法01

4、.大模型低成本部署的可行性02.CONTENTS大模型 scale matters保证模型效果需要大参数模型需求算力的要素参数量越大越好计算精度可以降低到什么程度？硬件实现除GPU外更高效的实现方式？Lottery Ticket Theory参数存储信息不是唯一选择连接同样可以用于存储信息进化连接算法针对连接的RL优化算法离散化网络需专门的离散优化方法采样+离散优化连续梯度+离散化低精度不等于任务表现下降传统量化方法：数值精度越低任务表现越差低精度训练：数值精度与任务表现无关Scaling Law of Electronics我们的研究方向类脑计算硬件与大模型大模型：结构化可拆分为多个基本单元的流水线计算非冯诺依曼架构硬件：极大减少数据搬迁过程存内计算结构CIM低精度下可采用硬件方案进一步降低计算成本大模型+边缘设备？大模型+可穿戴设备？未来场景的可能性不局限于云服务总结 OpenChat-7B 模型即可超过ChatGPT的表现水平低精度模型部署的潜力尚未完全开发 We are here now 配合新硬件架构未来很可能实现大模型的低成本部署包括边缘端甚至可穿戴THANKS