《孙昱昊-OpenChat及大模型低成本部署的可行性-掘金.pdf》由会员分享,可在线阅读,更多相关《孙昱昊-OpenChat及大模型低成本部署的可行性-掘金.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、OpenChatOpenChat及大模型低成本部署的可行性及大模型低成本部署的可行性孙昱昊清华大学脑与智能实验室2019年Nature杂志封面文章发表-天机芯该成果获评中国年度十大科学进展清华大学脑与智能实验室 首席科学家兼助理主任-宋森目录OpenChat:通往通用大模型的微调方法01.大模型低成本部署的可行性02.CONTENTS大模型与小模型的本质不同:单模型+prompt 解决多种任务 通用性基座与微调模型我们的模型 OpenChat2023/07/01 OpenChat V12023/07/07 OpenChat V22023/07/30 LLama2-Based OpenChat
2、V32023/08/04 OpenChat 3.2&Online Demo2023/09/21 Paper:OpenChat:Advancing Open-source Language Models with Mixed-Quality Data2023/11/01 OpenChat-3.5-7B2023/12/10 OpenChat-3.5 12102024/01/06 OpenChat-3.5 0106 在多个评测超过ChatGPTOpenChat是开源模型中效果最好的OpenChat 3.5 0106平均表现超过ChatGPT-3.5超过Grok-1OpenChat训练数据4M hig
3、h-quality instructions collected from the open-source community1.7M Reasoning1.0M Coding0.6M Math0.2M Conversational/Instruct数据质量 数据数量理工类 文科类C-RLFT使用粗粒度的偏好数据 完成与GPT-4的对齐OpenChat可作为Agent基座(盘古 Agents)ALF world中文情况没有针对性训练中文(中文数据占比小于0.1%)基座模型对多语言帮助很大开放线上试用https:/openchat.team/zh目录OpenChat:通往通用大模型的微调方法01
4、.大模型低成本部署的可行性02.CONTENTS大模型 scale matters保证模型效果 需要大参数模型需求算力的要素 参数量 越大越好 计算精度 可以降低到什么程度?硬件实现 除GPU外更高效的实现方式?Lottery Ticket Theory参数存储信息 不是唯一选择连接同样可以用于存储信息进化连接算法 针对连接的RL优化算法离散化 网络 需专门的离散优化方法采样+离散优化 连续梯度+离散化低精度 不等于 任务表现下降 传统量化方法:数值精度越低 任务表现越差低精度训练:数值精度与任务表现无关Scaling Law of Electronics我们的研究方向类脑计算硬件与大模型 大模型:结构化 可拆分为多个基本单元的流水线计算非冯诺依曼架构硬件:极大减少数据搬迁过程存内计算结构CIM低精度下 可采用硬件方案进一步降低 计算成本大模型+边缘设备?大模型+可穿戴设备?未来场景的可能性不局限于云服务总结 OpenChat-7B 模型即可超过ChatGPT的表现水平 低精度模型部署的潜力尚未完全开发 We are here now 配合新硬件架构 未来很可能实现大模型的低成本部署 包括边缘端 甚至可穿戴THANKS