《大模型时代生产力工具转型的技术探索_詹明捷.pdf》由会员分享,可在线阅读,更多相关《大模型时代生产力工具转型的技术探索_詹明捷.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、大模型时代大模型时代生产力工具转型的技术探索生产力工具转型的技术探索商汤科技AIGC研究与应用团队负责人 詹明捷1980s1990s20122022AIAIAI+AI+场景应用场景应用AI AI 新范式(新范式(AGIAGI)超大模型有人类反馈的强化学习Prolog&Lisp机器学习算法DALL-E 2DALL-E 2由文字生成高清原创图像专家系统解答特定领域的问题CNNCNN夺得夺得ImageNetImageNet第一第一正确率超越第二名近10%互联网娱乐PaLMPaLM-E-E具象化多模态语言大模型Stable DiffusionStable Diffusion使用消费级显卡获取文本驱动的
2、图像GPT-4GPT-4提供完全不同可能性的多模态模型ChatGPTChatGPT发布发布可理解人类语言并生成类似人类的书面文本内容突破工业红线高效的通用智能智能手机智慧医疗智慧城市自动驾驶人工智能新范式(人工智能新范式(AGIAGI)已经到来)已经到来物体检测Object Detection文字识别OCR做决策 是否要减速?是Q:这个图标是什么意思?我们应该做什么?AGI30 km/h 100m小孩学校区域前方100米有一所学校你需要小心小孩,并将车速降低到30 km/h以下AIAGI 明确任务明确任务明确任务给定图片我们一步步思考零样本多模态思维链(Zero-shot Multimodal
3、 Chain-of-Thought)大模型使能的大模型使能的AGIAGI与传统与传统AIAI处理任务对比处理任务对比大模型大模型算力算力数据数据算法算法工程化工程化更高算力庞大训练数据工程化能力模型算法有效的Chain-of-thoughts千卡起步,GPT4 万卡架构设计、分布式训练等干净、多维、海量的数据大模型核心能力大模型核心能力信息来源:The Practical Guides for Large Language ModelsChatGPTChatGPT等语言模型发展历程(进化树)等语言模型发展历程(进化树)大模型关键技术路径大模型关键技术路径 EncoderEncoder类模型(以
4、BERT为代表)在过去的方案中经过fine-tune性能会更强。OpenAI也是坚持自坚持自身以生成式任务为目标的技术理想身以生成式任务为目标的技术理想,终于实现突破 随着考察任务的变化,现在大模型更关注zero-shot的文本生成能力(更贴近AGI),Decoder-Decoder-OnlyOnly类模型(以ChatGPT为代表的)更方便利用利用海量的无监督文本数据进行训练海量的无监督文本数据进行训练 Decoder-Only类模型结构效率更高结构效率更高,OpenAI以系统工程的角度看待训练,着重训练效率,坚持此路线 如今大模型训练成本极高,由于历史原因,各企业组织(如Google)存在路
5、径依赖存在路径依赖,大多沿用自身已经验证通过的路线。Encoder-Decoder or Encoder-Only(BERTEncoder-Decoder or Encoder-Only(BERT类类)训练:Masked Language Models 模型类别:Discriminative 预训练任务:Predict masked wordsDecoder-Only(GPTDecoder-Only(GPT类类)训练:Autoregressive Language Models 模型类别:Generative 预训练任务:Predict next wordLLMLLM技术路线演化,技术路线演化
6、,GPTGPT类模型处于领先类模型处于领先近几年近几年NLPNLP大事件大事件用好数据用好数据ChatGPT(OpenAI)llama2(meta)Galactica(Meta)RETRO(DeepMind)WebGPT(OpenAI)Flan-PALM(Google)T0(huggingface)大模型大模型GPT3(OpenAI)PALM(Google)Megatron-LM(Nvidia)Turing(Microsoft)GLM-130B(清华)盘古(华为)ERNIE 3.0(百度)什么是思维链?什么是思维链?思维链激发语言模型解锁更强的能力,解锁更复杂的推理任务,右侧图绿色部分为思维链
7、多任务训练多任务训练指令微调指令微调收益分析收益分析编程工具的发展史编程工具的发展史打孔卡片打孔卡片编程语言编程语言生成式生成式AIAIAIAI是生产生产力工具的工具是生产生产力工具的工具AIAI FORFOR AIAI 人工智能大模型人工智能大模型智能化、模块坏、标准化的AI生产工具AI辅助开发、一键调度大算力、数据驱动、快速部署工具模块化流程标准化开发智能化下一代软件开发范式:下一代软件开发范式:AIAI FORFOR AIAI软件开发不同角色:分析师、程序员和测试员软件开发不同角色:分析师、程序员和测试员分析师分析师:分析师的目标是制定高层次的 plan 并专注于指导程序员编写程序,而不
8、是深入研究实现细节。给定需求X,分析师将分解为几个易于解决的子任务,以方便程序员直接实施,并制定概述实施主要步骤的 plan。程序员程序员:作为该团队的核心角色,程序员将在整个开发过程中接收来自分析师的 plan 或来自测试人员的测试报告。将两项主要职责分配给程序员:1.编写满足指定要求的代码,遵守分析师提供的 plan。2.修复或细化代码,考虑到测试人员反馈的测试报告反馈。测试员测试员:测试人员获取程序员编写的代码,随后记录包含各个方面的测试报告,例如功能性、可读性和可维护性。与直接生成测试用例相比,生成测试报告更符合语言模型的倾向。自动自动DebugDebug自动自动DebugDebug新
9、二八定律:代码新二八定律:代码 =80%AI=80%AI 生成生成 +20%+20%人工人工新二八定律:代码新二八定律:代码 =80%AI=80%AI 生成生成 +20%+20%人工人工操作系统操作系统库库/工具工具/框架框架编程语言编程语言软件应用软件应用工具工具&插件插件大模型大模型(基础基础)自然语言自然语言&行为行为人类诉求人类诉求需求输入需求描述人机界面人机界面+语言与操作系统,是当前人类与世界知识交互的核心媒介依赖:人类需求的表达/生成方式将发生变化。上层行业应用创新 主流行业应用都可以被重新做一遍主流行业应用都可以被重新做一遍 人类需求被满足的方式和底层依赖发生变化。底层编程逻辑
10、变革底层编程逻辑变革“新二八定律新二八定律”带来软件开发新体验带来软件开发新体验CoTCoTPluginsPluginsAuto-GPTAuto-GPTFunctionFunction CallingCallingCodeCode InterpreterInterpreterMOEMOE业界持续推出生成式业界持续推出生成式AIAI技术延展技术延展延展:用代码解决视觉问题延展:用代码解决视觉问题延展:基于多仓库融合的代码生成延展:基于多仓库融合的代码生成延展:基于代码解决数学题延展:基于代码解决数学题THANKSTHANKS如果您有兴趣进一步了解商汤如果您有兴趣进一步了解商汤AIAI代码助手,可联系代码助手,可联系: