3-马宇驰-华为代码大模型的方案与应用.pdf

编号：152131

PDF 33页 28.29MB 下载积分：VIP专享

下载报告请您先登录！

3-马宇驰-华为代码大模型的方案与应用.pdf

1、华为代码大模型的方案与应用马宇驰华为云主办方：马宇驰博士，华为云PaaS技术创新Lab-DevAI Lab 负责人、CodeArts Snap代码智能生成工具项目经理、智能化研发技术专家应届加入华为，历任AI算法科学家、智能化测试技术专家、研发智能博士军团Leader 等岗位 17年加入华为工作至今，带领团队先后围绕智能化测试、智能化运维、智能路由与调度、智能化代码生成等方向成功孵化多项智能研发服务，完成规模化落地并外溢华为云目录01 AIGC for SE的业界洞察02 华为代码大模型方案与应用03 代码大模型的关键问题与技术挑战04 AIGC for SE的机遇与展望CONTENTS

2、AIGC for SE的业界洞察LLM的演进21年9月：Sam Altman,the CEO of OpenAI,said that GPT-4 would focus more on coding2022年11月：ChatGPT 发布2022年12月：代码给了大模型推理(思维链)的能力？2023年1月：GPT4的目标是写文章与写程序，ChatGPT是临时的中间产物（纽约时报）符尧LLM的影响OpenAI认为：1、高收入职业（创造性）更容易受到LLM的冲击2、未来4756%的工作内容受LLM的冲击编程和写作与暴露度呈现出强正相关（相关系数分别为0.62 和 0.47），即涉及该技能的职业更容易

3、受到 LLM 的冲击。编程约62%的活动，可通过ChatGPT等LLM模型辅助完成，至少降低50%的时间。三个指标来评估LLM对作业活动的冲击程度：，单一作业活动受LLM的影响率，作业活动通过补充工具或应用程序需要的额外投资率，职业通过补充工具或应用程序需要的额外投资率OpenAI 研究报告，未来47-56%的工作内容将受LLM冲击，其中编程受冲击最大从面向搜索编程到面向IDE+AI编程面向IDE+AI编程的起点：Copilot2021年6月，微软GitHub联合 AI领域的领导者之一 OpenAI 推出了 AI结对编程助手Copilot（一个IDE插件）Copilot 可以根据程序员输入的上

4、下文(包括文档、注释、函数名称、代码等)自动生成代码，例如完整的函数它的背后是一个百亿级的代码大模型 Codex，训练的代码数据源于 Github 上面的开源项目2021年10月的GitHub Universe 2021开发者大会上，Github声明内部团队的30%的新代码是在Copilot的帮助下完成的Github社区中Copilot的用户留存率超过了50%软件研发中的应用2021.6.3.10.112023.1.32022.1GitHub Copilot启动内测，支持代码生成Copilot Labs支持代码解释、代码翻译GitHub Copilot正式转商，积累120万开发者TestPil

5、ot支持单元测试用例生成Code Brushes支持代码修改：代码可读性优化、代码修复、代码重构、代码注释添加等Copilot for Pull Requests/Docs支持PR描述生成、PR质量检查、研发知识搜索Copilot X结合GPT-4最新一代插件，支持多场景交互式开发GPT3.5ChatGPTGPT4(ChatGPT Plus).7Codex模型（基于GPT3.0）.6编码效率提升40%61%90%12做题正确率 28.8%48.1%67%随着大模型技术+Copilot逐步普及:12内部开发效率提升（公开报道数据），产品特性发布节奏越来越快AI平台能力越来越强，做题能力从21年7

6、月28.8%（业界11.6%），到22年11月提升到48.1%，23年3月提升67%，只用4个月华为代码大模型方案与应用智能编码的分界线看看做编程竞赛题目（可信考试的编程题目）的能力怎么看？Codex研制人员手工编写了164个编程题目（类似于 leetcode），构成了 HumanEval 数据集每个题目包括：函数头（function signature）,自然语言描述（docstring,body）,以及几个测试用例。平均每个题目有7.7个测试用例Codex在HumanEval上的表现监督式精调后的模型表现代码精调后得到的模型表现Codex的训练训练（离线的学习过程）推断（生成）（在线的生

7、产环境）训练数据（粗粮）（自然语言、代码）自然语言代码线上GPT模型下载了Github 上面的5400万个公共仓截止日期是May 2020 滤掉大于1 MB的 Python 程序：179 GB滤掉太长的行、行数过大的文件：159 GB代码精调Code Fine-Tuning 监督式精调Supervised Fine-Tuning包含测试用例编程竞赛题目（10000个题目）来自真实项目（40000个函数）3亿25亿12BCodexCodex-SGPT-3精化的数据（细粮）（自然语言与代码对）华为代码大模型的训练2022-7 PANGU-CODER:Program Synthesis with F

8、unction-Level Language Modeling训练（离线的学习过程）推断（生成）（在线的生产环境）训练数据（粗粮）（自然语言、代码）自然语言代码线上GPT模型下载了Github 上面的5811万个公共仓截止日期是May 2021初步过滤得到：185GB 继续滤掉得到：147 GB第一阶段第二阶段包含测试用例编程竞赛题目（10000个题目）来自真实项目（40000个函数）3亿25亿12BPangu-CoderPangu-精化的数据（细粮）（自然语言与代码对）CodeArts Snap诺亚语音语义Lab 华为云PaaS技术创新Lab发表公开文章华为代码大模型的训练2022-7 PA

9、NGU-CODER:Program Synthesis with Function-Level Language Modeling华为云CodeArts Snap智能编程助手承载在业界主流IDE服务高校、学生开发者沉淀华为自主研发代码大模型和软件分析技术，赋能开发者高效、可信开发，支持主流编程语言和IDE生态JetBrains IDE生态Visual Studio IDE生态项目管理代码托管IDE编译构建代码检查制品仓库部署测试计划流水线开源管理漏洞管理应用安全核心价值特性全场景函数级、行级代码生成支持中英文描述，通过自然语言一键生成完整函数级代码专业开发者编程量减少20%协同华为云CodeA

10、rts 软件开发平台服务政府、国央企、传统大企和互联网企业Snap华为云CodeArts Snap的关键历程智能研发助手项目开工会PANGU-CODER受到国内外媒体广泛关注与报道北京1024程序员节展台深圳1024程序员节展台CodeArts Snap列入松山湖开发者村揭幕式智能研发助手项目联合工作组成立诺亚语音语义Lab 华为云PaaS技术创新Lab发表公开文章：代码生成多项重要指标国际领先(亿级模型、十亿级模型生成能力业界Top-1)华为云CEO张平安为智能编码助手命名CodeArts SnapHC 2022发布友测版本智能研发助手进入坂田基地F4展厅-7202

11、2--11华为云CodeArts Snap智能编程助手 FastAPI调用实现Mongo数据库查询：调用FastAPI拉起微服务，创建获取数据的后端接口，从数据库获取，并增加过滤条件，得到符合条件的数据数据读取&流水线构建：用户仅需少量人工编程，就可实现获取数据、切分数据、数据归一化、模型训练、模型预测、结果可视化功能脚本运行上传OBS：根据已有代码生成后续运维代码，实现上传文件至OBS的功能，提供给客户一种可行的运维方案CodeArts Snap友测申请（QECon快速通道）CodeArts Snap公众号1.扫码登录/注册华为云账号2.完成注册自动跳转友测申请3

12、.活动通道，无需审批，即申即用1、基于业界能力领先的代码大模型Pangu-Coder，持续迭代中2、支持 IntelliJ、PyCharm、VSCode 等业界主流的 IDE3、目前支持 Java 与 Python，C/C+/JS/Go即将发布代码大模型的关键问题与技术挑战关键问题与技术挑战模型优化工程优化关键技术1：中文友好的代码生成在保障模型性能的条件下，增强中文语义的理解能力，满足利用中文/英文描述同等的代码生成能力关键技术关键技术4：体验评估与优化构建客观且贴近真实工程的评估指标/手段关键技术关键技术5：模型在线学习基于用户的显式和隐式反馈对在线的大模型进行微调,实现在线模型实时更新

13、关键技术关键技术6：低成本SFT如何实现各种研发场景的训练/验证数据集快速低成本建设,以及模型的训练以及自动验证部署关键技术关键技术2：Prompt优化与交互式Input改进判断用户输入的任务描述完整性和合理性，并通过交互明确意图，提高代码生成准确率关键技术关键技术8：模型轻量化在保证精度不过多下降的前提下，轻量化模型，支撑端测算力实现模型推断关键技术关键技术3：集成学习探索结合预训练模型，在满足推断准确率的情况下，利用参数量更小的模型达到更大规模模型的推断效果，达到提升推断效率的目关键技术关键技术7：后处理根据项目上下文，检查和修复所生成代码的编译运行错误结合单元测试，修复生成程序中的逻辑性

14、错误关键问题与技术挑战AIGC for SE的机遇与展望编程的终结新时代软件研发感谢观看CSDN全球最大的中文开发者社区平台CSDN全球最大的中文开发者社区平台CSDN创立于1999年全球编程类网站排名第7（来源：Similarweb 2023.04）注册用户超过4300万，覆盖90%的中文开发者新媒体矩阵粉丝数量超过3100万超过1000家企业客户和合作伙伴目前公司员工近800名，分布在北京、长沙、上海、深圳、杭州、成都等城市，并在美国硅谷常设办事处旗下品牌旗下品牌专业中文IT技术社区：CSDN.NET多媒体专业出版：新程序员开发者专属移动APP:CSDN APP代码托管协作平台：GitCode代码工具协同平台：InsCodeIT人力资源服务：科锐福克斯丨八爪网络高校IT技术学习成长平台：高校俱乐部

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（3-马宇驰-华为代码大模型的方案与应用.pdf）为本站（2200）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。