《InfoQ研究中心:中国开源生态图谱2022-人工智能领域(25页).pdf》由会员分享,可在线阅读,更多相关《InfoQ研究中心:中国开源生态图谱2022-人工智能领域(25页).pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、1中国开源生态系列图谱人工智能领域目录生态图谱解读01生态图谱厂商洞察02生态图谱解读人工智能项目开源基金会开源产业联盟代码托管平台开发者社区AI算法模型(库)AI引擎/框架数据集实验室/研究院机器学习/深度学习平台&数据库4定义&分类:AI框架是人工智能基础软件的核心,在整个人工智能体系中起着“承上启下”的作用。AI框架向下调用底层硬件计算资源,为算法模型生成、训练和推理部署提供良好的硬件性能基础,向上承接AI算法模型搭建,支撑AI工程和产业应用。板块特征:人工智能框架类开源项目AI引擎/框架01壁垒高AI框架的构建需要时间、资金和AI底层技术人才,包括AI算法、编译体系、通讯原理、硬件结构
2、、API体系等,包括运维和部署02产研应用国产开源AI框架在赋能产业应用和科学研究中发挥着越来越重要的作用。03生态发展框架与硬件、开发语言、开发环境以及软件之间的协同、工具组件以及产业应用的配套发展,包括相关人才的培养都是开源AI框架项目需要重点考虑的因素5人工智能框架类开源项目发起机构分布:AI框架开源项目发起机构集中在科技厂商与高校科研院所两大类。其中科技厂商前期主要满足自身广泛的AI应用需求,后期逐渐向外拓展服务,如华为MindSpore、百度PaddlePaddle、腾讯TNN、阿里MNN、字节跳动BytePS以及小米Mace等。值得关注的是,近年来,高校科研院所开始逐渐重视AI框架
3、的研发,但在开源后的资源维护和产业应用拓展模式上,国内高校科研院所仍在探索中,如清华大学发起的计图(Jittor)。AI引擎/框架6更可用更易用更安全更高效价值追求人工智能算法模型类开源项目发展特征:为了解决之前AI模型的扩展性和通用性不高,以及依赖人工数据标注和标注数据量的问题,基础模型/大规模预训练模型提出了一种基于自监督学习的“预训练大模型+下游任务微调”的可行方案。这种模型可以在少量标注数据的基础上,通过大量未标注数据中进行大规模训练,从而迅速挖掘大量领域知识。然后经过少量小参数的微调(delta-tuning),快速适配大模型下游任务。近年来,盘古、孟子、文心、哪吒、M6-OFA、P
4、LUG等预训练大模型通过开源项目不断累积,获得了行业内积极的认可。同时也有大模型开源项目开始尝试商业拓展,探索模型即服务(MaaS)的模式。AI算法模型(库)机器学习/深度学习平台&数据库7人工智能算法模型类开源项目发起机构分布:AI算法模型类项目发起机构集中在科技厂商与科研院所两大类,两者的开源路线有所不同。科技厂商在开源算法和模型类项目均有布局,如腾讯同时开源DBG算法和MedicalNet模型。而伴随着对预训练大模型的价值认同,科研院所开始主要参与预训练大模型开源项目的建设,同时也存在科技厂商与科研院所联合开发模型类开源项目的情况,例如华为和鹏城实验室联合开发的鹏城.盘古等。AI算法模型
5、(库)机器学习/深度学习平台&数据库8能力泛化O1预训练大模型+下游任务微调能够一定程度上摆脱传统AI能力碎片化的束缚。模态融合O2能够集成自然语言处理、计算机视觉等多个AI领域的多项技术,实现多种模态(文本、图像等)数据融合应用底座O3下游任务微调使得AI可以在小范围调整后有效支撑不同场景的落地。价值追求人工智能平台类开源项目9定义:机器学习/深度学习平台是集成了硬件资源,计算框架、存储、数据及模型管理、资源调度等功能,覆盖模型开发、训练、推理及部署全流程的综合平台。特征:机器学习/深度学习平台开源项目通常在计算框架外开源各类官方工具组件。同时,在开源版本外,往往会设立商用平台进行商业拓展,
6、例如百度开源PaddlePaddle飞桨平台与商用开发平台EasyDL。机器学习/深度学习平台&数据库AI算法模型(库)人工智能平台类开源项目10发起机构分布:AI平台类开源项目发起机构集中在科技厂商与高校科研院所两大类。科技厂商出于后续商业化的目的,在算力资源、开发组件等生态建设方面较为完善。发展路线有两种,主要以AI框架项目作为基础,拓展平台类开源项目,如飞桨PaddlePaddle与昇思MindSpore;也存在立足算法模型项目拓展平台类项目的路线,如Alink。高校科研院所虽然存在项目开源项目,如之江天枢,但在社区活跃度方面,仍有较大提升空间。易用性提供各类官方工具组件、模型库灵活性通
7、过不同算力、框架等组合,灵活适配不同的开发训练需求兼容性兼容主流计算框架、数据格式、算法等安全性满足代码安全与数据安全等机器学习/深度学习平台&数据库AI算法模型(库)价值追求生态图谱厂商洞察Gitee平台托管的开源项目12Gitee指数TOP 5Gitee指数94Gitee指数61Gitee指数18Gitee指数13Gitee指数3数据来源:本数据来自于Gitee官网(2023年1月)。(镜像)(镜像)(镜像)InfoQ开源项目指数数据说明13一级指标二级指标权重代码健康(40%)代码复制(Fork)10%已修复代码不足(Closed Issue)10%项目更新申请(Pull Request
8、)5%已完成项目更新申请(Closed Pull Request)15%社区活跃(60%)协作影响力10%项目荣誉星(Star)10%社区贡献量20%社区贡献者20%对于开源项目的评价,代码和社区是两项最直接评价指标。代码的健康度体现为社区成员不断地修复和更新代码,形成研发价值的指数级增长;代码健康指标中选取的数据维度来自开源项目在GitHub中的公开数据。社区活跃是保证开源价值最大化的根本,被开源世界公认的社区价值是评价开源项目最主要的要素,本次研究将其权重赋值超过代码健康;InfoQ研究中心认为,社区活跃价值整体评估高于代码健康价值。社区活跃中主要数据也来自于GitHub的公开数据;其中协
9、作影响力数据来自于X-lab研发的openleaderboard中的协作影响力数据。所有数据的采集时间均为2023年1月,在未来,随着时间的推移,数据也会呈现变化。“InfoQ开源项目指数说明GitHub平台托管的开源项目InfoQ开源项目指数TOP 10InfoQ指数64.71 InfoQ指数26.13InfoQ指数25.84InfoQ指数22.97 InfoQ指数15.71InfoQ指数10.50InfoQ指数10.17InfoQ指数10.04 InfoQ指数9.98InfoQ指数5.9114 数据来源:Github与openleaderboard各项目2023年1月数据。昇思MindSp
10、ore:用技术内容连接社区的AI开源社区370万+社区用户8700+社区贡献者6.4万+Pull Request400个+模型5500+服务企业28个SIG组369万+下载量社区活跃度290+单位会员2020.3MindSpore正式开源2020.9MindSpore 1.0全场景AI框架2021.9MindSpore 1.5原生支持大模型2022.4MindSpore 1.8全面提升易用性2022.11MindSpore 2.0AI融合框架2022.7MindSpore昇思大模型平台上线懂技术的运营团队构建懂开发者的社区打造一站式大模型平台昇思大模型平台,打造大模型开源生态,集算法选型、创意
11、分享、模型试验和大模型在线体验为一体的AI学习与实践社区提供极简易用的开发套件TinyMS,由开源运营团队打造的技术产品,提供从数据准备到模型部署全流程的极简易用的高阶API封装工具保持内容运营的技术专业性核心运营团队必须懂技术,同时运营团队所提炼的可传播性内容必须基于昇 思MindSpore主要技术特性,避免过度营销社区基础模型创新运作实践15昇思MindSpore:使能科研创新与产业应用,面向多重领域用户夯实全场景AI能力,全面提升易用性融合AI与HPC,加速应用创新跨域大规模协同高效联邦学习,支持大模型跨域并行加密训练;千万端侧设备协同学习融合计算统一微分科学计算加速库,支持250+科学
12、计算API自动并行,开发效率提升2倍+自动微分引擎,自持高阶高维混合微分,性能加速5倍+机翼气动仿真效率20X流体仿真套件米级阵列天线仿真速度电磁仿真套件自然界蛋白质预测范围分子模拟套件New端边云全场景部署统一API,模型格式免转换,支持 7种主流OS,16种硬件动态图全面支持动态图优先,兼顾灵活性与性能,性能提升25倍10X99.99%升级升级人才培养 借助与教育部合作的“智能基座”和“沃土计划”,在高校中开设昇思的课程,培养昇思的开发人才。经过两年的努力,昇思的课程已经开设到100多所高校,今年将会超过200所基础构建AI生态科研创新 联合CAAI设立顶会论坛基金项目,鼓励广大科研工作者
13、创新,基于昇思发表顶级会议论文布局原生AI生态领跑前沿 联合全球顶尖的科研专家、学者,洞察AI前沿发展趋势,布局昇思的差异化竞争力,如大模型、AIfor Science、AI安全等等开源力量 联合启智社区举办“OpenI启智&MindSpore集结号”,为两大开源社区贡献昇思的模型,构筑昇思的技术基础16飞桨PaddlePaddle:产学研用全方位共建中国AI技术生态社区数据2016.8PaddlePaddle开源2019.4中文名“飞桨”发布第一届WAVE SUMMIT深度学习开发者峰会2020.5量桨-量子机器学习平台发布2018.10核心框架v1.0发布2021.3飞桨框架v2.0正式版
14、发布2022.11飞桨框架v2.4发布67万+AI模型78万+累计提交Commits1.67万+PR/Issue的贡献者535万+开发者12个PPSIG15.5万+Star教育生态 飞桨携手高校,围绕学习、实践、认证、比赛、就业、奖学金等环节,提供教学资源、工具与平台(AI Studio)和教学硬件教具支持等,多维度支撑AI人才培养 师资培训覆盖全国超过1044所高校的4300多位老师,400多所高校开设飞桨学分课社区生态 飞桨以PPDE(飞桨开发者技术专家)、PFCC(飞桨框架贡献者俱乐部)、PPSIG(飞桨特殊兴趣小组)、飞桨领航团等主要组织形式,同时联合其他开源社区共建深度学习开源社区生
15、态企业生态 发展企业生态伙伴,既有中小企业借助飞桨开发大量不同类型的技术服务型应用或模型,又有大型企业借助飞桨建设行业平台 AI快车道、AI私享会、AICA首席AI架构师培养计划等进阶式培训,助力企业培养产业AI应用人才 服务超过20万家企事业单位硬件生态 超过40家国内外硬件厂商与飞桨深度融合优化,基本覆盖国内外主流芯片 飞桨“硬件生态共创计划”成员已增加至29家,同时已联合13家硬件伙伴发布飞桨生态发行版科研生态 飞桨AI for Science共创计划:已发布赛桨PaddleScience、螺旋桨PaddleHelix、量桨Paddle Quantum等开源工具,广泛支持AI+计算流体力
16、学、生物计算、量子计算等前沿方向的科研和产业应用 飞桨是深度学习技术及应用国家工程研究中心的核心成果17飞桨PaddlePaddle:高效与便捷开发,产业与技术双轮驱动 框架开发便捷高效动静统一的框架,动态图编程调试转静态图预测部署多层次产品结构降低门槛提升开发者体验:通过核心框架+基础模型库+开发套件+工具组件,以及企业版开发平台,满足企业低成本开发和快速集成的需求,推动产业应用快速落地飞桨产业级深度学习开源开放平台飞桨企业版EasyDL 零门槛AI 开发平台BML 全功能 AI 开发平台产业与技术双轮驱动 飞桨从实际产业需求出发,通过通用化设计嵌入框架,形成满足产业级业务需求的深度学习框架
17、和赋能平台 飞桨开源开放代码和核心能力,在产业应用过程中不断验证和优化技术核心能力,进一步提升技术竞争力2016.8PaddlePaddle开源2019.4中文名“飞桨”发布第一届WAVE SUMMIT深度学习开发者峰会2020.5量桨-量子机器学习平台发布2018.10核心框架v1.0发布2021.3飞桨框架v2.0正式版发布2022.11飞桨框架v2.4发布AI Studio学习与实训社区工具组件自动化深度学习强化学习联邦学习图学习科学计算量子机器学习生物计算低代码开发工具预训练模型应用工具可视化分析工具安全与隐私工具资源管理与调度工具云上部署编排工具端到端开发套件语义理解图像分类目标检测
18、图像分割文字识别图像生成大模型训推一体基础模型库自然语言处理计算机视觉语音推荐文心大模型时间序列核心框架开发动态图 静态图训练大规模分布式训练产业级数据处理推理部署模型压缩服务器推理引擎边缘与移动端推理引擎前端推理引擎服务化部署全场景统一部署通用异构参数服务器架构,端到端自适应分布式训练架构即训即用,支持端边云多硬件和多操作系统飞桨框架技术亮点:支持大模型的分布式训练技术 多端多平台高性能推理部署18OpenMLDB:运营、生态与布道共建的机器学习数据库开源社区2021.6OpenMLDB宣布开源2021.12OpenMLDB贡献者计划启动2022.1OpenMLDB v0.4.0发布第一次社
19、区会议2022.5v0.5.0 发布首次推出面向高校开发者的开源活动2023.1v0.7.0 发布系统性改进消息系统、增加内存隔离机制、增强自动化部署和运维能力高效的开源布道传播产学研结合的开源教育联合上下游的开源生态建设在线数据:Pulsar、Kafka、RocketMQ、SeaTunnel、RabbitMQ等离线数据:HDFS、S3、Hive、MaxCompute、HBASE、Cassandra等框架&模型:PyTorch、LightGBM、TensoreFlow、OneFlow调度&部署:DolphinScheduler、Airflow、Byzer、Prometheus、GrafanaM
20、eetup会议分享技术博客技术视频2022 年 举 办 8 次Meetup,社区成员累计产出原创技术博客三十余篇 论文产出:同产业界和学术界进行论文合作 暑期开源特别行动:发起OpenMLDB暑期开源特别行动,社区成员作为导师引领开源新人共同建设良好的开源生态清晰的社区运营思路顶层目标设定细分目标拆解运营手段搭配目标复盘 2022年顶层目标由提高项目影响力转向提高项目活跃度 贡献者以外部贡献者居多,第四范式内部贡献者占比小于10%19OpenMLDB:立足线上线下计算一致性的实时特征计算平台离线特征开发离线数据批处理SQL引擎(Spark+)模型训练接入实时数据实时数据实时SQL引擎(自研时序
21、数据库)模型推理一键上线一致性执行计划生成器线下线上通过一致性执行计划生成器,保证线上线下计算一致性针对毫秒级应用场景实现硬实时计算批量计算Batch效果渲染生物分析离线报表分钟/小时流式计算Streaming实时报表流量检测设备检测秒级硬实时计算金融事中反欺诈金融量化交易零售实时推荐毫秒级两套独立团队联动组合团队两套编译语言语言统一线上线下计算逻辑需要反复一致性校验线上线下计算逻辑保持一致,开发即上线使用前使用后202021.6OpenMLDB宣布开源2021.12OpenMLDB贡献者计划启动2022.1OpenMLDB v0.4.0发布第一次社区会议2022.5v0.5.0 发布首次推出
22、面向高校开发者的开源活动2023.1v0.7.0 发布系统性改进消息系统、增加内存隔离机制、增强自动化部署和运维能力人工智能开源项目所属公司21序号企业名称注册地1北京百度网讯科技有限公司北京2阿里巴巴集团控股有限公司杭州3深圳市腾讯计算机系统有限公司深圳4华为技术有限公司深圳5京东科技控股股份有限公司北京6深圳追一科技有限公司深圳7北京嘀嘀无限科技发展有限公司北京8北京三快科技有限公司北京9网易(杭州)网络有限公司杭州10北京市商汤科技开发有限公司北京11北京旷视科技有限公司北京12云从科技集团股份有限公司广州13上海依图网络科技有限公司上海14北京香侬慧语科技有限责任公司北京15出门问问信
23、息科技有限公司北京16科大讯飞股份有限公司合肥17思必驰科技股份有限公司苏州人工智能开源项目所属公司22序号企业名称注册地18北京金山办公软件股份有限公司北京19小米科技有限责任公司北京20北京字节跳动科技有限公司北京21北京一流科技有限公司北京22深圳前海微众银行股份有限公司深圳23北京奇虎科技有限公司北京24北京智源人工智能研究院北京25鹏城实验室深圳26之江实验室科技控股有限公司杭州中国开源生态系列图谱还包括23 中国开源生态系列图谱2023之大数据领域 中国开源生态系列图谱2023之架构领域 中国开源生态系列图谱2023之前端领域 中国开源生态系列图谱2023之中间件 中国开源生态全景
24、图谱2023(500+项目)敬请期待!24InfoQ 研究中心隶属于极客邦科技双数研究院,秉承客观、深度的内容原则,追求研究扎实、观点鲜明、生态互动的目标,聚焦创新技术与科技行业,围绕数字经济观察、数字人才发展进行研究。InfoQ 研究中心主要聚焦在前沿科技领域、数字化产业应用和数字人才三方面,旨在加速创新技术的孵化、落地与传播,服务相关产业与更广阔的市场、投资机构,C-level 人士、架构师/高阶工程师等行业观察者,为全行业架设沟通与理解的桥梁,跨越从认知到决策的信息鸿沟。内容咨询:商务合作:极客邦科技,以“推动数字人才全面发展”为己任,致力于为技术从业者提供全面的、高质量的资讯、课程、会
25、议、培训等服务。极客邦科技的核心是独特的专家网络和优质内容生产体系,为企业、个人提供其成功所必需的技能和思想。极客邦科技自 2007 年开展业务至今,已建设线上全球软件开发知识与创新社区 InfoQ,发起并成立技术领导者社区 TGO 鲲鹏会,连续多年举办业界知名技术峰会(如 QCon、ArchSummit 等),自主研发数字人才在线学习产品极客时间 App,以及企业级一站式数字技术学习 SaaS 平台,在技术人群、科技驱动型企业、数字化产业当中具有广泛的影响力。2022年成立双数研究院,专注于数字经济观察与数字人才发展研究,原创发布了数字人才粮仓模型,以此核心整合极客邦科技专业的优质资源,通过 KaaS模式助力数字人才系统化学习进阶,以及企业数字人才体系搭建。公司业务遍布中国大陆主要城市、港澳台地区,以及美国硅谷等。十余年间已经为全球千万技术人,数万家企业提供服务。