《OSCAR&超神经:可信开源人工智能大模型案例汇编(第一期)(74页).pdf》由会员分享,可在线阅读,更多相关《OSCAR&超神经:可信开源人工智能大模型案例汇编(第一期)(74页).pdf(74页珍藏版)》请在三个皮匠报告上搜索。
1、1可信开源人工智能大模型案例汇编2可信开源人工智能大模型案例汇编本报告版权归中国信通院云计算开源产业联盟所有。本报告所包含的内容、资料与信息,仅供您参考之用,并不构成意见或建议。中国信通院云计算开源产业联盟不保证或担保本报告内容、资料与信息的准确性,完整性,充分性或及时性。中国信通院云计算开源产业联盟明确不承担因基于本报告的任何内容、资料与信息,而采取的作为或不作为所产生的一切责任。版权及免责声明3可信开源人工智能大模型案例汇编随着开源技术占据各大新兴领域的技术路线,其不断丰富人工智能领域的应用场景。2023年,Meta 相继发布 Llama 和 Llama2,很快成为广受欢迎的开源大模型,也
2、成为许多模型的基座模型。开源大模型可以促进技术的共享和交流,加速人工智能的发展,但也存在数据隐私安全风险、许可协议尚未形成共识、产业生态不健全、商业模式不清晰等问题。为进一步引导开源大模型产业规范发展,中国信通院云计算开源产业联盟联合超神经编制可信开源大模型案例汇编(第一期)案例,旨在洞察开源人工智能大模型应用场景,梳理开源人工智能大模型的开源成熟度,提升开源人工智能大模型的创新发展。案例通过调研国内开源大模型的技术细节、应用场景、商业模式、应用治理、发展趋势等,并关注开源大模型技术生态及产业链上下游,全面展现开源大模型及其工具链的发展全貌,为下一代技术浪潮的发展助力。前言4可信开源人工智能大
3、模型案例汇编01020304开源人工智能大模型开源成熟度4开源人工智能大模型发展历程1全球开源人工智能大模型商业模式基本形态5开源正成为推动人工智能大模型创新发展的关键引擎1开源人工智能大模型治理6全球开源人工智能大模型发展关键问题开源人工智能大模型开源程度统计7开源人工智能人工智能大模型优势与不足9开源人工智能大模型商业落地情况8开源人工智能大模型安全风险与合规情况10开源人工智能大模型基础配套设施建设情况9开源人工智能大模型未来发展展望11我国开源人工智能大模型发展洞察目录可信开源大模型产业推进方阵相关工作开源人工智能大模型发展背景和发展现状5可信开源人工智能大模型案例汇编0506Chat
4、GLM 大模型14Colossal-AI47紫东太初大模型24Xtreme157DataCanvas Alaya 九章元识大模型31HyperAI 超神经61ChatLaw 大模型38通义千问大模型21DingoDB 多模向量数据库54Baichuan 大模型28AutoDev59TigerBot 大模型34元象大模型41聚宝盆(Cornucopia)金融大模型45大模型案例基础设施案例63OpenBayes 贝式计算65Milvus1可信开源人工智能大模型案例汇编开源正成为推动人工智能大模型创新发展的关键引擎在人工智能大模型领域,开源能够激发技术创新活力,推动数字时代科技创新。开源汇聚众智、
5、促进多方协同,有效实现了优势互补,激发技术创新活力。开源开放的创新模式相比于工业时代封闭专利的创新模式,更顺应数字时代技术迭代快、应用范围广的发展规律,解决单一主体创新成本过高问题,通过去中心化的异步协作激发各类主体的创新创造活力,以开放协作实现智慧累积,对创新效率和创新质量带来巨大提升。Meta 在 Llama 基础上开源 Llama2并允许免费用于商业用途。Llama2 为初创企业和科研机构等主体提供了一个强大的免费选择,可以作为 OpenAI 和谷歌出售的专有模型的补充,有效激发了人工智能大模型共创浪潮。仅Llama2 开源几日后,在其基础上衍生的大模型 FreeWilly2 便实现对
6、Llama2 的性能超越。与此同时,Llama2 凭借其开放可拓展的优势,衍生出 lawyer-llama、EduChat 等垂直领域的模型产品,加速推动人工智能大模型场景化应用创新。开源人工智能大模型发展背景和发展现状1开源人工智能大模型发展历程大语言模型的开源推动了深度学习和人工智能的持续发展,也催生了一系列前沿探索和 落 地 应 用。2017 年,Google 发 表 论 文“Attention is All You Need”,首 次 提 出 了 Transformer 架构,该架构成为后续人工智能大模型构建的基础。2018 年 11 月,Google 提出 SOTA NLP 预训练模
7、型 BERT 并将其源代码开源,BERT 在 SQuAD v1.1 和 GLUE Benchmark 上得到最高水平评分。2020 年 2 月,Google 发布 T5 模型,通过 text-to-text 格式训练,可22可信开源人工智能大模型案例汇编以学习通用语言表征,并通过微调适应特定任务。2022 年 5 月,Meta AI 发布 OPT-175B 并开源了预训练模型及源代码,OPT-175B 禁止商用但允许学术单位及科研机构使用。2022 年 6 月,BigScience 社区发布 BLOOM,具备 1760 亿个参数,支持 59 种语言,旨在为公众提供 GPT-3 的开源替代品。2
8、022 年 8 月,清华大学开源中英双语预训练模型 GLM-130B,使用通用语言模型算法进行预训练。2023 年 2 月,Meta AI 开源 SOTA 基座大语言模型 LLaMA,训练数据全部来源于公开数据集,参数范围 7B-65B。2023 年 6 月,百川智能发布开源可商用大规模预训练语言模型 Baichuan-7B,支持中英双语,上下文窗口长度 4096。2023 年 10 月,智谱AI 开源 ChatGLM3 系列模型,包括 ChatGLM3-6B(32k)、多模态 CogVLM-17B、以及智能体 AgentLM。2023 年 12 月,阿里云在通义千问发布会上开源 Qwen-7
9、2B、Qwen-1.8B 和 Qwen-AudioQwen 3 个大模型。3可信开源人工智能大模型案例汇编随着开源人工智能大模型不断发展,由 BLOOM、LLaMA 等主流开源大模型逐渐衍生出其他开源人工智能大模型。LLaMA2023 年 2 月,Meta AI 开源 SOTA 基座大语言模型,同年 7 月,Meta AI 再次发布 LLaMA 2,训练数据相较于 LLaMA 1 提升了 40%,上下文长度翻倍。同时,LLaMA 2 还允许商用,由此衍生了众多开源大模型。2023 年 3 月,斯坦福大学微调 LLaMA-7B 推出 Alpaca-7B,Alpaca 仅供学术研究使用,禁止商用。
10、2023 年 3 月,哈工大-科大讯飞联合实验室发布了基于中文 LLaMA 模型和指令精调的 Alpaca 大模型 Chinese-LLaMA-Alpaca,进一步促进大模型在中文 NLP 社区的开放研究。2023 年 3 月,LMSYS Org 发布基于 LLaMA 的开源大模型 Vicuna-13B,它是一个用 ShareGPT 收集的用户对话训练的开源聊天机器人。2023 年 6 月,清华大学联合面壁智能等企业推出基于 LLaMA-13B 的大模型 UltraLM-13B。2023 年 8 月,度小满研究团队开源了基于 LLaMA2-70B 进行中文增强的一系列金融大模型 XuanYua
11、n-70B。BLOOM2022 年 6 月,BigScience 社区发布 BLOOM。2023 年 5 月,度小满基于 BLOOM-176B 开源千亿级中文金融大模型轩辕(XuanYuan)。2023 年 5 月,链家科技基于 BLOOM 和 LLaMA 开源了中文对话大模型 BELLE。2023 年 6 月,虎博科技基于 GPT 和 BLOOM 两个开源模型,发布自研多模态大模型 TigerBot。大数据系统计算技术国家工程实验室团队正在研发基于 BLOOM 中文增量训练的中文基础模型 Linly-Chinese-BLOOM,包含 7B 和 175B 模型量级,可用于商业场景。4可信开源人
12、工智能大模型案例汇编人工智能大模型的部署应用需要经历数据准备、模型设计、模型训练、模型优化等多个环节,落地后仍需要根据实际需求以及应用反馈进行调整与维护。其中,模型框架、模型代码、模型参数、训练数据四个方面是衡量其开源成熟度的重要评定等级。开源人工智能大模型开源成熟度1全球开源人工智能大模型发展关键问题5可信开源人工智能大模型案例汇编全球开源人工智能大模型商业模式基本形态2开源人工智能大模型的商业模式基本分为两类:类 open-core 商业软件模式open-core 商业软件模式是指核心代码开源,但是部分功能代码是闭源,最终形成了闭源的代码软件进行售卖。在开源人工智能大模型企业中,企业开源较
13、低参数规模的大模型,并提供较大参数规模的付费版本。企业根据自身场景和业务需求,为客户定制专属大模型,并针对部署的定制化版本提供更全面的支持、咨询、培训和托管服务。专业服务模式专业服务模式由传统商业软件的以“产品”为卖点转向以“服务”为卖点,是开源商业公司采用的一种全新的商业模式。由于开源人工智能大模型一种技术密集型产品,需要对大模型进行持续维护、优化、迭代升级才能发挥软件的最大价值。专业服务模式下的开源商业公司针对免费的开源项目提供收费服务,如技术文档、二次开发支持、用户培训等技术服务实现盈利。6可信开源人工智能大模型案例汇编开源人工智能大模型治理3开源人工智能大模型的治理分为数据治理与模型治
14、理两部分。在数据治理中,开源人工智能大模型关注数据隐私与数据安全质量。开源人工智能大模型训练数据的非法泄露可能会导致敏感信息的暴露,因此确保数据隐私的安全成为治理的重要环节之一。在开发和使用过程中,需确保数据采集、存储和处理符合相关法规。数据的安全质量对于开源人工智能大模型同样重要。为确保数据安全质量,需关注数据的准确性、完整性、代表性等,并关注数据偏差和数据集的平衡性,避免模型在特定群体或场景下产生不公平偏见。高质量的数据能为模型提供更好的基础,从而使其在实际应用中发挥更大的价值。在模型治理中,应注重开源协议使用与模型伦理道德问题。开源协议通过明确规定开源项目的使用、修改和分发方式,为企业和
15、用户提供了一定程度的保障。开源许可证保障了开源大模型的自由使用和共享,促进了创新和协作,同时也为开源大模型的作者和用户提供了一定的法律保护。目前,部分开源人工智能大模型使用常用的许可协议如 Apache 许可证等,同时部分模型采用自己定义的许可证。开源人工智能大模型的开发和应用还需关注伦理道德问题。这包括确保模型的公平性、透明度和可解释性,避免歧视性结果,评估和管理模型可能带来的社会影响。此外,还需关注模型在特定领域的合规性和符合道德标准的使用,以确保技术的正面推动作用。7可信开源人工智能大模型案例汇编我国开源人工智能大模型发展洞察开源人工智能大模型开源程度统计1在入选本次案例集的大模型中,模
16、型框架开源的企业占比为 100%,模型代码开源的企业占比为 100%,模型参数开源的企业占比达到 100%。在本次调研的所有开源大模型中,用户均可以实现本地部署并针对实际使用情况进行微调。另有 22%的大模型对其训练数据进行开源,方便用户对模型进行微调和二次开发。同时,部分大模型对外公布其训练细节,方便用户研究大模型训练过程以及进行模型继续训练。8可信开源人工智能大模型案例汇编开源人工智能大模型商业落地情况2目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30
17、%。在金融领域中,部分开源大模型已经应用于智能客服、智能运营、智能办公等场景,通过智能客服与用户进行多轮对话,提出具体的、可行的解决方案,同时通过开源人工智能大模型生成广告和营销内容,提升营销效率,运用开源人工智能大模型了解国内外的宏观政策、行业信息、产品信息,自动生成文章、报告,提供专业建议和方案辅助交流。在法律领域中,应用开源大模型提供全流程智能辅助办案应用,对法律案件进行拆解、提取关键事件,构建智能审查、量刑预测、文书生成、自动编目、笔录生成等业务能力,通过智能技术辅助办案人员的常规工作,实现案件分析速度的提升。在企业服务中,开源人工智能大模型实现智能化业务运营。通过数据分析和预测能力,
18、洞察企业运营、识别潜在的业务风险和机会,9可信开源人工智能大模型案例汇编并提供智能化的解决方案,从而提高经营决策水平和业务运营效率,赋能企业构建高度自动化与智能化的企业知识库,并进行企业相关文档的摘要、总结、溯源。在制造业领域,开源人工智能大模型已应用于产线运营效率环节,如产品设计研发、质量控制检测、供应链管理、安全生产等。开源人工智能大模型基础配套设施建设情况3伴随开源人工智能大模型的发展,数据平台、大模型开发工具、大模型训练部署平台与向量数据库等基础配套设施的开源生态不断完善。开源数据平台使用门槛较低,相比传统数据服务,具有显著的成本优势。开源训练平台用户能够最大限度地提高人工智能部署的效
19、率,同时大幅降低成本。开源向量数据库由于其开源开放特性,在性能、扩展能力和功能方面具有优势,开源向量数据库具有较快的数据查询速度和更高的压缩比率,同时具有更强大的扩展能力。大模型开源开发工具降低了个人用户和中小企业的开发难度,目前国内部分大模型开源开发工具用户已超万人。大模型开源训练部署平台能够灵活部署,从数据管理、模型开发、训练管理、模型管理全链路功能开放透明,方便用户学习。开源人工智能人工智能大模型优势与不足优势4在本次调研的开源人工智能大模型中,部分模型在开源模型测评榜单中位居前列,部分开源模型能力已领先LLaMA2,在全球形成中国大模型开源生态圈。同时开源大模型语言能力出众,在逻辑推理
20、、幻觉感知等方面有高的精度,配套生态丰富,可以支持行业模型应用。开源人工10可信开源人工智能大模型案例汇编开源人工智能大模型安全风险与合规情况5在本次调研的开源人工智能大模型中,通过强化数据安全与保障模型安全以提升模型合规能力。通过数据安全与模型安全,已初步构建开源人工智能大模型安全保障防线。在数据安全方面,部分企业构建数据安全标注团队,标注并审核安全与合规相关的微调数据,优化预训练数据质量,使用规则加模型的方法过滤大量不良信息。同时企业建立内容安全策略,通过从应用到数据、框架、基础设施以及整个的合规体系的建设,以及关注数据投喂带来的价值偏见、隐私泄露、数据污染、训练数据固有偏见导致模型产生偏
21、见内容等问题。在模型安全方面,企业建立安全一系列策略,如训练基于安全和合规的奖励模型,通过RLHF 对齐大模型的价值观,约束至符合主流安全规定,采用机器审核与人工审核结合的模式对用户输入的问题以及模型生成的答案进行审核,注重算法安全,针对涉底线的相关问题搭建了分类检测模型。通过调研,目前国内开源人工智能大模型数量较闭源人工智能大模型仍有差距,模型在多语言能力,支持的序列长度,推理速度,显存占用等方面仍有进步空间。同时开源人工智能大模型应用创新落地能力仍有提升空间。目前国内外基于大模型的应用多停留在基础阶段,应不断提升开源大模型能力,为用户带来便捷、可靠、高效、个性化的产品。智能大模型有效降低用
22、户使用门槛,方便用户训练、微调并使人工智能大模型。不足11可信开源人工智能大模型案例汇编开源人工智能大模型未来发展展望6模型能力提升。坚持模型规模和数据规模的提升,不断提升基础模型的智能水平,打造结合大模型的 AI 系统,让 AI 具备听说看等基础能力,持续探索大模型具身智能,支持智能感知认知决策,实现和真实世界的交互。加快行业应用落地。以大模型推动 AI 行业升级,革新内容生产模式、全自然交互完成任务,优化模型逻辑,贴合真实场景需求,就多个细分领域结合专业数据训练细分领域模型,以便更好的应用于细分场景。加强开源配套设施建设。通过加强开源数据平台、大模型开发工具、大模型训练部署平台与向量数据库
23、等基础配套设施建设,降低人工智能大模型使用门槛,实现专家级虚拟助手,颠覆传统开发方式、成为工作加速器,持续繁荣开源人工智能大模型生态。12可信开源人工智能大模型案例汇编可信开源大模型产业推进方阵相关工作2023 年 9 月 21 日,由中国信息通信研究院和中国通信标准化协会联合主办的“2023 OSCAR 开源产业大会”在北京举行。会上,中国信通院联合多家企业、高校和科研机构共同成立中国信通院可信开源大模型产业推进方阵(TWOS-LM)。TWOS 下设的可信开源大模型产业推进方阵旨在聚集开源大模型相关企业和人才,探讨开源大模型的治理、商业化模式等热点问题,并提供大模型生态赋能。中国信通院可信开
24、源大模型产业推进方阵成立已开展工作113可信开源人工智能大模型案例汇编为进一步促进大模型的开源和合作,引导开源大模型产业健康规范发展,中国信通院开启 可信开源大模型案例汇编(第一期)案例征集计划。案例旨在促进大中小企业融通,扩展开源人工智能大模型、行业大模型服务千行百业的应用场景,提升企业应用开源大模型实现专精特新发展。可信开源大模型案例集 后续计划214可信开源人工智能大模型案例汇编大模型案例ChatGLM 大模型开源大模型概述1自 2019 年成立以来,智谱 AI 致力于大模型技术的研究和推广工作。在 2023 年,我们推出并开源了多款模型,它们具有不同的能力,开发者可以对这些模型进行使用
25、和定制。Token 数代表了模型支持的总 Token 数量,包括了输入+输出的所有 token。同时,Token 数不代表用户输入字符的数量。在我们的模型中,一个 token 约等于 1.8 个汉字。15可信开源人工智能大模型案例汇编Chat 模型下表为智谱 AI 开源的语言模型列表模型介绍上下文token数代码链接模型权重下载链接ChatGLM3-6B8KChatGLM3ChatGLM3-6B-base8K第三代ChatGLM基座模型。ChatGLM3-6B-Base采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,Cha
26、tGLM3-6B-Base具有在10B以下的基础模型中最强的性能。ChatGLM3-6B-32k8K第三代ChatGLM长上下文对话模型。在ChatGLM3-6B的基础上进一步强化了对于长文本的理解能力,能够更好的处理最多32K长度的上下文。ChatGLM2-6B8KChatGLM2ChatGLM2-6B-int48KChatGLM2-6B的int4量化版本,具备最小5.1GB显存即可运行。INT4量化下,6G显存支持的对话长度由1K提升到了8K。ChatGLM2-6B-32k32KChatGLM2-6B-32k-int432K16可信开源人工智能大模型案例汇编ChatGLM-6B2KChat
27、GLMChatGLM-6B-int42KChatGLM-6B的Int4版本。最低只需6GB显存即可部署,最低只需7GB显存即可启动微调(P-Tuningv2)ChatGLM-6B-int82KChatGLM-6B的Int8版本AgentLM-7B4KAgentTuningHuggingfaceRepo我们提出了一种AgentTuning的方法AgentLM-13B4KHuggingfaceRepo我们开源了包含1866个高质量交互、6个多样化的真实场景任务的Agent数据集AgentInstructAgentLM-70B8KHuggingfaceRepo基于上述方法和数据集,我们利用Llama
28、2微调了具备超强Agent能力的AgentLM-7B、AgentLM-13B、AgentLM-70B。多模态模型智谱 AI 致力于推动多模态模型的发展,因此,我们推出了具有视觉和语言双模态的模型。模型介绍代码链接模型下载CogVLM-17BCogVLM智谱AI最新的,强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM可以在不牺牲任何NLP任务性能的情况下,实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型,在14个数据集上取得了state-of-the-art或者第二名的成绩。Visualglm-6BVisua
29、GLMRDMRDM17可信开源人工智能大模型案例汇编代码模型模型介绍代码链接模型下载CodeGeeX2-6BCodeGeeX2CodeGeeX2-6B-int4CodeGeeX2的量化版本CodeGeeX-13BCodeGeeXCodeGeeX下载其他模型我们还开源了以下模型,以便用户使用我们多元化的产品。18可信开源人工智能大模型案例汇编19可信开源人工智能大模型案例汇编开源大模型发布时间历程2开源大模型信息3问题列表具体内容项目地址G 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对
30、话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:1.更强大的基础模型:ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。2.更完整的功能支持:ChatGLM3-6B 采用了全新设计的Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景
31、。3.更全面的开源序列:除了对话模型ChatGLM3-6B外,还开源了基础模型ChatGLM3-6B-Base、长文本对话模型ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。21可信开源人工智能大模型案例汇编开源大模型概述1开源大模型发布时间历程2开源大模型落地案例及开源商业化进程3模型名称:Qwen(通义千问)系列,其中包括大语言模型 Qwen,大视觉语言模型 Qwen-VL,大语音模型 Qwen-Audio所属机构名称:阿里巴巴集团支持语言种类:本系列模型支持多种语言,但以中英为主,经测试,模型在法德意西等欧洲语言,日韩等亚洲语言表现
32、良好。上线配套工具包括:API 服务 DashScope,网页端服务通义千问,APP 服务通义千问,插件包括VSCode 插件通义灵码类别:通用,场景不限Qwen-7B:8 月发布,9 月更新 v1.1Qwen-VL:8 月发布,9 月更新 v1.1Qwen-14B:9 月发布Qwen-72B:计划 11 月底发布Qwen-Audio:计划 11 月底发布Qwen 自开源以来,广泛在阿里巴巴集团内外落地,帮助集团内外上百个业务落地,支持了淘宝、钉钉等集团内业务,也在浙江大学、有鹿机器人、央视网等客户的业务场景实线落地应用(为保客户隐私,许多客户名称暂不透露)。典型案例包括对钉钉的魔法棒产品支持
33、,可以实线问答、翻译、摘要等能力,以及浙江大学使用 Qwen 实现教育领域专属大模型智海三乐,以及有鹿机器人使用 Qwen 落地于清洁机器人等。通义千问大模型22可信开源人工智能大模型案例汇编开源大模型信息4问题列表具体内容项目地址https:/ pajama,pile,悟道,万卷等,其余为私有数据集,无法公开。Qwen 在多项基础能力测评领先同规模甚至更大规模的其他语言模型,并且中文能力远超诸如Llama 系列的海外模型,同时 Qwen 具备领先的工具调用及 Agent 能力。当前主要从三个方面入手解决幻觉问题:1.检测数据中虚假信息,提升数据质量;2.扩大模型规模并增大预训练数据量,模型能
34、力的提升能实现幻觉水平的降低;3.结合搜索增强以及知识库等方法,提升生成信息的准确性。开源大模型安全与合规治理8开源大模型未来发展规划91.优化预训练数据质量,使用规则加模型的方法过滤大量不良信息;2.大量标注并审核安全与合规相关的微调数据,让模型学习正确的价值观;3.训练基于安全和合规的奖励模型,以提升生成模型的安全水位。未来计划包括多个方面:1.坚持模型规模和数据规模的提升,不断提升基础模型的智能水平;2.打造结合大模型的AI系统,让AI具备听说看等基础能力,并实现和真实世界的交互;3.夯实大模型基础服务,并打造行业应用大模型。24可信开源人工智能大模型案例汇编开源大模型概述 1开源大模型
35、发布时间历程2模型名称:紫东太初 2.0所属机构:中国科学院自动化研究所支持语言:中英平台:taichu-“紫东太初 2.0”是武汉人工智能研究院联合中科院自动化所、华为,基于昇腾 AI,在全球首个图文音三模态大模型“紫东太初”基础上,利用昇思 AI 框架全新升级,推出的新一代大模型,从三模态走向全模态,打造中国通用 AI 智能底座,助推认知智能时代加速到来。从文本创作、多轮问答到绘画作诗、代码生成、数学计算,“紫东太初 2.0”以更强的认知、理解、创作能力,带来全新互动体验,推动万物互联走向万物共生,向通用人工智能的目标更进一步。紫东太初大模型25可信开源人工智能大模型案例汇编第一阶段为技术
36、累积期,从 08 年-20 年进行图文音个模块单独攻关,累积各细分方向的前沿技术能力;自 2020 年起,中国科学院自动化研究所即坚持以“图-音-文”多模态技术为核心,确立多模态大模型布局,整合所内图像、文本、语音等研究方向的优势资源开展集团式攻关,于 2021 年 9 月成功打造“紫东太初”1.0 多模态大模型。“紫东太初”1.0 助推人工智能从“一专一能”迈向“多专多能”,向发展通用人工智能迈出了坚实的第一步。以此为基础,“紫东太初”大模型的多模态探索仍在持续深入。迈入数字经济时代,数据的范畴不断拓宽,不仅包含人类自身产生的语音、图像、文字等数据,还有机器产生的大量结构和非结构化数据。针对
37、新需求与新趋势,“紫东太初”2.0在语音、图像和文本之外,加入了视频、信号、3D点云等更多模态,从技术架构上实现了结构化和非结构化数据的全模态开放式接入;突破了能对信息进行充分理解和灵活生成的多模态分组认知编解码技术,能融合多个任务的认知增强多模态关联技术等,大模型多模态认知能力大幅提升。“紫东太初”2.0 可以理解三维场景、信号等数字物联时代的重要信息,完成了音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成。从1.0到2.0,“紫东太初”大模型打通了感知、认知乃至决策的交互屏障,使人工智能进一步感知世界、认知
38、世界,从而延伸出更加强大的通用能力。开源大模型落地案例及开源商业化进程3紫东太初行业大模型应用案例(1)法律行业大模型案例基于全球首个千亿参数多模态大模型“紫东太初 2.0”,训练法律行业专用模型,通过将法律案例、法律法规、案卷材料等法律相关数据,经过清洗、标注、分析后,“投喂”给“紫东太初”大模型完成预训练,再将模型输出的结果,经法律专业人士审核,进一步强化模型能力,从而实现通用大模型在专业领域“说”专业语言。经过训练,“紫东太初”大模型可对法律案件进行拆解、提取关键事件,在办公效率方面,实现案件分析速度的百倍提升。(2)政务行业大模型案例基于光谷政务服务业务需求,结合紫东太初大模型基座能力
39、,训练招才政务大模型。未来将担任已26可信开源人工智能大模型案例汇编经在光谷或意向来光谷的人才智能助手,充当人才的 24 小时智能客服,竭力为人才来鄂来汉创新创业,提供全周期、全链条服务,为人才搭建事业舞台,助力人才追梦、圆梦。经评测,在吸引人才落户创业,帮助区域企业推荐项目合作等方面成效显著,服务效率提升 3 倍,服务满意度提升 30%以上。(3)医疗行业大模型案例-医疗器械基于紫东太初大模型开放服务平台打造医疗行业大模型,实现数据智能标注、高效模型训练、模型灵活部署,实现骨科器械/耗材的自动识别和清点,实现智能化、精细化管理。骨科类器械/耗材管理l 规格复杂、数量繁多,清点复核耗时长,且严
40、重依赖人工清点,出错率高,正常单人单次清点需花费 2小时以上,经实际评估,使用本大模型结合视觉能力,可实现 5 分钟每台手术的器材清点,人效提升 6倍以上,整体准确度可达 97%以上。(4)医疗行业大模型案例-医疗科研基于紫东太初大模型打造医疗行业科研大模型,分析数千万量级文献,结合持续更新的临床数据和试验数据,梳理文献中的文本、数据、图片等多模态融合数据进行预训练,结合专业医学教授沉淀的经验进行指令微调和反馈,大模型进行持续的行业强化学习,可完成精准的多模态信息的结构化抽取和文献总结,不断优化模型能力。医疗科研中文献梳理是一个纷繁复杂的过程,基于紫东太初医疗行业大模型,经实际评估,可实现秒级
41、的文献结构化能力,人效提升 30 倍以上,整体准确度可达 99%以上,大幅减轻医疗科研工作者效率,后期,将拓展模型主动科研探索能力,真正助力医疗科研走上新的台阶。开源大模型信息4问题列表具体内容项目地址大模型体验地址:taichu-中文高质量开源数据集https:/huggingface.co/datasets/CASIA-LM/ChineseWebText大模型数据处理开源代码:https:/ 3 个关键需求:一是安全可控,包括内容安全和算法安全;二是场景驱动,要在看得见摸得着的场景上,产生实实在在的应用价值,用统计数据来证明应用成效;三是要有专属模型,能保护用户的专有数据,建立私有云平台,
42、保障客户的数据安全。持续研究大模型工作机理。加快行业应用落地,以大模型推动 AI 行业升级,革新内容生产模式、全自然交互完成任务、实现专家级虚拟助手、颠覆传统手工编程方式、成为工作加速器。持续探索大模型具身智能,支持智能感知认知决策。28可信开源人工智能大模型案例汇编开源大模型概述1开源大模型发布时间历程2开源大模型落地案例及开源商业化进程3百川智能共发布 Baichuan-7B/13B,Baichuan2-7B/13B 四款开源可免费商用大模型,一款Baichuan2-192K 开源大模型。支持阿拉伯文、中文、英文、法文、俄文、西班牙文、德文、日文等 8种语言。目前对个人用户方面仅上线网页端
43、对话功能,属于通用大模型,适用领域有个人用户、大模型学术机构、开发者和企业用户。其中 Baichuan2-192K 适用于传媒、金融、法律等具体场景,不久后将全面开放。百川智能 2023 年 6 月 15 日发布国内首款开源可免费商用 70 亿参数量大语言模型 Baichuan-7B;7 月 11 日发布参数量 130 亿的大语言模型 Baichuan-13B-Base、对话模型 Baichuan-13B-Chat;9 月 6 日发布 Baichuan2-7B/13B,10 月 30 日发布 Baichuan2-192k;计划 2023 年 Q4 推出开源的 7B 和 13B 模型持续迭代。有
44、超过上百家企业已申请百川大模型开源商用授权,并已将百川模型投入实际生产场景。企业涵盖互联网、软件和信息技术、金融、法律、教育、制造业、企业服务等众多领域,合作伙伴群体仍在持续扩大。Baichuan 大模型29可信开源人工智能大模型案例汇编开源大模型信息4问题列表具体内容项目地址GitHubStar数量2.9k开源许可免费可商用模型大小13B参数规模13B附带历史消息数4ktokenToken数量2.6T所用算力1000A800单次训练时长15用户规模内外部贡献者比例完全内部已上线的社区及链接(https:/huggingface.co/baichuan-inc/Baichuan2-13B-Ch
45、at)GitHub(https:/ Alaya 九章元识大模型开源大模型概述1模型名称:DataCanvas Alaya 九章元识大模型所属机构名称:北京九章云极科技有限公司模型支持的语言种类和数量:万亿 Token 中英文训练,训练中英文比例 1:2配套工具(平台、插件、APP):Alaya-7B 已经在 GitHub 进行开源。其工具链模型运行工具和提示词管理器已经上线,并在 GitHub 进行开源。模型所属的类别:通用面向的具体领域和场景:银行业,智能数仓管理、NL2SQL、文档关键信息提取;制造业,领域知识库管理、故障智能诊断与分析;零售业,行业动态调研与分析、风险分析、市场方案指定;
46、教育行业,智能辅助助手、角色扮演语言练习搭档开源大模型发布时间历程22023 年 6 月 30 日,正式发布通识大模型 DataCanvas Alaya 九章元识大模型;2023 年 11 月 21 日,正式发布 Alaya-7B 开源以及 Alaya-7B Chat 版本;开源大模型落地案例及开源商业化进程3DataCanvas Alaya 九章元识大模型与 DingoDB 多模向量数据库联合打造了企业知识管家解决方案,已在金融、制造等多个领域进行商业化落地,赋能企业构建高度自动化与智能化的企业知识库,加速多模态大模型落地应用。32可信开源人工智能大模型案例汇编开源大模型信息4问题列表具体内
47、容项目地址https:/ SFT 数据集(500k+条数据),覆盖多领域、多形式、多情景。不对外公开。33可信开源人工智能大模型案例汇编开源大模型的特点61、“白盒”大模型为用户提供更大自由度市场上的很多大模型都是“黑盒”,虽然在一定程度上开源了算法和架构,允许用户在上面进行训练,但是仍然受到诸多限制。比如,虽然允许用户使用该大模型,但是不能做微调,或者不允许用户做一些自己特有的商业化应用。Alaya 九章元识大模型是全面开源且 license 友好的“白盒”大模型,遵循 Apache 2.0 license,行业用户可以在 Alaya 九章元识大模型之上自由地训练、微调自己的大模型。2、“多
48、模态”是必要前提,更是创新的手段Alaya 九章元识大模型不仅可以支持文本、图像,还能支持时序数据、结构化数据等。九章云极DataCanvas 在自然语言的理解、文生图、代码生成等是大模型应用得比较好的领域有很多已经落地的成功案例。3、新的模型训练机制,降本增效Alaya 九章元识大模型采用了新的 Attention 机制,不仅可以降低算力的消耗,而且在训练前与训练后,能够针对多模态实现有效的数据对齐。这是九章云极 DataCanvas 独有的技术,在训练时能够很好地容纳多模态这样一种训练方式。4、系列模型矩阵,更好地满足“通识+产业”的需求Alaya 九章元识大模型不是一个大模型,而是一系列
49、大模型,模型参数由小到大,覆盖从通识到垂直行业,能够更好地满足用户多样化的需求。九章云极 DataCanvas 正式开源大模型矩阵中 Alaya-7B Foundation Model 通识大模型和 Alaya-7B Chat Model 对话大模型两大模型,以及 LLMOps 大模型工具链中的 LMS 模型运行工具和 LMPM 提示词管理器两大工具,能够有效地推动大模型在各类行业场景的实际应用。开源大模型安全与合规治理71、Alaya 九章元识大模型是“白盒”模式,用户使用过程中可以实现“known-how”;2、积极在网信办相关部门进行大模型以及算法备案工作。从算法层面以及产品底层逻辑层面
50、符合国家合规要求;34可信开源人工智能大模型案例汇编开源大模型概述1开源大模型发布时间历程2开源大模型落地案例及开源商业化进程3模型名称:TigerBot所属机构名称:虎博网络技术(上海)有限公司模型支持的语言种类和数量:支持中文和英文两个语种上线配套工具:app 已在内测中模型所属类别及具体领域和场景:通用领域8/21/2023:TigerBot 更新发布 7b 和 13b 的 base/chat 模型9/06/2023:TigerBot 发布 70b base/chat 模型 v1 版本9/25/2023:TigerBot 发布 v2 版本 TigerBot-70b-chat 和 v3 版
51、本 Tigerbot-13b-chat9/26/2023:TigerBot 发布 v3 版本 TigerBot-70b-chat 和 v4 版本 Tigerbot-13b-chat后续将持续优化 TigerBot-70b 模型虎博 TigerBot 大模型商业化路径包括私有化部署及 API 调用两种形式。10 月份合计签约客户数四家,合同额近 200 万元,分布在汽车、游戏、情报、金融等领域,全部为私有化部署。主要产品呈现形式包括:基于说明书、文档、攻略、研报的智能问答;领域内外文档的摘要、总结、溯源;海外游戏场景内的 NPC 感知、记忆、反馈与行动等。10 月份 API 调用数量为 4 万多
52、次。TigerBot 大模型35可信开源人工智能大模型案例汇编开源大模型信息 4问题列表具体内容项目地址https:/ 等数据作为预训练预料1.改进训练数据的质量和多样性,确保数据覆盖广泛且质量高,避免模型在不熟悉的数据中产生幻觉。2.通过改进训练算法增强模型的理解推理能力3.增加监管和过滤,避免模型生成有害和误导性内容。4.利用外部数据源或者专家审查来确保模型输出的准确性在 Llama-2-70b 的基础上继续预训练,模型综合能力在 mmlu 等 10 项主流基准测试中,优于Llama-2-70b,达到业内 SOTA;1、用高质量的 300 billion tokens 的多语言数据;2、算
53、法上使用了 GQA,flash-attn,RoPE,holistic-training 等技术;3、训练采用了 tensor/pipeline-partition 技术,计算效率达到 Llama-2 paper 中报告的 SOTA;Tigerbot-70b-chat:在 Tigerbot-70b-base 基础上,用 20M 指令完成数据进行 sft,和 10K 人类标注的 gold set 进行 rejection-sampling 对齐。37可信开源人工智能大模型案例汇编开源大模型安全与合规治理8开源大模型未来发展规划91、尽可能使用干净的的训练语料,并通过机器+人工的模式进行了部分语料的
54、清洗和标注,不断的优化语料直到语料中不含办法明确禁止的内容,确保预料合规率达到 99%以上。2、建立关键词库并不断优化扩充,目前已达到十万量级。3、公司搭建了内容审核团队,采用机审+人审的模式对用户输入的问题以及模型生成的答案进行审核,针对涉底线的相关问题搭建了分类检测模型。此外,公司与头部内容审核供应商建立合作关系,双重保障大模型的安全合规。1.模型上线后将主要服务于生成式AI能带来生产力提升和机制的b端各行各业,包括但不限于金融、新能源车、娱乐、互联网等。这其中也包括一些直接服务 c 端客户的客户,如新能源车、智能音箱、电商;虎博 TigerBot 的内容安全保障能力和经验也将会帮助我们的
55、客户提升其在内容安全上的意识和能力。2.计划在海外发布 c 端类 chatgpt 的应用,除了在能力上追赶海外领先大模型(需要海外用户的交互反馈),还将同步持续输出具有中国特色的社会主义核心价值观,进一步提升全球华人的文化自信。3.国内计划发布 c 端工具类 app,从某些细分领域入手,例如创作、学习等,预计将在 24 年逐步上架相关产品。38可信开源人工智能大模型案例汇编开源大模型概述1开源大模型发布时间历程2开源大模型落地案例及开源商业化进程3模型名称:ChatLaw所属机构:壹万卷(上海)科技有限公司、北京大学深圳研究生院支持语言:中文配套工具平台:网页 https:/chatlaw.c
56、loud/所属类别:法律垂直领域场景:提供法律问答咨询、法条与类案参考、文书生成等,为法律相关行业提供降本增效的辅助工具,为法律需求当事人提供可信便捷的专业领域知识信息与法律意见参考。2023 年 7 月初发布 GitHub 开源版本,同时开放部分功能内测;目前主要与律师事务所、司法机关、行业内传统 AI 科技公司等达成合作,根据专业领域具体细分需求升级模型、开发产品等,以便更满足行业需求。开源的基础模型即将上线海内外多个开发者平台,如百度千帆等,以便支持开发者更方便的调用与开发。ChatLaw 大模型39可信开源人工智能大模型案例汇编开源大模型数据集来源51.裁判文书网:https:/ 在国
57、产法律领域取得了数据及模型上的领先。在技术方面,有成熟的法律检索模型,推理基座模型,以及多个法律子任务子领域模型;在数据方面,有大量公开或半公开训练数据,以及高质量专家标注数据。首先,基于 RAG 框架,根据相关法律知识及法条法规作为逻辑上对幻觉的约束;根据使用场景下的证据材料作为事实对幻觉进行约束。其次,通过不断强化基座模型的法律逻辑能力约束幻觉。通过严格的 RLHF 对齐大模型的价值观,约束至符合主流安全规定。优化模型法律逻辑,贴合法律真实场景需求;就多个细分领域结合专业数据训练细分领域专家模型,以便更好的应用于细分场景。41可信开源人工智能大模型案例汇编开源大模型概述1开源大模型发布时间
58、历程2元象大模型 XVERSE 系列,由元象 XVERSE(深圳元象信息科技有限公司)开发。现有 XVERSE-7B/13B/65B 等尺寸,均为高性能通用大模型。在 2.6-3.2 万亿 Tokens 的高质量数据上从头训练,上下文窗口为 8K/16K,支持中、英、俄、法等 40 多种语言,已在 Github、魔搭、HuggingFace 等平台上线。具备工具调用、代码解释、反思修正等能力,为构建智能体(AI Agent)奠定技术基础,提高模型实用性;显著缓解幻觉问题,减少大模型“胡说八道”,提高准确性和专业度。应用领域与场景:在医疗、教育、文旅、金融和娱乐等多个行业具有广阔应用前景,也将为
59、元象自身的元宇宙应用提供强大技术支持。2023-8-7 开源 130 亿参数 XVERSE-13B2023-9-26 开源 70 亿参数 XVERSE-7B2023-11-6 开源 650 亿参数 XVERSE-65B2023-11-6 开源 130 亿参数升级版本 XVERSE-13B-2后续将继续对模型进行升级迭代,并推出指令精调的对话版本 XVERSE-65B-Chat。元象大模型42可信开源人工智能大模型案例汇编开源大模型落地案例及开源商业化进程4元象 XVERSE 与腾讯音乐联合推出 lyraXVERSE 加速大模型,并借助该技术全面升级音乐助手“AI小琴”的问答、聊天与创作能力,让
60、她情商与智商双高,为用户提供个性化、更深入、陪伴感十足的音乐互动体验。用户只需点击 QQ 音乐“AI 一起听”按键,升级版“AI 小琴”会根据用户的提问、播控习惯和当下心情,提供闲聊、推歌、音乐解读、词曲创作等服务,充当全能听歌陪伴助手。问题列表具体内容项目地址https:/ 创新能力】1.理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;2.扩展了工具调用、代码解释、反思修正等能力,为构建智能体(AI Agent)奠定技术基础,提高模型实用性;3.显著缓解7B、13B中常见且可能很严重的幻觉问题,减少大模型“胡说八道”,提高准确性和专业度。【元象大模型系列关键
61、技术与研发创新】复杂分布式系统设计:借鉴团队研发腾讯围棋 AI“绝艺”、王者荣耀 AI“绝悟”等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统,千卡集群峰值算力利用率达 58.5%,位居业界前列。全面提升性能:65B 训练中采用 FlashAttention2 加速计算,3D 并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率;上下文窗口长度从8K 逐步提升到 16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码
62、解释及反思修正能力,能更好构建智能体(AI Agent)。极致提升训练稳定性:因计算量庞大,通信拥塞、芯片过热或计算节点故障成为 65B 训练常态,初期出现过一周最高八次故障的情况。通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至 98.6%。大模型幻觉问题解决方案6团队在 NLP 积累深厚,为了避免回答出现幻觉,我们采用了多样化且准确的数据进行训练,让模型尽可能地多学习。从拟人的角度看,其实人有时候也会出现“空耳”以及理解偏差的情况,但我们会努力让模型避免此类问题。从去年开始我们就针对“基于动态知识引入的事实
63、一致性对话生成”这一关键核心课题进行深入研究,希望在结合上下文与背景信息时,减少与事实不符或错误背景描述的情况,让AI 实现从写作“自然流畅”到“用事实说话”的技术跨越。同时在具体的项目应用中,通过构建 vector database 知识库,解决通用大语言模型在专业领域回答缺乏依据和存在幻觉的问题。44可信开源人工智能大模型案例汇编开源大模型安全与合规治理 7公司设有内外部安全标注团队,同时人数会根据实际情况进行快速增补和调整,可根据需要在一个月的时间内扩充到千人的规模。标注人员皆有本科以上学历,到岗后进行为期 10 天的理论、实操与安全相关培训,包括 信息安全行业认知与背景、标注规范与标注
64、平台培训、安全合规与数据质量监测等。每季度对所有标注人员进行知识考察,不合格者将进行补考直至通过。同时标注团队定期与研发团队进行案例分析、标准对齐,保证标注质量的稳定性。核验方法:为提高标注内容准确性,内容由多人(至少 3 人)交叉标注,之后对全量标注内容的30%进行人工核验。核验标准:核验准确性达95%为合格,低于95%为不合格。出现不合格情况时,会要求进行重新标注,直至达到合格标准。45可信开源人工智能大模型案例汇编开源大模型概述1开源大模型发布时间历程2聚宝盆(Cornucopia)金融大模型;中科院成都计算机应用研究所(中科信息)&余央木团队;模型支持中英双语;Cornucopia-L
65、LaMA-Fin-Chinese 开源训练框架;金融领域,主要涉及理财、股票、基金、贷款、信用卡、社保、保险等金融咨询、金融文本分析、金融计算、金融检索问答。今年 5 月中旬发布了两版 llama 系的初版训练模型,11 月底将发布最新的优化版本模型和 13B模型,并与年底开源所有金融指令数据集。聚宝盆(Cornucopia)金融大模型开源大模型信息3问题列表具体内容项目地址https:/ to B 定制化。开源大模型的特点5优势是在于我们有一套完整的训练框架和实际场景的数据,基于开源模型架构如 LLaMA 进行领域训练,适配性强,并且开源可商用。大模型幻觉问题解决方案6应对大模型幻觉问题除了
66、保证训练数据质量,还应该配合外挂知识库检索问答的能力,本模型进行了针对性的金融检索问答能力训练。开源大模型安全与合规治理7从鲁棒性、可靠性、隐私性、公平性和可解释性五个可信属性角度,提升大模型安全性策略,包括对可信属性的评估策略、可信属性的保障和防护策略等。47可信开源人工智能大模型案例汇编开源大模型概述1工具链名称:新一代大模型分布式高效开发基础设施 Colossal-AI所属机构名称及介绍:潞晨科技潞晨科技由新加坡国立大学尤洋教授创立,致力于解放 AI 生产力,打造世界级的分布式 AI 开发和部署平台,让超级计算机和云平台零成本服务 AI。AI 模型在几年内已增大万倍,远超硬件能力数倍的增
67、长,如何高效利用分布式技术实现 AI 大模型的并行训练加速已成为行业关键痛点。Colossal-AI 通过高效多维并行、异构内存管理、大规模优化库、自适应任务调度等方式,可高效快速部署 AI 大模型训练,兼容低端设备,显著缩短 AI 大模型训练时间、降低训练成本,减少学习和部署的人力成本。潞晨敏锐把握 AI 模型急速增大与硬件算力缓慢增长的尖锐矛盾,瞄准价值万亿美元的企业 AI 市场,基于多年在学术上的卓越成就和工业界的深厚积累,攻克多维张量并行、序列并行、异构内存管理、大规模优化库、自适应任务调度等多项核心关键技术,研发通用 AI 大模型高效训练系统 Colossal-AI 这一核心产品,近
68、期获得数亿元 A 及 A+轮融资,已在成立 24 个月内已迅速连续完成四轮融资,投资方为创新工场、真格基金、蓝驰创投、某世界 500 强、大湾区基金和新加坡电信投资公司(SingTel Innov8)等。所属的类别(GPU 服务厂商、向量数据库等)以及该工具链在大模型上下游的作用:Colossal-AI(https:/ 系统通过引入统一接口将模型训练的顺序代码扩展到分布式环境来解决上述挑战。它支持数据并行、管道并行、张量并行和序列并行等并行训练方法,以及与零冗余优化器集成的异构训练方法。它作为主流深度学习框架的内核,如图所示,Colossal-AI 所属 AI 大模型开发内核层级,致力于解决大
69、模型的分布式训练/微调/推理/异构等痛点,降低 AI 大模型开发应用成本:基础设施案例Colossal-AI48可信开源人工智能大模型案例汇编开源大模型发布时间历程22021 年 10 月,Colossal-AI 上线,登顶 GitHub 热度榜世界第一;2021 年 11 月,刷新 ViT 模型训练速度世界纪录;2022 年 2 月,发布利用空间异构分布式计算特性加速联邦学习;2022 年 3 月,刷新 AlphaFold 训练速度世界纪录,全面超越谷歌、哥伦比亚大学竞品,获机器之心等顶流专业媒体头条报道;2022 年 4 月,Colossal-AI 正式版发布,获 CSDN、量子位等顶流专
70、业媒体头条报道,登顶GitHub 热度榜世界第一;2022 年 4 月,全球首个规模化复现谷歌最新研究成果 Pathways Language Model;2022 年 5 月,发布单卡大模型异构方案,可提升硬件模型容量十余倍2022 年 6 月,发布大模型并行推理方案,相比英伟达 FasterTransformer 提升 50%2022 年 8 月,与百图生科联合发布蛋白质单体与复合物结构预测方案49可信开源人工智能大模型案例汇编2022 年 9 月,发布 1750 亿参数 OPT 模型推理优化在线体验2022 年 10 月,发布蛋白预测推理优化方案2022 年 10 月,发布单卡训练超大推
71、荐系统模型方案2022 年 10 月,发布 Stable Diffusion 低成本预训练、微调方案2022 年 12 月,与摩尔线程联合发布预训练语言模型 MusaBert 荣登 CLUE 榜单 TOP102023 年 1 月,发布 Stable Diffusion 2.0 低成本预训练/微调/推理、1750 亿参数 BLOOM 模型推理优化、自动并行2023 年 2 月,历 时 14.5 个 月,Colossal-AI 在 开 源 社 区 超 越 微 软 DeepSpeed,英 伟 达Megatron-LM 等数年积累,成为细分赛道世界第一。2023 年 3 月,全球首个开源 ChatGP
72、T RLHF 微调复现方案,登顶 GitHub 热度榜世界第一。2023 年 7 月,发布 650 亿参数 LLaMA 大规模预训练加速方案2023 年 9 月,发布 700 亿参数 LLaMA2 训练加速 195%方案2023 年 11 月,专家并行再升级,开源 MoE 模型训练效率提升 9 倍开源大模型落地案例及开源商业化进程3Colossal-AI 发布后广受关注,多次登上全球最大开源社区 GitHub 和 Papers With Code 热度榜单世界第一,已成功刷新 ViT 和 AlphaFold 训练速度世界记录,性能和同期开源社区活跃度全面超越微软、谷歌、英伟达等相关国际巨头竞品
73、,目前已获得 GitHub 星数三万五千多颗,位列全球TOP400,细分赛道排名世界第一。Colossal-AI 已与多家世界/中国五百强、东南亚科技巨头、亚洲地区国家级研究机构、海外超算中心等开展合作,促进 AI 大模型商业化落地,涉及云计算、芯片设计、生物医药、自动驾驶、智能零售、互联网等领域,已与多家知名厂商联合开发/优化千亿/百亿参数大模型或打造垂类模型。1.千卡并行预训练系统能力,打造千亿参数私有大模型为某世界 500 强车企等基于 Colossal-AI 开发百亿至千亿参数量级的预训练对话模型 百亿至千亿参数量的 GPT,GPT-MOE 类模型 Colossal-AI 并行及加速技
74、术50可信开源人工智能大模型案例汇编 TB 量级的中文预训练语料数据清洗 在千张 A100 GPU 集群上预训练约 190 TFLOPS2.百卡并行微调系统能力,个性化千亿参数私有大模型为某中国 500 强手机企业等基于 Colossal-AI 开发百亿至千亿参数量级的领域 RLHF 微调对话模型 基于 ColossalChat 评估体系,选择最合适的开源底座模型 继续预训练加微调方式快速构建领域知识增强模型 优化 RLHF 微调及推理能力,如 PPO 速度提升 10 倍。结合搜索引擎,增强模型对话回复的时效性、知识性和准确性使用预训练底座或最新开源模型,结合 RLHF、langchain、知
75、识图谱、外挂知识库/向量数据库等,针对具体业务场景,增强领域知识、多角色扮演、情感回应、幻想减轻等能力。3.Stable Diffusion 图片生成加速为某世界 500 强车企等,基于 Stable Diffusion Webui 平台,对文生图、图生图、生成高清和超高清图的推理过程进行加速,降低出图时间,提升用户使用体验。使用层间融合和算子融合、数据精度校准等技术,减少推理内存占用,提升推理速度;支持不同版本的 Stable Diffusion 模型及其对应的 Dreambooth 模型的推理加速;集成 Webui 平台,支持 txt2img 和 img2img 众多衍生功能,可通过 We
76、bui 界面调整图片生成的参数,选择使用的不同版本模型等。加速 Real-ESRGAN 和 SwinIR 两个模型将标清图生成高清图(4 倍超分)和超高清图(8 倍超分)。训练加速提升 6.5 倍,文成图平均出图时间缩短了 6.9 倍,图生图平均出图时间缩短 7.8 倍,超分辨率平均出图时间缩短 1.7 倍4.生物医药 AI 大模型训练与推理 10 倍加速为 Intel、百图生科、华深智药等,针对蛋白质预测模型 AlphaFold2,结合 Colossal-AI 系统优化能力,提供蛋白质预测模型优化,提升训练和推理速度均可达约 10 倍。51可信开源人工智能大模型案例汇编 使用动态轴并行、算子
77、融合、重叠计算等技术将预训练加速,并相对其他方案可以节省 19%总算力成本;算子融合、Chunk 策略、并行前处理等技术加速推理速度与显存优化。LLM 在生信领域的应用与 Colossal-AI 完美契合5.企业客服帮助东南亚互联网巨头等核心业务快速引入类 ChatGPT 能力,提升业务水平,助力企业降本增效。学习企业内部制度,有效应对复杂客服场景,大幅提升企业客服工作效率。提出高效的训练策略,达到 90%以上准确率的前提下进一步减少训练时间。实现 13 倍以上生成式推理加速,帮助客户在生产环境中低成本部署模型。6.数字人 LLM 底座为某互联网企业设计&训练用户数字分身,实现符合主播人设和沟
78、通口吻的聊天机器人,增强线上用户粘性和聊天意愿基于 Colossal 中文基座模型,设计完整数据策略和训练方案,保障知识前提下提升对风格口吻的模拟能力;统一模型覆盖多角色 IP 多人设,降低模型落地产品成本7.中东阿拉伯语使用者专属 ChatGPT为中东 watad 能源公司提供基于阿拉伯语的 chatGPT.52可信开源人工智能大模型案例汇编 Base Model(Mulhem)达到阿拉伯语 SOTA 水平ModelArabic-MMLU(5-shot)English-MMLU(5-shot)LLaMA-2-7b44.4729.70Noon-7b29.8728.19Jais-13b-base
79、Tokenslengthexceeds204828.67Mulhem-7b-base45.1931.19Mulhem-7b-chat48.5032.05 各大知名媒体报道8.新兴芯片为摩尔线程、天数智芯等国产算力芯片提供 Colossal-AI 大规模 AI 训练和推理系统优化能力。53可信开源人工智能大模型案例汇编开源大模型的特点4开源大模型未来发展规划5潞晨科技助力 AI 大模型降本增效,开源低成本 AI 大模型开发系统 Colossal-AI(https:/ PyTorch,可通过高效多维并行、异构内存等,降低 AI 大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低 GPU
80、 需求等。作为当下最火热的开源AI 大模型解决方案,Colossal-AI,目前已获得 GitHub 星数三万五千多颗,位列全球 TOP400,细分赛道排名世界第一,并成功入选 NeurIPS,SC,AAAI,PPoPP,CVPR,ISC,NVIDIA GTC 等国际 AI 与HPC 顶级会议的官方教程。Colossal-AI 已与多家世界/中国五百强、东南亚科技巨头、亚洲地区国家级研究机构、海外超算中心等开展合作,促进 AI 大模型商业化落地,涉及云计算、芯片设计、生物医药、自动驾驶、智能零售、互联网等领域,已与多家知名厂商联合开发/优化千亿/百亿参数大模型或打造垂类模型。提升产品性能、扩展
81、用户规模,支持更多模型和国产软硬件等。54可信开源人工智能大模型案例汇编开源大模型发布时间历程2开源大模型概述 1发布时间:2023 年 6 月 30 日当前版本:DingoDB 多模向量数据库 V 0.7.0工具链名称:DingoDB 多模向量数据库所属机构及介绍:该工具所属于北京九章云极科技有限公司(以下简称:九章云极DataCanvas)公司简介:北京九章云极科技有限公司(简称:九章云极 DataCanvas)以“创造智能,探索未知”为使命,以“助力全球企业智能升级”为愿景,是中国人工智能基础软件领军者。公司致力通过自主研发的人工智能基础软件产品系列和解决方案为用户提供人工智能基础服务,
82、助力用户在数智化转型中轻松完成模型和数据的双向赋能,低成本高效率的提升企业决策能力,实现企业级 AI 规模化应用。九章云极 DataCanvas 的核心产品系列 AIFS 人工智能基础软件和 DataPilot 数据领航员具有高度的灵活性和可扩展性,能够处理各种类型和规模的数据,简化了数据处理和分析的复杂性。产品集成了一系列先进人工智能技术,包括多模态向量数据库、因果学习、思维件等,为企业提供 AI 软件开发新范式。产品介绍:DingoDB 是一款业界领先的多模向量数据库,具备综合能力,包括结构化和非结构化数据的存储、分析、科学计算、高频 Serving、OLAP 分析以及向量检索等功能。所属
83、类别:向量数据库该工具链在大模型上下游的作用:支撑大模型底层数据存储,为大模型应用提供数据存储、管理、预处理、查询、分析等功能,同时重视数据安全和隐私保护,为 AI 产品的开发和运行提供了可靠的基础设施。DingoDB 多模向量数据库55可信开源人工智能大模型案例汇编开源大模型落地案例及开源商业化进程3开源大模型的特点5开源大模型信息4DingoDB 多模向量数据库与 DataCanvas Alaya 九章元识大模型,联合打造了企业知识管家解决方案,已在金融、制造、能源等多个领域进行商业化落地,赋能企业构建高度自动化与智能化的企业知识库,加速多模态大模型落地应用。支持结构化和非结构化混合分析提
84、供结构化和非结构化索引混合检索能力,能够同时处理和分析结构化和与非结构化数据,并将其进行整合和综合分析,从而获取更全面、准确的分析结果,为用户提供更广阔的数据视角。问题列表具体内容产品地址https:/GitHubStar数量386开源许可Apache2.0用户规模300+内外部贡献者比例7:3已上线的社区及链接GitHub(https:/ 多模向量数据库将继续加强在处理大规模高维度向量数据时的性能和扩展性;将提供更多复杂和灵活的查询功能,以满足不同应用场景下的需求;未来将考虑集成更多的机器学习算法和模型,以支持在数据库中直接进行特征提取、相似度计算和模式识别等任务。标准的 MySQL 语义和
85、强大的向量化能力兼容 MySQL 原生语义,使用户能够轻松上手使用,大大降低学习成本和迁移难度;同时内置Embedding 函数,允许用户将文本和图像数据转换为向量表示,并在数据库中进行灵活的相似性搜索和分析,从而实现对大规模文本和图像数据的快速分析和检索。集群高可用性和海量扩展能力支持多副本存储策略,有效应对数据的高可用性和可靠性需求,减少数据丢失的风险,并提供持续可用的存储解决方案;此外,DingoDB 具备良好的可扩展性和海量存储能力,能够轻松容纳大规模的数据集,为用户提供灵活的资源管理能力。开源开放坚持“开源开放”的产品理念,目前已成功对接大模型工具链,为大模型提供海量记忆体的能力,确
86、保大模型生成结果的准确性和可靠性。完善的工具链生态通过生产级的监控能力、一键化的部署方式和完善的运维生态,助力用户灵活高效地开发、部署和管理系统,进一步提升工作效率和系统稳定性。57可信开源人工智能大模型案例汇编开源大模型概述1开源大模型发布时间历程2开源大模型落地案例及开源商业化进程3开源大模型信息4Xtreme1-多模态训练数据的下一代平台。支持 3D 标注、3D 分割、激光雷达-摄像头融合标注、图像标注以及 RLHF 工具!2022 年 9 月上架 GitHub支持大模型的数据标注,例如LLM大语言模型,SAM(图片分割大模型),DriveGPT(自动驾驶大模型)等。支持多模态数据。Xt
87、reme1问题列表具体内容产品地址https:/ 年 9 月上架 GitHubXtreme1 是一个用于型语言模型(LLMs)的开源数据整理平台。使用 Xtreme1,每个人都可以通过更快的数据整理,利用人工和机器反馈,构建强大的语言模型。我们提供从数据标记到模型监控的MLOps 周期中的每个步骤的支持。用户规模1000+内外部贡献者比例N/A已上线的社区及链接https:/www.xtreme1.io/59可信开源人工智能大模型案例汇编开源大模型概述1名称:AutoDev(暂定)机构:思特沃克软件技术(北京)有限公司介绍:AutoDev 是一款 AI 辅助研发的 Intellij IDEA
88、插件,支持多种编程语言,提供自动生成代码、智能建议、自定义大模型等功能,以提高开发效率和代码质量。集成看板、CI/CD 和 Dockerfile 等 DevOps 属性支持。类别:开源编码应用,作用:企业构建私有化大模型时,可以直接使用 AutoDev 来构建 AI 辅助编码能力。AutoDev开源大模型信息2问题列表具体内容产品地址https:/ AI 辅助编码,并与现有的模型做对比。持续构建国内领先的开源 IDE 插件 1.Custom AST node generate 2.Prompt override 3.Team AI此项目为 Unit Mesh AI 辅助编程计划的一部分:htt
89、ps:/ 超神经 所属机构名称:贝式计算(上海)信息技术有限公司HyperAI 超神经是国内领先的人工智能及高性能计算社区,现已收录数百个行业词条及案例,上线含大模型在内的数千个公共数据集和教程,托管了完整的 Apache TVM 中文文档,并运营国内最活跃的 AI 编译器社区,致力于为开发者提供数据科学领域的优质公共资源,普及大模型及 AI For Science 最新科研进展。HyperAI 超神经于 2017 年 10 月 24 日正式发布。2022 年 11 月,在社区志愿者的共同努力下,首个完整的 Apache TVM 中文文档上线,后续将持续更新更多优质的公共数据集、公共教程以及公
90、共大模型。自成立以来,HyperAI超神经与字节跳动、腾讯、阿里巴巴等大厂以及中科院计算所、中科院软件所、清华大学等建立深度合作关系,与主流技术社区互通有无,打造了活跃友好的数据科学及人工智能社区。2023 年,HyperAI超神经发起并主办的 2023 Meet TVM 系列活动已经在上海、北京、深圳成功举行,与国内主流芯片厂商及科研院所建立长期稳定的合作关系。2023 年 12 月,我们将在上海举办本年度最后一场线下 Meetup,为编译器工程师提供自由交流讨论的平台。HyperAI 超神经 62可信开源人工智能大模型案例汇编开源大模型的特点5开源大模型未来发展规划6其它补充信息7降低了优
91、质公共资源的访问门槛,打造大模型及数据科学的基础设施,对于厂商而言是更直接的宣发渠道,零距离触达目标用户,收集用户反馈。对于开发者而言,是更便捷的优质公共资源获取渠道,一站式满足用户需求。HyperAI 超神经致力于为数据科学领域及 AI 大模型提供基础设施,打造国内领先的开发者社区,帮助开发者一站式完成自我学习及成长路径。接下来在不断丰富平台资源种类及数量的同时,强化与开发者及社区伙伴的关系,举办各种形式的人工智能、大模型、编译器等方向的线上线下活动,并发起优质国际会议的本土化落地,为打造无国界的 AI 社区而努力。HyperAI 超神经公众号每周更新多篇最前沿的 AIForScience
92、案例,解构技术先进性与普适性。开源大模型信息4问题列表具体内容产品地址https:/hyper.ai/开源许可Apa1111112.0用户规模70w63可信开源人工智能大模型案例汇编开源大模型概述1开源大模型发布时间历程2开源大模型落地案例及开源商业化进程3产品名称:OpenBayes 贝式计算,所属厂商:贝式计算(天津)信息技术有限公司,所属类别:LLM 训练及部署平台OpenBayes 贝式计算是一家高性能计算服务提供商,致力于成为中国工业计算领域的基础设施。不仅可以为企业用户提供私有部署的服务,也为数据科学、机器学习领域的开发者、学生,提供一站式模型训练及部署服务,包括 GPU 算力租赁
93、、内置众多的公共数据集、公共教程以及热门公共大模型,无需下载,一键 input。OpenBayes 贝式计算于 2017 年正式上线,并计划于 2023 年 11 月底进行集群的全面升级,增加更多种类的 GPU,为用户提供更多的选择。OpenBayes 内置贝式计算研发的自动求解器,可以对多参数数理问题进行自动求解,可应用于机器 学习以及 atlab、Fluent、Lammps、VASP 等科学计算过程。同时该求解器结合多头注意力机制(mulit-attention)可使机器学习模型对任意时序、多维结构数据进行自动拟合。可被广泛应用于 微观结构(如蛋白质、DA、分子动力、第一性原理等场景)建模
94、。该系统已被上海交大、北医三院、天津肿瘤医院、天津大学、厦门大学、招商局港口集团、中科遥感等科研院所及工业场景用于分子动力学、计算生物学、微观计里、运筹求解等多种科学计算或数 理求解场景。OpenBayes 贝式计算64可信开源人工智能大模型案例汇编开源大模型的特点5开源大模型未来发展规划6OpenBayes 贝式计算不仅提供了种类丰富的 GPU 供用户选择,例如 A100、A6000、RTX 3090、RTX 2080 等,数量充足,价格优惠。还为用户提供了众多优质的公共数据集、公共教程以及热门的公共大模型,开箱即用,一键 input,省去了下载再上传的繁琐步骤和时间。OpenBayes 贝
95、式计算发布了大模型部署的操作视频,帮助初学者们快速上手。除此之外,平台不定期举办各种活动,包括但不限于充值返现、算力时长免费赠送活动等。OpenBayes 贝式计算将于 11 月底进行集群更新,新增了大量 RTX 4090、A6000 等,让用户有更多的选择。后续也将不定期更新更多热门的公共的数据集、教程、热门开源大模型,方便用户进行模型的训练以及部署任务。开源大模型信息4问题列表具体内容产品地址https:/ 向量数据库专为向量查询与检索设计,能够为万亿级向量数据建立索引。与现有的主要用作处理结构化数据的关系型数据库不同,Milvus 在底层设计上就是为了处理由各种非结构化数据转换而来的向量
96、而生。2019 年 10 月 Milvus 向量数据库开源 2020 年 3 月 Milvus 项目进入 LF AI&DATA 基金会进行孵化 2021 年 3 月 发布 Milvus 1.0,完成项目重构 2021 年 6 月 向量数据库 Milvus 从顶级开源基金会 LF AI&Data 顺利毕业;发布 Milvus 2.0 新版本并入选 SIGMOD 21 2022 年 4 月 Milvus 项目成功实现 10K Stars 的小目标 2022 年 8 月 Zilliz Cloud 首发,覆盖 AWS/GCP 2022 年 9 月 Milvus 2.0 入选 VLDB22 2023 年
97、 2 月 作为全球最快的向量数据库,Milvus Github 15K Stars 达成2023 年 3 月 Milvus&Zilliz Cloud 成为首批受邀合作伙伴,向 ChatGPT 贡献向量数据库插件,打通知识召回与大型语言模型之间的桥梁 2023 年 6 月 Zilliz Cloud SaaS/PaaS 2023 年 7 月 Zilliz Cloud 正式登陆阿里云国内节点Milvus66可信开源人工智能大模型案例汇编开源大模型落地案例及开源商业化进程3落地案例:1.检索增强生成(RAG)使用 Milvus 和 Zilliz Cloud 接入外部数据源,进一步拓展大语言模型知识库,
98、释放生成式 AI 应用潜能。2.推荐系统:根据用户行为和需求推荐相关信息或产品。3.文本/语义搜索:搜索海量自然语言文档中语义相似的文本。4.分子式搜索:检索相似的分子结构、化合物亚结构和超结构。开源商业化进程:2019 年 10 月 Milvus 向量数据库开源 2021 年 6 月 Milvus 2.0 版本发布 2022 年 8 月 Zilliz Cloud 首发,覆盖 AWS/GCP 2023 年 6 月 Zilliz Cloud SaaS/PaaS 2023 年 7 月 Zilliz Cloud 正式登陆阿里云国内节点开源大模型信息4问题列表具体内容产品地址https:/ 原厂打造:
99、Zilliz Cloud 由 Milvus 团队原厂打造。我们深度支持了来自不同行业的超一千家企业用户,在全球范围内提供最先进的向量数据库技术与产品,以及最完善的服务与解决方案。2.高扩展性:Zilliz Cloud 采用云原生分布式向量数据库架构,可稳定支持百亿规模向量数据。支持水平扩展和垂直扩展,支持多副本,支持性能的线性扩展。3.超强性能:Zilliz Cloud 为您提供企业版向量数据库引擎,软硬件双重优化,将性能打磨至极致。向量搜索速度是同类产品的 10 倍以上,大幅降低基础设施成本。4.简单易用:Zilliz Cloud 提供一栈式全托管向量数据库服务。新手友好,几分钟内即可轻松实
100、现大规模向量数据库基础设施的部署。再无调优运维之忧。5.高可用性 Zilliz Cloud 致力于为客户提供最优质的产品体验。我们深刻理解您对于服务稳定性要求。在 Zilliz Cloud 全系列产品中,我们提供 99.9%的可用性保证。6.安全合规:数据安全始终是我们的重中之重。Zilliz 建立了完善的数据安全与合规管理体系,并为用户提供系统化的安全功能与技术保障。Zilliz Cloud 已获得 SOC 2 认证。Milvus 2.2 版本 1.重构查询协调器中的段分配2.支持磁盘 ANN 索引3.支持 RBAC(基于角色的访问控制)4.支持批量插入数据 5.支持速率限制器 内存保护、插
101、入/搜索吞吐量 6.支持集合级别的数据 TTL(生存时间)7.主/备协调器 8.完善并全面测试 pymilvus、Java 和 Go SDK 9.发布 birdwatcher、milvus meta inspect 和 hacking 工具 10.更好的监控,支持集合级别的 DML 指标 68可信开源人工智能大模型案例汇编Milvus 3.0 版本 1.完全支持 SQL 2.动态修改集合模式-添加列、删除列 3.支持更多的数据类型,如映射、列表.4.移除数据节点,将所有压缩/批量加载功能转移到索引节点,将流式处理功能转移到日志节点 5.主/备份的 Milvus 集群6.支持实体更新 7.GPU 索引构建 8.完全测试过的 Cpp/Rust API 9.新的 Milvus 入门教程69可信开源人工智能大模型案例汇编