《祝海林-Byze以数据方式管理大模型全生命周期.pdf》由会员分享,可在线阅读,更多相关《祝海林-Byze以数据方式管理大模型全生命周期.pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、Byzer:以数据方式管理大模型全生命周期祝海林 Kyligence演讲嘉宾祝海林Byzer 社区 PMC/资深数据架构师/Kyligence 技术合伙人拥有 15 年研发经验,一直专注于 Data+AI 融合,致力于帮助企业更好的落地 Data+AI。个人热衷于开源产品的设计和研发,主要开源作品:Byzer/MLSQL。最新项目:Byzer-LLM 可帮助企业快速落地私有化大模型;Byzer-retrieval 旨在作为 LLM RAG(检索增强生成)检索后端。Byzer 2022 年获得中国开源创新大赛二等奖;2023 年获得浦东新区人工智能创新大赛一等奖。个人入选中国 2022 年开源先
2、锋 33 人,荣获 2023 年全球人工智能开发者先锋大会开发者先锋称号。目 录CONTENTS1.Byzer 数据库的开发背景2.为什么我们称 Byzer 是AI 数据库3.我们是如何实现这个 AI 数据库的4.使用 SQL 完成预训练 微调 部署及调用5.快速将 Byzer 数据库应用于企业业务中6.Byzer 数据库现状和未来的发展Byzer 数据库的开发背景PART 01以数据库为中心的传统 Web 开发模式前端/APP/业务产品后端/业务逻辑存储/计算/数据现有 Data/AI 开发模式专有组件繁多,学习、开发、维护成本极高,需要大量专家。复杂度太高,团队无法专注业务Data/AI平
3、台割裂,难以统一以 Byzer Data+AI 数据库为中心的开发模式前端/APP/业务产品后端/业务逻辑存储/计算/数据/大模型Byzer 数据库的价值依托于久经验证的Data+AI 基础设施Byzer 数据库的价值为什么我们称 Byzer 是 AI 数据库 PART 02Data+AI 从业者的视角下的Byzer 数据库传统 Web 开发视角下的 Byzer 数据库大模型时代下,Data+AI(LLM)的开发会重回数据库时代我们是如何实现这个 AI 数据库的PART 03我们是如何实现 Byzer 数据库的数据库软硬一体 插电可用使用 SQL 完成预训练 微调 部署和调用PART 04大模
4、型全生命周期管理微调数据处理大模型全生命周期管理NoteBook 模式数据处理专家模式:直接编写 SQL/可以利用大模型 Copilot/有强大的代码提示Workflow 模式数据处理完全可视化交互/实时预览自动生成 SQL/涵盖数据和算法处理算子/后续可增加 copilot 算子数据处理的 AI Copilot用户不会写 SQL 也没问题随时获取表 Schema/支持各种开源/Saas 模型/可在 NoteBook 中直接问询/支持多轮对话/生成SQL 可直接运行大数据管理大模型全生命周期管理大模型全生命周期管理如何部署一个模型如何使用模型如何 Finetune 一个模型并发及资源控制Byz
5、er 使用 Hrid Runtime,使用 Ray 来完成 GPU/CPU 资源的管理和调度在 SQL 和大模型融合中的多项设计创新在 SQL 和大模型融合中实现多项技术打磨如何快速将 Byzer 应用于企业业务中PART 05SDK 访问SDK 辅助生成 SQL Byzer-client-sdk 项目:Java/Scala SDK 快速生成 SQL 代码Rast 接口访问Rast 接口调用 SQL用户直接调用 HTTP 接口传递 SQL 语句JDBC 接口访问JDBC 调用 SQL(实验 不可用)mlsql-jdbc 驱动,使用标准的 JDBC 协议传递 SQL 语句Byzer-RetrievalQA:基于大模型的问答知识库引擎插件所在位置使用私有数据构建基于大模型的问答知识库基于 Byzer 大模型全生命周期管理能力上的知识库引擎四步纯 SQL 快速构建知识库示例加持业务数据后的大模型效果原始模型效果:要么不知道,要么完全一本正经胡编乱造 加持业务数据后的大模型效果知识库效果:正确回答用户的问题Byzer 数据库现状和未来的发展PART 06Byzer 数据库现状和未来的发展Byzer 数据库现状和未来的发展THANKS