《OPPO 全球混合云建设之路-韩建飞 .pdf》由会员分享,可在线阅读,更多相关《OPPO 全球混合云建设之路-韩建飞 .pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、OPPO全球混合云建设之路OPPO 云服务中心 韩建飞 安第斯智能云韩建飞OPPO 云服务中心10 多年云计算领域经验,多年的云原生、弹性计算、网络、操作系统、存储等相关经验。在大规模计算集群及网络、混合云建设、在线/离线混合调度、云原生基础设施方向有一定的实践经验,构建了OPPO 弹性混合云平台,支持 OPPO 业务快速发展。曾在中兴、京东从事弹性计算、分布式文件系统和 CDN 等方向的工作。目前担任 OPPO 云服务中心-弹性计算部门负责人,负责弹性计算、可观测、研发效能等相关工作。内容全球化背景下的混合云需求及实施策略OPPO 混合云产品建设实践OPPO 混合云的后续规划 安第斯智能云安
2、第斯智能云安第斯智能云是服务个人、家庭与开发者的泛终端智能云。Slogan:让终端更智能让终端更智能安第斯智能云构建了包括端云数据存储、端云机器学习、端云实时渲染、智能对话、硬件仿真与安全隐私等六大平台能力。在应用层(SaaS),安第斯智能云将提供智能推荐、智能视觉、智能助理等系列解决方案,支持多端设备一致性体验与多场景的应用与服务创新,为用户带来了重构存储体验、增强智能服务、探索虚实融合重构存储体验、增强智能服务、探索虚实融合三大体验革新。OPPO的全球化服务全球月活用户突破*数据来源于OPPO大数据,统计截止2022-1-31OPPO云服务的业务生态 平台 云平台(含运营),云相册,云门户
3、,云游戏,云视频,云桌面,营销平台,广告平台,AI平台,IoT 平台 算法:语音,视觉,多模态,搜推广;生态 金融:支付/钱包/理财/保险/本地生活;系统:相册/天气/实时音视频/社区/安全 商业:广告/用户增长/推送;电商:商详/订单/物流/结算 应用 应用分发:软件商店,云游戏;应用服务:主题商店,游戏中心,快应用(小程序),浏览器,全局搜索 内容 内容库:带数字版权的音频和视频,UGC相关内容(文字,图片,小视频,短视频等);内容运营:云游戏,云视频,音乐商店,电视多媒体等;软件商店主题商店游戏中心浏览器视频乐划锁屏小布助手智能家居健康云服务积分会员不止于互联网 终端及IoT 硬件:手机
4、/电视/手表/手环及IoT设备/马里亚纳芯片;系统:手机/电视/手表/手环以及其他IoT相关系统,协议,组件等;底层开放引擎:性能,网络,影像,多媒体,AR;智能制造 仿真:结构/基带/射频/电源/天线/影像/音频 芯片:前端/后端/验证/算法/EDA;系统:编译/构建/分发/升级 供应链&营销 全球营销网络:产品发布/代理/销售/客服/售后;供应链:采购/供应/生产/交付/履约全球化为什么依赖混合云边缘云是未来边缘云是未来5G5G竞争的关键竞争的关键公有云是快速扩容和全球化的必要支撑公有云是快速扩容和全球化的必要支撑混合混合云应具备统一调度管理多云的能力云应具备统一调度管理多云的能力私有云是
5、控制成本和核心技术的必要保证私有云是控制成本和核心技术的必要保证安全合规的情况下安全合规的情况下助力业务助力业务提升和创新提升和创新混合云的目标晚于战略出发晚于战略出发先于业务到达先于业务到达自有IDC公有云混合云的实施策略安全合规安全合规一致体验一致体验统一管理统一管理敏捷灵活敏捷灵活统一架构统一架构利用公有云按需秒级计费特点支撑大规模临时紧急需求海外快速开服无感基础设施交付周期常规算力下沉自建基础设施统一技术架构交付一致的业务使用体验平台透明无感适配,统一API降低技术服务门槛统一管理多套异构云资源公有云无缝切换,降低迁移成本海外资源负载阶段性到达37%一致的安全管控策略无缝的网络策略融合
6、统一的组网模型混合云的技术架构一致海外快速开服降低运维管理复杂度 安第斯智能云安第斯智能云混合云平台管理云原生引擎OKEKubeFlow容器编排服务融合调度域名&CDN负载均衡NLB虚拟化网络NetHouse虚拟私有云VPC数据湖存储CubeFs大数据存储HDFS块存储FlexStore对象存储OCS云监控跳板机CMDB资源大盘运维自动化运维自动化持续集成镜像服务弹性计算弹性计算持续部署配置中心注册中心 机器学习机器学习RedisClickHouseMySQLPostgreSQL中间件中间件ZookeeperKafkaYarnHiveCloudLake大数据大数据网络网络存储存储自建自建IDC
7、IDC基础设施裸金属AWSAWSEC2/EBSELB安全安全CICDCICD数据产品数据产品推理服务训练服务参数服务模型管理数据服务数据分析分析平台实验平台基础设施算法算法推荐搜索广告CVFlinkHbasePresto服务管理数据库数据库安全网关安全密钥动态防火墙机房网络机房管理S3VPCGCPGCPComputeEngineAPI网关CloudStorageVPC阿里云阿里云ECSSLBOSSVPC混合云平台资源账单日志服务运维平台容灾管理质量大盘告警平台时序数据库混合云架构-K8S统一管理Level0 NodeLevel0 Node网络管理容器(CSP定制版)kubeletNetHous
8、e Agentcsi-iscsiCNICSI日志收集容器在线服务容器巡检容器device-plugin容器资源监控容器中间件/数据库容器网关容器胖容器云原生容器容器虚拟机管理容器虚拟机开发测试虚拟机Windows虚拟机IT虚拟机Level1 Node 虚拟机原生kubeletNetHouse Agentcsi-iscsiCNICSIServerless容器AI容器spark容器大数据容器vGPUNPU日志监控等系统容器云原生容器GPUNPU混合云架构-弹性计算架构虚拟机管理平台kubevirt计算网络自有IDC公有云虚拟机OS内核容器NLBIB网络DPDKOPPO Kubernetes Eng
9、ine(OKE)基础网络公网接入防火墙管理专线管理跨数据中心互联网络设备管理域名解析VPC虚拟网络mGPUGPU编排域名编排管理准入服务管理自动注册管理固定ip管理配额管理有状态服务弹性伸缩框架弹性伸缩框架HPC调度EDA云仿真云编译云批调度互联网业务机器学习大数据yarn-operatortrino-operatorspark-operatorflink-operator云数融合调度多元策略调度统一算力调度镜像中心可观测operatorFinOpsdns-operator集群管理平台异构资源调度编译任务EDA计算任务仿真计算任务有状态服务无状态服务kubeflownotebook敏捷弹性-弹
10、性扩容弹性伸缩在线业务在线业务容量预警terraform大数据大数据任务队列机器学习机器学习任务队列EC2VPCKubernetes集群基础运维采购服务器5min10min15min数天数周13天高性能计算高性能计算仿真/芯片EC2VPCEC2VPCOPPO混合云-资源弹性伸缩弹性扩容弹性缩容弹性修复水平伸缩垂直伸缩指标过滤资源计算速率控制兜底校验多源数据监控指标日志定时指标负载预测调用链自定义指标trigger push shimtrigger pull shim伸缩单元故障重试事件记录并发控制钩子回调计算单元及时扩容谨慎缩容外置计算行为判断安全限制冷却周期弹性资源scale shimoro
11、r云监控触发器定时触发器触发单元密集过滤过期拒绝恢复触发模块模块特性公私一体的混合网络架构 依托数据中心基础网络、公有云VPC网络为容器或者虚拟机提供超大规模数据通讯的网络环境 覆盖内部(OPPO数据中心)、外部公有云(AWS/阿里云/腾讯云/GoogleCloud/Azure)中的所有k8s集群 基础设施专线联通混合云内外部中容器网络一致构建,全球分发编译构建编译构建统一镜像中心统一镜像中心镜像镜像CacheCache节点节点节点节点节点节点DPDK LBDPDK LBDPDK DNSDPDK DNS节点节点节点节点节点节点业务容器业务容器业务容器业务容器业务容器业务容器ELBELBDNSD
12、NSAPIAPI发布平台发布平台镜像镜像CacheCacheAPIAPI编排控制器编排控制器编排控制器编排控制器编排控制器编排控制器差分包计算差分包计算数据块分析差分块计算增量数据打包APIAPI流量访问流量访问节点节点网关容器网关容器节点节点网关容器网关容器节点节点网关容器网关容器弹性扩容节点节点节点节点节点节点业务容器业务容器业务容器业务容器业务容器业务容器节点节点网关容器网关容器节点节点网关容器网关容器节点节点网关容器网关容器弹性扩容调用API管理发布/回滚流程公有云机房公有云机房B B自建机房自建机房A A集群A1集群A2集群B1一致的可观测能力自建机房自建机房A A自建机房自建机房B
13、 B欧洲公有云机房欧洲公有云机房C C混合云统一入口集群集群A1A1日志数据库LogHouse监控时序数据库TSHouse日志数据库LogHouse监控时序数据库TSHouse欧洲运营人员国内运营人员GDPRGDPR 非本区域访问不能查看非本区域访问不能查看主区欧洲区集群集群A2A2集群集群B1B1集群集群C1C1节点节点日志容器业务容器监控容器业务容器节点节点日志容器业务容器监控容器业务容器节点节点日志容器业务容器监控容器业务容器节点节点日志容器业务容器监控容器业务容器节点节点日志容器业务容器监控容器业务容器节点节点日志容器业务容器监控容器业务容器节点节点日志容器业务容器监控容器业务容器业务
14、容器业务容器业务容器业务容器收集监控数据收集日志堡垒机服务堡垒机服务敏捷弹性-GPU混合云 公有云资源无缝对接持续部署Serving/Training服务。多可用区(自建IDC/阿里云/AWS)选择,低使用率提醒。无缝对接弹性框架,实现弹性伸缩。统一GPU实时账单。Falcon训练平台无缝对接(支持数据和模型同步)标准的服务接口/协议 一致的服务能力私有云私有云公有云公有云FSHouseNetHouseDPDK LBDPDK DNSEBSVPCELBkube-dnskube-proxy对象存储对象存储OCSS3时序数据库时序数据库TSHouseOCSKVKV存储存储ParkerRedis集群内
15、负载均衡集群内负载均衡集群外负载均衡集群外负载均衡集群内域名解析集群内域名解析容器网络容器网络块存储块存储DPDK LBkuberneteskubernetesServiceServiceCNICNIS3S3接口接口CSICSIPromQLPromQLRedisRedis协议协议统一的平台入口 安第斯智能云业务痛点&挑战-快速迁移&出海Cloud Friendly容错性和弹性设计可观测能力接入Cloud Native应用容器化自动化的部署平台管理的端口和网络使用平台管理的后端服务Cloud Resilient 符合12要素应用水平可扩展利用平台实现高可用Cloud Ready微服务架构智能运维
16、降低业务的上云门槛业务上云业务上云提供全球一致的云平台体验混合云建设混合云建设生态构建生态构建打造混合云生态聚焦核心场景-让终端更智能重构存储体验重构存储体验增强智能服务增强智能服务探索虚实融合探索虚实融合由OPPO主导开发,也是CNCF托管的国内首个开源的分布式存储项目:CubeFSOPPO机器学习平台StarFire提供的强大技术支持,通过端侧实时感知的数据,云端不断进行模型训练,可以让AI快速学习,主动进化端云协同的实时渲染引擎Andeverse,在云侧实时渲染、依托超低时延的串流技术,在端侧实现轻量化接入,用户不再受到智能设备的算力限制,可轻松获得沉浸式体验。安第斯智能云,让终端更智能安第斯智能云