《04蚂蚁混合云架构及技术风险防控实践--肖鹏.pdf》由会员分享,可在线阅读,更多相关《04蚂蚁混合云架构及技术风险防控实践--肖鹏.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、蚂蚁混合云架构及技术风险防控实践肖鹏(乙未)蚂蚁集团 资深技术专家个人介绍个人介绍互联网技术风险领域 10 年从业经验 2011 年加入百度运维部 2014 年加入阿里巴巴高德,作为运维团队负责人全面建设技术风险保障体系,支撑高德业务逐步发展为日活过亿的App 2019 年加入蚂蚁集团技术风险部,负责智能容量技术团队和支付宝小程序云北区解决方案团队,为小程序客户提供云托管技术和营销解决方案目录目录 蚂蚁混合云架构实践 蚂蚁混合云技术风险能力建设 蚂蚁混合云应用案例蚂蚁混合云架构实践蚂蚁混合云架构实践蚂蚁混合云架构实践蚂蚁混合云架构实践-背景背景LDCLDC架构架构(Logical Data C
2、enterLogical Data Center)网关单元1应用层存储层ServiceAServiceBmsmsuid00-49uid00-49单元2应用层存储层ServiceAServiceBmsmsuid50-99uid50-99网关层uid00-49uid50-99从一朵云演变为多从一朵云演变为多朵云朵云蚂蚁混合云架构实践蚂蚁混合云架构实践-背景背景蚂蚁主站网商银行阿里云底座proxyproxy业务主体A业务主体B业务主体N.蚂蚁混合云架构实践蚂蚁混合云架构实践-问题问题变更布防变更动作防御规则执行记录变更域核对预警数据模型核对规则风险事件资金域应急组织/定位处置管控预案A处理能力预案B
3、处理能力应急域监控域数据源/指标/告警数据源/指标/告警DB缓存应用运维管控元数据单笔数据链路数据 风险数据业务主体A业务主体B业务主体N共共用用业务主体无隔离业务主体无隔离相同环境应用1应用2应用3经验规则沉淀变更服务防御规则业务定位决策树自愈预案核对规则1核对规则2各项能力主站基础设施基础平台依赖中间件等技术风险能力沉淀风险防控平台变更分批监控业务影响分析变更核心应急平台风险能力强依赖主站风险能力强依赖主站平台对外部平台对外部依赖重依赖重,无,无法独立输出法独立输出基础依赖域基础依赖域内域外异构内域外异构混合云架构混合云架构下存在跨云下存在跨云监控、应急监控、应急等新问题等新问题业务租户A
4、RZRZRZCZGZ业务租户BRZRZRZCZGZSOFAGW可信原生全局管控区云产品服务资源运营管理运维管控TCMDB元数据云管理平台业务租户CRZRZRZCZGZ可信原生管控区云管理平台独立与互通技术能力SOFAGW依据业务主体数据独立性等级要求做部署架构选型计算资源共享、数据独立存储独立机房,专有云交付TLDCTLDC架构架构(Trusted-native Logic Data Trusted-native Logic Data Center Center)业务Saas区构建混合云管控平台,提供标准云产品和交付能力隔离与互通技术能力,满足独立性要求蚂蚁混合云架构实践蚂蚁混合云架构实践-T
5、LDC-TLDC架构架构 核心代码多云部署 异构云底座 数据/服务的有限互通 协同防御 数据、权限隔离 卫星组件拆分技术风险技术风险技术风险技术风险技术风险蚂蚁混合云架构实践蚂蚁混合云架构实践-TLDC-TLDC架构架构纯独立部署纯独立部署每个租户一套部署每个租户一套部署纯全局纯全局所有租户共享一套管控所有租户共享一套管控/数据全局部署数据全局部署卫星卫星所有租户共享一套管理侧的全局部署所有租户共享一套管理侧的全局部署不同租户内卫星部署执行引擎类模块不同租户内卫星部署执行引擎类模块业务租户技术风险系统租户内APP区域中间件业务租户技术风险系统租户内APP区域中间件技术风险系统(多租户化)全局管
6、控租户业务租户租户内APP区域中间件通用代理组件业务租户租户内APP区域中间件通用代理组件技术风险系统(多租户化)全局管控租户业务租户技术风险功能组件租户内APP区域中间件业务租户技术风险功能组件租户内APP区域中间件目标:建设单云目标:建设单云多租户多租户管理能力管理能力蚂蚁混合云架构实践蚂蚁混合云架构实践-租户隔离租户隔离客户站点(专有云)客户站点(专有云)技术风险产品系统IAMCMDBCachePaas主站技术风险产品系统IAMCMDBCachePaas客户站点(专有云)客户站点(专有云)产品最小集方式方式1 1:产品:产品+依赖底座整体输出依赖底座整体输出技术风险产品系统IAMCMDB
7、CachePaas主站技术风险产品系统IAMCMDBCachePaas客户自有产品集轻量化方式方式2 2:产品去底座依赖:产品去底座依赖目标:一套产品系统代码,多目标:一套产品系统代码,多异构异构站点输出部署站点输出部署蚂蚁混合云架构实践蚂蚁混合云架构实践-多云输出多云输出目标:多云独立部署,单元目标:多云独立部署,单元防控体验防控体验应急域应急域变更域变更域跨云数据通路数据出口管控管控接入(审批提单/结果回调/)管控能力(审批/熔断/审计/)出口元数据管理(数据类型定义/脱敏规则/)跨云数据通道接入层(发送/订阅/)通信信道(https/ftps/)结构化(类型/结构/脱敏/)蚂蚁混合云架构
8、实践蚂蚁混合云架构实践-多云协同多云协同蚂蚁混合云技术风险能力建设蚂蚁混合云技术风险能力建设业务风险防控数据库运维管控基础设施运维管控基础架构运行管控质量保证资金安全变更管控性能容量定位应急红蓝攻防根基守护风险智能监控风险模型数据仿真灰度环境业务运维防控领域服务基础技术服务技术风险架构域技术风险架构域蚂蚁混合云技术风险防控蚂蚁混合云技术风险防控-背景背景监控应急变更通过通过跨云数据通路跨云数据通路解决跨云防控问题解决跨云防控问题压测监控大盘跨云查询云B监控云A告警链路定位根因分析风险事件跨云传递跨云变更时间查询跨云压测熔断跨云传输通道同步查询异步投递接口管控字段级权限控制信道专线公网监控应急变
9、更压测云A云B监控大盘跨云查询云A监控云B告警根因跨云分析云A事件云B拉起应急云A风险阻断云B容量风险识别指标数据监控/落地指标查询投递检测结果关联根因投递事件投递压测风险事件蚂蚁混合云技术风险防控蚂蚁混合云技术风险防控-背景背景跨云业务核心业务保障跨云应急跨云变更网络监控容量跨云定位跨云监控应用场景跨云监控跨云发现跨云网络跨云防控技术栈覆盖SLO覆盖智能布控跨云告警跨云应急智能告警骨干网专线DNS网络Maas防控明细数据监控Maas插件统一数据服务统一模型服务多云权限管控监控元信息计算服务对接智能化基座跨云防控智能托管智能异常检测多段渐进检测特征&样本中心跨云数据平台监控数据平台多云时序服务
10、采集注册调度中心采集清洗执行引擎agent时序存储ceresDB多云数据模块跨云数据服务SQL引擎跨云数据融合多云时序管理维表跨云链路跨云数据链路(通讯、脱敏、管控)云站点监控云站点监控云站点监控云站点监控RawData多云数据引擎多云数据引擎解决数据异构解决数据异构蚂蚁混合云技术风险防控蚂蚁混合云技术风险防控-跨云监控跨云监控agent节点节点节点风险预警(风险事件)应急处理(预案/自愈)节点节点节点节点故障根因(定位)节点节点节点风险预警(风险事件)应急处理(预案/自愈)节点节点节点节点故障根因(定位)节点节点节点风险预警(风险事件)应急处理(预案/自愈)节点节点节点节点故障根因(定位)云
11、A 云B云A 云B云A 云B典型场景典型场景云B叶子节点出现问题,传导到云A入口应用,云A监控发现云B应用变更,传导到云A业务大盘下跌,云B阻断变更云B容量不足,云B应用线程积压,云A降级恢复蚂蚁混合云技术风险防控蚂蚁混合云技术风险防控-跨云应急跨云应急业务指标云A业务链路跨云调用的主站指标应急平台可信数据通道定位中台云B业务链路应急平台监控平台自愈中台定位中台异常trace日志分析异常trace业务日志清洗0.监控触发告警并提供业务失败traceid列表1.云A告警拉起应急并根据业务租户发起跨云应急2.云A定位中台将失败的traceid传给云B定位中台5.云A根据传回来的定位根因结论,将云A
12、事件和云B回传的根因串联在一起,帮助恢复预案决策2.云B应急根据业务租户和监控,匹配云应急和启动跨云的新应急0.云上监控触发云上告警的通路0.系统指标、业务rpc发生异常3.云B定位中台对失败的traceid串联trace,做异常特征挖掘4.云B定位中台回传定位结论,包含站点,租户信息1.自愈会基于事前在监控的规则产生异常事件2.自愈引擎会基于场景和动作指标决策出用于止血的恢复手段3.自愈通知 应急拉起 应急定位 应急自愈云A云B金融交换蚂蚁混合云技术风险防控蚂蚁混合云技术风险防控-跨云应急跨云应急可信数据通道应用应用应用应用应用应用应用产品发布应用发布配置发布变更管理变更场景元数据变更事件输
13、出变更防御能力变更窗口监控告警分批监控参数校验跨云风险变更管理跨云变更事件变更搜索云内变更事件变更防御能力变更窗口智能分批监控新增突增异常变更工单a变更工单b跨云防御规则监控告警变更窗口变更参数1.触发变更变更搜索可以查询2.变更事件同步4.匹配防御3.匹配规则6.查询变更执行结果6.聚合所有规则结果 变更记录跨云搜索 变更跨云防御 跨云的数据访问权限控制云A云B云A云B可信数据通道蚂蚁混合云技术风险防控蚂蚁混合云技术风险防控-跨云变更跨云变更应用应用应用应用应用应用应用可信数据通道大促活动平台限流平台预案平台双11大促预案保障场景为例链路梳理大促活动平台限流平台预案平台作战手册预案梳理执行前
14、后置依赖定时执行压力机云A业务系统金融交换压力防御链路图压力防御链路图云B业务系统压测平台压测平台监控平台0.云B系统发生异常1.监控系统触发熔断2.监控事件溯源3.执行压测熔断可信数据通道 大促多云联动 跨云压测熔断云A云B云A云B蚂蚁混合云技术风险防控蚂蚁混合云技术风险防控-跨云活动保障跨云活动保障蚂蚁混合云应用案例蚂蚁混合云应用案例源机房网关系统应用A应用B应用C应用D弹性机房网关系统应用A应用B应用D异步任务异步任务源机房流水型主库00.01.02.03状态型主库00状态型主库01状态型主库02状态型主库03应用侧弹出应用侧弹出存储存储侧弹出侧弹出弹性机房流水型弹性库01.03状态型主
15、库01状态型主库03ZoneZone层面承载用户层面承载用户减少一倍减少一倍APPAPP层面可扩容机器层面可扩容机器增加一倍增加一倍源源zonezone流水型流水型DBDB承载用户减少一倍承载用户减少一倍状态型状态型DBDB拆百后拆百后主备切换主备切换蚂蚁混合云应用案例蚂蚁混合云应用案例-蚂蚁大促场景蚂蚁大促场景蚂蚁主站独立持牌公司独立持牌公司TLDC技术体系/三地五中心租户隔离部署租户隔离部署租户隔离部署TLDC技术体系/两地三中心同城专有云基座异地专有云基座专线专线从中心化转为去中心化从中心化转为去中心化异构到多云底座异构到多云底座实现跨云风险免疫实现跨云风险免疫蚂蚁混合云应用案例蚂蚁混合
16、云应用案例-蚂蚁多主体交互蚂蚁多主体交互同城云通基座同城云通基座异地云通基座租户隔离部署租户隔离部署TLDC技术体系/两地三中心同城公有云基座异地公有云基座单租户部署自动建模-自动识别-自动修复软件风险识别与修复服务部署风险识别运行时风险识别与处置业务运营时风险识别软件代码风险软件代码风险代码和配置中的静态风险安全漏洞软件合规配置风险服务部署风险服务部署风险系统部署流程和代码变动风险故障扩大化指标与端侧防御止血不及时变更影响分析系统运行风险系统运行风险系统运行中的风险发现与自动处置智能监控告警容量弹性伸缩应用多活容灾单机异常自愈业务运营风险业务运营风险业务运营防薅羊毛等场景识别业务“黄牛”容量
17、保障活动性能压测自动识别变更风险,智能决策回滚自动配置监控,容量弹性伸缩,异常自愈自动压测,容量保障;自动识别业务风险隐私合规软件缺陷变更异常检测变更风险防御代码SCA扫描风险巡检漏洞一键修复安全漏洞性能压测与分析恶意用户识别隐私合规政策容量弹性伸缩单机异常自愈变更影响面分析DDOS流量防护软件依赖合规智能监控告警机房容灾多活DB SQL异常自愈黄牛刷单防护蚂蚁混合云应用案例蚂蚁混合云应用案例-支付宝小程序云支付宝小程序云解决独立输出解决独立输出场景架构问题场景架构问题支付宝小程序ISV客户端 PC web/APP小程序云服务区ISV1 小程序后端测试环境生产环境极简灰度生产流量VPC1VPC
18、1公网访问公网访问公网公网/callcontainercallcontainer多语言支持 Java/JS/PHP蚂蚁安全容器ISV2 小程序后端测试环境生产环境极简灰度生产流量VPC2VPC2多语言支持 Java/JS/PHPISVn 小程序后端测试环境生产环境极简灰度生产流量VPCnVPCn多语言支持 Java/JS/PHP小程序云管控区蚂蚁安全容器蚂蚁安全容器统一接入 安全防护统一接入 安全防护统一接入前端网关对客产品管控集小程序云技术支撑服务托管服务弹性伸缩DB弹性伸缩高效研发极速部署云函数运维稳定性链路追踪秒级监控云执行环境数据库分布式数据库分布式缓存KV数据库存储对象存储日志服务数据库管理性能工具(TopSQL/慢SQL)安全安全防护环境隔离安全容器隐私计算操作审计智能告警公网访问公网访问风险智能托管Cloud IDE技术沉淀技术沉淀支撑专有云输出支撑专有云输出蚂蚁混合云应用案例蚂蚁混合云应用案例-支付宝小程序云支付宝小程序云微信联系方式微信联系方式钉钉钉钉联系方式联系方式Q&AQ&A