1、综合技术论坛专场翟佳StreamNative,2021 年 8 1 本期议题:Apache Pulsar-云原的分布式统消息平台我介绍开源项爱好者:Apache Pulsar PMC成员Apache BookKeeper PMC成员EMC-StreamNative华中科-中科院计算所 架构:Pulsar 的坚实基础 Apache Pulsar 简介 Pulsar 的态和社区Apache Pulsar 简介Apache Pulsar 是什么Apache Pulsar 要解决的问题企业需求和数据规模集群/多租户-百万Topics-低延时-持久化-跨地域复制解除存储计算耦合运维痛点:替换机器、服务扩
2、容、数据 rebalance减少件系统依赖性能难保障:持久化(fsync)、致性(ack:all)、多TopicIO不隔离:消费者读Backlog的时候会影响其他产者和消费者 架构:Pulsar 的坚实基础 Apache Pulsar 简介 Pulsar 的态和社区 架构:Pulsar 的坚实基础 Apache Pulsar 简介 Pulsar 的云原架构 企业级流存储:BookKeeper 基础之上Pulsar:云原的架构 分层+分 存储和计算分离节点对等独扩展灵活扩容快速容错瞬时存储扩容应感知数据均匀分布re-balancePulsar:云原的架构优势 https:/jack- 架构:Pu
3、lsar 的坚实基础 Apache Pulsar 简介 Pulsar 的云原架构 企业级流存储:BookKeeper 基础之上Apache BookKeeper:企业级流存储层分布式志/流存储低延时、吞吐、持久化强致可I/O隔离Apache BookKeeper:诞场景企业级流存储层(BK):节点对等的架构openLedger(组内节点数,数据备份数,等待刷盘节点数)openLedger(5,3,2)企业级流存储层(BK):读写可性(容错)企业级流存储层:稳定的 IO 质量性能、强致性、读写隔离、灵活SLA 架构:Pulsar 的坚实基础 Apache Pulsar 简介 Pulsar 的云原
4、架构 企业级流存储:BookKeeper 基础之上基础 上层基础之上:企业级特性:集群、多租户基础之上:BookKeeper 对关键数据的存储ProducerTopic1 2 3 4 5 6 7Subscription2Consumer1 2 3 4 5 6 7readEntriesAck/N-AckBrokerBookKeeper1 2 3 4 5 6 7Ledger stores DataA B C D ELedger stores Cursor changesCursorSubscription1Write AckManagedLedger+-/+基础之上:统消费模型基础之上:统的消息存
5、储Apache PulsarPulsar Protocol HandlerPulsar Clients(queue+stream)Kafka Protocol HandlerAMQP Protocol HandlerMQTT Protocol HandlerKafka ClientsAMQP ClientsMQTT ClientsRocketMQ Protocol HandlerRocketMQ Clientshttps:/ Segmented StreamSegment0Segment1Segment2Segment3ProducerConsumerTimeSegment 5Segment4
6、Segment ReadersSegmentedStream基础决定上层:Cloud-NativeStateless BrokerScale(Broker+Bookie-Storage)https:/ 架构:Pulsar 的坚实基础 Apache Pulsar 简介 Pulsar 的态和社区Pulsar 和周边态Pulsar 简介:社区性能+强致性云原架构:存储计算分离分层+分 持统的 Queue 和 Stream 的接。丰富的企业级特性多租户隔离 百万Topics 跨地域复制 鉴权认证30 committers,400+contributors,2.1K forks9 K+starshttp
7、s:/star-history.t9t.io/#apache/pulsarhttps:/ 统:RabbitMQ+Kafka0 数据丢失50+NameSpaces60亿 消息/天3TB Storage/天20+核应智联招聘 腾讯计费平台 致性要求:条不能丢可要求:异常情况动修复海量存储需求:海量堆积能快速响应要求:平滑响应时间腾讯计费平台 多环境隔离部署,统管控;经受住王者荣耀、和平精英等头部业务流量洪峰考验;助腾讯计费系统稳定运;https:/ 解决 Kafka 的问题,替代 Kafka 存储计算绑定:集群扩缩容/分区均衡 需要量拷数据,造成集群性能下降数据丢失:当分区副本不处于 ISR(同步
8、)状态时,旦有 broker 发故障,造成数据丢失 或 分区法提供读写服务当 Kafka broker 磁盘故障/使率过时,需要进预集群跨区域复制:使 KMM(Kafka Mirror Maker),性能和稳定性难以达到预期读数据性能低:容易出现 PageCache 污染,造成读写争抢性能下降IO 不隔离,难以持万级topic数量:磁盘读写性能会随着 topic partition 数量的增加降低。集群管理复杂:在 BIGO,扩容台机器到 Kafka 集群并进分区均衡,需要 0.5/天;缩容台机器需要 1/天https:/ Asia Adoption 2020Benchmark:带宽Maxim
9、um steady state throughput using the Open Messaging Benchmark on a 3-nodes cluster.Full details available athttps:/streamnative.io/blog/tech/2020-11-09-benchmark-pulsar-kafka-performanceBenchmark:稳定、低延迟Latency benchmark with 200 MB/s publish throughput using the Open Messaging Benchmark on a 3-nodes
10、 cluster.Full details available athttps:/streamnative.io/blog/tech/2020-11-09-benchmark-pulsar-kafka-performancePulsar 简介:社区性能+强致性云原架构:存储计算分离分层+分 持统的 Queue 和 Stream 的接。丰富的企业级特性多租户隔离 百万Topics 跨地域复制 鉴权认证30 committers,400+contributors,2.1K forks9 K+starshttps:/star-history.t9t.io/#apache/pulsarhttps:/
11、简介 Founded by the original developers of Apache PulsarBoth Apache Pulsar and Apache BookKeeper PMC Chair5 Apache Pulsar PMC member;3 Apache BookKeeper PMC member The leader of the Apache Pulsar community Pulsar Summit North America(June 2020)35 speakers,600+attendees,Pulsar Summit Asia(Nov 2020)45 speakers,1,000+attendees Lead Apache Pulsar Big features,releases and Roadmaps.Status January 2019:Founded August 2020:StreamNative Cloud Launches Customers:30+StreamNative Cloud