2017年苏宁物流在实时大数据的最佳实践.pdf

编号：92566

PDF 39页 2.72MB 下载积分：VIP专享

下载报告请您先登录！

2017年苏宁物流在实时大数据的最佳实践.pdf

1、苏宁物流在实时大数据的最佳实践苏宁物流一、苏宁物流天眼系统介绍二、苏宁物流实时技术架构演进三、苏宁物流在实时大数据的最佳实践四、性能调优分析和经验总结苏宁物流物流天眼系统是苏宁物流集团面向物流及售后领域的实时数据监控、多维度数据分析和大数据服务的可视化平台。实现对物流订单的全链路异常实时跟踪，物流作业的全网实时监控，仓储作业和车辆运输的实时监控。苏宁物流天眼系统简介苏宁物流物流订单全链路异常实时监控仓库出货易购下单系统有单无货作业延迟商品破损多货少货料箱短缺商品串码卸货人力不足开箱少货开箱破损跨区配送车辆不足货未到齐.系统堵单网络异常接口不通验证失败系统宕机装箱不及时错派漏派装车不及时包装破

2、损出站不及时入站不及时月台资源不足.全流流程异常环节中转运输配送销单天眼系统全程实时监控22个系统及作业环节141个场景异常作业物流作业的全网实时监控苏宁物流苏宁物流和天天快递当日订单量实时展示苏宁物流车辆线路的实时监控苏宁物流天眼系统实施效果全网妥投率相比上线前上升20%作业异常比例下降2.8%。客诉率下降0.5%苏宁物流物流天眼系统整合了物流过程中的订单、仓储、运输、配送、售后等全流程的业务数据，随着苏宁易购线上订单的急速增长，如何高效的处理和分析大量复杂的物流业务数据并进行实时监控和分析？大数据实时监控和分析如何实现？苏宁物流一、苏宁物流天眼系统介绍二、苏宁物流实时技术架构演进三、苏宁

3、物流在实时大数据的最佳实践四、性能调优分析和经验总结苏宁物流苏宁物流实时技术架构演进1传统架构架构升级稳定快速Evolution of the technical architecture2012-2014苏宁物流1传统架构2014数据来源数据采集数据存储分析计算业务应用订单仓储运输配送售后RSF实时同步ESB MQHiveDB2IBM datastageDB2 sql苏宁物流实时报表苏宁售后实时报表Hql前台展示：Cognos增量存储hdfs苏宁物流离线报表苏宁售后离线报表大数据的服务苏宁物流sqoop数据来源数据采集数据存储分析计算业务应用订单仓库运输配送售后

4、RSFESBKAFKAFLUME HbaseDB2ElasticSearchredissparkSpark streaming苏宁物流实时报表苏宁售后实时报表Flink天天快递实时报表售后自动化派工实时包裹推荐pgsql22015架构升级（去IOE）数据来源数据采集数据存储分析计算业务应用订单仓库运输配送售后RSF同步ESB MQHiveDB2datastageDB2 sql苏宁物流实时报表苏宁售后实时报表天天快递实时报表售后自动化派工实时包裹推荐Hql前台展示：Cognos Echartspostgresqlhbasespark streamingSpark sqlkafkaflumered

5、is苏宁物流32017稳定快速（新）业务源系统flumekafkaSpark streming或flink离线数据实时数据hdfshivehbaseESDruidredisHive任务离线应用离线报表数据分析实时应用实时报表实时预测实时挖掘Spark任务FTPDB数据交换sqoop（旧）业务源系统Hbase底表ESB/RSF实时计算Pgsql苏宁物流一、苏宁物流天眼系统介绍二、苏宁物流实时技术架构演进三、苏宁物流在实时大数据的最佳实践四、性能调优分析和经验总结苏宁物流苏宁物流在实时大数据的最佳实践全网实时监控报表的整体迁移（架构升级）物流订单双11大促实时监控天天快递数据实时查询下载实时箱包推

6、荐1234苏宁物流全网实时监控报表的整体迁移（架构升级）实时频率从2小时提升到1分钟大数据的处理能力上百张报表的同时迁移稳定性和扩展性高实现目标实现目标实现前提实现前提迁移成本要低实现周期要短苏宁物流全网实时监控报表的整体迁移-业务模块划分展示数据接入Spark Streaming 指标统计Spark Streaming 数据清理和整合KAFKAHbase订单状态处理流订单路由处理流订单明细处理流销售配送作业跟踪DPA退货单作业跟踪DPA调拨单作业跟踪DPAredisDB2全网妥投率监控仓库发货监控运输车辆准点监控分拨出入站监控快递妥投率监控作业异常处理流作业异常处理跟踪DPA各环节作业量监控

7、全流程异常监控WEBKAFKAJAVAAPP数据整合类&指标统计类订单系统仓库系统运输系统调拨系统PGSQLElasticSearch苏宁物流全网实时监控报表的整体迁移-技术架构设计苏宁物流全网实时监控报表的整体迁移-效果展现一个spark streaming任务搞定所有迁移的核心报表每天实时更新上百张hbase的表，上百亿的数据，上百T的空间实时性能从2个小时提高到了1分钟以内。1分钟处理的数据量达到上千万，压测性能满足双11大促要求360万条/秒100万条/秒Hbase的qps峰值Spark的处理峰值苏宁物流物流订单双11大促实时监控-订单总量苏宁物流物流订单双11大促实时监控-技术架构实

8、现Kafka+Spark streaming+hbase+redis+druid物流订单系统kafka订单实时监控（spark core）维度表spark并发遍历处理Spark streaming实时接收2、写入redis订单计数的redis库1,查找是否存在订单的缓存库前台展示（ECharts）实时查询3、前台展示实时写入OLAP的数据仓库druid苏宁物流天天快递数据实时查询下载-实现目标支持上万人同时进行实时查询下载全国分拨中心和上十万个快递点全覆盖可同时支持单个快递点上百万未清数据的下载下载时长控制在30秒内，数据少时达到毫秒级80万条/秒实时下载的峰值苏宁物流天天快递数据实时查询下载

9、-技术架构实现Kafka+Spark streaming+hbase+elaticsearch(组合查询下载)天天快递业务扫描日志json实时入ES实时入hbase库前台展示（ECharts）实时下载3、前台下载具体的业务扫描日志明细数据KAFKA构建二级索引苏宁易购更多的实时应用实时箱包推荐售后实时智能派工库存智能ABC物流实时分拨苏宁物流实时箱包推荐1.物料主数据2.包材类型/属性3.拣货单/批次/货格号/数量/商品数据输入拣货单/批次/货格号/数量/推荐包材输出仓储系统仓储系统1.纸箱推荐算法2.包装袋推荐算法计算大数据kafkakafkaSpark streaming接收接收苏宁物流一

10、、苏宁物流天眼系统介绍二、苏宁物流实时技术架构演进三、苏宁物流在实时大数据的最佳实践四、性能调优分析和经验总结苏宁物流性能调优分析和经验总结Spark任务性能调优经验总结12苏宁物流Spark 任务性能调优1：开发调优2：资源调优3：数据倾斜调优苏宁物流Spark 任务性能调优-开发调优原则1：对多次使用的RDD或DataFrame进行持久化，共享同一个RDD原则2：1）经过filter算子过后使用coalesce优化分区数量。2）分区少并且数据量大是通过repartition重分区增大并发。原则3：读写hbase或插入数据库时使用foreachPartition代替foreach并且使用批量

11、读取和插入，可大幅提升读写性能。原则4：尽量避免shuffle算子，大表关联小表可使用Broadcast+Hashmap的方式苏宁物流Spark 任务性能调优-资源调优Spark Executor端的内存主要分为三块：第一块是：分配给shuffle数据的内存，默认占20%；第二块是：分配给RDD缓存的内存，默认占60%第三块是：程序执行预留的内存，默认也是20%如何解决上图数据量突增的情况下单个executor内存溢出。1：适当提高executor-memory的值，设置6G2：适当提高spark.shuffle.memoryFraction的内存比例,设置0.43：适当提高num-execu

12、tors，提高executor的个数，提高并行度。如果有driver端的OOM1：适当提高driver-memory的值。苏宁物流Spark 任务性能调优-数据倾斜调优1：数据倾斜的现象：绝大多数task执行得都非常快，但个别task执行极慢，并且可能出现内存溢出的情况。2：如何定位数据倾斜的代码：数据倾斜只会发生在shuffle过程中。可以通过Spark Web UI清晰的定位到哪个task执行时出现了数据倾斜查看导致数据倾斜Key的分布情况：可以先使用sample抽样的方式，减少运算量，然后使用countByKey算子统计出每个key出现的次数，降序即可查看到哪些Key出现了数据倾斜。3：

13、数据倾斜的解决方案：1）过滤少量导致倾斜的key(key为空值的情况，不影响结果的情况下)2）提高shuffle操作的并行度，增大内存（只能缓解）3）大表和小表关联可使用map join或Broadcast的方式。4）采样倾斜key并分拆join操作。苏宁物流经验总结稳定性扩展性健壮性高性能一个优秀的系统离不开以下四大特性苏宁物流扩展性-hbae表主键设计的问题问题现象问题原因解决方案旧交货单：1342281927 （最后一位是0到9的随机数）主键设计：为了避免写入热点,将交货单反转:7291822431源端业务系统进行升级改造，交货单发生变化新交货单：OMS0006940886510101（

14、后四位是固定的）此时问题来了，反转后都是以0101开头，写入热点明显。临时方案：OMS开头的交货单,后四位移到最前面后再反转。永久方案：截取前12位(Md5Hash(交货单)_交货单苏宁物流稳定性-spark任务限流问题现象问题原因解决方案大促期间,某个时间点数据量剧增，kafka堆积告警，spark streaming任务运行超时，系统压力增大，超出系统负载时甚至会出现内存溢出，任务失败的情况。由于spark streaming单个批次的处理能力是有限的，比如压测的性能5秒处理50万，当5秒内接收数据增大到500万的时候，自然就会出现任务运行超时甚至失败。任务限流-参数配置conf.set(

15、spark.streaming.kafka.maxRatePerPartition,1250)maxRatePerPartition=(压测QPS目标)/(分区数*单个报文批量数）苏宁物流健壮性-容错能力平台的容错：选择kafka、hbase、spark、pgsql等分布式组件任务的容错：保证数据不丢失和幂等性，丢失的情况下快速恢复。架构的容错：架构流程的某个环节出错，有备选替代的方案。苏宁物流高性能-性能调优大数据实时性高AI智能性能调优苏宁物流苏宁物流-未来展望数据驱动苏宁物流裂变六专注家电物流解决方案线上线下，大小件，海量SKU开放、协同，由内而外，第三方物流智能驱动，平台共享，从基础设施到智能服务平台2005年2012年1990年2005年2012年2016年2017年苏宁物流T谢谢HANKYOU!苏宁物流

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2017年苏宁物流在实时大数据的最佳实践.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。