《【知乎】Alluxio在知乎的应用.pdf》由会员分享,可在线阅读,更多相关《【知乎】Alluxio在知乎的应用.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、Alluxio 在知乎的应用AI与大数据时代的加速方案贾承昆知乎大数据平台负责人目录 背景和介绍 Alluxio for AI Alluxio for Data 总结和展望背景和介绍PART 1背景和介绍知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以让人们更好的分享知识、经验和见解,找到自己的解答为品牌使命。截至 2020 年,已有超过 4000 万名答主在知乎创作,全站问题总数超过 4400 万,回答总数超过 2.4 亿。大模型时代的新挑战 多机房多算力中心 延时敏感 非结构化数据增多架构图Alluxio for AIPART 2 训练加速的
2、场景 超低的访问延时 长时间稳定运行 支持 FUSE 的方式访问场景一 AI 训练加速缓存淘汰策略:TTL LRU No Evit缓存策略问题分析:FUSE 和 Alluxio 的 block size 没有对齐优化思路:对齐 block size,难度较大 Client Memory CacheFUSE 读放大优化 Alluxio FUSE 读取性能达到 NVME 的 90%性能,对比之前 S3Proxy 方案提升 250%GPU 利用率上升,IO wait 明显减少训练加速效果 写立刻读 高并发 跨机房场景二 Model Update S3 Proxy vs FUSE SSD Cache
3、Short-circuit Read Read Ahead优化策略 主动预热 Pros:实现简单,性能好 Cons:用户需要改造适配 被动预热 Pros:无需改造 Cons:性能差 实时预热 Pros:无需改造 Cons:开始较慢,整体快数据预热Alluxio for DataPART 3场景三 Presto 缓存加速Presto RaptorX Based on Alluxio Local Cache Data Cache Footer Cache Fragment CacheWorker 软亲和性Worker 调度策略 一致性 hash Fallback集群软亲和性集群调度策略 根据 SQL 的 table 名字进行一致性哈希,选择一个集群 如果集群繁忙就选择下一个加速效果 平均缓存命中率 60%查询 P50 在 2s,BI 场景更低 排队时间对比之前有大幅度降低场景四 运维平台加速 数千节点 基础组件安装包非常大 一次滚动重启需要数十小时总结和展望PART 4 AI 模型训练和推理加速 统一的数据接入 大数据 OLAP 加速 对象存储加速应用场景总结 进一步提升模型 save/load 的性能,优化大模型训练任务的重启时间和 checkpoint 时间 平台化管理数据集和模型,简化算法工程师的工作未来展望Q&ATHANKS