上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

4-RV23-昆明湖CoupledL2缓存的设计与实现V4.pdf

编号:155409 PDF 22页 5.09MB 下载积分:VIP专享
下载报告请您先登录!

4-RV23-昆明湖CoupledL2缓存的设计与实现V4.pdf

1、昆明湖架构 CoupledL2 缓存设计与实现陈熙1 张林隽2 王凯帆1 蔡洛姗1 李昕11中国科学院计算技术研究所2北京开源芯片研究院2023 年 8 月 24 日 第三届 RISC-V 中国峰会中国科学院计算技术研究所(ICT,CAS)2 2背景 内存墙矛盾 内存的性能增长速度远低于处理器 程序员想要低延迟地访问大量的内存 基于时间&空间局部性,设计缓存 缓存技术的演进 单级缓存 多级缓存 Blocking Non-Blocking(MSHR)替换算法、预取算法MEMCPU核心目标:降低延迟提升带宽中国科学院计算技术研究所(ICT,CAS)3 3南湖 L2 HuanCun 架构回顾中国科学

2、院计算技术研究所(ICT,CAS)4 4南湖 L2 存在的问题 Hit latency 较长 所有请求都需要分配 MSHR按照 MSHR 状态机运行再向 L1 发送响应 对于命中的请求可以不需要 MSHR 直接处理中国科学院计算技术研究所(ICT,CAS)5 5南湖 L2 存在的问题 set 同 Set 请求只能串行处理 同 Set 会相互影响 为了简化设计,限制只能同时处理一个 对于某些访存 pattern,会造成严重性能损失中国科学院计算技术研究所(ICT,CAS)6 6南湖 L2 存在的问题 验证复杂度爆炸 L2 采用 Non-inclusive 策略 仍然需要维护上层目录信息 有着更加

3、多样的一致性策略L2L2中国科学院计算技术研究所(ICT,CAS)7 7南湖 L2 存在的问题 验证复杂度爆炸 L2 采用 Non-inclusive 策略 仍然需要维护上层目录信息 有着更加多样的一致性策略 需要维护 I/D 一致性 导致 corner case 众多,验证困难L2L2中国科学院计算技术研究所(ICT,CAS)8 8采用主流水线架构同 Set 请求可以并行Inclusive 策略ICache 为非一致性节点 新 L2 的优化南湖 L2 存在的问题 Hit latency 较长 同 Set 请求只能串行 验证复杂度爆炸+New Features中国科学院计算技术研究所(ICT,

4、CAS)9 9昆明湖缓存 CoupledL2 整体框架设计维度 一致性:Directory Based 包含关系:Inclusive 参数:1MB,4 Slices,8 way16 MSHRs per Slice 非阻塞式主流水线 替换算法:Random/PLRU/DRRIP 预取算法:BOP/SMS 和 L1 做一些耦合以提升性能中国科学院计算技术研究所(ICT,CAS)1010香山 CoupledL2 硬件结构中国科学院计算技术研究所(ICT,CAS)1111香山 CoupledL2 硬件结构通道控制器通道控制器目录数据存储主流水线MSHR请求仲裁中国科学院计算技术研究所(ICT,CAS)

5、1212Transaction 处理逻辑接收主动请求查询目录读数据向 L1 响应以 L1 Acquire 为例中国科学院计算技术研究所(ICT,CAS)1313Transaction 处理逻辑接收主动请求查询目录MSHR 状态机运行向 L3AcquireL2 miss 的情况中国科学院计算技术研究所(ICT,CAS)1414Transaction 处理逻辑L3 返回重填数据MSHR 状态机运行向 L1 响应更新目录写入数据再次进入流水线中国科学院计算技术研究所(ICT,CAS)1515香山 CoupledL2 硬件结构数据暂存数据暂存请求暂存预取器减少数据的传递降低功耗暂存未能处理请求减少对总

6、线的阻塞中国科学院计算技术研究所(ICT,CAS)1616设计点 1 L1-L2 协同优化 观察:访存单元 miss 时存入 Load Replay Queue(图中)在 收到重填信号 和 需要用到数据 之间相隔 3 拍 新设计:让 L2 提前给出 Hint 信号 加速 Load Replay Queue 的唤醒和重发 具体做法:设置一个 Monitor 监测主流水线 在 Refill 前 3 拍向 L1 发送 Hint 信号 需要综合考虑可能的延迟,计算准确的 Hint 时机中国科学院计算技术研究所(ICT,CAS)1717设计点 2 允许同 Set 请求并行处理 背景:南湖 HuanCun

7、 对于同 Set 请求,只能串行处理 难点:由于替换,同 Set 的请求会相互影响 新设计:同 Set 不同地址,选择不同 way 可以并行 只对同地址请求进行阻塞 具体做法:统计新请求所在 Set 在 MSHR 中已经被占用的 way 为新请求分配一个空闲的 way中国科学院计算技术研究所(ICT,CAS)1818设计点 3 Evict on Refill 观察:之前对于 L1 Acquire 缺失,先选择一路替换旧数据 等待 L3 回填的时间内,这一路被占用,且无法响应 L1 改进:在回填上来的时候才 真正为新数据分配一路 此时 L1 仍可以命中 Set 内所有有效数据 具体做法:L1 A

8、cquire 缺失时,只向 L3 Acquire,先不做替换 等待 L3 回填数据返回 MSHR 向 L1 回填时,再次读目录并选择替换路旧新中国科学院计算技术研究所(ICT,CAS)1919性能评估 SPEC CPU 2006 测试程序 基于同样的香山处理器核+L3 相同的 L2 规格:1MB,4 Slices Non Incl.HuanCun L2 vs.CoupledL2 性能提升明显:部分程序上有近 50%的提升 SPEC 整体提升 1 分/GHz 时序提升:主频 2GHz 3GHz*基于 master 2fdb4d6a,0728 中国科学院计算技术研究所(ICT,CAS)2020下一

9、步的优化设计 请求融合 对于同地址请求:将新收到的请求融合进 MSHR 里尚未完成的请求 L3 无效化 L2 L2 主动释放=L2 直接响应 L3 L1 Acquire预取=预取同时回填 L1 关键字优先 目前一个缓存块需要两次总线传输(2 beats)向 L1 重填时优先发送【触发 miss 地址】所在的 beat 重填数据 bypass 从 L3 重填回来的数据不经过主流水线,直接发送给 L1中国科学院计算技术研究所(ICT,CAS)2121总结:香山新 CoupledL2 的设计与实现 南湖 L2 存在的问题 CPL2 整体设计 非阻塞式主流水线 L1-L2 协同优化 同 Set 请求并行处理 Evict on Refill 性能评估 下一步优化设计中国科学院计算技术研究所(ICT,CAS)2222谢谢!敬请批评指正!南湖 L2 存在的问题 CPL2 整体设计 非阻塞式主流水线 L1-L2 协同优化 同 Set 请求并行处理 Evict on Refill 性能评估 下一步优化设计

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(4-RV23-昆明湖CoupledL2缓存的设计与实现V4.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部