《28-d3s4-6-芥子模拟2器(rv中国峰会).pdf》由会员分享,可在线阅读,更多相关《28-d3s4-6-芥子模拟2器(rv中国峰会).pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、芥子模拟器(risc-v CPU建模)2第一部分第一部分 建模的作用建模的作用3建模的必要性建模的必要性l 芯是复杂系统,单点提升不能效,需要系统级设计1.CPU单纯增加发射路作很,甚有反作2.单纯加cache作很甚性能不变3.分预测采倒灌式,性能没有提升4.微架构设计靠多年的经验,很少通过建模做定量分析。软件调试基于FPGA设备或者样,部分公司依靠vdk精细模型l 芯态建设1.态最重要指标是围绕芯的开发员数量和质量。开发员看重编程容易,硬件则看重计算模式的完备性和效率。2.微架构早期设计阶段就要引软硬件协同设计:通过建模引不同程序,测试可能的瓶颈以及解瓶颈3.芯的编程语/指令需要定义重要的软
2、硬件界,确定软件员的作:是否需要拼凑数据(SIMD),是否需要处理dma(cache可),是否硬件处理各种复杂数据格式转换。4国内国内IC公司建模的现状公司建模的现状l 第阶段:建模1.依靠架构师的个能和积累套路l 第阶段:soc层级建模:泛应在购买关键IP的项l 第三阶段:core层级建模,但不能执指令,有的基于vdkl 第四阶段:core层级建模,指导架构设计和软硬件协同5建模的作用建模的作用l 建模的作:1.早期的微架构探索2.持续对微架构评估和对性能,tradeoff和修改3.在验证阶段,模拟器可作为参考模型辅助验证,快速定位逻辑设计错误4.系统软件的开发和定位5.硅后验证和测试例l
3、建模需要达到的标1.基于CA对(cycle accurate),复杂硬件要简化(ddr/pcie)2.基于电路设计原则抽象软件代码3.可直接执程序和指令,cost分析4.快速的开发语和电路基础5.性能模型和功能模型分离,适配软件的硅后模型分离6第二部分第二部分cpu建模的具体实践建模的具体实践7芥子芥子Riscv CPU模拟器模拟器l 芥子模拟器是腾讯芯片团队基于GEM5开源模拟器开发的Riscv CPU模拟器。https:/ 开源版本:specint 12.2/Ghz,specfp 15.3/Ghzl 芥子模拟器开源版本首先与香山南湖CPU微架构进行了架构对齐,并在其基础上进行了如下微架构优
4、化:l CPU前端:实现了增强版本的SC预测器,Loop预测器,和基于推测链表栈和提交栈的增强型RAS,以及Icache性能相关的优化。l CPU后端:对LSQ、ROB等乱序组件的配置进行分析和优化。实施了混合 RMAP 和 HBMAP 解决方案以增强重命名表恢复解决方案。l CPU Memory子系统:实现了 Bingo 和 SPP 预取器,它们位于混合缓存级别并预取到当前或低级缓存。8功能与性能解耦的处理器功能与性能解耦的处理器建模方法建模方法兼顾功能&性能的准确性和程的易实现性功能模拟:功能准确:与芯执结果bit级致开发&执快速:以指令粒度模拟处理器功能指令功能抽象为4个函数接性能模拟:
5、性能准确:与芯执结果cycle级致开发&执快速:Event机制模拟电路cycle为Proc模拟反压点,仲裁点,产请求的节点在流线中复指令功能函数Proc0Reg0Proc1Reg1指令功能抽象流线性能抽象Event+Proc完成对电路抽象。Cycle0:Proc0 模拟组合逻辑功能,将计算结果进缓存,并知会调度器在Cycle1触发Event1,Event1对应Proc1的执。Cycle1:调度器触发Event1,Proc1开始执,从reg0获得cycle1对应的寄存器值,并运算。9基于设计空间的基于设计空间的Profiling架构探索架构探索 设计空间抽象:将硬件模块的架构设计空间抽象为参数,
6、通过参数调节来对架构进寻优。L2 Cache参数:size,associaty,clusivity,mshrs,replacement_polity,directory structure,Data Storage structure.L2 Cache架构寻优示例10基于基于Top Down瓶颈分析的处理器架构探索瓶颈分析的处理器架构探索 处理器的流线可以抽象为管道,整体性能受限于Bottleneck节点。从CPU的dispatch流线级的视进层层分解,量化各级流线的Bottleneck占。输出各个Benchmark场景的瓶颈量化分析结果。11模型与硬件实现方案联动模型与硬件实现方案联动,保证电路的可实现性,保证电路的可实现性间隔0拍间隔1拍间隔2拍计算单元总积变化1.0361.0181Swish算运时间111.291.0361.0181111.2900.20.40.60.811.21.4间隔0拍间隔1拍间隔2拍指数计算单元:积 vs 业务时间计算单元总积Swish算运时间微架构资源变化实时反映在积与性能对图上。快速进架构决策。硬件设计案三:指数计算资源复4拍,两条指令间间隔3拍硬件设计案:指数计算资源复2拍,两条指令间间隔1拍硬件设计案:指数计算资源复1拍,两条指令间间隔0拍指数计算指令硬件设计案指数计算指令模型评估结果