当前位置:主页 > 科技论文 > 计算机论文 >

处理器访存子系统关键队列的性能建模

发布时间:2024-02-22 09:42
  处理器访存性能对其整体性能有着很大的影响,访存子系统的设计显得尤为重要。高性能超标量处理器的访存子系统中存在多个关键队列,如何快速进行设计折中,成为设计的关键。本文采用软件模拟器和回归模型结合的建模方法,提出了一个面向访存子系统关键队列的回归分析模型,并设计实现了相应的访存子系统模拟器。将软件模拟器与目标处理器设计的现场可编程门阵列(FPGA)原型验证平台进行准确性校准,并采用回归模型对软件模拟器的模拟数据进行分析,结果表明:实验验证结果稳定且对于所测试程序误差在10%以内。该建模方法可以量化分析访存子系统中关键队列大小与性能之间的关系,有效扩大硬件设计空间探索的范围,加快高性能处理器访存子系统的优化设计。

【文章页数】:11 页

【部分图文】:

图2模拟器整体设计

图2模拟器整体设计

本文模拟器基于新一代的国产主流通用CPU访存子系统设计[17,18],是一款基于trace的周期精确的模拟器,其结构如图2所示。模拟器的输入是程序访存流trace。访存流是一个程序完整执行过程中访存指令的动态执行信息,包括PC值、访存地址、访存指令类型和数据位宽。模拟器在RegM....


图3SPECCPU2000load-store流在模拟器和FPGA原型验证平台上的DCache失效率

图3SPECCPU2000load-store流在模拟器和FPGA原型验证平台上的DCache失效率

实验中模拟器分别改变MMQ、ROQ、LDQ、STQ大小组成不同的大小组合运行程序,得到相应的总时钟周期。队列大小的选取应在设计空间大小范围内,并且分布较为均匀且组合随机,以便对整个设计空间不同组合附近都有模拟,从而得到更符合模拟情况的模型参数。图4SPECCPU2000l....


图4SPECCPU2000load-store流在模拟器和FPGA原型验证平台上的队列满阻塞率

图4SPECCPU2000load-store流在模拟器和FPGA原型验证平台上的队列满阻塞率

图3SPECCPU2000load-store流在模拟器和FPGA原型验证平台上的DCache失效率将得到的数据顺序随机,然后分成5份,使用其中的4份数据依据2.3节提出的模型式(2)进行线性回归拟合,得到各个参数,此时便得到了该处理器设计在测试程序下的性能模型,通过输入....


图5不同程序MMQ,ROQ,LDQ,STQ固定其中2个队列大小,另外2个队列大小对性能的影响

图5不同程序MMQ,ROQ,LDQ,STQ固定其中2个队列大小,另外2个队列大小对性能的影响

本实验中,为了可视化数据,图5展示了在ROQ128、MMQ32情况下LDQ和STQ不同大小的性能情况,ROQ128、LDQ64情况下MMQ和STQ不同大小的性能情况以及在ROQ128、STQ48情况下MMQ和LDQ不同大小的性能情况。对于回归模型,可以使用梯度下降等求最优解的方法....



本文编号:3906608

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3906608.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户b56e3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com