当前位置:主页 > 科技论文 > 计算机论文 >

矩阵乘协处理器上BLAS level-3运算的设计

发布时间:2022-12-04 23:33
  BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level-3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比,最高提升了31%。 

【文章页数】:9 页

【文章目录】:
1 引言
2 矩阵乘协处理器的结构与性能
    2.1 线性阵列结构
    2.2 矩阵乘协处理器上矩阵乘的计算性能和效率
3 BLAS level-3运算至矩阵乘协处理器的映射
    3.1 各运算至线性阵列结构的映射
    3.2 性能分析模型
        (1) SYMM。
        (2) SYRK和SYR2K。
        (3) TRMM。
        (4) TRSM。
4 实验结果与分析
5 结束语


【参考文献】:
期刊论文
[1]双精度浮点矩阵乘协处理器研究[J]. 贾迅,邬贵明,谢向辉,吴东.  计算机研究与发展. 2019(02)

博士论文
[1]FPGA矩阵计算并行算法与结构[D]. 邬贵明.国防科学技术大学 2011



本文编号:3709206

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3709206.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户17e54***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]