日前,588888纽约国际官方网站、高能效计算与应用中心梁云研究员课题组在GPU-FPGA(图形处理器-现场可编程门阵列)异构系统运行时管理和GPU上高性能矩阵乘法方面的工作双双取得获得重要突破,相关成果以学术论文《面向交互式应用的高效异构系统和应用管理技术》 (Poly: efficient heterogeneous system and application management for interactive applications)和《面向GPU的基于分块和批处理的矩阵乘法优化技术》(A coordinated tiling and batching framework for efficient GEMM on GPUs)的形式,分别即将呈现在第25届高性能体系结构国际研讨会(25th Annual IEEE International Symposium on High-Performance Computer Architecture, HPCA)和第24届并行编程原理与实践研讨会(24th ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming, PPoPP)上。
在前一篇论文中,梁云及其指导的博士研究生王硕针对集成多个GPU和FPGA的异构计算系统,提出一种高效运行时管理框架Poly;该框架对于实时性要求很高的交互式应用,在保证实时性的前提下,能够提高异构系统的整体能效比,从而为云计算、数据中心等应用场景提供高能效的计算资源管理与扩容方案。
在后一篇论文中,梁云及其执导的博士研究生李秀红以及北京市商汤科技开发有限公司的研发人员设计了一种新型矩阵分块决策算法和批执行决策算法,显著提高小矩阵算法的计算效率,从而克服现实应用中诸多小矩阵算法无法充分发挥GPU计算能力的瓶颈。
HPCA和PPoPP均为计算机体系结构领域顶级会议,被《中国计算机学会推荐国际学术会议和期刊目录》列为计算机系统与高性能计算领域A类会议,在国内外具有很高的学术影响;历来以对论文要求严格、录取率低(前者约45篇论文/年,后者约30篇论文/年,平均录取率均在15%~20%)著称。