中国科学院软件研究所机构知识库
Advanced  
ISCAS OpenIR  > 软件所图书馆  > 会议论文
Title:
OpenBLAS:龙芯3A CPU的高性能BLAS库
Author: 张先轶 ; 王茜 ; 张云泉
Conference Name: 2011年全国高性能计算学术年会(HPC china2011)
Conference Date: 2011
Issued Date: 2011
Conference Place: 济南
Keyword: BLAS ; 龙芯3A ; MIPS64
Indexed Type: WANFANG
Department: 中国科学院软件研究所 并行软件与计算科学实验室,北京 100190 中国科学院研究生院,北京 100190 中国科学院软件研究所 并行软件与计算科学实验室,北京 100190 中国科学院 计算机科学国家重点实验室,北京 100190
Sponsorship: 中国计算机学会
Abstract: BLAS是科学计算中最基础的数学库之一,各CPU厂商都推出了针对各自CPU的优化的BLAS库。龙芯CPU是中科院计算所自主研制的通用CPU,目前已推出了龙芯3号系列。本文介绍了我们发起的基于GotoBLAS 2-1.13 BSD版的开源项目OpenBLAS,针对龙芯3A CPU的优化工作。在BLAS 3级函数的单线程优化上,运用了分块,手工核心汇编,使用龙芯3号128 bits访存指令和预取指令,汇编指令重排等技术。BLAS 3级函数平均性能高于GotoBLAS和ATLAS 75%和17%,其中,双精度函数高于GotoBLAS和ATLAS 103%和36%。在BLAS 3级函数并行化方面,采用数据缓冲区交错布局等技术,减少多线程对共享L2 Cache的争抢。 OpenBLAS BLAS 3级函数的4线程并行加速比达到3.47。 4线程BLAS 3级函数平均性能高于GotoBLAS和ATLAS 69%和34%,其中,双精度函数高于GotoBLAS和ATLAS 89%和55%。
Language: 中文
Content Type: 会议论文
URI: http://ir.iscas.ac.cn/handle/311060/16332
Appears in Collections:软件所图书馆_会议论文

Files in This Item:

There are no files associated with this item.


Recommended Citation:
张先轶,王茜,张云泉. OpenBLAS:龙芯3A CPU的高性能BLAS库[C]. 见:2011年全国高性能计算学术年会(HPC china2011). 济南. 2011.
Service
Recommend this item
Sava as my favorate item
Show this item's statistics
Export Endnote File
Google Scholar
Similar articles in Google Scholar
[张先轶]'s Articles
[王茜]'s Articles
[张云泉]'s Articles
CSDL cross search
Similar articles in CSDL Cross Search
[张先轶]‘s Articles
[王茜]‘s Articles
[张云泉]‘s Articles
Related Copyright Policies
Null
Social Bookmarking
Add to CiteULike Add to Connotea Add to Del.icio.us Add to Digg Add to Reddit
所有评论 (0)
暂无评论
 
评注功能仅针对注册用户开放,请您登录
您对该条目有什么异议,请填写以下表单,管理员会尽快联系您。
内 容:
Email:  *
单位:
验证码:   刷新
您在IR的使用过程中有什么好的想法或者建议可以反馈给我们。
标 题:
 *
内 容:
Email:  *
验证码:   刷新

Items in IR are protected by copyright, with all rights reserved, unless otherwise indicated.

 

 

Valid XHTML 1.0!
Copyright © 2007-2019  中国科学院软件研究所 - Feedback
Powered by CSpace