登 录
註 冊
论坛
微波仿真网
注册
登录论坛可查看更多信息
微波仿真论坛
>
程序
>
OpenMP并行程序设计(一)
发帖
回复
3955
阅读
4
回复
[
资料共享
]
OpenMP并行程序设计(一)
离线
febi
UID :2537
注册:
2007-05-11
登录:
2016-05-05
发帖:
123
等级:
退休版主
0楼
发表于: 2007-07-14 18:14:58
OpenMP并行程序设计(一)
TT){15T;"
1k"i"kRM
OpenMP是一个支持共享存储并行设计的库,特别适宜多核CPU上的并行程序设计。今天在双核CPU机器上试了一下OpenMP并行程序设计,发现效率方面超出想象,因此写出来分享给大家。
@9k3}x K
5bol)Z9BO
在VC8.0中项目的属性对话框中,左边框里的“配置属性”下的“C/C++”下的“语言”页里,将OpenMP支持改为“是/(OpenMP)”就可以支持OpenMP了。
W!TTfj
w[G-=>;
先看一个简单的使用了OpenMP程序
Svs&?B\}{6
int main(int argc, char* argv[])
>z,Y%A
{
R1.Yx?
#pragma omp parallel for
R/2L9Lcv
for (int i = 0; i < 10; i++ )
7dlMDHp\Y
{
#}8VUbJ
printf("i = %d\n", i);
OSom-?|w
}
Qb;]4[3
return 0;
"`'+@KlE
}
+.$:ZzH#
这个程序执行后打印出以下结果:
a(h@4 x
i = 0
r8A'8g4cM
i = 5
9>_VU"T
i = 1
dLf ;g}W
i = 6
Eh"Y<]$
i = 2
xx?0Ftuq
i = 7
DnN+W
i = 3
DvA#zX[
i = 8
")fgQ3XZ
i = 4
AAF;M}le,
i = 9
J>nta?/,X
SO~pe$c-
可见for 循环语句中的内容被并行执行了。(每次运行的打印结果可能会有区别)
m 7+=w>o
这里要说明一下,#pragma omp parallel for 这条语句是用来指定后面的for循环语句变成并行执行的,当然for循环里的内容必须满足可以并行执行,即每次循环互不相干,后一次循环不依赖于前面的循环。
P)ne^_
9mpQusM
有关#pragma omp parallel for 这条语句的具体含义及相关OpenMP指令和函数的介绍暂时先放一放,只要知道这条语句会将后面的for循环里的内容变成并行执行就行了。
U)z1RHP|z
Gr3 q
将for循环里的语句变成并行执行后效率会不会提高呢,我想这是我们最关心的内容了。下面就写一个简单的测试程序来测试一下:
dp3TJZ+U
9(bbV5}
void test()
](IOn:MuDE
{
(8em 5
int a = 0;
8"u.GL.
clock_t t1 = clock();
?w)A`G_
for (int i = 0; i < 100000000; i++)
C ?\HB#41
{
9g$fFO
a = i+1;
J.0&gP V
}
~0vNs2D,S
clock_t t2 = clock();
ubsx NCqD
printf("Time = %d\n", t2-t1);
wOH 3[SKo
}
h@s i)5"
T8j<\0WW
int main(int argc, char* argv[])
XW{cC`&
{
0+A#k7c6p
clock_t t1 = clock();
paxZlA o
#pragma omp parallel for
s2nZW pIy
for ( int j = 0; j < 2; j++ ){
/4+*!X
test();
F<)f&<5E-
}
q z!^< M
clock_t t2 = clock();
![Vrbe P
printf("Total time = %d\n", t2-t1);
foI:`]2"*
`EiL~*
test();
frWY8&W^H
return 0;
!Z; Nv
}
rj<-sfs
rhN"#?
在test()函数中,执行了1亿次循环,主要是用来执行一个长时间的操作。
@*$"6!3s5
在main()函数里,先在一个循环里调用test()函数,只循环2次,我们还是看一下在双核CPU上的运行结果吧:
nH[>Sff$
Time = 297
2%]#rZ
Time = 297
uHTm
Total time = 297
WkoYkkuzj
Time = 297
ldG$hk'
zaE!=-U
可以看到 ..
FwQGxGZ
d~b@F&mf
未注册仅能浏览
部分内容
,查看
全部内容及附件
请先
登录
或
注册
共
条评分
磁砖
离线
febi
UID :2537
注册:
2007-05-11
登录:
2016-05-05
发帖:
123
等级:
退休版主
1楼
发表于: 2007-07-14 18:16:19
OpenMP并行程序设计(二)
OpenMP并行程序设计(二)... 1
z)pp{
1、fork/join并行执行模式的概念... 1
T@DT|lTI
2、OpenMP指令和库函数介绍... 1
j}$Q`7-wB1
3、parallel 指令的用法... 3
Iy{&T#e"
4、for指令的使用方法... 4
&n&ndq
5 sections和section指令的用法
xA"7a
J<7nOB}OD
n)>nfnh
OpenMP并行程序设计(二)
Qx[ nR/
1、fork/join并行执行模式的概念
%ZZW p%uf
OpenMP是一个编译器指令和库函数的集合,主要是为共享式存储计算机上的并行程序设计使用的。
7vK}aOs0
前面一篇文章中已经试用了OpenMP的一个Parallel for指令。从上篇文章中我们也可以发现OpenMP并行执行的程序要全部结束后才能执行后面的非并行部分的代码。这就是标准的并行模式fork/join式并行模式,共享存储式并行程序就是使用fork/join式并行的。
irzWk3@:
标准并行模式执行代码的基本思想是,程序开始时只有一个主线程,程序中的串行部分都由主线程执行,并行的部分是通过派生其他线程来执行,但是如果并行部分没有结束时是不会执行串行部分的,如上一篇文章中的以下代码:
>)iCKx
int main(int argc, char* argv[])
0'^zIL#.
{
4B@L<Rl{\
clock_t t1 = clock();
62J-)~_
#pragma omp parallel for
VW\~OH
for ( int j = 0; j < 2; j++ ){
KEvT."t
test();
/ 9soUt
}
%!Ak]|[7
clock_t t2 = clock();
*'ex>4^
printf("Total time = %d\n", t2-t1);
Kyq/o-
/'>#1J|TlK
test();
ngQ]
return 0;
-$_h]x* W
}
=Ev*Q[
在没有执行完for循环中的代码之前,后面的clock_t t2 = clock();这行代码是不会执行的,如果和调用线程创建函数相比,它相当于先创建线程,并等待线程执行完,所以这种并行模式中在主线程里创建的线程并没有和主线程并行运行。
[ncOtDE
2、OpenMP指令和库函数介绍
NxQ+z^o\
下面来介绍OpenMP的基本指令和常用指令的用法,
m=%WA5c?
在C/C++中,OpenMP指令使用的格式为
)I9W a*I
#pragma omp 指令 [子句[子句]…]
(]p,Z<f
前面提到的parallel for就是一条指令,有些书中也将OpenMP的“指令”叫做“编译指导语句”,后面的子句是可选的。例如:
swT/ tesj
#pragma omp parallel private(i, j)
`$N AK
parallel 就是指令, private是子句
_l!TcH+e
为叙述方便把包含#pragma和OpenMP指令的一行叫做语句,如上面那行叫parallel语句。
]!04L}hy|P
!3#*hL1fy
OpenMP的指令有以下一些:
-OV!56&
parallel,用在一个代码段之前,表示这段代码将被多个线程并行执行
<YBA 7i
for,用于for循环之前,将循环分配到多个线程中并行执行,必须保证每次循环之间无相关性。
=lqGt.x
parallel for, parallel 和 for语句的结合,也是用在一个for循环之前,表示for循环的代码将被多个线程并行执行。
F;_L/8Ov1
sections,用在可能会被并行执行的代码段之前
L;k9}HWpP
parallel sections,parallel和sections两个语句的结合
[#6Eax,j
critical,用在一段代码临界区之前
3 ~^ }R
single,用在一段只被单个线程执行的代码段之前,表示后面的代码段将被单线程执行。
Z,m;eCLG]
flush,
B*j AD2
barrier,用于并行区内代码的线程同步,所有线程执行到barrier时要停止,直到所有线程都执行到barrier时才继续往下执行。
gdyP,zMD7
atomic,用于指定一块内存区域被制动更新
@-Js)zcl q
master,用于指定一段代码块由主线程执行
uWKc .
ordered, 用于指定并行区域的循环按顺序执行
Q[N6# C:(4
threadprivate, 用于指定一个变量是线程私有的。
(E(kw="
OpenMP除上述指令外,还有一些库函数,下面列出几个常用的库函数:
a).bk!G
omp_get_num_procs, 返回运行本线程的多处理机的处理器个数。
Ok&u4'<
omp_get_num_threads, 返回当前并行区域中的活动线程个数。
Jri"Toz0
omp_get_thread_num, 返回线程号
O(oGRK<xM
omp_set_num_threads, 设置并行执行代码时的线程个数
{(!j6|jK
omp_init_lock, 初始化一个简单锁
RA~%Cw4t
omp_set_lock, 上锁操作
jB!Q8#&Q
omp_unset_lock, 解锁操作,要和omp_set_lock函数配对使用。
t9B]V
omp_destroy_lock, omp_init_lock函数的配对操作函数,关闭一个锁
C@L8,Kj ~.
:svRn9_8H
OpenMP的子句有以下一些
7ehs+GI
private, 指定每个线程都有它自己的变量私有副本。
+gQoYlso
firstprivate,指定每个线程都有它自己的变量私有副本,并且变量要被继承主线程中的初值。
OTe0[p6v
lastprivate,主要是用来指定将线程中的私有变量的值在并行处理结束后复制回主线程中的对应变量。
d*xKq"+ &E
reduce,用来指定一个或多个变量是私有的,并且在并行处理结束后这些变量要执行指定的运算。
/`V:;
nowait,忽略指定中暗含的等待
C@i4[g){
num_threads,指定线程的个数
}^ j"@{~
schedule,指定如何调度for循环迭代
nWAx!0G
shared,指定一个或多个变量为多个线程间的共享变量
W{2(fb
ordered,用来指定for循环的执行要按顺序执行
-Am~CM
copyprivate,用于single指令中的指定变量为多个线程的共享变量
(lY<\l
copyin,用来指定一个threadprivate的变量的值要用主线程的值进行初始化。
h tn?iLq
default,用来指定并行处理区域内的变量的使用方式,缺省是shared
Ou<Vg\Mu
3、parallel 指令的用法
3<nd;@:-
parallel 是用来构造一个并行块的,也可以使用其他指令如for、sections等和它配合使用。
wx|eO[14
在C/C++中,parallel的使用方法如下:
e$+?l~
#pragma omp parallel [for | sections] [子句[子句]…]
LE:nmo
{
&jHnM^nQ
//代码
2_]"9d4
}
{ f@k2^
parallel语句后面要跟一个大括号对将要并行执行的代码括起来。
&\, ZtaB
void main(int argc, char *argv[]) {
%l7|+%M.{
#pragma omp parallel
sOBy)vq?\
{
[LJ1wBMw
printf(“Hello, World!\n”);
`:XrpD
}
v&GBu
}
Jm+;A^;
执行以上代码将会打印出以下结果
Zn`vL52_
Hello, World!
JtrLTo
Hello, World!
`_{^&W WS
Hello, World!
."m2/Ks7
Hello, World!
h)qapC5z,
可以看得出parallel语句中的代码被执行了四次,说明总共创建了4个线程去执行parallel语句中的代码。
c`(] j w
也可以指定使用多少个线程来执行,需要使用num_threads子句:
_pv<_ Sm
void main(int argc, char *argv[]) {
D20n'>ddg
#pragma omp parallel num_threads(8)
oX9rpTi
{
Wl:vO^
printf(“Hello, World!, ThreadId=%d\n”, omp_get_thread_num() );
;nbUbRb
}
ta-kqt!'
}
\)pT+QxZ
执行以上代码,将会打印出以下结果:
P+Ta|-
Hello, World!, ThreadId = 2
aa1^cw 5}
Hello, World!, ThreadId = 6
Gdd lB2L)x
Hello, World!, ThreadId = 4
Dog Tj
Hello, World!, ThreadId = 0
qUY QN2wG
Hello, World!, ThreadId = 5
v~N8H+!d
Hello, World!, ThreadId = 7
M"eiKX
Hello, World!, ThreadId = 1
Jn_; cN
Hello, World!, ThreadId = 3
9_mys}+
从ThreadId的不同可以看出创建了8个线程来执行以上代码。所以parallel指令是用来为一段代码创建多个线程来执行它的。parallel块中的每行代码都被多个线程重复执行。
{Y! -]_5
和传统的创建线程函数比起来,相当于为一个线程入口函数重复调用创建线程函数来创建线程并等待线程执行完。
N| dwuBW
4、for指令的使用方法
|3?q L
for指令则是用来将一个for循环分配到多个线程中执行。for指令一般可以和parallel指令合起来形成parallel for指令使用,也可以单独用在parallel语句的并行块中。
HV^*_
#pragma omp [parallel] for [子句]
?6gC;B
for循环语句
u^T{sQ"_
> T,^n {_v
先看看单独使用for语句时是什么效果:
TrHz(no
int j = 0;
\i-HECc"U
#pragma omp for
nZbfc;da
for ( j = 0; j < 4; j++ ){
csV.AN'obq
printf(“j = %d, ThreadId = %d\n”, j, omp_get_thread_num());
5};Nv{km^2
}
jMvWS71
执行以上代码后打印出以下结果
5X5 &(S\
j = 0, ThreadId = 0
]$'w8<D>t,
j = 1, ThreadId = 0
mV0.9pxS
j = 2, ThreadId = 0
W`KRaL0^
j = 3, ThreadId = 0
a~_5N&~pi
从结果可以看出四次循环都在一个线程里执行,可见for指令要和parallel指令结合起来使用才有效果:
`)[bu
如以下代码就是parallel 和for一起结合成parallel for的形式使用的:
S/?KC^JP
int j = 0;
`4& GumG
#pragma omp parallel for
R30{/KK
for ( j = 0; j < 4; j++ ){
4A_}:nU
printf(“j = %d, ThreadId = %d\n”, j, omp_get_thread_num());
{U&*8Q(/
}
h-Q3q:
执行后会打印出以下结果:
>900O4
j = 0, ThreadId = 0
Xx~XW^lsh
j = 2, ThreadId = 2
Pd@y+|
j = 1, ThreadId = 1
_-^Lr /`G!
j = 3, ThreadId = 3
x>^r%<WbX
可见循环被分配到四个不同的线程中执行。
i6p0(OS&D
|.x |BJ
上面这段代码也可以改写成以下形式:
UGNFWZ c
int j = 0;
0^Vc,\P?
#pragma omp parallel
|5 sI=?p&t
{
ei>8{v&g
#pragma omp for
xG05OqKpE
for ( j = 0; j < 4; j++ ){
G9.+N~GZ.
printf(“j = %d, ThreadId = %d\n”, j, omp_get_thread_num());
E.$1CGd+
}
h^h!OQK Q
}
R!i9N'gGG(
执行以上代码会打印出以下结果:
g_\U-pzr
j = 1, ThreadId = 1
/XG4O
j = 3, ThreadId = 3
dHnR)[?e
j = 2, ThreadId = 2
E }aTH
j = 0, ThreadId = 0
MX-(;H
er Cl@sq
]:B|_|H
在一个parallel 块中也可以有多个for语句,如:
w1-/U+0o
int j;
+j._NRXRH
#pragma omp parallel
"Ldi<xq%xl
{
T.vkGB=QZ%
#pragma omp for
Z?H#=|U
for ( j = 0; j < 100; j++ ){
HY.?? 5MH
…
H1H+TTZr
}
+SGM3tY
#pragma omp for
ewYZ} "o
for ( j = 0; j < 100; j++ ){
`Trpv$
…
f>Mg.9gJ(
}
kETu@la}
…
;Zb+WGyj
}
}5Yd:%u5
5+<<:5_6l
for 循环语句中,书写是需要按照一定规范来写才可以的,即for循环小括号内的语句要按照一定的规范进行书写,for语句小括号里共有三条语句
)vB,eZq
for( i=start; i < end; i++)
ssv4#8p3
1>$fLbmkI
i=start; 是for循环里的第一条语句,必须写成 “变量=初值” 的方式。如 i=0
Tz H*?bpP
i < end;是for循环里的第二条语句,这个语句里可以写成以下4种形式之一:
0s"g%gq|
变量 < 边界值
rAK}rNxI
变量 <= 边界值
MXWCYi
变量 > 边界值
#\kYGr-G)
变量 >= 边界值
sEj?,1jk
如 i>10 i< 10 i>=10 i>10 等等
kDM\IyM<\
最后一条语句i++可以有以下9种写法之一
6vrMR&#a
i++
K4Mv\! Q<8
++i
/=9t$u|
i--
=6Dz<Lq
--i
V#:`:-$$+
i += inc
Fh u(u
i -= inc
zT[[WY4
i = i + inc
Sq,ZzMw
i = inc + i
:zk69P3
i = i –inc
0#~e KFy
Suixk'-
例如i += 2; i -= 2;i = i + 2;i = i - 2;都是符合规范的写法。
0p\cDrB?
5 sections和section指令的用法
P%hi*0pwZ
section语句是用在sections语句里用来将sections语句里的代码划分成几个不同的段,每段都并行执行。用法如下:
9S ~!!7oj
#pragma omp [parallel] sections [子句]
d^"<Tz!
{
Hn%n>Bnl
#pragma omp section
;6g &_6
{
?:(BkY,K5
代码块
%UuV^C
}
v%(2l|M
}
;Ub;AqY
&BnK[Q8X
先看一下以下的例子代码:
Hf( d x\5
void main(int argc, char *argv)
n22k<@y
{
P8jXruZr
#pragma omp parallel sections {
SqL8MKN)
#pragma omp section
5`oVyxJ<
printf(“section 1 ThreadId = %d\n”, omp_get_thread_num());
pCOr{I\
#pragma omp section
&CCp@" +
printf(“section 2 ThreadId = %d\n”, omp_get_thread_num());
-7:J#T/\
#pragma omp section
u9Wi@sO#
printf(“section 3 ThreadId = %d\n”, omp_get_thread_num());
sM)n-Yy#9
#pragma omp section
B[:-SWd
printf(“section 4 ThreadId = %d\n”, omp_get_thread_num());
-EV_=a8[y
}
yk1syN_
执行后将打印出以下结果:
LMchNTL
section 1 ThreadId = 0
nmlQ-V-
section 2 ThreadId = 2
kYw k'\s
section 4 ThreadId = 3
`a}!t=~#w
section 3 ThreadId = 1
.80^c
)v&r^DR_
从结果中可以发现第4段代码执行比第3段代码早,说明各个section里的代码都是并行执行的,并且各个section被分配到不同的线程执行。
VU7x w
5I,5da
使用section语句时,需要注意的是这种方式需要保证各个section里的代码执行时间相差不大,否则某个section执行时间比其他section过长就达不到并行执行的效果了。
f!;4-.p`
;EZ$8|
上面的代码也可以改写成以下形式:
, &S:(b[D
void main(int argc, char *argv)
P+!j[X^
{
P!qU8AJkt
#pragma omp parallel {
"V!y"yQ
#pragma omp sections
LFHV~>d
{
L4I1n l
#pragma omp section
Zi47)8
printf(“section 1 ThreadId = %d\n”, omp_get_thread_num());
T&6W>VQ|[>
#pragma omp section
;W6P$@'zs
printf(“section 2 ThreadId = %d\n”, omp_get_thread_num());
h$)},% e
}
x/Pi#X m
#pragma omp sections
Sr1xG%;|/
{
u(B0X=B
M#II,z>q
#pragma omp section
KN>U6=WN
printf(“section 3 ThreadId = %d\n”, omp_get_thread_num());
ZSj^\JU
#pragma omp section
y#HDJ=2
printf(“section 4 ThreadId = %d\n”, omp_get_thread_num());
tmF->~|
}
FCv3ZF?K
}
^v.~FFK
执行后将打印出以下结果:
5#+G7 'k
section 1 ThreadId = 0
d&n&_>
section 2 ThreadId = 3
` z<k7ig
section 3 ThreadId = 3
0\f3L a
section 4 ThreadId = 1
p!<Y 'G
(Hqy^EOZ
这种方式和前面那种方式的区别是,两个sections语句是串行执行的,即第二个sections语句里的代码要等第一个sections语句里的代码执行完后才能执行。
)En*5-1
$ BV4 i$
用for语句来分摊是由系统自动进行,只要每次循环间没有时间上的差距,那么分摊是很均匀的,使用section来划分线程是一种手工划分线程的方式,最终并行性的好坏得依赖于程序员。
;C=C`$Q
fMaUIJ:Q9
本篇文章中讲的几个OpenMP指令parallel, for, sections, section实际上都是用来如何创建线程的,这种创建线程的方式比起传统调用创建线程函数创建线程要更方便,并且更高效。
s^Lg*t3I
当然,创建线程后,线程里的变量是共享的还是其他方式,主线程中定义的变量到了并行块内后还是和传统创建线程那种方式一样的吗?创建的线程是如何调度的?等等诸如此类的问题到下一篇文章中进行讲解。
y=) Cid
6T>e~<^
#8P9}WTno.
.Ua|KKK C
Trackback:
http://tb.blog.csdn.net/TrackBack.aspx?PostId=1600189
共
条评分
磁砖
离线
febi
UID :2537
注册:
2007-05-11
登录:
2016-05-05
发帖:
123
等级:
退休版主
2楼
发表于: 2007-10-31 20:20:47
在vs2005中使用时要加上
q~9Y&>D
#include <omp.h>
共
条评分
磁砖
离线
xdzxw
UID :1364
注册:
2007-03-22
登录:
2020-02-23
发帖:
80
等级:
仿真二级
3楼
发表于: 2007-10-31 22:31:21
楼主 能不能讲一下Fortran如何使用OpenMP编程?
X.V6v4
我的代码都是用Fortran写的
afEhC0j
谢谢!
共
条评分
一切就像那浮云~
离线
cem-uestc
UID :9061
注册:
2008-03-07
登录:
2019-01-05
发帖:
2575
等级:
荣誉管理员
4楼
发表于: 2008-03-07 23:21:06
一直用VC6。0
<[9{Lg*D
问一下OpenMp是不是VC2005自带,还是安装
共
条评分
欢迎光临
http://www.mwtee.com/home.php?mod=space&uid=13535
发帖
回复