CATEGORII DOCUMENTE
Afaceri Calculatoare Casa masina Didactica pedagogie Diverse Educatie Finante Geografie Istorie & politica Legislatie Limba Management Sanatate Tehnologie

Bulgara	Ceha slovaca	Croata	Engleza	Estona	Finlandeza	Franceza
Germana	Italiana	Letona	Lituaniana	Maghiara	Olandeza	Poloneza
Sarba	Slovena	Spaniola	Suedeza	Turca	Ucraineana

Administracja	Bajki	Botanika	Budynek	Chemia	Edukacja	Elektronika	Finanse
Fizyczny	Geografia	Gospodarka	Gramatyka	Historia	Komputerów	Książek	Kultura
Literatura	Marketingu	Matematyka	Medycyna	Odżywianie	Polityka	Prawa	Przepisy kulinarne
Psychologia	Różnych	Rozrywka	Sportowych	Technika	Zarządzanie

Klastry Beowulf

komputerów

+ Font mai mare | - Font mai mic


DOCUMENTE SIMILARE

Klastry Beowulf

W ci¹gu ostatniego dziesiźciolecia nast¹pi³ olbrzymi wzrost wydajnoci i szybki spadek cen komputerów osobistych oraz sprzźtu sieciowego. Usytkownicy komputerów zetknźli siź takse z bezp³atnie dostźpnym oprogramowaniem systemowym o wysokiej jakoci, przeznaczonym dla takich komputerów. Kody ród³owe rósnych pakietów oprogramowania zosta³y takse udostźpnione publicznie, co pozwala na ich ulepszanie i modyfikacje. W roku 1994. agencja NASA uruchomi³a dla w³asnych celów projekt budowy komputera równoleg³ego, który mia³ wykorzystywaę powszechnie dostźpne elementy i bezp³atnie rozpowszechniane pakiety oprogramowania. Komputer, któremu nadano nazwź Beowulf, zosta³ zbudowany z 16 jednostek z procesorami typu x86 firmy Intel, po³¹czonych sieci¹ Ethernet o przep³ywnoci 10 Mb/s. By³ wyposasony w system operacyjny Linux oraz inne swobodnie dostźpne programy rozpowszechniane zgodnie z zasadami licencji GPL. W ostatnich latach takie klastry komputerów sta³y siź bardzo popularne ze wzglźdu na swoj¹ nisk¹ cenź, dobr¹ wydajnoę i wysok¹ pewnoę dzia³ania.

W tym rozdziale zapoznamy siź z architektur¹, konfiguracj¹ oprogramowania oraz programowaniem klastrów Beowulf. G³ówny nacisk k³adziemy tu na aspekty programowania, pokazuj¹c kilka programów przeznaczonych do eksperymentów z klastrami. Programy te mog¹ dzia³aę zarówno na pojedynczym komputerze, jak i na wielu komputerach tworz¹cych klaster.

Konfiguracja sprzźtowa

Klaster Beowulf sk³ada siź z zestawu komputerów po³¹czonych poprzez sieę i tworz¹cych system ze wspóln¹ (ang. shared) lub cile powi¹zan¹ pamiźci¹ (ang. tightly coupled memory). Na ponisszym schemacie pokazano typow¹ konfiguracjź takiego klastra. Elementy n0 n7 oznaczaj¹ komputery, za element S jest prze³¹cznikiem lub hubem sieciowym.

Ze wzglźdu na nisk¹ cenź i stosunkowo wysok¹ wydajnoę, popularnoę wród usytkowników uzyska³y komputery z procesorami Pentium firmy Intel. Jako osprzźt sieciowy stosowane s¹ rósne elementy: poczynaj¹c od prostych hubów Ethernet 10 Mbit/s as do prze³¹czników Myrinet (niezbyt drogie, wydajne prze³¹czniki pakietów opracowane przez firmź Myrinet) lub najwydajniejszych gigabitowych prze³¹czników Ethernet. System z hubem Ethernet 10 Mbit/s nadaje siź do zastosowań domowych dla tych usytkowników, którzy chc¹ siź czego nauczyę i poeksperymentowaę z klastrami Beowulf. Takie klastry nadaj¹ siź takse do uruchamiania programów dzia³aj¹cych równolegle, o niewielkim zapotrzebowaniu na komunikowanie siź procesorów ze sob¹ podczas obliczeń. Dobrym rozwi¹zaniem dla ma³ej firmy lub instytucji badawczej o niewielkim budsecie jest system wykorzystuj¹cy prze³¹cznik Ethernet 100 Mbit/s. Obecnie dostźpne s¹ takie 64-portowe prze³¹czniki umosliwiaj¹ce po³¹czenie 64 jednostek. Wiźksze systemy mosna tworzyę, ³¹cz¹c kilka prze³¹czników kaskadowo. Mosna równies zaopatrzyę siź w prze³¹czniki o wiźkszej liczbie portów, które ostatnio pojawiaj¹ siź na rynku. Sieci o najwysszej wydajnoci, w których zastosowano rozwi¹zania firmy Myrinet lub gigabitowy Ethernet s¹ usywane g³ównie przez agencje rz¹dowe — tutaj klastry Beowulf s¹ alternatyw¹ dla tradycyjnych superkomputerów. Przyk³adem takiego rozwi¹zania jest Centrum Lotów Kosmicznych Goddarda zarz¹dzane przez NASA, w którym dzia³a system 200 procesorów po³¹czonych szybk¹ sieci¹ Ethernet i Myrinet. Systemy wykorzystuj¹ce Myrinet s¹ oko³o dziesiźciokrotnie szybsze nis systemy Ethernet 100 Mbit/s.

Konfiguracja oprogramowania

Jak jus wspomniano wczeniej, klaster Beowulf korzysta z pakietów ogólnie dostźpnego bezp³atnego oprogramowania, rozpowszechnianych na zasadach licencji GPL. Powszechnie usywanym systemem operacyjnym jest w nich Linux, poniewas mosna w nim ³atwo skonfigurowaę klaster Beowulf. W tym rozdziale zak³adamy, se Czytelnik jest zaznajomiony z instalacj¹ systemu Linux na komputerze osobistym. Jeli klaster Beowulf zawiera tylko kilka wźz³ów, to mosna je konfigurowaę kolejno z tej samej p³yty CD-ROM. Trzeba przy tym pamiźtaę o nastźpuj¹cych zagadnieniach:

q Jeden z wźz³ów klastra jest konfigurowany jako nadrzźdny (ang. master), a pozosta³e jako podrzźdne (ang. slaves).

q Wźze³ nadrzźdny i wźz³y podrzźdne s¹ po³¹czone ze sob¹ za pomoc¹ sieci. Oprócz tego wźze³ nadrzźdny ma zwykle dostźp do sieci zewnźtrznej za pomoc¹ ³¹cza Ethernet lub modemu. Dlatego w³anie wasny jest wybór odpowiedniej obs³ugi sieci i modu³ów ze sterownikami kart sieciowych — poniewas podczas konfiguracji wźz³ów potrzebna bździe dzia³aj¹ca sieę.

q Wygodnie jest skonfigurowaę konta kasdego usytkownika tak, aby wszystkie wźz³y korzysta³y ze wspólnego katalogu macierzystego (/home). Katalog ten zazwyczaj umieszcza siź na komputerze nadrzźdnym i eksportuje do pozosta³ych wźz³ów klastra. Jeseli Czytelnik nie wie, jak eksportowaę i montowaę katalogi za pomoc¹ NFS, powinien zastosowaę procedurź opisan¹ w rozdziale 22., któr¹ w skrócie podajemy nisej:

Najpierw nalesy utworzyę odpowiednie wpisy w pliku /etc/export w wźle nadrzźdnym, podaj¹c, które katalogi maj¹ byę udostźpnione. Nalesy tam wstawię wpis /home rw, dziźki czemu katalog ten bździe dostźpny do zapisu. Format pliku jest podobny do formatu usywanego w /etc/fstab. Nastźpnie w kasdym wźle nalesy udostźpnię kasdy napźd w pliku /etc/fstab jako np. master:/home /home

q Poniewas wźz³y tworz¹ silnie sprzźsony klaster, kasdy usytkownik musi mieę udostźpnione bez has³a programy rsh rcp oraz rlogin na wszystkich wźz³ach podrzźdnych (w³¹cznie z usytkownikiem root). Dziźki temu uzyskujemy system dzia³aj¹cy jak jeden komputer z dostźpem z jednego miejsca, czyli przez wźze³ nadrzźdny. Jedynie ten wźze³ musi byę w pe³ni zabezpieczony, poniewas tylko on komunikuje siź ze wiatem zewnźtrznym. Nalesy siź upewnię, czy kasdy plik /etc/hosts.equiv lub $HOME/.rhosts zawiera wpisy dotycz¹ce wszystkich komputerów tworz¹cych klaster (³¹cznie z nazwami lokalnymi i nazw¹ wźz³a nadrzźdnego). Taki plik mosna udostźpnię na wspólnym dysku.

Programowanie klastra Beowulf

W klastrach Beowulf stosuje siź model programowania polegaj¹cy na przekazywaniu komunikatów (ang. message-passing programming model). Oznacza to, se program dzia³aj¹cy równolegle sk³ada siź z procesów, z których kasdy przetwarza w³asny podzbiór danych. W celu uzyskania dostźpu i modyfikacji „obcych” danych procesy porozumiewaj¹ siź ze sob¹, wymieniaj¹c komunikaty. Najbardziej znan¹ bibliotek¹ obs³uguj¹c¹ przekazywanie komunikatów jest Message Passing Interface (w skrócie MPI). Zosta³a ona opracowana przez forum MPI — czyli konsorcjum utworzone przez uniwersytety, agencje rz¹dowe i instytucje badawcze. Standard MPI jest wykorzystywany w kilku pakietach programowania. Istnieje takse inna biblioteka wykorzystuj¹ca wymianź komunikatów o nazwie Parallel Virtual Machine (w skrócie PVM), opracowana w Oakridge National Laboratory, lecz ni¹ zajmiemy siź póniej.

Programowanie z wykorzystaniem MPI

W tym podrozdziale zajmiemy siź pakietem oprogramowania MPICH dostźpnym bezp³atnie na stronie Argonne National Laboratory (https://www-unix.mcs.anl.gov/mpi/mpich/index.html). Pierwszym krokiem przed programowaniem klastra Beowulf powinno byę po³¹czenie siź z t¹ stron¹ i pobranie odpowiedniego pakietu. Pakiet MPICH zawiera takse podrźcznik systemowy i podrźcznik usytkownika, które mosna pobraę z tej samej strony. Materia³y te wyjaniaj¹ dok³adnie proces instalacji pakietu MPICH i wywo³ania biblioteki MPI. Po pobraniu skompresowanego archiwum mpich.tar.gz na komputer g³ówny (np. n0) procedura instalacji wygl¹da nastźpuj¹co:

Zalogowaę siź jako root.

Rozkompresowaę i rozpakowaę pobrany pakiet.

Przeję do katalogu mpich

W celu wybrania domylnej architektury uruchomię skrypt ./configure

Jeseli mamy klaster SMP z wźz³ami wieloprocesorowymi, to wspomaganie architektury SMP w MPICH w³¹cza siź nastźpuj¹co:

# ./configure -opt=-O-comm shared

W takim przypadku MPICH mose korzystaę ze wspólnej pamiźci dla komunikacji wewn¹trzwźz³owej (ang. intra-node) oraz z TCP/IP dla komunikacji miźdzywźz³owej (ang. inter-node) miźdzy procesorami.

Skompilowaę oprogramowanie:

# make > make.log 2>&1

Sprawdzię w pliku make.log, czy nie wyst¹pi³y b³źdy.

Jeseli kompilacja odby³a siź bez b³źdów, zainstalowaę oprogramowanie:

# make PREFIX=/usr/local/mpi/install

Utworzyę lub zmodyfikowaę plik /usr/local/mpi/util/machines/machines.LINUX, dodaj¹c nazwy wźz³ów. W naszym przyk³adowym klastrze zawartoę tego pliku wygl¹da nastźpuj¹co:

Format tego pliku jest podobny do formatu usywanego w pliku .rhosts — jeden wpis dotyczy jednego wźz³a. Wźze³ g³ówny (np. n0), na którym jest uruchamiany program MPI, nie jest wpisywany do pliku machines.LINUX, poniewas MPI zawsze uruchamia domylnie pierwsze zadanie w wźle nadrzźdnym. Plik ten z pewnych powodów musi zawieraę co najmniej piźę wpisów. Jeseli liczba wźz³ów jest mniejsza nis piźę, to mosna powtórzyę kilka wpisów, uzyskuj¹c co najmniej piźę wierszy.

Jeseli mamy klaster SMP z dwoma procesorami w wźz³ach, to plik machines.LINUX dla naszego omiowźz³owego systemu wygl¹da nastźpuj¹co:

Zwróęmy uwagź na to, se w tym przypadku wźze³ n0 wystźpuje tylko raz, a pozosta³e wźz³y dwukrotnie, co ³¹cznie daje 15 wpisów dla omiowźz³owego klastra. Wźze³ g³ówny jest wpisany tylko raz, poniewas MPI uruchamia domylnie pierwsze zadanie w³anie w nim. Z takim plikiem konfiguracyjnym MPI bździe rozdzielaę procesy po dwa na kasdy wźze³, rozpoczynaj¹c od wźz³a nadrzźdnego n0

Utworzyę kopie katalogu /usr/local/mpi w pozosta³ych wźz³ach n1 n7 jeseli katalog /usr nie jest wspólny dla tych wźz³ów (co powinno mieę miejsce).

Podstawowe w³aciwoci programów MPI

Wszystkie programy korzystaj¹ce z MPI musz¹ zawieraę wywo³anie procedury MPI_Init potrzebne do inicjacji rodowiska programu. Procedura ta musi byę wywo³ana przed jak¹kolwiek inn¹ z biblioteki MPI. Ma ona dwa argumenty: wskanik na liczbź argumentów i wskanik na wektor argumentów, jak nisej:

int MPI_Init(int *argc, char **argv)

Kasdy program korzystaj¹cy z MPI musi równies wywo³aę funkcjź MPI_Finalize w celu oczyszczenia rodowiska programu. Po wywo³aniu MPI_Finalize nie wolno jus wywo³ywaę innych funkcji z biblioteki MPI. Wywo³anie to ma postaę:

int MPI_Finalize(void)

Po uruchomieniu programu MPI kasdemu procesowi jest przydzielana unikatowa liczba ca³kowita zwana numerem porz¹dkowym (ang. rank). Jeseli jest N procesów, to ich numer porz¹dkowy zmienia siź w granicach od do N-1. Procedury wysy³aj¹ce i odbieraj¹ce komunikaty wykorzystuj¹ ten numer do identyfikacji adresata lub nadawcy komunikatu.

Programy korzystaj¹ce z MPI usywaj¹ funkcji MPI_Comm_size oraz MPI_Comm_rank w celu uzyskania liczby procesów i ich numerów porz¹dkowych. Wywo³ania tych funkcji maj¹ postaę:

int MPI_Comm_size(MPI_Comm comm, int *size)

int MPI_Comm_rank(MPI_Comm comm, int *rank)

Jako pierwszy argument w obydwu wywo³aniach podawany jest tzw. komunikator MPI, który identyfikuje grupź procesów bior¹cych udzia³ w wymianie komunikatów. Wiźkszoę z funkcji biblioteki MPI wymaga podania tego argumentu. Najczźciej usywanym komunikatorem jest MPI_COMM_WORLD. Jest on zdefiniowany w bibliotece MPI i oznacza wszystkie procesy dzia³aj¹ce w ramach danego programu. Na przyk³ad, jeseli w programie równoleg³ym dzia³a N procesów, to zestaw okrelany przez MPI_COMM_WORLD ma rozmiar N. W wiźkszoci praktycznych zastosowań grupa okrelana przez MPI_COMM_WORLD jest jedynym komunikatorem wymaganym do napisania równolegle dzia³aj¹cego programu. MPI umosliwia takse definiowanie dodatkowych komunikatorów okrelaj¹cych podzbiory procesów. Dziźki temu programista mose przydzielię taki podzbiór do wykonywania okrelonych zadań w ramach programu równoleg³ego.

Ponisej podajemy sposób utworzenia równoleg³ej wersji standardowego programu Hello World:

Najpierw do³¹czamy wymagane pliki i deklarujemy zmienne:

#include <stdio.h>

#include 'mpi.h'

int main(int argc, char *argv[])

Kompilacja i uruchamianie prostego programu MPI

W tym podrozdziale opiszemy, jak nalesy kompilowaę i uruchamiaę program korzystaj¹cy z biblioteki MPI na klastrze Beowulf, bior¹c jako przyk³ad standardowy programik Hello World. Po zainstalowaniu tej biblioteki w katalogu /usr/local/mpi musimy dodatkowo zmodyfikowaę cieskź wyszukiwania plików wykonywalnych, dopisuj¹c do niej katalog /usr/local/mpi/bin. Program hello.c jest kompilowany za pomoc¹ polecenia mpicc

$ mpicc -o hello hello.c

Polecenie mpicc uruchamia kompilator jźzyka C z odpowiednimi opcjami umosliwiaj¹cymi korzystanie z biblioteki MPI. Mosna w tym poleceniu przekazaę opcje zwyk³ego kompilatora jźzyka C. Podczas kompilacji mog¹ byę wywietlane dodatkowe informacje, jeseli zastosujemy opcjź -show

$ mpicc -show -o hello hello.c

Otrzymujemy wówczas:

cc -DUSE_STDARG -DHAVE_STDLIB_H=1 -DHAVE_STRING_H=1

-DHAVE_UNISTD_H=1 -DHAVE_STDARG_H=1 -DUSE_STDARG=1

-DMALLOC_RET_VOID=1 -I/usr/local/mpi/include

/usr/local/mpi/build/LINUX/ch_p4/include -c -O hello.c

cc -DUSE_STDARG -DHAVE_STDLIB_H=1 -DHAVE_STRING_H=1

-DHAVE_UNISTD_H=1 -DHAVE_STDARG_H=1 -DUSE_STDARG=1

-MALLOC_RET_VOID=1 -L/usr/local/mpi/build/LINUX/ch_p4/lib

hello.o -O -o hello -lpmpich -lmpich

Programy korzystaj¹ce z MPI musz¹ byę uruchamiane za pomoc¹ polecenia mpirun. Zak³adamy, se usytkownik ma dostźp do katalogu macierzystego wspólnego dla wszystkich wźz³ów. Katalog ten jest umieszczony w jednym z nich (np. w wźle n0) i jest zamontowany w pozosta³ych za pomoc¹ NFS. Jeseli usytkownik ma w kasdym wźle oddzielny katalog macierzysty, to trzeba skopiowaę plik wykonywalny z wźz³a nadrzźdnego do kasdego takiego katalogu za pomoc¹ polecenia rcp. Program Hello World uruchamiamy na wszystkich omiu wźz³ach naszego klastra w nastźpuj¹cy sposób:

$ mpirun -np 8 hello

Jako wynik dzia³ania tego przyk³adowego programu powinnimy otrzymaę:

Hello world, I am host n4 with rank 4 of 8

Hello world, I am host n2 with rank 2 of 8

Hello world, I am host n3 with rank 3 of 8

Hello world, I am host n5 with rank 5 of 8

Hello world, I am host n6 with rank 6 of 8

Hello world, I am host n7 with rank 7 of 8

Hello world, I am host n1 with rank 1 of 8

Hello world, I am host n0 with rank 0 of 8

Po ponownym uruchomieniu programu kolejnoę pokazanych wysej wierszy mose siź zmienię.

Rozproszony koder MP3

Jako drugi przyk³ad wybralimy rozproszony koder MP3. Program ten, dzia³aj¹c równolegle na klastrze Beowulf przekszta³ca wiele plików WAV na pliki MP3. Do kodowania wykorzystano koder MP3 o nazwie Blade, który jest udostźpniany na zasadach licencji GPL. Przy tworzeniu rozproszonej wersji kodera stosujemy nastźpuj¹c¹ procedurź:

Pobraę stabiln¹ wersjź ród³ow¹ kodera ze strony https://bladeenc.mp3.no.

Rozkompresowaę i rozpakowaę archiwum z wersj¹ ród³ow¹:

$ tar xvzf bladeenc-n-src-stable.tar.gz

W ten sposób zostanie utworzony katalog bladeenc-n-src-stable n oznacza numer wersji).

Przeję do katalogu bladeenc-n-src-stable

$ cd bladeenc-082-src-stable

W kodzie ród³owym programu wprowadzię nastźpuj¹ce modyfikacje:

a. Zmienię nazwź main.c na bladeenc.c

b. Zmodyfikowaę plik bladeenc.c zmieniaj¹c w nim „main” na „bladeenc

Zmodyfikowaę plik Makefile nastźpuj¹co:

a. Dopisaę bladeenc.o do listy tworzonych plików obiektowych (OBJS

b. Zast¹pię gcc przez mpicc

Zast¹pię plik main.c opisanym nisej programem:

Najpierw do³¹czamy wymagane pliki nag³ówkowe, deklarujemy zmienne i wywo³ujemy procedurź inicjuj¹c¹ MPI:

#include <stdio.h>

#include <mpi.h>

static int nproc;

static int iproc;

extern void bladeenc(int argc, char **argv);

int main(int argc, char **argv)

else

}

else

Kasdy proces korzysta przy przetwarzaniu plików z wywo³ania procedury bladeenc

bladeenc(n+1, argv+first);

Na zakończenie wywo³ywana jest funkcja MPI_Finalize kończ¹ca dzia³anie programu:

MPI_Finalize();

return 0;

Taki program mosna skompilowaę i uruchomię na klastrze Beowulf za pomoc¹ nastźpuj¹cych poleceń:

$ make

$ mpirun -np 3 bladeenc x1.wav x2.wav x3.wav x4.wav

Ostatnie polecenie uruchamia przetwarzanie czterech plików WAV na pliki MP3, korzystaj¹c z trzech procesorów klastra Beowulf. Widzimy, jak wasne jest usycie wspólnych katalogów, poniewas wymagana jest obecnoę wszystkich plików WAV we wszystkich wźz³ach, ponadto wynikowe pliki MP3 s¹ zachowywane tylko w tych wźz³ach, w których je uzyskano (jeli lokalizacje nie by³yby wspólne, to kasdy plik nalesa³oby kopiowaę na miejsce przeznaczenia).

W omówionym programie do rozk³adu plików miźdzy poszczególne procesory zastosowano podejcie statystyczne, poniewas kasdy procesor przekszta³ca zbiór plików okrelony na pocz¹tku programu. Takie podejcie jest odpowiednie wówczas, gdy kodowane pliki maj¹ w przybliseniu ten sam rozmiar. Jeli rozmiary plików rósni¹ siź znacznie, to w wyniku takiego podzia³u zadań otrzymamy nierównomierne obci¹senie procesorów. W takich przypadkach lepszy bździe model klient-serwer (ang. client-server programming model). Serwer przekazuje wówczas nazwź pliku, który ma byę przetworzony, jako odpowied na s¹danie klienta wykonuj¹cego przetwarzanie.

Wydajnoę komunikacyjna klastra Beowulf

W tym podrozdziale pokasemy prosty program do pomiaru czasu przejcia komunikatów o rósnych d³ugociach miźdzy dwoma wźz³ami klastra Beowulf. Program korzysta z funkcji bibliotecznych MPI_Send i MPI_Recv do wysy³ki i odbioru komunikatów. Sk³adnia wywo³ań tych funkcji jest nastźpuj¹ca:

int MPI_Send(void *buf, int count, MPI_Datatype datatype,

int dest, int tag, MPI_Comm comm)

int MPI_Recv(void *buf, int count, MPI_Datatype datatype,

int source, int tag, MPI_Comm comm, MPI_Status *status)

Procedura MPI_Send wysy³a liczbź count elementów danych typu datatype przechowywanych w buforze buf do wźz³a o numerze porz¹dkowym dest w domenie komunikacyjnej comm. W podobny sposób mosna opisaę dzia³anie procedury MPI_Recv: odbiera ona z wźz³a o numerze porz¹dkowym source znajduj¹cego siź w domenie komunikacyjnej comm liczbź count elementów danych typu datatype wpisuj¹c je do bufora buf. Obydwie procedury usywaj¹ takse znacznika ca³kowitoliczbowego (etykiety) tag, który pomaga odrósniaę komunikaty od tego samego nadawcy. W pliku mpi.h s¹ zdefiniowane rósne typy danych:

Typ danych w jźzyku C	Typ danych w bibliotece MPI
char	MPI_CHAR
short int	MPI_SHORT
int	MPI_INT
long int	MPI_LONG
unsigned char	MPI_UNSIGNED_CHAR
unsigned short int	MPI_UNSIGNED_SHORT
unsigned int	MPI_UNSIGNED
unsigned long int	MPI_UNSIGNED_LONG

Program roundtrip.c jest zbudowany w nastźpuj¹cy sposób:

Wstawiamy pliki nag³ówkowe:

#include <stdio.h>

#include <stdlib.h>

#include 'mpi.h'#include <sys/time.h>

Definiujemy kilka wywo³ań makrodefinicji s³us¹cych do pomiaru czasu:

static struct timeval time_value1;

static struct timeval time_value2;

#define START_TIMER gettimeofday(&time_value1, (struct timezone*)0)

#define STOP_TIMER gettimeofday(&time_value2, (struct timezone*)0)

#define ELAPSED_TIME(double) ((time_value2.tv-usec -

time_value1.tv_usec)*0.001

+ ((time_value2.tv_sec-time_value1.tv_sec)*1000.0)))

Globalne deklaracje zmiennych:

static char *buffer ;

static int iproc ;

static int nproc ;

Nastźpnie pojawia siź funkcja usywana do pomiaru czasu przebiegu. Ma ona dwa argumenty: pierwszym jest liczba przebiegów, a drugim — rozmiar komunikatu w bajtach:

double roundtrip ( int count, int size )

else

Zatrzymujemy odliczanie czasu i zwracamy czas, który up³yn¹³:

STOP_TIMER;

return (ELAPSED)TIME / ((double) count));

Od tego miejscu rozpoczyna siź g³ówna procedura programu. Najpierw nastźpuj¹ wywo³ania funkcji MPI inicjuj¹ce otoczenie i zwracaj¹ce wartoci nproc oraz iproc. Program przyjmuje jeden argument wiersza poleceń: count — jest to liczba komunikatów do wys³ania i odebrania. Program uruchamia tylko dwa procesy:

int main(int argc, char *argv[])

Zwalniamy bufory i wywo³ujemy MPI_Finalize na zakończenie programu:

free ( p ) ;

}

MPI_Finalize ();

return 0:

Teraz skompilujemy i uruchomimy ten program:

$ mpicc -O -o roundTrip roundTrip.c

$ mpirun -np. 2 roundTrip

Jako wynik dzia³ania tego programu w klastrze wykorzystuj¹cym sieę Ethernet 100 Mbit/s otrzymalimy:

Bytes Elapsed Time (ms)

0.5674

0.5546

0.5604

0.5632

0.5556

0.5667

0.5993

0.6253

0.6781

0.8384

1.1323

1.7464

2.3025

3.8878

7.0513

13.2913

28.5340

56.4394

110.4963

Opónienie i przepustowoę s¹ dwoma wasnymi parametrami, które charakteryzuj¹ sieę. Opónienie (ang. latency) okrela bezw³adnoę wysy³ania lub odbioru komunikatu i czźsto jest mierzone jako po³owa czasu przejcia krótkiego komunikatu z jednego wźz³a do innego i z powrotem. Dlatego w sieci 100 Mbit/s zarejestrowalimy opónienie równe ok. 0,28 s. Przepustowoę (ang. bandwidth) okrela szybkoę przekazu danych. Korzystaj¹c z czasu obiegu najd³usszych komunikatów, okrelilimy, se faktyczna przepustowoę naszej sieci dla d³ugich komunikatów wynosi 75 Mbit/s, czyli ok. 75% wartoci teoretycznej.

Usywane w naszym przyk³adowym programie procedury biblioteczne do wysy³ki i odbioru komunikatów s¹ nazywane procedurami blokuj¹cymi (ang. blocking routines). Podczas blokuj¹cego wysy³ania sterowanie nie powraca do programu wywo³uj¹cego, dopóki bufor nadawczy nie bździe gotowy do ponownego usycia. Nie oznacza to jednak, se dane zostan¹ odebrane ani se faktycznie zosta³y one wys³ane. Podczas blokuj¹cego odbioru sterowanie nie powraca do programu wywo³uj¹cego, dopóki odebrane dane nie znajd¹ siź w buforze odbiorczym. W bibliotece MPI wystźpuj¹ takse nieblokuj¹ce wersje procedur nadawczo-odbiorczych, które omówimy w nastźpnych podrozdzia³ach.

Przegl¹d zaawansowanych w³aciwoci MPI

Procedury inicjuj¹ce oraz blokuj¹ce procedury nadawczo-odbiorcze z biblioteki MPI wystarczaj¹ ca³kowicie do napisania wiźkszoci programów korzystaj¹cych z tej biblioteki. MPI zawiera jednak wiele innych funkcji wspomagaj¹cych programistź w efektywnym tworzeniu dzia³aj¹cych równolegle programów.

Procedury obs³uguj¹ce komunikacjź miźdzy dwoma wźz³ami

Oprócz podstawowych funkcji komunikacyjnych MPI_Send i MPI_Recv opisanych w poprzednim podrozdziale, w bibliotece MPI znajduj¹ siź takse inne procedury umosliwiaj¹ce przekazywanie komunikatów miźdzy dwoma wźz³ami. Jedn¹ z takich procedur jest MPI_Sendrecv, przydatna przy wymianie komunikatów. Przy takiej operacji dwa procesy zaangasowane w komunikacjź wymieniaj¹ miźdzy sob¹ dane:

int MPI_Sendrecv(void *sendbuf, int sendcount, mPI_Datatype sendtype,

int dest, int sendtag,void *recvbuf, int recvcount,

MPI_Datatype recvtype, int source,

MPI_Datatype recvtag, MPI_Comm comm, MPI_Status *status)

Ponisej pokazano przyk³ad takiego dzia³ania dwóch procesów:

Fragment kodu definiuj¹cego operacjź wymiany ma nastźpuj¹c¹ postaę:

Kolejn¹ odmianź funkcji komunikacyjnych dla dwóch wźz³ów dostźpn¹ w MPI stanowi¹ nieblokuj¹ce funkcje wysy³ki i odbioru, które pozwalaj¹ na dodatkowe przeprowadzanie obliczeń podczas wymiany danych. Usycie nieblokuj¹cych wersji funkcji komunikacyjnych pozwala uzyskaę wiźksz¹ wydajnoę programów równoleg³ych w sieciach wyposasonych w urz¹dzenia korzystaj¹ce z kana³ów DMA (Direct Memory Access). Taki sprzźt znajduje siź na rynku jus co najmniej od 10 lat, a wiźc programista mose zak³adaę wykorzystanie DMA bez wiźkszych obaw, chyba se program bździe przeznaczony dla bardzo przestarza³ych systemów.

Podczas nieblokuj¹cej wysy³ki nadawca przekazuje s¹danie wysy³ki i natychmiast powraca do wykonywania innych zadań. Przed powtórnym usyciem bufora komunikatów proces musi przeprowadzię albo operacjź wait, albo test, aby sprawdzię dostźpnoę tego bufora. MPI zawiera funkcje specjalnie przeznaczone do tego celu. Operacja wait jest operacj¹ blokuj¹c¹, za test jest operacj¹ nieblokuj¹c¹, zwracaj¹c¹ natychmiast wynik (oznaczaj¹cy brak dostźpu do bufora) lub (dostźpnoę bufora). Dziźki temu operacja test umosliwia wykonanie wiźkszej dodatkowej pracy w razie braku dostźpu do bufora.

Podobnymi w³aciwociami charakteryzuje siź nieblokuj¹cy odbiór: odbiorca przekazuje s¹danie odbioru i powraca natychmiast do swoich zadań. Jeseli odbiorca wymaga danych, to takse korzysta z operacji wait lub test do sprawdzenia, czy odbiór danych zosta³ zakończony.

Wywo³ania nieblokuj¹cych operacji wysy³ki i odbioru maj¹ nastźpuj¹c¹ postaę:

int MPI_Isend(void *buf, int send_count, MPI_Datatype data_type,

int destination, int tag, MPI_Comm communicator,

MPI_Request *request)

int MPI_Irecv(void *buf, int send_count, MPI_Datatype data_type,

int destination, int tag, MPI_Comm communicator,

MPI_Request *request)

Ostatni argument w tych wywo³aniach jest usywany przez funkcje MPI_Wait i MPI_Test sprawdzaj¹cych kompletnoę przesy³ki.

MPI_Wait(MPI_Request *request, MPI_Status *status)

MPI_Test(MPI_Request *request, int *isDone, MPI_Status *status)

W funkcji MPI_Test wystźpuje znacznik isDone, który przybiera wartoę , jeseli s¹danie zosta³o zakończone i w przeciwnym wypadku. Funkcje te maj¹ takse jeszcze jeden wariant, pozwalaj¹cy programicie sprawdzaę za pomoc¹ pojedynczego wywo³ania ukończenie obs³ugi wielu s¹dań komunikacyjnych.

Typy danych definiowane przez usytkownika

Wszystkie funkcje komunikacyjne MPI przyjmuj¹ jako argument typ danych. Oprócz typów zdefiniowanych w bibliotece (wymienionych w jednym z poprzednich podrozdzia³ów), MPI zezwala na definiowanie typów przez usytkownika. Dziźki temu podczas tworzenia równoleg³ych programów korzystaj¹cych z MPI mose wzrosn¹ę wydajnoę i elastycznoę obs³ugi. W tym podrozdziale omówimy kilka wasnych funkcji bibliotecznych wykorzystywanych do definiowania typów danych.

Najprostszym konstruktorem typów danych jest MPI_Type_contiguous, pozwalaj¹cy na tworzenie danych typu „ci¹g³ego”.

int MPI_Type_contiguous(int count, MPI_Datatype old_type,

MPI_Datatype *new_type)

Na ponisszym rysunku pokazano macierz 4x4. Kasdy wiersz tej macierzy jest ci¹g³¹ macierz¹ o rozmiarze 4.

Przy za³oseniu, se dane s¹ liczbami ca³kowitymi (typu integer), mosemy w nastźpuj¹cy sposób utworzyę nowy typ o nazwie row reprezentuj¹cy wiersz tej macierzy:

MPI_Datatype row;

MPI_Type_contiguous(4, MPI_INT, &row);

Funkcje MPI_Type_vector i MPI_Type_hvector s¹ usywane do tworzenia typów danych bźd¹cych zwymiarowanymi wektorami. W pierwszej z tych funkcji rozmiarem (stride) jest po prostu liczba elementów, w drugiej za rozmiarem jest liczba bajtów.

MPI_Type_vector(int count, int block_length, int stride,

MPI_Datatype old_type, MPI_Datatype *new_type)

MPI_Type_hvector(int count, int block_length, int stride,

MPI_Datatype old_type, MPI_Datatype *new_type)

Na nastźpnym rysunku pokazano tź sam¹ macierz 4x4 z zaznaczeniem kolumny.

Kasda kolumna tej macierzy jest zwymiarowanym wektorem (ang. strided vector) o liczbie elementów równej 4, d³ugoci bloku równej 1 i rozmiarze (czyli odstźpie miźdzy kolejnymi wektorami) równym 4. Mosemy utworzyę typ danych o nazwie column, reprezentuj¹cy kolumny tej macierzy za pomoc¹ nastźpuj¹cego fragmentu kodu:

MPI_Datatype column;

MPI_Type_vector(4, 1, 4, MPI_INT, &column);

Korzystaj¹c z typu danych column, mosemy teraz utworzyę inny typ, który bździe reprezentowa³ transponowan¹ postaę naszej macierzy, który nazwiemy transposed_matrix

MPI_Datatype transposed_matrix;

MPI_Type_hvector(4, 1, sizeof(int), column, &transposed_matrix);

W tym przypadku usyta by³a funkcja MPI_Type_hvector, poniewas rozmiar bździe mierzony w bajtach.

int MPI_Type_commit(MPI_Datatype *datatype)

Zanim takie pochodne typy danych zostan¹ usyte w operacjach komunikacyjnych, nalesy je zatwierdzię za pomoc¹ funkcji MPI_Type_comit

int MPI_Type_free(MPI_Datatype *datatype

Przyk³ad usycia omówionych tu funkcji bibliotecznych w postaci programu do transponowania macierzy kwadratowych jest podany w dalszej czźci rozdzia³u.

Operacje kolektywne

Przy tworzeniu programów dzia³aj¹cych równolegle na klastrze Beowulf bardzo pomocne okazuj¹ siź funkcje do komunikacji grupowej. Najwasniejsze z nich dotycz¹ takich operacji komunikacyjnych, jak redukcja (ang. reduce), rozg³aszanie (ang. broadcast), rozpraszanie (ang. scatter), gromadzenie (ang. gather), wszyscy do wszystkich (ang. all-to-all) oraz tworzenie bariery (ang. barrier). Ta grupa funkcji mose dzia³aę na typach danych zdefiniowanych w MPI lub przez usytkownika, opisanych w poprzednich podrozdzia³ach. Mog¹ one obs³ugiwaę wiele wstźpnie zdefiniowanych operacji wymienionych w ponisszej tabeli oraz operacje zdefiniowane przez usytkownika:

Operacja	Rodzaj operacji MPI
Maksimum	MPI_MAX
Minimum	MPI_MIN
Suma	MPI_SUM
Iloczyn	MPI_PROD
Logiczne OR	MPI_LOR
Bitowe OR	MPI_BOR
Logiczne XOR	MPI_LXOR
Bitowe XOR	MPI_LXOR
Logiczne AND	MPI_LAND
Bitowe AND	MPI_BAND

Rozg³aszanie (broadcast)

Operacja rozg³aszania polega na tym, se proces macierzysty wysy³a dane do wszystkich procesów ze swojej grupy komunikacyjnej.

int MPI_Bcast (void *buffer, int count, MPI_Datatype data_type,

int root, MPI_Comm comm)

Operacja rozg³aszania pokazana jest schematycznie na ponisszym rysunku:

Rozpraszanie (scatter)

W operacji rozpraszania proces macierzysty (ang. root process) rozdziela dane z tablicy miźdzy inne procesy. Jeseli N jest liczb¹ wszystkich procesów, a do kasdego procesu wysy³a siź M elementów, to rozmiar tablicy wynosi MxN

int MPI_Scatter (void * send_buf, int send_cnt, MPI_Datatype send_type,

void *recv_buf, int recv_cnt, mPI_Datatype recv_type,

int root, MPI_Comm comm)

Operacja rozpraszania jest pokazana na rysunku nisej. Oprócz pokazanego tu schematu dzia³ań istnieje jeszcze kilka innych wariantów tej operacji.

Gromadzenie (gather)

Podczas operacji gromadzenia proces macierzysty pobiera dane od innych procesów. Jeseli istnieje M procesów i kasdy proces ma tablicź danych o rozmiarze N, to zebrane dane maj¹ rozmiar MxN

int MPI_Gather (void *send_buf, int send_cnt, MPI_Datatype send_type,

void *recv_buf, int recv_cnt, MPI_Datatype recv_type,

int root, MPI_Comm comm )

Operacja gromadzenia pokazana jest na ponisszym schemacie. W bibliotece MPI istnieje kilka wariantów tej operacji.

Redukcja (reduce)

Dotyczy ona globalnie wykonywanych operacji redukuj¹cych, takich jak dodawanie (add), znajdowanie maksimum (max) lub minimum (min) dla danych roz³osonych we wszystkich procesach w grupie komunikacyjnej. W bibliotece MPI istniej¹ dwie takie operacje o nazwach MPI_Reduce i MPI_Allreduce. Pierwsza z nich przekazuje wynik tylko do procesu macierzystego, natomiast druga zwraca wynik do wszystkich cz³onków grupy komunikacyjnej.

int MPI_Reduce (void *send_buf, void *recv_buf, int count,

MPI_Datatype data_type, MPI_Op op, int root,

MPI_Comm comm)

int MPI_Allreduce(void *send_buf, void *recv_buf, int count,

MPI_Datatype data_type, MPI_Op op, MPI_Comm comm )

Te dwie operacje redukcji pokazane s¹ na ponisszych schematach:

Wszyscy do wszystkich (all-to-all)

Zgodnie ze swoj¹ nazw¹ funkcja MPI_Alltoall wysy³a dane ze wszystkich do wszystkich procesów. Jeseli istnieje N procesów i kasdy proces ma przydzielon¹ jednowymiarow¹ tablicź danych o rozmiarze M*N, to proces i wysy³a M elementów do procesu j pocz¹wszy od elementu M*(j-1). Proces j przechowuje dane odebrane z procesu i w swojej tablicy, pocz¹wszy od elementu M*(i-1)

int MPI_Alltoall( void *send_buf, int send_count, MPI_Datatype send_type,

void *recv_buf, int recv_cnt, MPI_Datatype recv_type,

MPI_Comm comm)

Schemat ilustruj¹cy dzia³anie funkcji MPI_Alltoall pokazano na rysunku nisej. W bibliotece MPI istnieje kilka odmian tej operacji.

Bariera (barrier)

Bariera stosowana jest do synchronizacji procesów nales¹cych do grupy komunikacyjnej. Æaden proces nie mose przes³aę danych przez barierź, dopóki wszyscy cz³onkowie grupy jej nie osi¹gn¹.

int MPI_Barrier(MPI_Comm comm)

Przyk³ady programów korzystaj¹cych z MPI

W tym podrozdziale omówimy programy pokazuj¹ce zastosowanie kilku funkcji z biblioteki MPI. Pokasemy komunikacjź grupow¹, nieblokuj¹ce nadawanie i odbiór oraz tworzenie w³asnych typów danych.

Obliczanie wartoci liczby „pi”

Jako pierwszy pokazujemy program obliczaj¹cy wartoę liczby „pi” na postawie schematu numerycznego. Usyto w nim funkcji komunikacji grupowej MPI_Reduce

Schemat obliczeniowy usyty w naszym programie jest pokazany na ponisszym rysunku:

Zgodnie z tym schematem wartoę „pi” mose byę przyblisona za pomoc¹ sumy pól N prostok¹tów (w naszym przyk³adzie N=4). Na rysunku pokazano takse rozk³ad obci¹senia na poszczególne procesory (dla wariantu dwuprocesorowego). W wersji równoleg³ej kasdy proces oblicza sumź obszaru przydzielonych mu prostok¹tów, po czym nastźpuje wywo³anie funkcji MPI_Reduce obliczaj¹cej sumź wszystkich sum cz¹stkowych, stanowi¹c¹ przyblisenie „pi”. Na zakończenie proces g³ówny wypisuje tź wartoę.

Równoleg³a wersja programu obliczeniowego jest wiźc nastźpuj¹ca:

Wstawiamy pliki nag³ówkowe:

#include <match.h>

#include <stdlib.h>

#include 'mpi.h'

Dalej nastźpuje kilka makrodefinicji. Wartoę „pi” jest obliczana jako pole obszaru pod wykresem funkcji f(x) zdefiniowanej jako:

#define f(x) (4.0/(1.0+(x)*(x)))

#define PI 3.141592653589793238462643

Tu rozpoczyna siź g³ówna procedura. Deklarujemy tu równies zmienne i wywo³ujemy kilka funkcji biblioteki MPI:

int main (int argc, char *argv[])

Do obliczenia sumy wszystkich pól usyta jest funkcja MPI_Reduce, która kończy siź w procesie g³ównym:

MPI_Reduce(&local_area, &pi, 1, MPI_DOUBLE, MPI_SUM, 0,

MPI_COMM_WORLD);

Proces g³ówny wypisuje wartoę „pi”, a nastźpnie wywo³uje funkcje MPI_Finalize kończ¹c¹ dzia³anie programu:

if( iproc == 0 )

MPI_Finalize () ;

return 0;

Ten program mosna skompilowaę i uruchomię w klastrze Beowulf w nastźpuj¹cy sposób:

q Kompilacja:

$ mpicc -O -o pi pi.c

q Uruchomienie programu dla 8 procesorów i 2000 prostok¹tów:

$ mpirun -np. 8 pi 2000

Uzyskany wynik powinien wynosię 3,1415926744231264, czyli jest obarczony b³źdem równym 0,0000000208333333.

Obliczanie fraktala Mandelbrota

Drugi przyk³ad ilustruje obliczanie fraktala Mandelbrota. W programie zastosowano operacjź gromadzenia.

Fraktal Mandelbrota M jest zbiorem wartoci c, które d¹s¹ do stabilnego rozwi¹zania zespolonego równania iteracyjnego z = z² + c, pocz¹wszy od z = 0. Mosna dowieę, se zawsze, jeli podczas iteracji modu³ liczby z staje siź wiźkszy nis , to z ronie nieskończenie, prowadz¹c do rozwi¹zania niestabilnego. Tź w³aciwoę wykorzystuje siź do obliczenia przyblisonego rozwi¹zania fraktala Mandelbrota, wykonuj¹c okrelon¹ liczbź iteracji równania dla kasdej wartoci c. Kasda wartoę c, dla której modu³ z jest mniejszy nis , bździe naleseę do fraktala Mandelbrota. Zwykle tym obliczeniom towarzyszy kolorowy obraz generowany przez przyporz¹dkowywanie czerni punktom nales¹cym do fraktala oraz innych kolorów pozosta³ym punktom obrazu. Kolory tych pozosta³ych punktów s¹ dobierane proporcjonalnie do liczby iteracji wymaganych do tego, aby modu³ z sta³ siź wiźkszy nis

Fraktal Mandelbrota bździe obliczany dla zestawu punktów wewn¹trz kwadratowego obszaru o boku równym , umieszczonego w pocz¹tku uk³adu wspó³rzźdnych na p³aszczynie zespolonej. Program obliczeń równoleg³ych korzysta ze schematu odwzorowuj¹cego siatkź obliczeniow¹ na prostok¹tne obszary roz³osone równolegle do osi y i przydzielone poszczególnym procesorom. Jedyn¹ funkcj¹ wykorzystywan¹ w tym programie do komunikacji miźdzyprocesorowej jest gromadzenie i zapis danych do pliku w wźle g³ównym z tablicy przechowuj¹cej obraz, rozdzielonej miźdzy poszczególne procesory. Do tego celu usyto funkcji MPI_Gather

Ponisej podano kod ród³owy takiego programu, któremu nadano nazwź mand.c

Program obliczaj¹cy fraktal Mandelbrota wymaga podania dwóch argumentów w wierszu poleceń. Jako pierwsza podawana jest liczba iteracji, a jako druga — wartoę zmiennej nt okrelaj¹ca rozmiary siatki wspó³rzźdnych (nt*nt). Wartoę nt powinna byę podzielna przez liczbź procesorów.

#include <stdio.h>

#include <stdlib.h>

#include 'mpi.h'

int main(int argc, char **argv)

Tutaj nastźpuje generacja obrazu:

if (flag)

else image[i] = 0.0;

Teraz procesor uruchamia procedurź gromadzenia danych. Końcowy obraz jest przekazywany do procesora g³ównego:

MPI_Gather(image, nt*n, MPI_FLOAT, image_g, nt*n, MPI_FLOAT, 0,

MPI_COMM_WORLD);

Procesor g³ówny zapisuje obraz do pliku:

if (iproc == 0)

Pozostaje tylko oczyszczenie rodowiska programu i zakończenie jego dzia³ania:

free(image);

free(image_g);

MPI_Finalize();

return 0;

Kompilacja i uruchomienie programu obliczaj¹cego fraktal Mandelbrota na klastrze Beowulf odbywa siź nastźpuj¹co:

$ mpicc -O -o mand mand.c

$ mpirun -np. 8 mand 100 512

Takie polecenia powoduj¹ generacjź obrazu symbolizuj¹cego fraktal Mandelbrota przy 100 iteracjach na siatce o rozmiarach 512x512.

Wynik zostaje zapisany w pliku mand.out. Pokazany nisej obraz zosta³ utworzony za pomoc¹ programu pomocniczego saoimage, przeznaczonego do wywietlania obrazów w rodowisku X Window. Pakiet ten, opracowany w Smithsonian Astrophysical Laboratory, mosna pobraę ze strony https://tdc-www.harvard.edu/software/saoimage.html.

Schemat odwzorowania usyty w obliczeniach fraktala Mandelbrota nazywany jest odwzorowaniem blokowym (ang. block oriented scheme), poniewas poszczególnym procesorom s¹ przydzielane grupy przylegaj¹cych do siebie kolumn. Podczas obserwacji tworzonego obrazu mosna stwierdzię, se taki blokowy schemat odwzorowania nie daje programu o dobrze zrównowasonym obci¹seniu poszczególnych procesorów, poniewas niektóre wźz³y wytwarzaj¹ wiźcej punktów nis pozosta³e. Wiźcej czasu zajmuj¹ tu obliczenia dla punktów nales¹cych do fraktala, poniewas w tym przypadku trzeba wykonywaę maksymaln¹ liczbź iteracji równania. Lepsz¹ strategi¹ mose siź wiźc okazaę dynamiczne przydzielanie kolejnych kolumn poszczególnym procesorom, pocz¹wszy od kolumny o numerze 0.

Transponowanie macierzy

Nastźpny przyk³ad dotyczy programu obliczaj¹cego macierz transponowan¹ dla danej macierzy kwadratowej. Wykorzystalimy tu procedury z biblioteki MPI s³us¹ce do tworzenia w³asnych typów danych, wykonuj¹ce zadania komunikacyjne bez blokowania oraz przeprowadzaj¹ce operacjź rozpraszania danych.

Transponowanie macierzy (ang. matrix transpose) jest bardzo wasn¹ czynnoci¹ wystźpuj¹c¹ w wielu algorytmach obliczeniowych. Metoda przydzielania czźci macierzy poszczególnym procesorom jest wybierana przewasnie na podstawie ogólnej charakterystyki komunikacyjnej ca³ego programu. W naszym przyk³adzie pos³usymy siź jednowymiarowymi blokami stanowi¹cymi fragmenty macierzy, które bźd¹ przydzielane procesorom zgodnie z podanym nisej schematem. Taki sposób podzia³u macierzy jest szczególnie wygodny w algorytmach korzystaj¹cych z szybkiej transformaty Fouriera.

Nastźpny rysunek ilustruje algorytm obliczania macierzy transponowanej. Jeseli macierz ma rozmiary N * N i jeseli mamy M procesorów (oraz N jest podzielne przez M), to macierz jest dzielona na M² fragmentów o rozmiarach (N/M) * (N/M). Na rysunku pokazano taki podzia³ dla macierzy 4x4 i dla dwóch procesorów. Kasda macierz zawiera M macierzy sk³adowych. Zapis Aij oznacza j-t¹ macierz sk³adow¹ i-tego procesora. Podczas transponowania macierzy i-ty procesor wymienia swoj¹ transponowan¹ j-t¹ macierz sk³adow¹ na transponowan¹ i-t¹ macierz sk³adow¹ j-tego procesora. W naszym programie do uzyskania macierzy transponowanej potrzeba M wywo³ań funkcji MPI_Isend i po kasdym takim wywo³aniu M s¹dań MPI_Irecv. Po wysy³ce s¹dań nadania i odbioru procesor po prostu oczekuje na ukończenie zadania. Zwróęmy uwagź na to, se usycie pochodnych typów danych znacznie upraszcza sam program, poniewas mosna w ten sposób unikn¹ę transponowania macierzy sk³adowych.

Na pocz¹tku mamy do³¹czanie plików i globalne deklaracje zmiennych:

#include <stdio.h>

#include 'mpi.h'

static int nproc ;

static int iproc ;

Tutaj jest pokazana funkcja wywietlaj¹ca zawartoę macierzy N * N

void print_matrix (char *mesg, int N, int *a)

printf('n');

}

Nastźpnie mamy procedurź transponuj¹c¹ macierz:

void transpose(int n, *a, int *b)

Kasdy procesor dokonuje nproc nieblokuj¹cych odbiorów:

for (i = 0 ; i < nproc ; i++)

Procesory oczekuj¹ na zakończenie operacji wysy³kowych:

for (i = 0 ; i < nproc ; i++)

Procesory oczekuj¹ na zakończenie operacji odbiorczych:

for (i = 0 ; i < nproc ; i++)

Zwolnienie pamiźci przydzielonej dla macierzy:

free(send_request);

free(recv_request);

free(send_status);

free(recv_status);

Tutaj rozpoczyna siź g³ówna procedura programu:

int main(int argc, char *argv[])

Do przes³ania fragmentu macierzy do kasdego procesora usywana jest funkcja MPI_Scatter

MPI_Scatter(a, N*NL, MPI_INT, a_local, N*NL, MPI_INT, 0, MPI_COMM_WORLD);

Procesory wykonuj¹ operacjź transponowania macierzy:

transpose(N, a_local, b_local);

Macierz wynikowa jest gromadzona przez procesor g³ówny:

MPI_Gather (b_local, N*NL, MPI_INT, b, N*NL, MPI_INT, 0, MPI_COMM_WORLD);

Procesor g³ówny wywo³uje funkcjź print_matrix do wywietlenia macierzy wejciowej i wyjciowej:

if (iproc == 0)

free(a);

free(a_local);

free(b);

free(b_local);

Na zakończenie programu jest wywo³ywana funkcja MPI_Finalize

MPI_Finalize();

exit(0) ;

Programowanie z zastosowaniem PVM

Pakiet o nazwie Parallel Virtual Machine (PVM) jest inn¹ bibliotek¹ zawieraj¹c¹ funkcje wymiany komunikatów, któr¹ mosna zastosowaę do programowania klastrów Beowulf. Realizacjź projektu PVM rozpoczźto jus w roku 1989. w Oak Ridge National Laboratory i obecnie jest ona szeroko stosowana w programowaniu równoleg³ym.

Porównanie PVM z MPI

Po wprowadzeniu standardu MPI do programów wymieniaj¹cych komunikaty i udostźpnieniu pakietów oprogramowania o wysokiej jakoci coraz wiźcej programistów zaczź³o siź interesowaę zastosowaniem MPI w programach pracuj¹cych równolegle. G³ównym powodem wiźkszej popularnoci MPI w porównaniu z PVM jest to, se biblioteka ta jest bardziej funkcjonalna. Zawiera ona nieblokuj¹ce procedury komunikacyjne, umosliwia tworzenie w³asnych typów danych, obs³uguje komunikatory zwiźkszaj¹ce wydajnoę przekazu komunikatów miedzy wźz³ami i w operacjach kolektywnych, pozwala na definiowanie wirtualnych topologii procesów przyporz¹dkowuj¹cych procesy do fizycznych procesorów.

Standard MPI umosliwia pracź w heterogenicznym rodowisku, w którym programy równoleg³e dzia³aj¹ na pojedynczych komputerach pos³uguj¹cych siź danymi o wzajemnie niezgodnych reprezentacjach. Usycie standardu MPI nie oznacza jednak obowi¹zku, se programy dzia³aj¹ce na takich zrósnicowanych komputerach maj¹ siź ze sob¹ komunikowaę. Jeseli klaster Beowulf sk³ada siź z heterogenicznych wźz³ów, to najprostsz¹ metod¹ uruchomienia aplikacji równoleg³ej jest usycie PVM. Biblioteka ta w pe³ni obs³uguje rodowiska heterogeniczne na poziomie aplikacji usytkownika. Jeseli komputery tworz¹ce maszynź wirtualn¹ korzystaj¹ z rósnych reprezentacji danych, to program równoleg³y przy wysy³aniu danych musi usywaę specjalnego algorytmu koduj¹cego. Oznacza to, se PVM bździe przekszta³caę te dane do standardowej postaci podczas pakowania ich do bufora nadawczego. Po rozpakowaniu danych w odbiorniku nastźpuje ich przekszta³cenie do postaci standardowej usywanej wewn¹trz tego odbiornika.

Pobieranie i instalacja PVM

Kod ród³owy PVM jest udostźpniany bezp³atnie pod adresem https://www.netlib.org/pvm3/index.html, sk¹d mosna pobraę skompresowane archiwum. Pakiet zawiera takse podrźcznik usytkownika objaniaj¹cy proces instalacji oraz samouczek sieciowego programowania równoleg³ego. W dalszej czźci tego podrozdzia³u zak³adamy, se pakiet PVM zosta³ pobrany i zainstalowany w katalogu /usr/local/pvm3. Katalog ten powinien zostaę skopiowany do kasdego wźz³a w klastrze. Jeseli klaster ma dzia³aę w rodowisku heterogenicznym, to pakiet PVM musi byę skompilowany w kasdym wźle zgodnie z jego architektur¹.

Aby mosna by³o korzystaę z PVM, nalesy wykonaę nastźpuj¹ce czynnoci:

q Zdefiniowaę zmienn¹ rodowiskow¹ PVM_ROOT, nadaj¹c jej wartoę /usr/local/pvm3

q Zdefiniowaę zmienn¹ rodowiskow¹ PVM_DPATH, nadaj¹c jej wartoę $PVM_ROOT/usr/local/pvm3

q Dodaę lokalizacjź plików binarnych PVM do cieski wyszukiwania programów. Pliki te s¹ umieszczone w katalogu $PVM_ROOT/bin

q Dodaę lokalizacje plików podrźcznika systemowego PVM do cieski wyszukiwania podrźcznika systemowego.

Oprócz tego, podczas mnosenia procesów demon PVM szuka plików wykonywalnych usytkownika w podkatalogu pvm3/bin/LINUX umieszczonym w jego katalogu macierzystym. Katalog ten powinien byę dodany takse do cieski wyszukiwania plików wykonywalnych.

Omówienie funkcji biblioteki PVM

Program korzystaj¹cy z biblioteki PVM jest powiźkszony o wywo³ania funkcji bibliotecznych mnos¹cych procesy i obs³uguj¹cych wymianź komunikatów. W kasdym takim programie jako pierwsza musi byę wywo³ana funkcja pvm_mytid. Zwraca ona dodatni¹ liczbź ca³kowit¹ nazywan¹ identyfikatorem zadania (ang. task identifier) albo liczbź ujemn¹ w przypadku wyst¹pienia b³źdu. Wywo³anie to ma postaę:

int pvm_mytid(void)

Funkcja pvm_parent zwraca identyfikator zadania procesu rodzicielskiego dla procesu wywo³uj¹cego lub wartoę ujemn¹ w przypadku wyst¹pienia b³źdu. Wywo³anie to ma postaę:

int pvm_parent(void)

Nowe procesy PVM s¹ uruchamiane za pomoc¹ wywo³ania pvm_spawn. Procesy, które nie zostan¹ uruchomione maj¹ identyfikator procesu rodzicielskiego równy . Wywo³anie tej funkcji ma nastźpuj¹c¹ postaę:

int pvm_spawn(char *progName, char **argv, int spawnOption,

char *where, int ntasks, int *tids)

Pierwszym argumentem jest tu nazwa programu, który ma byę uruchomiony. Jako drugi jest przekazywany zestaw argumentów wymaganych do pracy tego programu. Trzeci argument okrela sposób tworzenia procesów i mose przybieraę nastźpuj¹ce wartoci:

Opcja	Znaczenie
PvmTaskDefault	Komputer jest wybierany przez PVM
PvmTaskHost	Komputer jest okrelony przez usytkownika za pomoc¹ opcji where
PvmTaskArch	Architektura komputera jest okrelona przez usytkownika za pomoc¹ opcji where
PvmTaskDebug	Uruchomienie procesu pod kontrol¹ debuggera
PvmTaskTrace	Generacja danych do ledzenia procesu

Funkcja pvm_spawn zwraca liczbź utworzonych procesów. Wartoę ujemna lub mniejsza nis liczba s¹danych procesów oznacza b³¹d.

Procesy PVM mosna grupowaę za pomoc¹ funkcji pvm_joingroup. Ma ona nastźpuj¹c¹ postaę:

int pvm_joingroup(char *group)

Funkcja ta zwraca ca³kowitoliczbowy numer egzemplarza procesu wywo³uj¹cego lub wartoę ujemn¹ w przypadku wyst¹pienia b³źdu. Jest ona przeznaczona g³ównie do synchronizacji procesów wewn¹trz grupy. Procesy te s¹ synchronizowane w PVM za pomoc¹ funkcji barierowej pvm_barrier. Ma ona nastźpuj¹c¹ postaę:

int pvm_barrier(char *group, int n)

Proces nales¹cy do grupy o identyfikatorze group, napotkawszy na barierź, nie mose jej opucię as do momentu, gdy dotrze do niej wszystkie n procesów. Funkcja ta zwraca kod statusu, który oznacza albo sukces, albo b³¹d.

Procesy korzystaj¹ce z PVM wymieniaj¹ ze sob¹ komunikaty. Wysy³ka komunikatu odbywa siź trójetapowo. Najpierw wywo³ywana jest funkcja pvm_initsend oczyszczaj¹ca bufory komunikatów i przygotowuj¹ca komunikat do wysy³ki. Wywo³anie to ma postaę:

int pvm_initsend(int encoding)

Funkcja ta ma jeden argument, którym jest schemat kodowania komunikatu okrelony nastźpuj¹co:

Schemat kodowania	Znaczenie
PvmDataDefault	Kodowanie XDR dla systemów heterogenicznych
PvmDataRaw	Brak kodowania
PvmDataInPlace	Dane pozostawione na miejscu

Nastźpnie odbywa siź pakowanie komunikatu, który ma byę wys³any. PVM zawiera odpowiednie funkcje pakuj¹ce dla kasdego z obs³ugiwanych typów danych. S¹ to funkcje:

int pvm_pkbyte (char *data, int nitems, int stride)

int pvm_pkcplx(float *data, int nitems, int stride)

int pvm_pkdcplx (double *data, int nitems, int stride)

int pvm_pkdouble (double *data, int nitems, int stride)

int pvm_pkfloat(float *data, int nitems, int stride)

int pvm_pkint(int *data, int nitems, int stride)

int pvm_pklong(long *data, int nitems, int stride)

int pvm_pkshort(short *data, int nitems, int stride)

int pvm_pkstr(char *data)

Spakowana wiadomoę jest wysy³ana na miejsce docelowe za pomoc¹ funkcji pvm_send, która jest wywo³ywana nastźpuj¹co:

int pvm_send(int task_id, int message_tag)

Parametr message_tag jest dodatni¹ liczb¹ ca³kowit¹, która s³usy jako etykieta komunikatu wykorzystywana przez odbiornik do odrósniania go od innych komunikatów pochodz¹cych z tego samego ród³a.

Proces odbioru komunikatu odbywa siź dwuetapowo. Najpierw komunikat musi zostaę odebrany za pomoc¹ funkcji pvm_recv

int pvm_recv(int task_id, int message_tag).

Nastźpnie odebrany komunikat musi zostaę rozpakowany za pomoc¹ odpowiedniej funkcji, przystosowanej do typu przekazanych danych. Funkcje te s¹ podobne do funkcji pakuj¹cych dane:

int pvm_upkbyte (char *data, int nitems, int stride)

int pvm_upkcplx(float *data, int nitems, int stride)

int pvm_upkdcplx (double *data, int nitems, int stride)

int pvm_upkdouble (double *data, int nitems, int stride)

int pvm_upkfloat(float *data, int nitems, int stride)

int pvm_upkint(int *data, int nitems, int stride)

int pvm_upklong(long *data, int nitems, int stride)

int pvm_upkshort(short *data, int nitems, int stride)

int pvm_upkstr(char *data)

Przyk³adowy program PVM

Ponisszy fragment kodu zawiera dyrektywy do do³¹czania plików, definicje i deklaracje zmiennych. Program bździe dzia³a³ na czterech procesorach. Zmieniaj¹c wartoę nproc, mosna przystosowaę go do innej liczby procesorów.

#include 'pvm3.h'

#include <stdio.h>

#include <unistd.h>

#include <stdlib.h>

#define nproc 4

int main(int argc, char **argv)

#ifdef DEBUG

for(i=0; i<nproc; i++)

#endif

free (tids)

Wszystkie procesy s¹ ³¹czone w jedn¹ grupź:

pvm_joingroup ('nodes');

Proces g³ówny odbiera komunikat od kasdego klienta i wywietla go na ekranie:

if (parent_id < 0)

else

Wszystkie procesy synchronizuj¹ siź ze sob¹ za pomoc¹ funkcji pvm_barrier

pvm_barrier('nodes', nproc + 1);

pvm_exit();

return 0;

Kompilacja i uruchamianie programu PVM na klastrze Beowulf

Teraz skompilujemy i uruchomimy program hello_pvm.c na naszym klastrze Beowulf.

Kompilacja programu jest uruchamiana nastźpuj¹co:

$ cc -O -o hello_pvm -L/usr/local/pvm3/lib/LINUX

-I/usr/local/pvm3/include hello_pvm.c -lpvm3 -lgpvm3

$ cp hello_pvm ~/pvm3/bin/LINUX/

Przed uruchomieniem tego programu na klastrze Beowulf musimy uruchomię demona PVM. Mamy do dyspozycji kilka metod. Dla systemu sk³adaj¹cego siź z kilku wźz³ów demon mose zostaę uruchomiony za pomoc¹ nastźpuj¹cego polecenia:

$ pvm

Pojawi siź wówczas konsola pvm ze znakiem zachźty:

pvm>

Konsola ta przyjmuje polecenia ze standardowego wejcia. Dodajemy teraz komputer n0

pvm> add n0

Powtarzamy dodawanie pozosta³ych komputerów do wirtualnej maszyny pvm. Polecenie:

pvm> help

spowoduje wywietlenie zestawu dostźpnych poleceń konsoli pvm. Mosna teraz usyę polecenia quit, a demon pvm bździe nadal dzia³a³.

Zak³adaj¹c, se ten demon dzia³a, mosemy uruchomię nasz przyk³adowy program za pomoc¹ polecenia:

$ hello_pvm

Wyniki programu uruchomionego na czterech procesorach s¹ nastźpuj¹ce:

Message from tid 40011 running on n0

Message from tid 80007 running on n1

Message from tid c0008 running on n2

Message from tid 40012 running on n0

Materia³y ród³owe

BEOWULF: A Parallel Workstation for Scientific Computation, aut. Donald J. Becker, Thomas Sterling, Daniel Savarese, John E. Dorband, Udaya A. Ranawake i Charles V. Packer, Proceedings of ICPP'95.

MPI: A Message-Passing Interface Standard, Message Passing Interface Forum (www-unix.mcs.anl.gov/mpi/mpich/index.html).

Installation Guide to mpich, a Portable Implementation of MPI Version 1.2.0, aut. William Gropp i Ewing Lus (https://www-unix.mcs.anl.gov/mpi/mpich/index.html).

The Fractal Geometry of Nature, aut. B. Mandelbrot, wyd. Freeman & Co. (ISBN 0-716711-86-9).

PVM 3.0 User Guide and Reference manual, Al Geist, Adam Beguelin, Jack Dongarra, Weicheng Jiang, Robert Manchek, Vaidy Sunderam, February, 1993.

Podsumowanie

W tym rozdziale omówilimy konfiguracjź klastra Beowulf. Pokazalimy takse kilka przyk³adów ilustruj¹cych programowanie klastra Beowulf w jźzyku C z zastosowaniem bibliotek komunikacyjnych MPI i PVM.

Kilka usytecznych odnoników do systemów Beowulf

https://www.beowulf.org	Oficjalna strona projektu Beowulf z opisem historii oraz odnonikami do aktualnie dostźpnych systemów.
https:/newton.gsfc.nasa.gov/thehive	Strona systemu Beowulf z NASA GSFC, zawieraj¹ca porównawcze wyniki pomiaru wydajnoci oraz bezp³atne oprogramowanie s³us¹ce do monitorowania tych klastrów.
https:/www.beowulf-underground.org	Tu podano usyteczne informacje dotycz¹ce budowy i zastosowań systemów Beowulf.

Politica de confidentialitate | Termeni si conditii de utilizare

DISTRIBUIE DOCUMENTUL

Vizualizari: 750
Importanta:

Comenteaza documentul:

Te rugam sa te autentifici sau sa iti faci cont pentru a putea comenta

Creaza cont nou

Distribuie URL
https://www.scrigroup.com/limba/poloneza/313/Klastry-Beowulf82674.php

Adauga cod HTML in site
<a href="https://www.scrigroup.com/limba/poloneza/313/Klastry-Beowulf82674.php" target="_blank" title=" - https://www.scrigroup.com/limba/poloneza/313/Klastry-Beowulf82674.php">Klastry Beowulf</a>

Klastry Beowulf

komputerów

DOCUMENTE SIMILARE

Klastry Beowulf

Konfiguracja sprzźtowa

Konfiguracja oprogramowania

Programowanie klastra Beowulf

Programowanie z wykorzystaniem MPI

Podstawowe w³aciwoci programów MPI

Kompilacja i uruchamianie prostego programu MPI

Rozproszony koder MP3

Wydajnoę komunikacyjna klastra Beowulf

Przegl¹d zaawansowanych w³aciwoci MPI

Procedury obs³uguj¹ce komunikacjź miźdzy dwoma wźz³ami

Typy danych definiowane przez usytkownika

Operacje kolektywne

Rozg³aszanie (broadcast)

Rozpraszanie (scatter)

Gromadzenie (gather)

Redukcja (reduce)

Wszyscy do wszystkich (all-to-all)

Bariera (barrier)

Przyk³ady programów korzystaj¹cych z MPI

Obliczanie wartoci liczby „pi”

Obliczanie fraktala Mandelbrota

Transponowanie macierzy

Programowanie z zastosowaniem PVM

Porównanie PVM z MPI

Pobieranie i instalacja PVM

Omówienie funkcji biblioteki PVM

Przyk³adowy program PVM

Kompilacja i uruchamianie programu PVM na klastrze Beowulf

Materia³y ród³owe

Podsumowanie

Kilka usytecznych odnoników do systemów Beowulf

DISTRIBUIE DOCUMENTUL

Comenteaza documentul:

Podstawowe w³aciwoci programów MPI

Wydajnoę komunikacyjna klastra Beowulf

Przegl¹d zaawansowanych w³aciwoci MPI

Obliczanie wartoci liczby „pi”

Materia³y ród³owe

Kilka usytecznych odnoników do systemów Beowulf