Grid komputerowy

Małgorzata Nowina−Konopka


Budowany w CERN koło Genewy Large Hadron Collider LHC jest największym na świecie urządzeniem badawczym. Kiedy zostanie uruchomiony w 2007 roku, jego wielkie detektory ATLAS, CMS, LHCb oraz ALICE, otaczające miejsca zderzeń rozpędzonych do ogromnych energii przeciwbieżnych wiązek protonów (lub jonów ołowiu), będą produkować 10−15 petabajtów (milionów gigabajtów) danych rocznie. Dane te będą szczegółowo analizowane i porównywane z symulacjami komputerowymi obliczeń teoretycznych. W miarę upływu czasu ich liczba jeszcze będzie rosła.

Systemy rozproszone

W eksperymentach na LHC uczestniczy 5 tysięcy naukowców z około 500 instytutów badawczych i uniwersytetów na całym świecie. Wszyscy oni muszą mieć zapewniony pełny dostęp do danych przez cały czas pracy LHC, który przewiduje się na 15−20 lat. Uaktualnianie, analiza i przechowywanie danych wymagają olbrzymich pamięci i mocy obliczeniowej rzędu 100 tys. CPU−s (Central Processing Units). Scentralizowanie tych urządzeń w jednym miejscu, w pobliżu eksperymentu w CERN, pozornie naturalne, w rzeczywistości jednak byłoby organizacyjnie bardzo trudne.

Postanowiono zastosować inny, bardziej optymalny, sposób: globalny Grid, czyli model rozproszonych mocy obliczeniowych. (Nazwa Grid pochodzi z analogii z siecią elektryczną: kiedykolwiek użytkownik podłączy się do tej sieci, nie musi się zastanawiać, gdzie jest źródło zasilania. Inaczej mówiąc użytkownicy mogą traktować Grid jako urządzenie, z którego na żądanie mogą czerpać moc obliczeniową i przechowywać dane.) Oznaczało to potrzebę zbudowania sprawnego systemu pozwalającego przesyłać dane czy programy do rozmieszczonych na całym globie elementów komputerowych, na których będą wykonywane obliczenia i analizowane wyniki. Koszty utrzymania i uaktualniania koniecznych mocy obliczeniowych do takiego komputerowego wyzwania są znacznie łatwiejsze do poniesienia w środowisku rozproszonym. Poszczególne instytuty i organizacje narodowe uczestniczące w projekcie mogą znaleźć lokalne zasoby komputerowe i przejąć za nie odpowiedzialność, przyczyniając się w ten sposób do osiągnięcia celu globalnego. Ponadto, system rozproszony nie ma słabych punktów. Wielokrotne kopie danych i automatyczne wyznaczanie zadań komputerowych dla dostępnych zasobów zapewnia ich szerokie zrównoważenie i ułatwia dostęp do danych wszystkim uczestnikom projektu, niezależnie od szerokości geograficznej.

Podstawy systemów gridowych opracowano już w połowie lat 90. w Stanach Zjednoczonych. Były to systemy Condor i Globus. W Europie Grid pojawił się nieco później, jednym z systemów był DataGrid, stworzony w celu opracowania danych fizyki, biologii i obserwacji Ziemi, zorganizowany przez CERN. Uczestniczyły w nim przede wszystkim duże instytuty Francji, Wielkiej Brytanii i Włoch. W ramach tego projektu stworzono podstawy oprogramowania pozwalającego na wykonywanie obliczeń fizycznych w rozproszonym systemie komputerowym oraz sprawdzono jego pracę. Pokrewnym projektem był projekt Unii Europejskiej CrossGrid, który kontynuował prace rozpoczęte przez DataGrid i rozszerzał je na aplikacje niezwiązane z fizyką. Uczestniczyły w nim instytucje z 11 krajów, w tym pięć z Polski, a koordynatorem był ACK CYFRONET AGH (zespół pod kierunkiem dr. M. Bubaka z KI AGH i prof. Michała Turały z IFJ PAN).

Oprogramowanie stworzone przez DataGrid oraz infrastruktura gridowa pozwoliły na uruchomienie we wrześniu 2003 światowego Gridu do fizyki pod nazwą „LCG−LHC Computing Grid”. Pierwsza instalacja skupiała 14 ośrodków z Europy, w tym i krakowski klaster kilkudziesięciu procesorów Intel z oprogramowaniem Linux.

Organizacje wirtualne

Koncepcja światowego Gridu jest prosta, jednak jej realizacja stanowi ogromne wyzwanie, tak pod względem technicznym, jak i organizacyjnym.

Zadania projektu LCG polegają na rozwinięciu infrastruktury i utrzymaniu bazy służb komputerowych w rozproszonym modelu oraz stworzeniu programów do scalenia tych urządzeń w jeden sprawny i wydajny system obliczeniowy – Grid. Należy opracować sposób zarządzania użytkownikami i ich prawami w międzynarodowym, niejednorodnym i rozproszonym środowisku. Służy temu koncepcja „organizacji wirtualnych” (VO). Osobnym zadaniem jest opracowanie zarządzania akwizycją, instalacją i planowaniem pojemności do dużej liczby składowych sprzętowych (hardwarowych) tworzących fizyczną płaszczyznę LCG.

Dane z eksperymentów na LHC będą rozprowadzane po całym świecie zgodnie z modelem czterowęzłowym. Pierwotny zapis danych na taśmach, dokonywany w CERN, będzie stanowić węzeł zerowy LCG – Tier−0. Dane te zostaną skopiowane do serii węzłów Tier−1 – wielkich centrów komputerowych, o dużych zasobach pamięciowych – gdzie będą wstępnie opracowywane i kompresowane w mniejsze obiekty. Centra Tier−1 udostępnią dane węzłom Tier−2, z których każdy składa się z wielu współpracujących urządzeń liczących, posiadających dostateczną moc obliczeniową do analizy przypadków fizycznych oraz dużych pamięci do przechowywania rezultatów. System gridowy Tier−0, Tier−1 i Tier−2 będzie do dyspozycji eksperymentów poprzez odpowiednie „organizacje wirtualne”. Indywidualni fizycy będą mieli dostęp do danych przez liczące centra Tier−3, które mogą się składać z lokalnych klasterów na wydziałach uniwersyteckich lub nawet z indywidualnych pecetów, i które mogą być włączone do regularnej bazy LCG.

Operacje, powodzie, skażenia

Analiza przypadków fizycznych nie jest jedynym zastosowaniem Gridu. Możliwość uzyskania wyniku w bardzo krótkim czasie, w szczególności „uczenie” jak w sieciach neuronowych, rozproszonej infrastruktury obliczeniowej oraz dostęp do odległych mocy obliczeniowych „na życzenie” w trakcie przebiegu eksperymentu, doskonale się nadają do wykorzystania Gridu w różnych aplikacjach. Wspomniany wyżej projekt CrossGrid obejmuje na przykład możliwość zastosowania Gridu w medycynie lub sytuacjach kryzysowych na ogół wymagających „natychmiastowych” (tzn. bardzo szybkich) decyzji. W 2005 aplikacje te zostały uznane za jedne z najlepszych przykładów wykorzystania Gridu.

W przypadku medycyny chodzi o wspomaganie komputerowe lekarza z dowolnie odległego miejsca na kuli ziemskiej, w trakcie podejmowania decyzji dotyczących niektórych zabiegów chirurgicznych, jak np. optymalizacja by−passów. Oprogramowanie powinno pomóc w wybraniu najlepszego rozwiązania, jeśli idzie o inwazyjność – minimalizowanie czasu trwania i rozległości operacji oraz konsekwencje – ciśnienie krwi w krwiobiegu po zabiegu.

Wspomaganie przez rozproszoną sieć gridową sztabu kryzysowego w sytuacjach zbliżającej się powodzi pozwoli z dużym prawdopodobieństwem przewidzieć realne zagrożenie. Konieczna jest wtedy natychmiastowa, dogłębna, na szerokim obszarze, analiza opadów, pogody, układu geologicznego i hydrogeologicznego, oraz wykorzystanie informacji o przebiegu podobnych wydarzeń w przeszłości, co wymaga mocy obliczeniowych przekraczających dziesiątki razy dostępne w typowym ośrodku komputerowym.

Prowadzone z wykorzystaniem rozproszonej infrastruktury gridowej badania przewidywań skażeń środowiska powstających w określonych sytuacjach pogodowych pozwolą zminimalizować efekty uboczne (np. elektrownia może dobierać jakość węgla w zależności od kierunków wiatrów i roznoszenia pyłów) – i ten przypadek wymaga szybkich decyzji, w sytuacji zmiennych warunków atmosferycznych.

Obecnie ACK CYFRONET AGH i IFJ PAN należą do grona doświadczonych partnerów i uczestniczą w kilku nowych inicjatywach gridowych, w tym nowych projektach europejskich: KWfGrid, EGEE, ViroLab czy BalticGrid, w których często odgrywają role wiodące.