Car-tech

Heftiest superračunala padaju najteže, istraživač sugerira

The heftiest pumpkin on Long Island

The heftiest pumpkin on Long Island

Sadržaj:

Anonim

Kako superračunala rastaju snažnije, oni će također rasti i više ranjivi na neuspjeh, zahvaljujući povećanoj količini ugrađene komponente. Nekoliko istraživača na nedavnoj SC12 konferenciji prošlog tjedna u Salt Lake Cityju, Utah, ponudio je moguća rješenja za ovaj rastući problem.

Današnji sustavi visokih performansi (HPC) mogu imati 100.000 čvorova ili više - svaki čvor izgrađen od više komponente memorije, procesora, autobusa i drugih strujnih krugova. Statistički govoreći, sve ove komponente neće uspjeti u nekom trenutku i zaustaviti operacije kada to učine, rekao je David Fiala, doktor znanosti na Sveučilištu države Sjeverne Karoline tijekom razgovora na SC12.

Problem nije naravno, novi. Kada je 2001. godine u SAD-u ušao mrežni softver za bijeli superračunalo ASCI (Inicijativa za ubrzano strateško računovodstvo) Nacionalnog laboratorija Lawrence Livermore, u srednjoročnom razdoblju između kvarova (MTBF) bilo je samo pet sati, zahvaljujući dijelovima kvarova komponenata. Kasniji napori za podešavanje poboljšali su ASCI Whiteov MTBF na 55 sati, kazao je Fiala. No, kako broj supersklopnih čvorova raste, tako će i problem. "Nešto se mora učiniti u vezi s tim, a to će se pogoršati dok se preselimo u exascale", rekla je Fiala, govoreći kako će se očekivati ​​da će superračunala sljedećeg desetljeća imati deset puta računalnu moć koju danas koriste modeli. za rješavanje neuspjeha sustava možda se ne može jako smanjiti, rekao je Fiala. Naveo je kontrolni punkt, u kojem je pokrenut program privremeno zaustavljen i stanje je spremljeno na disk. Ako se program zaustavi, sustav može ponovno pokrenuti posao s posljednje kontrolne točke.

NCSUDavid Fiala

Problem s kontrolnim točkama, prema Fiali, jest da, kako se broj čvorova povećava, količina sustava iznad glave potrebno je napraviti i kontrolne točke i raste i raste eksponencijalnom stopom. Na 100.000 čvorova superračunalo, na primjer, samo oko 35 posto aktivnosti bit će uključeno u obavljanje posla. Ostatak će biti preuzet kontrolnim točkama i - treba li operacije za obnovu neuspjeha sustava, procjenjuje Fiala.

Zbog svih dodatnih hardvera potrebnih za exascale sustave, koji bi se mogli graditi od milijun ili više komponenti, pouzdanost sustava će imati kako bi se zadržao na istom MTBF-u koji danas uživaju današnji superračunalni uređaji ", rekao je Fiala.

Stari, dobri savjeti: sigurnosne kopije podataka

Fiala je predstavila tehnologiju koju su razvili zajedno s istraživačima koji bi mogli poboljšati pouzdanost, Tehnologija rješava problem šutljivog korupcije podataka, kada sustavi čine neprimjetne pogreške u pisanju podataka na disk.

U osnovi, pristup istraživača sastoji se od pokretanja višestrukih kopija ili "klonova" programa, istodobno i zatim usporedbom odgovora. Softver, zvan RedMPI, pokreće se zajedno s Message Passing Interface (MPI), knjižnicom za razdvajanje pokretnih aplikacija na više poslužitelja, tako da se različiti dijelovi programa mogu izvršiti paralelno.

RedMPI presreće i kopira svaki MPI poruka koju aplikacija šalje i šalje kopije poruke klonu (ili klonovima) programa. Ako različiti klonovi izračunavaju različite odgovore, tada se brojevi mogu ponovno izračunati u letu, što će uštedjeti vrijeme i resurse da ponovno pokrenu cijeli program.

"Implementacija redundancije nije skupo, a može biti visoka u broju osnovnih brojeva koji su potrebni, ali izbjegava potrebu za ponovno pisanje s kontrolnim točkama ", rekao je Fiala. "Alternativa je, naravno, jednostavno ponoviti poslove dok ne mislite da imate pravi odgovor."

Fiala je preporučio izvoditi dvije sigurnosne kopije svakog programa, za trostruku redundantnost. Iako bi prikazivanje višestrukih kopija programa u početku trebalo biti više resursa, s vremenom bi to moglo biti učinkovitije s obzirom na činjenicu da se programi ne bi trebali ponavljati radi provjere odgovora. Isto tako, kontrolna točka možda neće biti potrebna kada se pokrene više kopija, što bi također spasilo resurse sustava.

UCSCEthan Miller

"Mislim da je ideja da se radi o redundanciji zapravo dobra ideja. [Za] vrlo velika računanja, koja uključuje stotine tisuća čvorova, sigurno postoji mogućnost da će greške poginuti", rekao je Ethan Miller, profesor računarstva na Kalifornijskom sveučilištu Santa Cruz koji je prisustvovao prezentaciji. No, rekao je da pristup možda neće biti pogodan s obzirom na količinu mrežnog prometa koji bi mogao stvoriti takav redundancija. Predložio je pokretanje svih aplikacija na istom skupu čvorova, što bi smanjilo unutarnji promet.

U drugoj prezentaciji Ana Gainaru, doktorica sa Sveučilišta Illinois u Urbana-Champaignu, predstavila je tehniku ​​analize zapisnika datoteke za predvidjeti kada će se pojaviti kvarovi sustava.

Rad kombinira analizu signala s podatkovnim rudarstvom. Analiza signala koristi se za obilježavanje normalnog ponašanja, tako da, kada dođe do kvara, može se lako uočiti. Dijeljenje podataka traži korelacije između zasebnih prijavljenih kvarova. Drugi su istraživači pokazali da se višestruki kvar ponekad povezuju jedni s drugima, jer neuspjeh s jednom tehnologijom može utjecati na performanse u drugima, prema Gainaru. Na primjer, kada mrežna kartica ne uspije, uskoro će poskakivati ​​i druge procese sustava koji se oslanjaju na mrežnu komunikaciju.

Istraživači su otkrili da 70 posto koreliranih kvarova daje prozor mogućnosti od više od 10 sekundi. Drugim riječima, kada je otkriven prvi znak neuspjeha, sustav može imati do 10 sekundi za spremanje svog posla ili premjestiti posao na drugi čvor, prije nego što dođe do kritičnijeg neuspjeha. "Predviđanje neuspjeha može se spojiti s drugim tehnikama za toleriranje grešaka", rekao je Gainaru.

Joab Jackson pokriva softverske programe i opće tehnološke vijesti za

IDG News Service

. Slijedite Joab na cvrkut na @Joab_Jackson. Joabova adresa e-pošte je [email protected]