The heftiest pumpkin on Long Island
Sadržaj:
Kako superračunala rastaju snažnije, oni će također rasti i više ranjivi na neuspjeh, zahvaljujući povećanoj količini ugrađene komponente. Nekoliko istraživača na nedavnoj SC12 konferenciji prošlog tjedna u Salt Lake Cityju, Utah, ponudio je moguća rješenja za ovaj rastući problem.
Današnji sustavi visokih performansi (HPC) mogu imati 100.000 čvorova ili više - svaki čvor izgrađen od više komponente memorije, procesora, autobusa i drugih strujnih krugova. Statistički govoreći, sve ove komponente neće uspjeti u nekom trenutku i zaustaviti operacije kada to učine, rekao je David Fiala, doktor znanosti na Sveučilištu države Sjeverne Karoline tijekom razgovora na SC12.
Problem nije naravno, novi. Kada je 2001. godine u SAD-u ušao mrežni softver za bijeli superračunalo ASCI (Inicijativa za ubrzano strateško računovodstvo) Nacionalnog laboratorija Lawrence Livermore, u srednjoročnom razdoblju između kvarova (MTBF) bilo je samo pet sati, zahvaljujući dijelovima kvarova komponenata. Kasniji napori za podešavanje poboljšali su ASCI Whiteov MTBF na 55 sati, kazao je Fiala. No, kako broj supersklopnih čvorova raste, tako će i problem. "Nešto se mora učiniti u vezi s tim, a to će se pogoršati dok se preselimo u exascale", rekla je Fiala, govoreći kako će se očekivati da će superračunala sljedećeg desetljeća imati deset puta računalnu moć koju danas koriste modeli. za rješavanje neuspjeha sustava možda se ne može jako smanjiti, rekao je Fiala. Naveo je kontrolni punkt, u kojem je pokrenut program privremeno zaustavljen i stanje je spremljeno na disk. Ako se program zaustavi, sustav može ponovno pokrenuti posao s posljednje kontrolne točke.
NCSUDavid Fiala
Problem s kontrolnim točkama, prema Fiali, jest da, kako se broj čvorova povećava, količina sustava iznad glave potrebno je napraviti i kontrolne točke i raste i raste eksponencijalnom stopom. Na 100.000 čvorova superračunalo, na primjer, samo oko 35 posto aktivnosti bit će uključeno u obavljanje posla. Ostatak će biti preuzet kontrolnim točkama i - treba li operacije za obnovu neuspjeha sustava, procjenjuje Fiala.
Zbog svih dodatnih hardvera potrebnih za exascale sustave, koji bi se mogli graditi od milijun ili više komponenti, pouzdanost sustava će imati kako bi se zadržao na istom MTBF-u koji danas uživaju današnji superračunalni uređaji ", rekao je Fiala.Stari, dobri savjeti: sigurnosne kopije podataka
Fiala je predstavila tehnologiju koju su razvili zajedno s istraživačima koji bi mogli poboljšati pouzdanost, Tehnologija rješava problem šutljivog korupcije podataka, kada sustavi čine neprimjetne pogreške u pisanju podataka na disk.
U osnovi, pristup istraživača sastoji se od pokretanja višestrukih kopija ili "klonova" programa, istodobno i zatim usporedbom odgovora. Softver, zvan RedMPI, pokreće se zajedno s Message Passing Interface (MPI), knjižnicom za razdvajanje pokretnih aplikacija na više poslužitelja, tako da se različiti dijelovi programa mogu izvršiti paralelno.
RedMPI presreće i kopira svaki MPI poruka koju aplikacija šalje i šalje kopije poruke klonu (ili klonovima) programa. Ako različiti klonovi izračunavaju različite odgovore, tada se brojevi mogu ponovno izračunati u letu, što će uštedjeti vrijeme i resurse da ponovno pokrenu cijeli program.
"Implementacija redundancije nije skupo, a može biti visoka u broju osnovnih brojeva koji su potrebni, ali izbjegava potrebu za ponovno pisanje s kontrolnim točkama ", rekao je Fiala. "Alternativa je, naravno, jednostavno ponoviti poslove dok ne mislite da imate pravi odgovor."
Fiala je preporučio izvoditi dvije sigurnosne kopije svakog programa, za trostruku redundantnost. Iako bi prikazivanje višestrukih kopija programa u početku trebalo biti više resursa, s vremenom bi to moglo biti učinkovitije s obzirom na činjenicu da se programi ne bi trebali ponavljati radi provjere odgovora. Isto tako, kontrolna točka možda neće biti potrebna kada se pokrene više kopija, što bi također spasilo resurse sustava.
UCSCEthan Miller
"Mislim da je ideja da se radi o redundanciji zapravo dobra ideja. [Za] vrlo velika računanja, koja uključuje stotine tisuća čvorova, sigurno postoji mogućnost da će greške poginuti", rekao je Ethan Miller, profesor računarstva na Kalifornijskom sveučilištu Santa Cruz koji je prisustvovao prezentaciji. No, rekao je da pristup možda neće biti pogodan s obzirom na količinu mrežnog prometa koji bi mogao stvoriti takav redundancija. Predložio je pokretanje svih aplikacija na istom skupu čvorova, što bi smanjilo unutarnji promet.
U drugoj prezentaciji Ana Gainaru, doktorica sa Sveučilišta Illinois u Urbana-Champaignu, predstavila je tehniku analize zapisnika datoteke za predvidjeti kada će se pojaviti kvarovi sustava.Rad kombinira analizu signala s podatkovnim rudarstvom. Analiza signala koristi se za obilježavanje normalnog ponašanja, tako da, kada dođe do kvara, može se lako uočiti. Dijeljenje podataka traži korelacije između zasebnih prijavljenih kvarova. Drugi su istraživači pokazali da se višestruki kvar ponekad povezuju jedni s drugima, jer neuspjeh s jednom tehnologijom može utjecati na performanse u drugima, prema Gainaru. Na primjer, kada mrežna kartica ne uspije, uskoro će poskakivati i druge procese sustava koji se oslanjaju na mrežnu komunikaciju.
Istraživači su otkrili da 70 posto koreliranih kvarova daje prozor mogućnosti od više od 10 sekundi. Drugim riječima, kada je otkriven prvi znak neuspjeha, sustav može imati do 10 sekundi za spremanje svog posla ili premjestiti posao na drugi čvor, prije nego što dođe do kritičnijeg neuspjeha. "Predviđanje neuspjeha može se spojiti s drugim tehnikama za toleriranje grešaka", rekao je Gainaru.
Joab Jackson pokriva softverske programe i opće tehnološke vijesti za
IDG News Service
. Slijedite Joab na cvrkut na @Joab_Jackson. Joabova adresa e-pošte je [email protected]
Računala u Njemačkoj i Saudijskoj Arabiji danas su među najbržim na svijetu, ali bi-godišnji Top500 popis najmoćnijih superračunala na svijetu još uvijek nadmeće sustav Roadrunner u Los Angelesu za energetiku SAD-a Alamos National Laboratory.
Dva nova sustava u Njemačkoj ušli su u popis Top500, na trećem i desetom mjestu. IBM je izradio JUGENE za Forschungszentrum Juelich te je postigao 825,5 teraflopova (trilijuna točaka u sekundi) koristeći 294.912 procesorske jezgre.
Nvidia kaže kako će njen novi Fermi CPU pokrenuti superračunala
Nvidia je pokazala grafičku karticu temeljenu na novoj Fermi arhitekturi koja će ubrzati performanse Nvidia je u srijedu pokazala novu arhitekturu GPU-a koja se nada da će mu omogućiti da se presele iznad igara kako bi igraju veću ulogu na tržištu superračunskih računala.
Dva rivalska superračunala koja se izdvajaju za Top Spot
Vrhunski sustavi na lipnju popisu Top 500 superračunala zamijenili su mjesta najnovijim popisom , objavio je u ponedjeljak.