Windows

Facebookovi veliki planovi podataka uključuju skladišta, bržu analitiku

Brian McGinty Karatbars Gold New Introduction Brian McGinty Brian McGinty

Brian McGinty Karatbars Gold New Introduction Brian McGinty Brian McGinty
Anonim

Facebook može blago podacima koje ima na svojim milijunima plus korisnicima za svoje reklamne rezultate, no analiza koju web site obavlja na tim podacima očekuje se da će nastaviti izazivati ​​brojne izazove tijekom sljedeće godine, rekao je inženjer.

Problemi, kojima je Facebook bio prisiljen uhvatiti se "puno prije nego šira industrija", uključuju shvaćanje učinkovitije načine kako obraditi ponašanje korisnika na web mjestu, kako bolje pristupiti i konsolidirati različite vrste podataka preko višestrukih podatkovnih centara u Facebooku i osmisliti nove softverske sustave otvorenog koda za obradu tih podataka, Ra "Facebook je podatkovna tvrtka, a najočitiji način na koji ljudi misle na toj strani je ciljanje oglasa", rekao je on na konferenciji za industriju u San Franciscu tijekom

[Više čitanje: Najbolje usluge streaminga TV-a]

"Ali ide dublje od toga", rekao je.

Jedno od glavnih područja rad na pozadini odnosi se na Facebookovu infrastrukturu za analizu koja je dizajnirana da ubrza razvoj proizvoda i poboljšava korisničko iskustvo kroz duboku analizu svih dostupnih podataka, bilo da se sastoji od radnji koje korisnici preuzmu na web mjestu, kao što je objavljivanje ažuriranja statusa ili koje aplikacije koje koriste u Facebooku na različitim uređajima.

Facebook trenutno koristi nekoliko različitih softverskih sustava otvorenog koda poznatih kao Hadoop, Corona i Prism za obradu i analizu svojih podataka, a tvrtka će se usredotočiti na izradu brže i učinkovitije tijekom narednih šest do dvanaest mjeseci, rekao je Murthy.

Mnogi od izazova tvrtke povezani su s onim što Facebook naziva svojim skladištem podataka, koji kombinira podatke iz više izvora u bazu podataka u kojoj se može analizirati korisnička aktivnost u cjelini, primjerice davanjem dnevnog izvješća o broju fotografija označenih u određenoj zemlji ili gledajući koliko je korisnika na određenom području angažirano na stranicama koje su im preporučene.

Analiza dizajniran je za optimizaciju korisničkih iskustava i saznajte što korisnici vole i ne vole, ali također postaje opterećivanje jer Facebook može pristupiti sve više podataka o svojim korisnicima, rekao je Murthy. Trenutačno Facebookovo skladište dnevno iznosi 500 terabajta novih podataka, ili 500.000 gigabajta. Skladište je u protekle četiri godine naraslo gotovo 4000 puta, "putu ispred Facebookovog rasta korisnika", rekao je Murthy.

Kako bi se bavio ovim pitanjima, Facebook je razvio svoj Prism software sustav koji je dizajniran za izvođenje ključne analize funkcije diljem svjetskih podatkovnih centara tvrtke i podijeliti analize u "komade", rekao je Murthy. Na taj način, obavljanje analize, recimo, neki mjerni podaci koji se odnose na korisničke feedove vijesti neće općenito začepiti skladište.

"Sve više razmišljamo o tome kako snimiti te podatke", rekao je. > Tvrtka također radi na sustavu koji zauzima sasvim drugačiji pristup upitu za skladište kako bi odgovorio u roku od nekoliko sekundi, rekao je Murthy.

Još jedno područje Facebook stalno gleda na poboljšanje je njegova "transakcijska infrastruktura, "Koji obrađuje više osnovne, svakodnevne obrade podataka, recimo, voli, komentare i ažuriranja statusa kako bi društvena mreža glatko radila. Neki od pitanja na koje inženjeri i analitičari tvrtke gledaju uključuju pronalaženje kako predvidjeti stvarni rast ove vrste podataka, i koliko računalstvo Facebook zaista treba dodijeliti za njega, rekao je Murthy."Možemo li predvidjeti što će biti šest mjeseci od sada?", Rekao je.

U međuvremenu, Facebook je također uključen u dugoročni napor kako bi fizički poslužitelji bili učinkovitiji. Tvrtka je započela svoj projekt Open Compute u 2011., s ciljem dizajniranja modularnih poslužitelja koji korisnicima pružaju veću kontrolu nad umrežavanjem, memorijom, napajanjem i ostalim komponentama koje ulaze u svoje poslužitelje. Proširen je za uključivanje ARM procesora u siječnju.