7 asja, mida Hadoopist teada tuleks

Videot: Only January 7 is a magical day, open your front door for a few minutes and say one word

Sisu

Kuidas Hadoop oma alguse sai?
Mis on Hadoopi juures nii oluline?
Mis on loetud skeem?
Mis on taru?
Milliseid andmeid Hadoop analüüsib?
Kas saate tuua reaalmaailma näite Hadoopist?
Kas Hadoop on juba vananenud või on lihtsalt morfeerimine?

Allikas: Pressureua / Dreamstime.com

Ära võtma:

Hadoop on juba aastaid aidanud andmeid analüüsida, kuid tõenäoliselt on rohkem kui vähe asju, mida te sellest ei tea.

Mis on Hadoop? See on kollane mänguasja elevant. Mitte mida sa ootasid? Kuidas oleks nii: Doug Cutting - selle avatud lähtekoodiga tarkvara projekti kaasasutaja - laenas nime oma pojalt, kes juhtus kutsuma oma mänguasja elevanti Hadoopi. Lühidalt - Hadoop on Apache Tarkvarafondi välja töötatud tarkvararaamistik, mida kasutatakse andmemahuka ja hajutatud andmetöötluse arendamiseks. Ja selle võtmeelemendiks mõnes teises lugejasõnas ei saa kunagi tunduda olevat piisavalt: suurandmed. Siin on seitse asja, mida peaksite selle ainulaadse, vabalt litsentsitud tarkvara kohta teadma.

Kuidas Hadoop oma alguse sai?

Kaksteist aastat tagasi ehitas Google platvormi, et manipuleerida tohutute andmete kogustega, mida ta kogus. Nagu ettevõte sageli teeb, tegi Google oma disainilahendused avalikkusele kättesaadavaks kahe dokumendina: Google File System ja MapReduce.

Samal ajal töötasid Doug Cutting ja Mike Cafarella uue otsingumootori Nutch peal. Need kaks olid ka hädas sellega, kuidas suures koguses andmeid hallata. Siis said kaks uurijat Google'i paberid tutvuda. See õnnelik ristmik muutis kõike, tutvustades Cuttingule ja Cafarellale paremat failisüsteemi ja viisi andmete jälgimiseks, viies lõpuks Hadoopi loomiseni.

Mis on Hadoopi juures nii oluline?

Täna on andmete kogumine lihtsam kui kunagi varem. Kõigi nende andmete omamine pakub palju võimalusi, kuid on ka väljakutseid:

Suur andmemaht nõuab uusi töötlemismeetodeid.
Jäädvustatud andmed on struktureerimata vormingus.

Tohutute koguste struktureerimata andmetega manipuleerimisega seotud probleemide lahendamiseks tulid Cutting ja Cafarella välja kaheosalise lahendusega. Andmekoguse probleemi lahendamiseks kasutab Hadoop hajutatud keskkonda - kaubaserverite võrku -, luues paralleelse töötlusklastri, mis annab määratud ülesandele rohkem töötlemisvõimsust.

Järgmisena pidid nad käsitlema struktureerimata andmeid või vormingus andmeid, mida standardsed relatsioonandmebaasisüsteemid ei suutnud käsitleda. Lõikamine ja Cafarella kujundasid Hadoopi tööks igat tüüpi andmetega: struktureeritud, struktureerimata, piltide, helifailidega, isegi. Selles Cloudera (Hadoopi integraator) valges raamatus selgitatakse, miks see on oluline:

"Tehes kõik oma andmed kasutatavaks, mitte ainult andmebaasides olevaks, võimaldab Hadoop paljastada varjatud seoseid ja paljastab vastused, mis on alati olnud lihtsalt kättesaamatud. Võite hakata tegema rohkem otsuseid, mis põhinevad usaldusväärsetel andmetel, mitte aga jälkidel, ja otsige üles täielike andmekogumite, mitte ainult proovide ja kokkuvõtete abil. "

Mis on loetud skeem?

Nagu varem mainitud, on Hadoopi üks eeliseid suutlikkus käsitleda struktureerimata andmeid. Mõnes mõttes tähendab see "purki maanteel lüüa". Lõpuks vajavad andmed nende analüüsimiseks mingit struktuuri.

Seal tuleb mängu loetud skeem. Loetud skeem on andmete vormingu koondamine, kust andmeid leida (pidage meeles, et andmed on hajutatud mitme serveri vahel) ja andmetega tehtavat toimingut - see pole lihtne ülesanne. On öeldud, et andmete töötlemine Hadoopi süsteemis nõuab ärianalüütiku, statistiku ja Java programmeerija oskusi. Kahjuks pole palju neid kvalifikatsioone omavaid inimesi.

Mis on taru?

Kui Hadoop peaks õnnestuma, tuli andmetega töötamist lihtsustada. Niisiis, avatud lähtekoodiga rahvahulk asus tööle ja lõi Taru:

"Taru pakub mehhanismi nende andmete struktureerimiseks ja andmetest päringute tegemiseks, kasutades SQL-i tüüpi keelt HiveQL. Samal ajal võimaldab see keel ka traditsioonilistel kaardistamise / vähendamise programmeerijatel ühendada oma kohandatud kaardistajad ja reduktorid, kui see on ebamugav või ebatõhus seda loogikat HiveQL-is väljendada. "
Taru võimaldab mõlemast maailmast parimat: SQL-käskudega tuttavad andmebaasi töötajad saavad andmetega manipuleerida ja lugemisprotsessi skeemi tundvad arendajad saavad endiselt luua kohandatud päringuid.

Milliseid andmeid Hadoop analüüsib?

Veebianalüütika on esimene asi, mis pähe tuleb, analüüsides veebipäevikuid ja veebiliiklust, et veebisaite optimeerida. näiteks on kindlasti veebianalüütikasse, kasutades Hadoopi abil ettevõtte akumuleeritavate andmete terabaitides sorteerimist.

Ettevõtted kasutavad Hadoopi klastrite abil riskianalüüsi, pettuste tuvastamist ja kliendibaasi segmenteerimist. Kommunaalettevõtted kasutavad Hadoopi oma elektrivõrgust pärit andurite andmete analüüsimiseks, võimaldades neil optimeerida elektrienergia tootmist. Sellised suurettevõtted nagu Target, 3M ja Medtronics kasutavad Hadoopi tootejaotuse, äririski hindamise ja kliendibaasi segmenteerimise optimeerimiseks.

Hadoopi investeeritakse ka ülikoolidesse. Püha Toomase ülikooli tarkvaraprogrammi dotsent Brad Rubin mainis, et tema Hadoopi asjatundlikkus aitab sorteerida ülikooli uurimisrühmade kogutud arvukaid andmeid.

Kas saate tuua reaalmaailma näite Hadoopist?

Üks tuntumaid näiteid on TimesMachine. New York Timesil on terve lehega TIFF-piltide kogu, nendega seotud metaandmed ja artikkel 1851–1922, ulatudes terabaitide andmeteni. NYT Derek Gottfrid, kasutades EC2 / S3 / Hadoopi süsteemi ja spetsiaalset koodi:

"Sisse söödud 405 000 väga suurt TIFF-pilti, 3,3 miljonit artiklit SGML-is ja 405 000 xml-faili, mis kaardistavad artiklid TIFF-ide ristkülikukujulisteks piirkondadeks. Need andmed muudeti veebisõbralikumaks 810 000 PNG-pilti (pisipildid ja täispildid) ning 405 000 JavaScripti faili. "
Kasutades Amazoni veebiteenuste pilves asuvaid servereid, mainis Gottfrid, et nad suudavad vähem kui 36 tunni jooksul töödelda kõiki TimesMachine'i jaoks vajalikke andmeid.

Kas Hadoop on juba vananenud või on lihtsalt morfeerimine?

Hadoop on olnud juba üle kümne aasta. See on paljude sõnul aegunud. Üks ekspert dr David Rico on öelnud, et "IT-tooted on lühiajalised. Koera-aastatel on Googles tooteid umbes 70, Hadoopi aga 56".

Rico ütlustes võib olla tõde. Näib, et Hadoop on läbimas kapitaalremonti. Selle kohta lisateabe saamiseks kutsus Rubin mind Twin Cities Hadoopi kasutajarühma koosolekule ja arutelu teemaks oli Sissejuhatus lõnga:

"Apache Hadoop 2 sisaldab uut MapReduce mootorit, millel on eelneva juurutamise ees mitmeid eeliseid, sealhulgas parem mastaapsus ja ressursside kasutamine. Uus teostus on üles ehitatud üldisele ressursside haldussüsteemile hajutatud rakenduste YARN käitamiseks."Hadoop saab andmebaaside ja sisuhalduse ringides palju kõmu, kuid selle ümber on endiselt palju küsimusi ja kuidas seda kõige paremini kasutada. Need on vaid mõned. Kui teil on rohkem, siis meie teed. Vastake parimatele ka Techopedia.com lehel.