Kui SQL pole piisavalt: juhtnupud uute massiliste andmekeskuste jaoks

Sisu

Google'i failisüsteem: suur juhtumianalüüs
Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata
Pilk põhitehnoloogiale
Kuidas teised suured süsteemid selle saavutavad?
DFS-i säilitamine

Ära võtma:

Arendajad ja insenerid peavad pidevalt tööd tegema, et kiirendada ja parendada teenuseid platvormidel, mis on nende klassikalistest 1990-ndate ajastute arhetüüpidest kaugele kasvanud.

Mis puudutab tohutut NSA andmekeskust, kus on gaziljoneid andmebitte meie eraelu kohta, siis on üks asi, millest pole vähemalt CNN-ist palju räägitud. See hõlmab ilmnenud inseneriprobleeme koos pilvetehnoloogia, suurandmete ja muljetavaldavate füüsiliste andmete salvestuskeskustega, mida nüüd kogu maailmas ehitatakse. Mis see siis on? Noh, olenemata sellest, kes haldab ühte mammut-IT-süsteemi, mis neid rajatisi haldab, on vaja tarkvarasüsteeme, mis aitavad kõigil neil andmetel kiiresti torustikku pääseda ja sealt väljuda. See vajadus on üks kõige huvitavamaid IT-küsimusi või mõistatusi, millega spetsialistid tänapäeval silmitsi seisavad.

Nagu paljud eksperdid märgivad, ületab tänapäevane äärmine nõudlus andmetöötluse järele traditsiooniliste lähenemisviiside järele. Lihtsamalt öeldes ei anna lihtsate andmebaasistruktuuride ja tööriistade (nt SQL päringuliidese) kasutamine piisavalt töötlemisvõimsust ega funktsionaalsust viimase paari aasta jooksul välja töötatud omandisüsteemide jaoks. Tänapäeva suurte tehnoloogiaettevõtete arhiivid vajavad äärmiselt skaleeritavat tehnoloogiat. Nad vajavad andmetöötlusriistu, mille abil saab sisestada ja väljastada palju suuremat mahtu, kui üks server võib hõlbustada. Nad vajavad lahendusi, mida saab kiiresti kiirendada kasvu jaoks, lahendusi, mis hõlmavad keeruka tehisintellekti taset, lahendusi, mis on loodud IT-osakonna hõlpsaks haldamiseks.

Küsimus on selles, kuidas ettevõtted ja valitsusasutused vallutavad traditsioonilise andmetöötlusviisi piiranguid? Siinkohal tasub heita pilk ka ühele väga paljulubavale võimalusele: tarkvara, mis tegeleb suurandmete ja mitme andmekeskuse haldamisega.

Google'i failisüsteem: suur juhtumianalüüs

Patenditud tehnoloogia, mida Google kasutab oma andmekeskuste juurde pääsemiseks, on üks parimatest näidetest suurte andmehalduse ja mitme andmekeskuse administreerimise levinumate mudelite jaoks. 2003. aastal välja töötatud Google'i failisüsteem (GFS) on loodud toetama tohutul hulgal kiireid muudatusi andmesüsteemides, mis on osa nii palju uue teabe saamisest ühele platvormile ja sealt välja, kui miljonid kasutajad klõpsavad sellel samal ajal. Eksperdid nimetavad seda hajutatud failisüsteemiks ja kasutavad nende äärmiselt keerukate tehnikate kirjeldamiseks mõistet "andmeobjektide salvestusruum". Tegelikkuses ei kriimusta need terminid isegi pinda, kirjeldades, mis töötab.

Üksikult ei pruugi funktsioonid ja komponendid, mis moodustavad sellise süsteemi nagu GFS, murrangulised, kuid on keerukad. Paljud neist on sellel saidil kajastatud suhteliselt uute uuendustena, mis on osa uue, alati sisse lülitatud ja alati ühendatud globaalse IT-süsteemi ettevalmistamisest. Ühiselt on GFS-i taoline süsteem palju enamat kui selle osade summa: see on suuresti nähtamatu, kuid äärmiselt keeruline võrk, mis koosneb üksikutest andmepakettidest niimoodi visata ja mis protsessis, mis visuaalselt täielikult modelleerituna näeks välja nagu kaos. Kogu teabe kogumine võtab palju energiat ja pühendumist, kuna nende süsteemide lahingujaamu korraldavad töötajad mõistavad seda hõlpsalt.

"Liiga palju üksikasju, millel on kasutatavuse valdkondadele sügav mõju - sealhulgas väline ja sisemine killustatus, logipõhised vs kohapealsed värskendused ja tehingu järjepidevuse tase -, et kokku võtta, kuidas see töötab ühes lühikeses lauses , "ütleb Sanbolicu tegevjuht ja kaasasutaja Momchil Michailov.

"Hajutatud failisüsteem on kas osalevate sõlmede kohalike nimeruumide ja vabade ruumide hajutatud agregaator või lokaalne failisüsteem, mis töötab mitmel sõlmel, mis pääseb hajutatud lukuhalduri komponendi abil ühiskasutatavale salvestusruumile," ütles ta.

Kerry Lebel on skaleeritavate automaatikaplatvormide poolest tuntud ettevõtte Automic vanem tootejuht. Lebel ütleb, et kuigi on täpne kirjeldada DFS-i kui süsteemi, mis lihtsalt eraldab töökoormused odava riistvara külge kinnitatud serveritele, ei räägi see tegelikult kogu lugu.

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

"See, mis teil lõpuks puudu on, on kõik lahe faktor kuidas nad teevad seda, mida teevad, "sõnas Lebel.

Kui astud tehnilistest üksikasjadest eemale ja mõtled lihtsalt hajutatud failisüsteemi põhiideele, on ilmne "lahe faktor", millest Lebel räägib. Need suured andmetöötlussüsteemid asendavad vanad faili- / kaustasüsteemid struktuuridega, mis hõlmavad mitte ainult mitut edastussüsteemi, vaid "objektorienteeritud" lähenemisviisi, kus kitsaskohtade vältimiseks on siin ja seal sisse lülitatud suur arv üksusi.

Mõelge näiteks nüüdisaegsele maanteesüsteemile, kus sadu tuhandeid autosid ei suunata mitte lihtsalt mitmerealiselt otse alla, vaid kaevatakse üles väikesteks ristikheinalehtedeks või oksaraba lisajõgedeks, mida keerutatakse ümber ja saadetakse oma sihtkohtadesse mitmesugustel ümbersõitudel. Taevast paistab kõik sama koreograafiline nagu Šveitsi käekell. See on selline visuaalne mudel, mida insenerid vaatavad, kui nad unistavad uutest viisidest, kuidas suunata teavet ümber piirangute, "lüües" selle mitmetasandilise andmesalvestusskeemi eri tasanditele. Kui jätta tehnilised andmed kõrvale, on see käitlemissüsteemi tipptasemel eesmärk: hoida neid iseseisvaid objekte koos manustatud metaandmetega liikumisel tippkiirusel sinna, kus nad peavad olema, et saavutada järjepidevuse eesmärgid, rahuldada lõppkasutajat või isegi tipptasemel vaatluse või analüüsi jaoks.

Pilk põhitehnoloogiale

Sean Gallagheri artikkel, mis ilmus väljaandes Ars Technica, jaotab GFS-i kujunduse mõnevõrra paremini hallatavateks osadeks ja vihjab sellele, mis asub Google'i lehe all.

GFS algab koondatud ja tõrketaluvusega andmete lugemise ja kirjutamise mudeliga. Idee on selles, et ühe draivi konkreetse värskenduse kirjutamise asemel kirjutavad uued süsteemid andmeid tükkideks mitmesse sihtkohta. Nii jääb, kui üks kirjutada ebaõnnestub, teised jäävad. Selle mahutamiseks korraldab üks primaarvõrgu komponent andmete käitlemise teistele allüksustele, koondades andmed uuesti, kui klient seda nõuab. Kõike seda võimaldab metaandmeprotokoll, mis aitab tuvastada, kus teatud värskendused ja edastamise tulemused asuvad suuremas süsteemis.

Teine väga oluline aspekt selles on see, kuidas need dubleerivad süsteemid tagavad andmete järjepidevuse. Nagu Gallagher märgib, ohverdab GFS-i kujundus teatavat järjepidevust, tagades samas aatomilisuse tagamise või kaitstes põhimõtet, kuidas andmeid värskendatakse mitme mäluseadme vahel, et need aja jooksul kokku sobiksid. Tundub, et Google'i "pingevaba järjepidevuse mudel" järgib BASE mudeli olulist teooriat, mis pakub järjepidevuse jõustamiseks pikema ajaraami eest suuremat paindlikkust.

Kuidas teised suured süsteemid selle saavutavad?

"Kui piisavalt suur ulatus on saavutatud, muutuvad andmete ebakõlad või rikkumised vältimatuks," ütleb Michailov. "Seetõttu peaks hajutatud failisüsteemide peamine eesmärk olema võime teha võimalikult palju toiminguid korruptsiooni olemasolul, pakkudes samal ajal tõhusaid meetodeid korruptsiooniga võitlemiseks." Michailov mainib ka vajadust säilitada jõudlus koondamise ettevaatliku rakendamise kaudu.

"Näiteks metaandmete (andmete kohta andmete) loomine igale kettale võimaldab sellel kettal taastada õige andmestruktuuri, kui selle peegelkoopia on rikutud," ütles Michailov. "Lisaks saab RAID-i tasemeid kasutada mäluseadete tõrgete vastu võitlemiseks kas failisüsteemi agregaatori või jagatud köitehalduri tasemel."

Arutledes veel ühe järjepidevuse mudeli üle, keskendub Lebel süsteemile, mida nimetatakse Hadoopi hajutatud failisüsteemiks (HDFS), mida ta nimetab "tööstuse de facto standardiks".

HDFS-is, ütleb Lebel, korratakse igat andmeplokki kolm korda erinevatel sõlmedel ja kahel erineval raketil. Andmeid kontrollitakse otsast lõpuni. Riketest teatatakse NameNode'ile, andmetöötlejale, kes vabaneb rikutud plokkidest ja loob uusi.

Kõik see toetab mitmesuguseid "puhtaid andmeid", mis on ühe sellise massandmesüsteemi terviklikkuse jaoks nii olulised.

DFS-i säilitamine

Veel üks väga erinev pilk GFSile pärineb Wiredi kirjaniku Steven Levy 2012. aasta oktoobri artiklist. Google'i kollektiivse ülalt alla suunatud võrgu käitlemise tarkvarakäsitlust on palju lähemalt iseloomustatud.

"Aastate jooksul," kirjutab Levy, "on Google ehitanud ka tarkvarasüsteemi, mis võimaldab tal hallata oma lugematuid servereid justkui ühe hiiglasliku üksusena. Selle ettevõttesisesed arendajad saavad käituda nagu nukumeistrid, saates toimima tuhandeid arvuteid ülesandeid sama hõlpsalt kui ühe masina käitamine. "

See hõlmab ka hulgaliselt küber- ja keskkonnahooldusi, alustades spetsiaalsetest testimisrühmadest, kes üritavad serverisüsteeme lahti murda, kuni hoolikalt kontrollitud temperatuurideni kogu andmekrüptise saalides.

Levy mainib ka GFS-i jaoks täiendavaid tehnoloogiaid, näiteks MapReduce, pilverakenduse tööriist ja Hadoop, analüüsi mootor, mis jagab GFS-iga mõnda kujunduspõhimõtet. Nendel tööriistadel on oma mõju sellele, kuidas suured andmekeskuste käsitsemise süsteemid projekteeritakse ja mis tulevikus ilmub. (Lisateavet nende tehnoloogiate kohta saate jaotises The Big Data Evolution.)

Michailov usub, et MapReduce suudab toetada üha suuremaid andmekeskuse süsteeme, ning räägib jagatud ja koondatud failisüsteemide "ühest rakendusest", mis võiks "hoida koondatud failisüsteemi nimesõlmed SSD-dega jagatud klastris säilitamiseks . "

Lebel näeb omalt poolt eemaldumist pakettöötlusest (Hadoopi toetatud meetod) voo töötlusele, mis lähendab neid andmeoperatsioone reaalajale.

"Mida kiiremini andmeid töödelda ja äriotsustajatele või klientidele kättesaadavaks teha, seda suurem on konkurentsieelis," ütleb Lebel, kes soovitab asendada ka ülaltoodud töötlemisterminoloogia terminitega, mis keskenduvad lõppkasutaja. Mõeldes sünkroonsetele tegevustele või tegevustele, mis on sünkroniseeritud lõppkasutaja toimingutega, ja asünkroonsetele tegevustele, mis on rakendamise osas paindlikumad, võivad Lebeli sõnul ettevõtted kasutada SLA-sid ja muid ressursse, et määratleda, kuidas antud teenindussüsteem töötab .

Selle kõige taga on teatud mõttes see, et arendajad ja insenerid peavad pidevalt töötama, et kiirendada ja parendada teenuseid platvormidel, mis on nende klassikalistest 1990ndate ajastute arhetüüpidest kaugele jõudnud. See tähendab, et vaadatakse kriitiliselt läbi andmete masin ja läbistatakse kitsaskohad viisil, mis ei toeta mitte ainult kasvavat elanikkonda, vaid ka seda, et plahvatusohtlikul kiirusel toimuvat plahvatuslikku muutust, mida asjatundjad nimetavad järgmiseks tööstusrevolutsiooniks. On tõenäoline, et need, kes sellel rindel kõige rohkem murduvad, domineerivad tuleviku turgudel ja majanduses.