10 kõige olulisemat Hadoopi terminit, mida peate teadma ja mõistma

Sisu

Kuid kõigepealt vaadake, kuidas Hadoop töötab
Hadoop tavaline
Hadoopi hajutatud failisüsteem (HDFS)
MapReduce
HBase
Taru
Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata
Apache siga
Apache säde
Apache Cassandra
Järjekordne ressursiläbirääkija (YARN)
Impala

Allikas: Trueffelpix / Dreamstime.com

Ära võtma:

Suurandmete mõistmiseks peate natuke aru saama Hadoopist ja seda ümbritsevast keelest.

Suurandmeid, mis on meeldejääv nimi massiivsete struktureeritud, struktureerimata või poolstruktureeritud andmete mahtude jaoks, on kurikuulsalt keeruline hõivata, säilitada, hallata, jagada, analüüsida ja visualiseerida, vähemalt kasutades traditsioonilisi andmebaasi- ja tarkvararakendusi. Seetõttu on suurtel andmesidetehnoloogiatel võimalik tohutul hulgal andmeid tõhusalt ja tulemuslikult hallata ja töödelda. Ja selle Apache Hadoop, mis pakub raamistikku ja sellega seotud tehnoloogiaid suurte arvutikomplektide töötlemiseks arvutiklastrites hajutatud viisil. Seega, et suurandmetest tõeliselt aru saada, peate Hadoopist natuke aru saama. Siinkohal tasub heita pilk Hadoopi kohta kuuldavatele tipptingimustele - ja mida need tähendavad.

Kuid kõigepealt vaadake, kuidas Hadoop töötab

Enne Hadoopi ökosüsteemi sisenemist peate selgelt mõistma kahte põhiasja. Esimene on see, kuidas faili Hadoopis hoitakse; teine on see, kuidas salvestatud andmeid töödeldakse. Kõik Hadoopiga seotud tehnoloogiad töötavad peamiselt nendes kahes valdkonnas ja muudavad selle kasutajasõbralikumaks. (Hankige Hadoopi toimimise põhialuseid jaotises Kuidas Hadoop aitab lahendada suurandmete probleemi.)

Nüüd tingimuste juurde.

Hadoop tavaline

Hadoopi raamistikul on erinevad funktsioonid erinevate moodulite jaoks ja need moodulid saavad erinevatel põhjustel üksteisega suhelda. Hadoop Commoni saab määratleda kui ühist utiliiti, mis toetab neid mooduleid Hadoopi ökosüsteemis. Need utiliidid on põhimõtteliselt Java-põhised, arhiveeritud (JAR) failid. Neid utiliite kasutavad arenduse ajal peamiselt programmeerijad ja arendajad.

Hadoopi hajutatud failisüsteem (HDFS)

Hadoopi hajutatud failisüsteem (HDFS) on Apache Hadoopi alamprojekt Apache Software Foundationi all. See on Hadoopi raamistikus hoidmise alustala. See on hajutatud, mastabeeritav ja tõrketaluv failisüsteem, mis ulatub üle mitme Hadoopi klastrina tuntud kauba riistvara. HDFS-i eesmärk on salvestada tohutult andmemahtu usaldusväärselt suure läbilaskevõimega juurdepääsule rakenduse andmetele. HDFS järgib ülem / alluv arhitektuuri, kus ülem on tuntud kui NameNode ja alamad on tuntud kui DataNodes.

MapReduce

Hadoop MapReduce on ka Apache Software Foundationi allprojekt. MapReduce on tegelikult ainult Java keeles kirjutatud tarkvararaamistik. Selle peamine eesmärk on hajutatud keskkonnas (koos kauba riistvaraga) töödelda suuri andmekogumeid täiesti paralleelselt. Raamistik haldab kõiki tegevusi, nagu töö planeerimine, jälgimine, täitmine ja uuesti täitmine (ebaõnnestunud ülesannete korral).

HBase

Apache HBase on Hadoopi andmebaas. See on veeruline hajutatud ja skaleeritav suurandmete salvestusruum. Seda tuntakse ka kui NoSQL-i andmebaasi tüüpi, mis ei ole relatsiooniline andmebaasihaldussüsteem. HBase'i rakendused on kirjutatud ka Java keeles, üles ehitatud Hadoopile ja töötab HDFS-is. HBase kasutatakse siis, kui vajate reaalajas lugemist / kirjutamist ja juhuslikku juurdepääsu suurandmetele. HBase on modelleeritud Google'i BigTable'i kontseptsioonide põhjal.

Taru

Apache Hive on avatud lähtekoodiga andmelao tarkvarasüsteem. Taru töötas algselt välja enne, kui see jõudis Apache Software Foundationi alla ja sai avatud lähtekoodiga. See hõlbustab hajutatud Hadoopi ühilduvas salvestusruumis suurte andmekogumite haldamist ja päringute tegemist. Taru täidab kõiki oma tegevusi, kasutades SQL-i tüüpi keelt, mida nimetatakse HiveQL-iks. (Lisateave Apache taru ja sea lühitutvustuses.)

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Programmeerimisoskust ei saa parandada, kui keegi tarkvara kvaliteedist ei hooli.

Apache siga

Pig on algselt Yahoo algatatud MapReduce'i tööde arendamiseks ja täitmiseks suures mahus hajutatud andmeid. Nüüd on sellest saanud avatud lähtekoodiga projekt Apache Software Foundationi all. Apache Pigi võib määratleda kui platvormi, mille abil saab tõhusalt analüüsida väga suuri andmekogumeid. Sigade taristukiht loob tegeliku töötlemise jaoks MapReduce'i tööde järjestused. Sigade keelekihti nimetatakse sea ladina keeleks ja see pakub SQL-i tüüpi funktsioone päringute tegemiseks hajutatud andmekogumites.

Apache säde

Sparki töötas algselt välja AMPLab UC Berkeley'is. Sellest sai Apache'i tipptasemel projekt 2014. aasta veebruaris. Apache Sparki saab määratleda avatud lähtekoodiga, üldotstarbelise klastri arvutusraamistikuna, mis muudab andmete analüüsi palju kiiremaks. See on üles ehitatud hajutatud failisüsteemi Hadoop peal, kuid see pole seotud MapReduce raamistikuga. Sparksi jõudlus on võrreldes MapReduce'iga palju kiirem. See pakub Scala, Pythoni ja Java kõrgetasemelisi API-sid.

Apache Cassandra

Apache Cassandra on veel üks avatud lähtekoodiga NoSQL andmebaas. Cassandrat kasutatakse laialdaselt struktureeritud, poolstruktureeritud ja struktureerimata andmevahemike haldamiseks mitme andmekeskuse ja pilvesalvestuse kaudu. Cassandra on loodud "meistriteta" arhitektuuri põhjal, mis tähendab, et see ei toeta ülem-alluv mudelit. Selles arhitektuuris on kõik sõlmed samad ja andmed jaotatakse automaatselt ja võrdselt kõigi sõlmede vahel. Cassandrate olulisemad omadused on pidev kättesaadavus, lineaarne mastaapsus, sisseehitatud / kohandatav replikatsioon, ükski rikkepunkt ja töö lihtsus.

Järjekordne ressursiläbirääkija (YARN)

Veel üks ressursiläbirääkija (YARN) on tuntud ka kui MapReduce 2.0, kuid tegelikult kuulub see Hadoop 2.0 alla. Lõnga võib määratleda kui töö planeerimise ja ressursside haldamise raamistikku. YARNi põhiidee on asendada JobTrackeri funktsioonid kahe eraldi deemoniga, mis vastutavad ressursside haldamise ja ajastamise / jälgimise eest. Selles uues raamistikus on ülemaailmne ResourceManager (RM) ja rakendusespetsiifiline ülem, mida tuntakse rakenduseMaster (AM) all. Tegelik andmete arvutamise raamistik moodustavad globaalse ressursihalduri (RM) ja NodeManageri (iga sõlme kohta). Olemasolevaid MapReduce v1 rakendusi saab käivitada ka YARN-is, kuid need rakendused tuleb Hadoop2.x-i purkidega uuesti kompileerida.

Impala

Impalat saab määratleda kui SQL päringumootorit, millel on tohutu paralleelse töötlemise (MPP) võimsus. See töötab natiivselt Apache Hadoopi raamistikus. Impala on loodud osana Hadoopi ökosüsteemist. See jagab sama paindlikku failisüsteemi (HDFS), metaandmeid, ressursside haldamise ja turberaamistikke, mida kasutavad muud Hadoopi ökosüsteemi komponendid. Kõige olulisem on märkida, et Impala on päringute töötlemisel Hivega võrreldes palju kiirem. Kuid me ei tohiks unustada ka seda, et Impala on mõeldud päringute tegemiseks / analüüsiks väikeste andmete põhjal ja see on peamiselt loodud analüüsivahendina, mis töötab töödeldud ja struktureeritud andmetega.

Hadoop on IT-s oluline teema, kuid on ka neid, kes on selle pikaajalise elujõulisuse suhtes skeptilised. Loe lähemalt rubriigis Mis on Hadoop? Küüniateooria.