5 teavet suurandmete (Hadoop) kui teenuse kohta

Autor: Roger Morrison
Loomise Kuupäev: 18 September 2021
Värskenduse Kuupäev: 6 Mai 2024
Anonim
How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox
Videot: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox

Sisu


Allikas: Info40555 / Dreamstime.com

Ära võtma:

Hadoop on suurepärane võimalus suurandmetest maksimumi saamiseks, kuid on ka palju muid tööriistu, mis saavad Hadoopiga veelgi kasulikumate tulemuste saavutamiseks koostööd teha.

Tänapäeva pidevalt muutuvas tehnoloogiamaailmas on tarkvarast kui teenusest (SaaS) saanud tavaline mudel. Teenust pakutakse abonentidele vastavalt vajadusele. Suured andmed järgivad ka sama teenusemudelit. Selles artiklis käsitleme suurandmete tehnoloogia valdkonnas järgitavat teenusemudelit.

Siin on mõned tuntud teenused, mis käsitlevad suurandmete teenust (BDaaS):

Rackspace

Rackspace Hadoopi klastrid saavad Hadoopi käitada Rackspace'i hallatavates spetsiaalstes serverites, avalikus pilves või privaatpilves.


Pilve suurandmete ühe mudeli pakuvad Rackspace Apache Sparki ja Hadoopi jaoks. See pakub mälu sisemiseks töötlemiseks täielikult hallatavat paljasmetalli platvormi.


Rackspace kõrvaldab suurandmete käsitsi haldamise ja hooldamisega seotud probleemid. Sellel on järgmised funktsioonid:

  • Vähendab töökoormust, pakkudes 24 × 7 × 365 tuge
  • Pakub täielikku juurdepääsu Hortonworks Data Platformsi (HDP) tööriistakomplektile, sealhulgas siga, taru, HBase, Sqoop, Flume ja HCatalog
  • Paindlik võrgukujundus traditsioonilise võrguga kuni 10 GB
Privaatse pilve valimine annab avalikele pilvedele võimsuse ja tõhususe koos kõrgendatud turvalisuse ja juhtimisega. Privaatpilve kasutamise peamine puudus on see, et seda on keeruline hallata ja see nõuab ekspertidelt versiooniuuenduste, plaastrite ja jälgimise uuendamist. Rackspace pakub nendes piirkondades suurepärast tuge, nii et pilvehalduse pärast pole vaja muretseda.


Joyent

Apache Hadoopi baasil on Joyent pilvepõhine hostimiskeskkond suurte andmeprojektide jaoks. Selle lahenduse loomisel on kasutatud Hortonworks Data Platform. See on suure jõudlusega konteinerirakendus tänapäevaste mobiilirakenduste ja reaalajas veebi jaoks. See võimaldab ettevõtlusklassi Hadoopi käitada suure jõudlusega Joyenti pilves.



Sellel on ka järgmised eelised:

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

  • Lõikame kaks kolmandikku infrastruktuurikuludest lahenduste abil, mida pakub Joyent sama reageerimisajaga
  • 3x kiirem ketta I / O reageerimise aeg Hadoopi klastrite poolt Joyenti pilves
  • Kiirendab hajutatud ja paralleelse töötlemise reageerimisaegu
  • Parandab intensiivseid andmeanalüüsirakendusi täidevate Hadoopi klastrite skaleerimist
  • Kiiremad tulemused parema reageerimisajaga
Üldiselt peetakse suurandmete rakendusi kalliks ja raskesti kasutatavaks. Joyent üritab seda muuta, pakkudes odavamaid ja kiiremaid lahendusi. Joyent pakub avalikku ja hübriidpilve infrastruktuuri reaalajas veebi- ja mobiilirakenduste jaoks. Tema klientide hulka kuuluvad sellised tähelepanuväärsed teemad nagu LinkedIn ja Voxer.


Kubool

Suurte andmeprojektide jaoks pakub Qubole sisseehitatud andmesideühenduste ja graafilise toimetajaga Hadoopi klastri. See võimaldab kasutada mitmesuguseid andmebaase, näiteks MySQL, MongoDB ja Oracle, ning seab Hadoopi klastri automaatseks piloteerimiseks. See pakub päringuredaktorit tarude, sigade ja MapReduce'i jaoks.


Qubole pakub kõike teenusena, sealhulgas:

  • Hive, Pig ja MapReduce päringutoimetaja
  • Väljendi hindaja
  • Kasutuse armatuurlaud
  • Väljavõtte teisenduskoormus (ETL) ja andmesidejuhtmete ehitajad
Selle funktsioonide hulka kuuluvad:

  • Töötab kiiremini kui Amazon EMR
  • Lihtsalt kasutatav GUI sisseehitatud pistikute ja õmblusteta elastse pilveinfrastruktuuriga
  • Ressursside jaotamise ja haldamise optimeerimine toimub QDS Hadoopi mootori abil deemonite abil, pakkudes täiustatud Hadoopi mootorit parema jõudluse saavutamiseks
  • Kiiremate päringute jaoks on I / O optimeeritud S3-salvestuseks. S3 on turvaline ja usaldusväärne. Qubole'i ​​andmeteenus pakub 5-kordist kiiremat täitmist andmetega S3-s.
  • Kasutamata funktsioonide ja rakenduste eest pole vaja maksta
  • Pilveintegratsioon - Qubole'i ​​andmeteenus ei vaja teie praeguse infrastruktuuri muutmist, see tähendab, et sellel on paindlikkus töötada mis tahes platvormiga. QDS-pistikud toetavad pilveandmebaaside MongoDB, Oracle, PostgresSQL ja selliste ressursside nagu Google Analytics importi ja eksporti.
  • Klastri elutsüklihaldus koos Qubole andmesideteenusega klastrite varustamiseks minutitega, nõudluse suurendamiseks ja keskkonnas töötamiseks, et hõlpsalt hallata suurte andmete hindamist

Elastne MapReduce

Amazon Elastic MapReduce (EMR) pakub hallatavat Hadoopi raamistikku suurandmete töötlemise lihtsustamiseks. Suurte andmemahtude levitamine ja töötlemine on lihtne ja kulutõhus.


Amazoni EMR-is võivad töötada ka muud hajutatud raamistikud, näiteks Spark ja Presto, et suhelda Amazon S3 ja DynamoDB andmetega. EMR käsitleb neid kasutusjuhtumeid usaldusväärsusega:

  • Veebi indekseerimine
  • Masinõpe
  • Teaduslik simulatsioon
  • Andmete ladustamine
  • Logi analüüs
  • Bioinformaatika
Tema klientide hulka kuuluvad Yelp, Nokia, Getty Images, Reddit ja teised. Mõned selle funktsioonid on:

  • Paindlik kasutamiseks juurjuurdepääsuga igal juhul, toetab mitut Hadoopi jaotust ja rakendust. Igat klastrit on lihtne kohandada ja täiendavaid rakendusi installida.
  • Amazoni EMR-klastri installimine on lihtne.
  • Piisavalt usaldusväärne, et kulutada vähem aega klastri jälgimiseks; proovib ebaõnnestunud ülesandeid uuesti ja asendab halvasti toimivad eksemplarid automaatselt.
  • Turvaline, kuna see konfigureerib automaatselt Amazon EC2 tulemüüri sätted juhtumite võrgule juurdepääsu kontrollimiseks
  • Töödelge andmeid Amazon EMR-iga mis tahes skaalal. Juhtumite arvu saab hõlpsalt suurendada ja vähendada.
  • Madala hinnaga hind ilma varjatud kuludeta; makske tunni eest iga kasutatud juhtumi eest. Näiteks käivitage 10-sõlmeline Hadoopi klaster hinnaga 0,15 dollarit tunnis.
Seda kasutatakse klikkide voo andmete analüüsimiseks, et mõista kasutaja eelistusi. Reklaamijad saavad analüüsida klikkide vooge ja reklaamide näitamisloke.


Seda saab kasutada ka suures koguses genoomiliste andmete ja suurte andmekogumite tõhusaks töötlemiseks. AWS-is hostitavatele genoomiandmetele saavad teadlased tasuta juurde pääseda.

Amazoni EMR-i saab kasutada logide töötlemiseks ja see aitab neil struktureerimata ja poolstruktureeritud andmete petabaidid kasulikuks ülevaateks muuta.

Mört

Mört on Amazonase veebiteenuste pilvele rajatud suuremahulise andmetöötluse platvorm. See on üles ehitatud Elastic MapReduce'ile (EMR) Hadoopi klastrite käivitamiseks. Mördi lõid K. Young, Jeremy Kam ja Doug Daniels 2011. aastal eesmärgiga kaotada aeganõudvad ja rasked ülesanded. Seda tehti selleks, et teadlased saaksid oma aega veeta muu kriitilise töö tegemisel.


See töötab Java, Jython, Hadoop jt abil, et minimeerida kasutajate investeeritud aega ja lasta neil keskenduda andmeteadusele.

Sellel on järgmised omadused:

  • See vabastab teie meeskonna tüütust ja aeganõudvast paigaldusest ja hooldusest.
  • Säästab aega, luues lahendused lühikese aja jooksul operatsioonideks.
  • Hoiatab kasutajaid automaatselt kõigist tehnoloogia ja rakenduste tõrgetest, et nad saaksid täpset ja reaalajas teavet.
Mördi platvormi rakendused:

  • Võimsa, skaleeritava soovitusmootori juurutamiseks on kiireim platvorm Mortar.
  • Mört on täielikult automatiseeritud, kuna see töötab soovitusmootorit otsast lõpuni ainult ühe käsuga.
  • See kasutab tööstusstandardi versioonikontrolli, mis aitab hõlpsalt kohandada ja kohandada.
  • Analüüsimiseks ühendage mitu andmeallikat hõlpsalt andmeladudega.
  • See säästab teie meeskonna tööaega, käsitledes infrastruktuuri, juurutamist ja muid toiminguid.
  • Ennustage analüüsi juba olemasolevate andmete abil. Mört toetab analüüsi jaoks selliseid lähenemisi nagu lineaarne regressioon ja klassifitseerimine.
  • Toetage juhtivaid masinõppe tehnoloogiaid nagu R, Pig ja Python keerukate tööde vaevata paralleelsuse tagamiseks.
  • 99,9% tööaeg ja strateegiline hoiatamine tagavad kasutajate usalduse ja analüütikajuhtme pakkumise ikka ja jälle.
  • Ettevõtte kasvatamiseks kasutatakse ennustatavaid algoritme, näiteks nõudluse prognoosimine ja kõrge väärtusega klientide tuvastamine.
  • Suurte koguste analüüsimine on hõlpsasti teostatav, olgu selleks märgistus, tüvi, LDA või n-gramm.

Kokkuvõte

Täna on saadaval palju suurandmerakendusi ning tulevikus on kahtlemata saadaval kiiremad ja odavamad lahendused, mis on kasutajatele saadaval. Lisaks pakuvad teenusepakkujad paremaid lahendusi, muutes paigaldamise ja hoolduse vähem ulatuslikuks.