Miks Spark on tuleviku suurandmete platvorm

Videot: Suspense: Hitchhike Poker / Celebration / Man Who Wanted to be E.G. Robinson

Sisu

Mis on Apache Spark?
Miks on säde Hadoopi kohal nii oluline?
Mis on Sparksi ainulaadsed omadused?
Miks säde ei ole Hadoopi asendaja
Mida ettevõtted Sparkist ja Hadoopist arvavad
Praktilised rakendused
Järeldus

Allikas: Snake3d / Dreamstime.com

Ära võtma:

Apache Spark on avatud lähtekoodiga tööriist suurandmete töötlemiseks, mis hiilib Hadoopis (ja mõnes mõttes ületab seda).

Apache Hadoop on pikka aega olnud suurandmerakenduste vundamendiks ja seda peetakse kõigi suurandmetega seotud pakkumiste põhiandmete platvormiks. Kiirema jõudluse ja kiirete tulemuste tõttu on mälusisene andmebaas ja arvutamine populaarsust kogumas. Apache Spark on uus raamistik, mis kasutab mälusiseseid võimalusi kiire töötlemise tagamiseks (peaaegu 100 korda kiirem kui Hadoop). Niisiis, Spark-toodet kasutatakse üha enam suurandmete maailmas ja peamiselt kiiremaks töötlemiseks.

Mis on Apache Spark?

Apache Spark on avatud lähtekoodiga raamistik tohutute andmemahtude (suurandmete) kiireks ja lihtsaks töötlemiseks. See sobib suurandmetel põhinevate analüüsirakenduste jaoks. Sädet saab kasutada Hadoopi keskkonnas, eraldiseisvana või pilves. See töötati välja California ülikoolis ja pakuti hiljem Apache Software Foundationile. Seega kuulub see avatud lähtekoodiga kogukonda ja võib olla väga tasuv, mis võimaldab amatöör-arendajatel veelgi hõlpsamini töötada. (Lisateavet Hadoopsi avatud lähtekoodiga kohta leiate jaotisest Milline on avatud lähtekoodiga mõju Apache Hadoopi ökosüsteemile?)

Sparki peamine eesmärk on see, et see pakub arendajatele rakenduse raamistikku, mis töötab tsentreeritud andmestruktuuri ümber. Spark on ka äärmiselt võimas ja sellel on kaasasündinud võime kiiresti töödelda tohutul hulgal andmeid lühikese aja jooksul, pakkudes seega eriti head jõudlust.See muudab selle palju kiiremaks, kui väidetakse tema lähima konkurendi Hadoopi kohta.

Miks on säde Hadoopi kohal nii oluline?

Apache Spark on alati olnud teada, et Hadoop on mitmetes omadustes, mis ilmselt seletab, miks see endiselt nii oluline on. Üks peamisi põhjusi oleks selle töötlemise kiirusega arvestamine. Tegelikult, nagu juba eespool öeldud, pakub Spark sama hulga andmete jaoks töötlemist umbes 100 korda kiiremini kui Hadoopi MapReduce. Samuti kasutab see Hadoopiga võrreldes oluliselt vähem ressursse, muutes selle kulutasuvaks.

Teine võtmeaspekt, kus Sparkil on ülem käed, on ühilduvus ressursihalduriga. Apache Spark töötab teatavasti Hadoopiga, nagu ka MapReduce, kuid viimane ühildub praegu ainult Hadoopiga. Mis puutub Apache Sparki, siis see võib töötada koos teiste ressursihalduritega, näiteks YARN või Mesos. Andmeteadlased nimetavad seda sageli kui ühte suurimat piirkonda, kus Spark tõepoolest Hadoopi üle edestab.

Kasutusmugavuse osas on Spark jällegi palju parem kui Hadoop. Sparkil on lisaks Spark SQL-i meeldimistele ka mitme keele, näiteks Scala, Java ja Python, API-liidesed. Kasutaja määratletud funktsioonide kirjutamine on suhteliselt lihtne. Samuti juhtub, et kiidelda saab interaktiivse režiimiga käskude käitamiseks. Teisest küljest on Hadoop kirjutatud Java keeles ja on pälvinud mainet, et seda on üsna keeruline programmeerida, ehkki sellel on tööriistu, mis seda protsessi abistavad. (Sparki kohta lisateabe saamiseks vaadake teemat Kuidas Apache Spark aitab rakenduste kiiret arendamist.)

Mis on Sparksi ainulaadsed omadused?

Apache Sparkil on mõned unikaalsed omadused, mis eristavad seda andmetöötluse tegelikest konkurentidest tõeliselt paljudest konkurentidest. Mõnda neist on allpool lühidalt kirjeldatud.

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

Sparkil on ka kaasasündinud võime masinaõppe algoritmide abil laadida vajalikku teavet oma tuuma. See võimaldab sellel olla eriti kiire.

Apache Sparkil on võimalus töödelda graafikuid või isegi oma olemuselt graafilist teavet, võimaldades seega hõlpsat ja täpset analüüsi.

Apache Sparkil on MLib, mis on mõeldud struktureeritud masinõppeks. Samuti on selle rakendamine valdavalt kiirem kui Hadoopil. MLib on võimeline lahendama ka mitmeid probleeme, näiteks statistilist lugemist, andmete proovivõtmist ja eelduste testimist.

Miks säde ei ole Hadoopi asendaja

Hoolimata asjaolust, et Sparkil on Hadoopi käed allapoole astudes mitmeid aspekte, on endiselt mitmeid põhjuseid, miks see ei saa Hadoopi veel täpselt asendada.

Esiteks pakub Hadoop Sparkiga võrreldes lihtsalt suuremat tööriistakomplekti. Samuti on sellel valdkonnas mitmeid tunnustatud tavasid. Apache Spark on domeenis siiski suhteliselt noor ja vajab veel aega, et end Hadoopiga võrdsustada.

Hadoopi MapReduce on ka täieõiguslike toimingute tegemisel seadnud teatud tööstusstandardid. Teisest küljest arvatakse endiselt, et Spark pole täieliku töökindlusega töötamiseks täielikult valmis. Sageli peavad Sparki kasutavad organisatsioonid seda täpsustama, et see oleks valmis nende nõudmistele vastavaks.

Hadoopi MapReduce'i, mis on Sparkist kauem olemas olnud, on samuti lihtsam konfigureerida. Sparki puhul see nii ei ole, kui arvestada, et see pakub täiesti uut platvormi, mis pole tegelikult töötlemata plaastreid testinud.

Mida ettevõtted Sparkist ja Hadoopist arvavad

Paljud ettevõtted on juba hakanud Sparki oma andmetöötlusvajaduste jaoks kasutama, kuid lugu sellega ei lõpe. Sellel on kindlasti mitmeid tugevaid aspekte, mis muudavad selle hämmastavaks andmetöötlusplatvormiks. Kuid see on ka oma õiglase osa puudustest, mis vajavad parandamist.

Valdkonna arusaam on, et Apache Spark on selleks, et jääda ja on andmetöötlusvajaduste jaoks tõenäoliselt isegi tulevik. Sellega seoses tuleb siiski läbi viia palju arendustöid ja poleerimist, mis võimaldavad tal oma potentsiaali tõeliselt kasutada.

Praktilised rakendused

Apache Spark on töötanud ja töötab endiselt paljudes ettevõtetes, mis vastavad nende andmetöötlusnõuetele. Ühe edukaima rakenduse viis läbi Shopify, kes otsis sobivaid poode ärikoostööks. Andmeladu hoidis siiski aega, kui tahtis aru saada, mida tema kliendid müüvad. Sparki abiga suutis ettevõte töödelda mitu miljonit andmerekordit ja seejärel mõne minuti jooksul töödelda 67 miljonit kirjet. Samuti määrati kindlaks, millised kauplused olid abikõlblikud.

Sparki kasutades on Pinterest võimeline tuvastama arengusuundi ja kasutab seda siis kasutajate käitumise mõistmiseks. See võimaldab veelgi paremat väärtust Pinteresti kogukonnas. Sparki kasutab ka üks maailma suurimaid reisiteabe saite TripAdvisor, et kiirendada külastajatele soovituste andmist.

Järeldus

Ei saa kahelda Apache Sparki võimekuses, isegi praegu, ja ainulaadsetes omadustes, mida see lauale toob. Selle töötlemisvõimsus ja kiirus ning ühilduvus loovad tulevikus mitmete asjade tuleku. Ent selleks, et oma potentsiaali täielikult ära kasutada, on sellel ka mitmeid valdkondi, mida tuleb veel parandada. Kui Hadoop reguleerib praegu roostet, siis Apache Sparkil on helge tulevik ees ja paljud peavad seda tulevaseks andmetöötlusnõuete platvormiks.