Andmed, suured ja väikesed: kas on reaalne väärtus?

Sisu

Kui suuri andmeid kasutatakse
Kus on tegelik väärtus?
Mõnikord avaldab väikeandmed suuremat (ja odavamat) mõju

Allikas: Marek Uliasz / Dreamstime.com

Ära võtma:

Me kõik teame täna andmete olulisust. Suurandmeid kasutatakse laialdaselt lahendusena suurte andmemahtude haldamiseks. Kuid samal ajal on võrdselt olulised ka väikesed andmed.

Suurandmed on koondsõna, mida kasutatakse suurte andmemahtude käsitlemiseks. Me kõik mõistame, et mida suurem on andmemaht, seda keerukamaks see muutub. Traditsioonilised andmebaasilahendused ei suuda sageli suurte andmemahtude keerukuse ja suuruse tõttu õigesti hallata. Seetõttu on suurte andmemahtude haldamine ja reaalse ülevaate saamine keeruline ülesanne. Sama "väärtuse" kontseptsioon kehtib ka väikeste andmete puhul.

Kui suuri andmeid kasutatakse

RDBMS-ide kontseptsioonil põhinevad tavapärased andmebaasilahendused saavad tehingute andmeid väga hästi hallata ja neid kasutatakse laialdaselt erinevates rakendustes. Kuid kui tegemist on suure hulga andmete (arhiivitud ja terabaitides või petabaitides olevate andmete) käitlemisega, siis need andmebaasilahendused ebaõnnestuvad. Need andmekogumid on liiga suured ja enamasti ei sobi nad traditsiooniliste andmebaaside arhitektuuriga. Nendel päevadel on suurandmetest saanud kulutõhus lähenemisviis suuremate andmekogumite haldamiseks. Organisatsiooni seisukohast võib suurandmete kasutamise jagada järgmistesse kategooriatesse, kus suurte andmete tegelik väärtus on:

Analüütiline kasutamine
Suurandmete analüütikud on paljastanud paljud olulised andmete varjatud aspektid, mille töötlemine on liiga kulukas. Näiteks kui peame kontrollima õpilaste suundumust teatud uue teema vastu, saame seda teha igapäevase osalemisakti ja teiste sotsiaalsete ja geograafiliste faktide analüüsi abil. Need faktid registreeritakse andmebaasis. Kui me ei pääse neile andmetele tõhusal viisil ligi, ei näe me tulemusi.

Luba uued tooted
Lähiminevikus on paljud uued veebiettevõtted, näiteks hakanud suurte toodete kasutamist uute toodete turule toomiseks. Me kõik teame, kui populaarne on - see on suurte andmete abil edukalt ette valmistanud suure jõudlusega kasutajakogemuse.

Kus on tegelik väärtus?

Erinevad suurandmelahendused erinevad andmete säilitamise lähenemisviisi poolest, kuid kokkuvõttes salvestavad nad kõik andmeid tasases failistruktuuris. Üldiselt koosneb Hadoop failisüsteemist ja mõnest operatsioonisüsteemi tasemel andmete abstraktsioonist. See hõlmab MapReduce mootorit ja Hadoopi hajutatud failisüsteemi (HDFS). Lihtne Hadoopi klaster sisaldab ühte peasõlme ja mitut töötaja sõlme. Üldsõlm koosneb järgmistest osadest:

Ülesannete jälgija
Tööotsija
Nimesõlm
Andmesõlm

Töötaja sõlm koosneb järgmistest osadest:

Ülesannete jälgija
Andmesõlm

Mõnes rakenduses on ainult andmesõlm. Andmesõlm on tegelik piirkond, kus andmed asuvad. HDFS salvestab mitme masina vahel levitatud suured failid (vahemikus terabaiti kuni petabaite). Andmete usaldusväärsus iga sõlme kohta saavutatakse andmete kopeerimisega kõigis hostides. Seega on andmed saadaval isegi siis, kui üks sõlmedest on maas. See aitab kiiremini reageerida päringutele. See kontseptsioon on väga kasulik selliste tohutute rakenduste korral nagu. Kasutajana saame vastuse oma vestlustaotlusele näiteks peaaegu kohe. Mõelge stsenaariumile, kus kasutaja peab vestluse ajal pikka aega ootama. Kui ja järgnevat vastust ei edastata kohe, siis mitu inimest neid vestlusriistu tegelikult kasutab?

Rakenduse juurde tagasi minnes ei saa ahvatlevat rakendust olla, kui andmeid ei kopeerita klastrites. Hadoop levitab andmed masinate vahel suuremas klastris ja salvestab failid plokkide jadana. Need plokid on sama suurusega, välja arvatud viimane. Ploki suurust ja replikatsioonifaktorit saab kohandada vastavalt vajadusele. HDFS-is olevad failid järgivad rangelt ühekordse kirjutamise lähenemisviisi ja seega saab neid korraga kirjutada või redigeerida ainult üks kasutaja. Otsused plokkide paljundamise kohta teeb nimesõlm. Nimesõlm võtab vastu aruandeid ja impulsivastuseid igast andmeüksusest. Impulssreaktsioonid tagavad vastava andmesõlme kättesaadavuse. Aruanne sisaldab andmesõlme plokkide üksikasju.

Sarnase levitamise kontseptsiooni kasutab ka teine suurandmete rakendamine - Cassandra. Cassandra levitab andmeid vastavalt geograafilisele asukohale. Seega on Cassandras andmed eraldatud andmete kasutamise geograafilise asukoha järgi.

Mõnikord avaldab väikeandmed suuremat (ja odavamat) mõju

Nagu avatud teadmiste fondi Rufus Pollock ütles, pole mõtet suurandmete ümber hüpe luua, kuna tegelik väärtus peitub endiselt väikestes andmetes.

Nagu nimigi ütleb, on väikesed andmed suurema hulga andmete hulgast suunatud andmete kogum. Väikeste andmete eesmärk on nihutada tähelepanu andmete kasutamiselt ja selle eesmärk on ka vastu suundumusele liikuda suurandmete poole. Väikeste andmete lähenemisviis aitab konkreetsete nõuete põhjal andmete kogumisel vähem pingutust kasutades. Selle tulemusel on see tõhusam äripraktika, rakendades samal ajal äriteavet.

Selle keskmes keerleb väikeandmete kontseptsioon ettevõtete ümber, mis nõuavad tulemusi, mis nõuavad edasisi meetmeid. Need tulemused tuleb kiiresti hankida ja ka järgmised toimingud tuleks viivitamatult täita. Nii saame kaotada suures andmeanalüütikas tavaliselt kasutatavad süsteemid.

Üldiselt, kui võtta arvesse mõnda spetsiifilist süsteemi, mida on vaja suurandmete hankimiseks, võib ettevõte investeerida palju serverisalvestite seadistamisse, kasutada keerukaid tipptasemel servereid ja uusimaid andmekaeverakendusi, et hallata erinevaid bitti andmeid , sealhulgas kasutaja toimingute kuupäevad ja kellaajad, demograafiline teave ja muu teave. Kogu see andmekogum liigub kesksesse andmelaosse, kus andmete sortimiseks ja töötlemiseks kasutatakse üksikasjalikke algoritme, mida kuvatakse üksikasjalike aruannete vormis.

Me kõik teame, et need lahendused on mastaapsuse ja kättesaadavuse osas paljudele ettevõtetele kasuks tulnud; on organisatsioone, kes leiavad, et nende lähenemisviiside kasutuselevõtt nõuab suuri pingutusi. Tõsi on ka see, et mõnel juhul saavutatakse sarnased tulemused vähem robustse andmete kaevandamise strateegia abil.

Väikeandmed pakuvad organisatsioonidele võimalust kinnisidee järele minna uusimate ja uusimate tehnoloogiate järele, mis toetavad keerukamaid äriprotsesse. Väikeandmeid reklaamivad ettevõtted väidavad, et ettevõtluse seisukohast on oluline oma ressursse tõhusalt kasutada, nii et teatud määral saaks vältida tehnoloogia liigset kulutamist.

Oleme palju arutanud suurandmete ja väikeste andmete tegelikkuse üle, kuid peame mõistma, et kogu platvormi kõige olulisem osa on õige platvormi (suurandmed või väikesed andmed) õigeks kasutamiseks valimine. Ja tõsi on see, et kuigi suurandmed võivad pakkuda palju eeliseid, pole see alati parim.