Tänapäeval on suurandmete väljakutse mitmekesisus, mitte maht ega kiirus

Sisu

Kolm V suurandmeid
Andme mitmekesisuse probleemiga tegelemine
Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Ära võtma:

Liiga paljud IT-osakonnad viskavad andmemahu ja kiiruse küsimustesse kõik, mis neil on, unustades tegeleda andmete mitmekesisuse põhiküsimusega.

Gartneri teaduse asepresidendi Doug Laney sõnul tuleneb suurandmete haldamise ja võimendamise väljakutse kolmest elemendist. Laney märkis esmakordselt rohkem kui kümme aastat tagasi, et suurandmed tekitavad ettevõttele sellist probleemi, kuna need tutvustavad raskesti hallatavat mahtu, kiirust ja mitmekesisust. Probleem on selles, et liiga paljud IT-osakonnad viskavad andmemahu ja kiiruse küsimustesse kõik, mis neil on, unustades tegeleda andmete mitmekesisuse põhiküsimusega.

Laney kirjutas juba 2001. aastal, et "juhtivad ettevõtted kasutavad üha enam tsentraliseeritud andmeladu ühise ettevõtlussõnavara määratlemiseks, mis parandab sisemist ja välist koostööd". Selle sõnavara küsimus - ja varieeruvus, mis takistab ettevõtteid seda looma - jääb tänapäeval suurandmete keerukuse kõige vähem käsitletavaks aspektiks. (Vaadake, mida teised eksperdid ütlevad. Vaadake järgmisi suurandmete eksperte.)

Kolm V suurandmeid

Paljud ettevõtted on leidnud meetodeid suurenenud andmemahu ja kiiruse kasutamiseks. näiteks suudab analüüsida tohutul hulgal andmeid. Muidugi esitatakse neid andmeid ikka ja jälle samade parameetrite piires. See ajendas tehnoloogiauuendusi, näiteks veergude andmebaasid, mida kasutavad nüüd laialdaselt ka teised ettevõtted, kes seisavad silmitsi sama suurte andmete sarnaste andmeallikatega.

Taltsutamise kiiruse osas aitavad müüjad nagu Splunk ettevõtetel kiiresti loodud andmeid logifailide kaudu analüüsida, mis hõlmavad mitu tuhat sündmust sekundis. See suuremahuliste sündmuste analüüs on suunatud turvalisuse ja jõudluse jälgimise kasutamisjuhtudele. Nagu andmemahu väljakutse puhul, on kiiruse väljakutsega suures osas tegeletud ka keerukate indekseerimistehnikate ja hajutatud andmeanalüütika abil, mis võimaldavad töötlemisvõimsust suurema andmekiirusega skaleerida.

Mitmesuguse mitmekesisuse osas seisavad aga liiga paljud ettevõtted silmitsi suure probleemiga nende lähenemises suurandmete analüüsile. Seda probleemi juhivad kolm tegurit: esiteks on kasvu, omandamiste ja tehnoloogiliste uuenduste tõttu, mis lisavad keskkonda uusi süsteeme, ettevõtted lukustatud väga heterogeensesse keskkonda ja see heterogeensus aja jooksul ainult suureneb. Ettevõtted peavad jälgima arvukalt süsteemitüüpe ja haldama kümneid tuhandeid andmetüüpe, samuti tuleb samu andmeid esitada erinevate nomenklatuuride ja vormingute abil.

Teiseks edastavad need süsteemid ja andmetüübid paljudel juhtudel nii asjakohast teavet kui ka teavet, mida saab ohutult välja filtreerida kui käsitletava probleemi jaoks ebaolulist. Mõjutavat teavet on vaja usaldusväärselt tuvastada.

Sordiväljakutse kolmas mõõde on keskkonna pidev varieeruvus või muutumine. Süsteemid ajakohastatakse, võetakse kasutusele uued süsteemid, lisatakse uusi andmetüüpe ja uus nomenklatuur. See raskendab veelgi meie suutlikkust andmete mitmekesisuse väljakutset taltsutada. See lisab sordi väljakutsele täiendava kihi. (Lisateabe saamiseks vaadake suurandmeid: kuidas seda hõivatakse, krõbistatakse ja mida kasutatakse äriotsuste tegemiseks.)

Andme mitmekesisuse probleemiga tegelemine

Andme mitmekesisuse probleemiga tegelemiseks peavad ettevõtted alustama IT-valdkonnast, kuna see esindab sageli nii mitmekesisuse rikkujaid kui ka halvimaid ohvreid. Esimene samm on alustada kõigi IT-elementide või varade tervikliku määratluse või taksonoomiaga. See annab aluse või vundamendi viidata ükskõik millele IT-s või selle kohta ning võimaldab ettevõtetel hallata kasvavat heterogeensust teadaoleva taksonoomia või terminoloogia alusel.

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

Järgmine samm on tuvastada arvukad viisid, kuidas sama objekt on esindatud erinevates salvestussüsteemides. See võimaldab IT-spetsialistidel vaadata kogu oma heterogeenset keskkonda ning filtreerida ja tihendada andmeid asjakohasteks ja hallatavateks tükkideks.

Lõpuks peavad IT-juhid võtma kasutusele keskkonna pideva uurimise protsessi muudatuste jaoks, nagu näiteks uut tüüpi elementide kasutuselevõtt või uus nomenklatuur sama elemendi jaoks.

Nende sammude abil saavad IT-organisatsioonid hallata mitmekesisuse probleemi ja saada põhjalikke teadmisi, mis on IT-meeskondadest ajalooliselt kõrvale jäänud. Lisaks parandab sordiprobleemi lahendamine nende investeeringutasuvust tööriistadesse ja tehnikatesse, mis tegelevad traditsiooniliste suurandmete mahu ja kiiruse probleemidega.