Kui struktureeritud on teie andmed? Struktureeritud, struktureerimata ja poolstruktureeritud andmete uurimine

Sisu

Mis on struktureeritud andmed?
Mis on struktureerimata andmed?
Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata
Kukkumine vahel: poolstruktureeritud andmed
Kas struktureerimata andmeid saab muuta struktureeritud andmeteks?

Allikas: monsitj / iStockphoto

Ära võtma:

Siit saate teada struktureeritud, struktureerimata ja poolstruktureeritud andmete kohta.

Ajalooliselt olid andmeanalüütikud võimelised dekrüpteerima ja ekstraheerima teavet ainult ühte tüüpi andmetest: struktureeritud andmetest. Seda tüüpi andmeid oli oma selgete mustrite tõttu hõlpsasti otsitav, kuid need moodustasid vaid väikese protsendi kõigist saadaolevatest andmetest.

Struktureerimata andmete hulka kuulusid video, heli, s ning ka sotsiaalmeediast ja mobiilseadmetest pärit andmed. See oli käepärast suurim saadaolev töötlemata teabe varu, kuid keegi ei suutnud seda ressurssi usaldusväärselt kasutada.

Asjad on siiski muutunud, kuna ladustamise suurem kättesaadavus ja suurepärased töötlemisvõimalused sünnitasid struktureerimata andmeanalüütika - uue ja seega ebaküpse tehnoloogiavormi. Parem ärialane intelligentsus kasutab seda võimalust täiel määral ära ning struktureeritud ja struktureerimata andmeanalüütika koondamiseks on tehtud suuri investeeringuid, et pääseda juurde sellele näiliselt lõputule kuldmiinile.

Vaadakem neid kahte andmevormingut, et mõista nende erinevusi ja seda, mida kõik andmeanalüütikud tulevikus omavad.

Mis on struktureeritud andmed?

Struktureeritud andmed on inimese või masina genereeritud ja hästi organiseeritud teave, mida saab hõlpsalt salvestada ridade andmebaasi struktuurides, mida tuntakse relatsiooniliste andmebaasidena (RDB). See on miski, mis eksisteerib vormingus, mida saab hõlpsalt jäädvustada, säilitada ja korraldada RDB struktuuris, et seda hiljem analüüsida. (Lisateavet andmebaaside kohta leiate meie andmebaaside sissejuhatusest.)

Näited hõlmavad sihtnumbreid, telefoninumbreid ja kasutajate demograafilisi andmeid, näiteks vanus või sugu. Nendes andmebaasides leiduvatele andmetele saab Exceli arvutustabelites päringuid anda SQL-i või VLOOKUP-i funktsioonide abil. Algoritme saab teha ka erinevatest väljadest leitud andmete kiireks otsimiseks, kasutades nende indekseid või numbrilisi ja tähestikulisi andmeid. Kõik andmed on aga välja tüübi ja nime osas rangelt määratletud ning seega on nende säilitamise, pärimise ja analüüsimise võimalus mingil määral piiratud.

Tüüpilised struktureeritud andmeid kasutavad rakendused hõlmavad haiglahaldustarkvara, kliendisuhete haldamise (CRM) rakendusi ja lennufirmade broneerimissüsteeme. Korraliku korralduse ja hõlpsa juurdepääsetavuse tõttu on struktureeritud andmed kasulikud ja tõhusad suure hulga teabega tegelemisel. Inimkonna poolt iga päev toodetava lõpmatu andmemahu sisse peidetud musta õli puurimisel on struktureeritud andmete otsimine vaid pinna kriimustamine.

Mis on struktureerimata andmed?

Valdav enamus organisatsioonis leiduvatest andmetest on struktureerimata ja mõnede hinnangul moodustab see kuni 80 protsenti praegu saadaval olevatest koguandmetest. Struktureerimata andmed on definitsiooni järgi kõik, millel puudub tuvastatav sisestruktuur. Kuid mõned sellesse kategooriasse kuuluvad andmed on mingis vormis ebamäärane sisestruktuur, kuid see ei vasta andmebaasile ega arvutustabelile.

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

Enamik äriandmeid on struktureerimata, alates klienditeeninduse interaktsioonidest, failidest, veebipäevikutest, videotest ja muust multimeediumisisu, müügiautomaatikast, sotsiaalmeedia postitustest. Pole vaja selgitada, kui väärtuslikud need andmed võivad olla, kui neid saaks kaevandada, korraldada ja analüüsida.

Enamiku struktureerimata andmeid on genereerinud inimesed ja seega on need arusaadavad teistele inimestele. See tähendab, et uuem arvutiintelligents ei saa seda tüüpi teabest aru, kuna see on masinkeele ja struktureeritud andmebaaside lineaarsusest liiga kaugel.

Kukkumine vahel: poolstruktureeritud andmed

Poolstruktureeritud andmed on kolmas andmetüüp, mis moodustab kogu piruka palju väiksema tüki (5-10 protsenti). Mõlema maailma vahel sõna otseses mõttes haaratud poolstruktureeritud andmed sisaldavad sisemisi semantilisi silte ja märgistusi, mis identifitseerivad eraldi elemendid, kuid puuduvad relatsiooniandmebaasi mahutamiseks vajaliku struktuuri.

Näiteks võivad s tunduda struktureeritud andmetena, kuna neid saab liigitada kuupäeva, faili suuruse või aja järgi. Need pole siiski, kuna kõige väärtuslikum teave on neis leiduv, mitte suhteliselt lihtsad sildid. Neid ei saa sisu ja teema järgi tõeliselt korraldada, kuna inimesed ei räägi nii rangelt, et masin saaks neid ühemõtteliselt mõista. Muud näited poolstruktureeritud andmetest hõlmavad NoSQL andmebaase, avatud standardit JSON ja märgistuskeelt XML.

Poolstruktureeritud andmeid küsitakse ja kataloogitakse analüüsimiseks metaandmete analüüsi abil. Näiteks koosneb röntgenikiirgus tohutul hulgal pilti moodustavatest pikslitest - need on olemuselt struktureerimata andmed, millele pole juurde pääseda. Skaneeritav fail sisaldab siiski metaandmete osa, mis pakub selle kohta teavet, näiteks märkusi ja kasutajatunnust.

Kas struktureerimata andmeid saab muuta struktureeritud andmeteks?

Põhiline väljakutse, millega iga andmeanalüütik peab silmitsi seisma, on käepärase teabe korraldamine korralikul ja korralikul viisil, et sellele oleks juurde pääseda ja sellest aru saada. Andmete kaevandamise tööriistad ei ole tavaliselt varustatud teabe sõelumiseks, mis on definitsiooni järgi liiga sarnane inimkeelega, mis tähendab, et seda koguda ja kategoriseerida saab ainult teine inimene.

Struktureerimata andmete suur maht muudab aga andmete salvestamise või korraldamise katsed äärmiselt töömahukaks ja kulukaks. Teabe kogum, mis pärineb näiteks veebipõhisest otsingumootorist, on nii tohutu, et enamiku elementide töö ja ressursid nõuavad tohutuid investeeringuid just kõige põhilisemate väljavõtmiseks. Isegi kõige tõhusamate andmete kaevandamise tehnikate puhul jääb endiselt puudu märkimisväärsest hulgast veebist ja veelgi hullemast sügavast veebist leitavat teavet.

Kuid tehnikad on olemas. Ja neid arendatakse hämmastava kiirusega. Näiteks võiks metaandmeid kasutada struktureeritud ja struktureerimata andmete ühendamiseks. Kogutud teavet saavad nii kasutajad kui ka algoritmid filtreerida ja indekseerida, et lihtsalt asjakohaseid andmeid analüüsida. Muud lahendused hõlmavad "andmete koormamist" - protsessi, mille käigus keerulisi andmeid järk-järgult mittetehnilised kasutajad korraldavad. (Lisateavet andmete töötlemise tavakasutajate kohta leiate teemast, kuidas suured andmed saavad aidata iseteenindusanalüüsis.)

Mingil hetkel suudame need massiliselt organiseerimata infokogused tõhusamalt ümber korraldada ja ümber korraldada. Võib-olla mitte täna, võib-olla mitte homme, kuid varsti suudame rüüstata suurima võlviku, mida inimkond on eales näinud: suuri andmeid.