Kas suurandmetes võib kunagi olla liiga palju andmeid?

Autor: Laura McKinney
Loomise Kuupäev: 4 Aprill 2021
Värskenduse Kuupäev: 1 Juuli 2024
Anonim
Kas suurandmetes võib kunagi olla liiga palju andmeid? - Tehnoloogia
Kas suurandmetes võib kunagi olla liiga palju andmeid? - Tehnoloogia

Sisu

K:

Kas suurandmetes võib kunagi olla liiga palju andmeid?


A:

Vastus küsimusele on kõlav jah. Suures andmeprojektis võib olla absoluutselt liiga palju andmeid.

Sellel on arvukalt viise ja mitmesuguseid põhjuseid, miks spetsialistid peavad õigete tulemuste saamiseks andmeid piirama ja kureerima mitmel viisil. (Lugege 10 suurt müüti suurandmete kohta.)

Üldiselt räägivad eksperdid mudeli signaali ja müra eristamisest mürast. Teisisõnu, suurandmete meres muutuvad olulised ülevaateandmed raskeks. Mõnel juhul otsite nõela heinakuhjas.

Oletame näiteks, et ettevõte üritab kasutada suurandmeid, et luua konkreetset teavet kliendibaasi segmendi kohta ja nende ostud kindla aja jooksul. (Loe Mida teevad suured andmed?)

Tohutu hulga andmevarade võtmine võib kaasa tuua juhuslike andmete kogumise, mis pole asjakohane, või see võib isegi põhjustada eelarvamust, mis moonutab andmeid ühes või teises suunas.


Samuti aeglustab see protsessi dramaatiliselt, kuna arvutisüsteemid peavad võitlema suuremate ja suuremate andmekogumitega.

Nii paljude erinevat tüüpi projektide puhul on andmeinseneride jaoks äärmiselt oluline andmete kureerimine piiratud ja spetsiifilistesse andmekogumitesse - ülaltoodud juhul oleks see ainult selle uuritava kliendisegmendi andmed, ainult selle aja andmed uuritav raam ja lähenemisviis, mis kõrvaldab täiendavad identifikaatorid või taustteabe, mis võib asju segadusse ajada või süsteeme aeglustada. (ReadJobi roll: andmeinsener.)

Vaatame lähemalt, kuidas see masinõppe eesliinil töötab. (Loe masinõpet 101.)

Masinõppe eksperdid räägivad nn ületöötlusest, kus liiga keerukas mudel annab vähem tõhusaid tulemusi, kui masinõppe programm uute tootmisandmete osas lahti võetakse.

Ümberpaigutamine juhtub siis, kui keeruline andmepunktide komplekt sobib algtreeningukomplektiga liiga hästi kokku ja ei võimalda programmi hõlpsalt uute andmetega kohandada.


Nüüd ei põhjusta ületalitlust tehniliselt mitte liiga paljude andmeproovide olemasolu, vaid liiga paljude andmepunktide kroonimine. Kuid võite väita, et liiga paljude andmete omamine võib olla ka seda tüüpi probleemide soodustavaks teguriks. Mõõtmete needuse käsitlemine hõlmab samu tehnikaid, mida tehti ka varasemates suurandmeprojektides, kuna spetsialistid üritasid kindlaks teha, mida nad IT-süsteemidest toidavad.

Lõppkokkuvõttes võib öelda, et suurandmed võivad olla ettevõtetele tohutult kasulikud või sellest võib saada suur väljakutse. Selle üks aspekt on see, kas ettevõttel on olemas õiged andmed. Eksperdid teavad, et pole soovitatav lihtsalt kogu andmevara punkrisse visata ja selle kohta teadmisi pakkuda - uutes pilvepõhistes ja keerukates andmesüsteemides on andmete kontrollimiseks ja haldamiseks ning kurareerimiseks vajalik täpsema ja täpsema teabe saamiseks. andmevarade tõhus kasutamine.