Andmekataloogid ja masinõppe turu küpsemine

Sisu

Infonomics kohustuslik
Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata
Milliseid andmekatalooge saab ettevõtetele teha?
Lisamine masinõppesse
Kuidas valida

Allikas: Nmedia / Dreamstime.com

Ära võtma:

MLDC turg kasvab ja ettevõtted, kes soovivad masinaõppe abil suurandmeid tõhusalt ära kasutada, peaksid olema teadlikud valdkonna tippnimedest ja nende individuaalsest pingeridadest.

See on suurte andmete vanus. Me oleme infost üle ujutatud ja ettevõtjad peavad selle haldamist ja sellest kasu saamist väljakutseks.

Tänane suurandmete voog ei vaja ainult mahtu, mitmekesisust ja kiirust, vaid ka keerukust. Nagu tuvastas SAS suurandmete ajaloos ja praegustes kaalutlustes, on voogude tegur "mitmest allikast, mis raskendab andmete ühendamist, sobitamist, puhastamist ja teisendamist süsteemide vahel". (Kas soovite lisateavet suurandmete kohta? Vaadake (suured) Datas Big Future.)

Väärtusliku ülevaate leidmine ei tähenda lihtsalt võimalikult paljude andmete kogumist, vaid õigete andmete leidmist. Seda on võimatu käsitsi töödelda. Seetõttu on üha enam ettevõtteid "pöördunud andmekataloogide poole, et demokratiseerida andmetele juurdepääsu, võimaldada hõimuandmetega seotud teadmistel teavet kureerida, rakendada andmepoliitikat ja aktiveerida kõik andmed ettevõtte väärtuse jaoks kiiresti".

Siin sisestavad pildile andmekataloogid (mõnikord tuntud ka kui teabekataloogid). Nagu siin määratletud, annavad nad kasutajatele võimaluse uurida oma vajalikke andmeallikaid ja mõista uuritud andmeallikaid ning aitavad samal ajal organisatsioonidel oma praeguste investeeringutega rohkem väärtust saavutada. Selle üheks võimaluseks on võimaldada palju parem juurdepääs andmetele erinevat tüüpi kasutajatele, kes saavad seda kasutada või sellele oma panuse anda.

Infonomics kohustuslik

Märkides 2017. aasta lõpus dramaatiliselt kasvanud nõudlust andmekataloogide järele, nimetas Gartner need "uueks mustaks". Neid hakati tunnistama kiireks ja ökonoomseks lahenduseks, "kuidas levitada ja klassifitseerida organisatsioone, kelle andmeid hajutatakse üha enam ja mis on hajutatud, ja kaardistada nende teabe tarneahelad". Vajadus selle järele on tekkinud tänu infonoomika esiletõusule, mis nõuab teabe jälgimisel sama täpsust, mida kasutatakse muu ettevõtte vara haldamisel. (Lisateavet tarneahelate kohta leiate teemast Kuidas masinõpe võib parandada tarneahela tõhusust.)

Gartnerid võtavad džiibid välja koos Forrester Wave ™ -iga: masinõppe andmekataloogid, 2. kvartal 2018. Üle poole uuringus osalenud küsitluses osalenutest ütlesid, et plaanivad oma andmekataloogi juurutamist. Tõenäoliselt motiveeris neid suuresti asjaolu, et mõlemal oli nende organisatsioonis vähemalt seitse andmejärve. Nagu Gartner võtab vastu andmekatalooge, on andmekataloogid eriti kasulikud andmete "andmete sisu, tähenduse ja väärtuse" väljatõmbamiseks, mis tavaliselt jäetakse klassifitseerimata kujul andmejärve.

Forrester teatas, et enam kui kolmandik andme- ja analüütiliste otsuste tegijatest tegeles 2017. aastal 1000TB või enama andmetega, summa oli aasta varem vaid 10–14 protsenti. Andmete haldamine sellisel skaalal on kasvav väljakutse või konkreetselt kaks väljakutset:

"1) olemasolevate äriprotsesside ühendamine andmete hankimiseks nende analüüsimiseks ja arusaamade rakendamiseks ning 2) andmete hankimine, kogumine, haldamine ja haldamine nende kasvades."

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

Milliseid andmekatalooge saab ettevõtetele teha?

Gartner tuvastab konkreetsed viisid, kuidas andmekataloogid võivad parandada organisatsioonide teabevoogu ja tootlikkust:

Organisatsioonile kättesaadava ajakohase teabevara inventuuri kogumine ja edastamine.
Luues ühise äriterminite sõnastiku, mis määratleb organisatsioonide andmete semantilise tõlgenduse ja tähenduse, pakkudes seeläbi vahendeid määratluslike vastuolude vahendamiseks ja lahendamiseks.
Dünaamilise ja paindliku koostöökeskkonna võimaldamine äri- ja IT-kolleegidele andmete kommenteerimiseks, dokumenteerimiseks ja jagamiseks.
Andmekasutuse läbipaistvuse tagamine sugupuu ja mõjuanalüüsiga.
Andmete seire, auditeerimine ja jälgimine teabehaldusprotsesside toetamiseks.
Metaandmete hõivamine andmete kasutamise ja korduskasutuse sisemise analüüsi, päringute optimeerimise ja andmete sertifitseerimise parandamiseks.
Teabe koondamine oma ärikasutusse, hõivates, edastades ja analüüsides olemasolevaid andmeid, kust need pärinevad, millistel miinustel seda kasutatakse, miks neid vajatakse, kuidas see voolab protsesside ja süsteemide vahel, kes selle eest vastutab, mida see tähendab ja mis väärtus sellel on.

Gartneri raportis on oluline, et andmed oleksid õigesti tuvastatud ja organisatsiooni võtmeisikutele juurdepääsetavad, mitte ainult selleks, et leida viis "andmevara raha teenimiseks digitaalse ettevõtluse tulemuste jaoks", vaid ka selleks, et järgida määrusi, olenemata sellest, kas tegemist on tööstusharu- konkreetsed nagu ravikindlustuse kaasaskantavuse ja vastutuse seadus (HIPAA) või üldisemat laadi nagu üldine andmekaitsemäärus (GDPR).

Lisamine masinõppesse

Kuid miski pole ilma selle puudusteta. Andmekataloogide puhul on probleemiks olnud aeglane ja tüütu protsess, mis on seotud kõigi paika pandud metaandmete käsitsi üles ehitamisega. Siit tuleb masinõppe komponent.

Andreskatalooge, mida Forrester hindas, nimetatakse MLDC-deks, kuna need kasutavad masinõppe jõudu, mis on AI üks komponente. Nagu Podium Data ajaveeb selgitas, võimaldab see "ehitada püsivat metaandmete hoidlat ja seejärel rakendada ML / AI tuhkru väljaarendamiseks ja võimalike kasulike teadmiste paljastamiseks alusvarade varade ümber".

Kuidas valida

Aidates organisatsioonidel hinnata, milline ettevõte peaks valima, rakendas Forrester 29 parimat MLDC-d hindamispunkti. See määratles selle turu liidrid järgmiselt: IBM, Relito, Unifi Software, Alation ja Collibra. Tugevateks esinejateks, mida ta leidis, on Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics ja Cloudera. Hortonworks seisab üksi "kandidaadi" edetabelis.

Siiski ei tohiks minna ainult üldarvestuse järgi. Aruanne jaotab igaühe konkreetsed tugevused ja nõrkused. Järelikult, kui konkreetne funktsioon, näiteks teadus- ja arendustegevus, on organisatsiooni jaoks ülimalt oluline, võib ta pidada Hortonworksit IBMi ja Colilbra võrdseks selles aspektis, kuna neil kolmel on selle kvaliteedi jaoks parim tulemus viis, mis oli kaks punkti parem kui Alation ja Coloudera ning neli punkti parem kui Cambridge Semantics.

Sellest lähtuvalt soovitab Forresteri aruanne neile, kes kasutavad selle aruannet juhistena, mitte arvata, et parimate ettevõtete seas on parim valik kõigile. Nad peaksid tähelepanelikult jälgima hindamise jaotust, et leida, mis vastab nende konkreetsetele nõuetele.