Kvaliteetse suurandmete analüüsi võti: mõistmine erinevatest - TechWise Episode 4 ärakiri - Tehnoloogia

Sisu

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Allikas: Jakub Jirsak / Dreamstime.com

Ära võtma:

Host Eric Kavanagh arutab suurandmete analüütikat valdkonna ekspertidega.

Eric: Daamid ja härrad, käes on 2014. aasta lõpp - vähemalt peaaegu. Inimesed! See on meie viimane veebiülekanne aastal! Tere tulemast TechWise'i! Jah, tõesti! Minu nimi on Eric Kavanagh. Ma olen teie moderaatoriks suurepärasele veebiülekandele, inimesed. Ma olen väga-väga põnevil. Meil on kaks võrratut analüütikut võrgus ja kaks suurepärast ettevõtet - tõelised uuendajad kogu selles suurandmete ökosüsteemis. Ja me räägime kõike suurandmete analüüsi võtmeks on erinevuste mõistmine. Lähme edasi ja sukeldume kohe sisse, inimesed.

Meil on mitu saatejuhti. Nagu näete, on ülaosas teie oma. Mike Ferguson helistab täielikult Suurbritanniast, kus ta pidi hiljaaegu oma kontorihoones viibimiseks saama erilised privileegid. Nii hilja on tema jaoks. Meil on siin Dror Robori peaanalüütik dr Robin Bloor. Ja meil on RedPoint Global tegevjuht ja kaasasutaja George Corugedo ning SASi instituudi vanemlahenduste arhitekt Keith Renison. Need on fantastilised ettevõtted, inimesed. Need on ettevõtted, kes on tõesti uuendusmeelsed. Ja me kavatseme uurida mõnda head, mis toimub praegu kogu suurandmete maailmas, mis seal toimub. Ja olgem ausad, väikesed andmed pole kadunud. Ja lubage mul siin esitada oma kokkuvõte.

Niisiis, on olemas üks prantsusekeelne väljend: "Mida rohkem asjad muutuvad, seda enam jäävad nad samaks." Ja olgem siinkohal mõned faktid - suurandmed ei lahenda väikeste andmetega seotud probleeme. Ettevõtte väikesed andmed on endiselt väljas. Seda on ikka igal pool. See on tänapäeva infomajanduse jaoks toimingute kütus. Ja suurandmed pakuvad komplimenti nendele niinimetatud väikeettevõtete andmetele, kuid see ei asenda väikeste andmetega. See jääb ikka ringi. Mulle meeldib palju asju suurandmete osas, eriti sellised asjad nagu masina genereeritud andmed.

Ja täna räägime tõenäoliselt natuke sotsiaalmeedia andmetest, mis on ka väga võimas kraam. Ja kui mõelda näiteks sellele, kuidas ühiskondlik tegevus on äri muutnud, siis mõelge lihtsalt kolmele kiirele veebisaidile siin:, LinkedIn ja. Mõelge sellele, et viis aastat tagasi keegi sellist asja ei teinud. on tänapäeval absoluutne juggernaut. muidugi on tohutu. See on kohutav. Ja siis on LinkedIn de facto standard ettevõtte võrkude loomiseks ja suhtlemiseks. Need saidid on humaansed ja neis sisalduvate andmete ärakasutamiseks on vaja mõnda mängu muutvat funktsionaalsust taaselustada. See annab tõesti paljudele organisatsioonidele palju head - vähemalt nende jaoks, kes seda ära kasutavad.

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

Niisiis, valitsemine - valitsemine on endiselt oluline. Jällegi ei tühista suurandmed vajadust valitsemise järele. Ausalt öeldes on vaja täiesti uut keskenduda sellele, kuidas juhtida suurandmete maailma. Kuidas saate oma protseduurid ja poliitika paika panna? et õigetele inimestele on juurdepääs õigetele andmetele; et teil on kontakte, olete siin seotud sugupuuga? Tegelikult teate, kust andmed pärinevad, mis nendega on juhtunud. Ja see kõik muutub.

Mulle on ausalt öeldes tõeliselt muljet avaldanud see, mida ma siin kogu uues maailmas Hadoopi ökosüsteemi võimendades nägin - see on funktsionaalsuse mõttes muidugi palju enamat kui salvestusruum. Hadoop on ka arvutusmootor. Ja ettevõte peab välja mõtlema, kuidas seda arvutusvõimsust, seda paralleelset töötlemisvõimet kasutada. Nad teevad tõesti väga lahedaid asju. Me õpime sellest täna teada.

Teine asi, mida mainida, on see asi, millest dr Bloor on lähiminevikus rääkinud, on see, et innovatsioonilaine pole veel läbi. Niisiis, oleme Hadoopi ümbruses muidugi palju tähelepanu näinud. Me oleme näinud ettevõtteid, nagu Cloudera ja Hortonworks, teate, tõesti, et nad teevad laineid. Ja nad arendavad partnerlust hästi väljakutsuvate ettevõtetega tänapäeval, ausalt öeldes. Ja nad arendavad paljude inimestega partnerlust. Kuid innovatsioonilaine pole veel läbi. Apache Fondist on välja tulnud rohkem projekte, mis muudavad mitte ainult lõpp-punkti, kui soovite - rakendused, mida inimesed kasutavad, vaid ka infrastruktuur ise.

Niisiis, kogu see lõnga - veel ühe ressursiläbirääkija - arendus on tõesti nagu suurandmete opsüsteem. Ja see on suur, suur asi. Niisiis, me õpime, kuidas see ka asju muudab. Niisiis, vaid paar bitti ilmset nõu, olge ettevaatlik pikkade lepingute sõlmimisel, teate, viie-, kümneaastased lepingud lähevad sellele lainele, tee, mis mulle tundub. Peate vältima sisselogimist iga hinna eest. Me õpime seda kõike täna õppima.

Niisiis, meie esimene analüütik, kes täna räägib - kogu saate esimene esineja on Mike Ferguson, kes helistab Ühendkuningriigist. Sellega annan teile klahvid, Mike, ja lasen teil selle ära viia. Mike Ferguson, põrand on teie oma.

Mike, kas sa oled seal? Võib-olla olete vaigistatud. Ma ei kuule teda. Võib-olla peame ta tagasi kutsuma. Ja me hüppame lihtsalt üles Robin Bloori slaididele. Robin, ma teen siin vaese Mike Fergusoni auastme. Ma lähen korraks.

Kas see oled sina, Mike? Kas sa kuuled meid? Ei. Ma arvan, et peame minema kõigepealt koos Robiniga minema. Niisiis, hoidke üks sekund, inimesed. Mõne minuti pärast tõmban siia ka slaidide linke. Sellega lubage mul anda kätte Robin Bloori võtmed. Robin, sa võid Mike asemel esimesena minna ja ma helistan Mikele kohe.

Robin: Olgu.

Eric: Hoia kinni, Rob. Las ma lähen edasi ja viin su slaidi siia üles, Rob. Läheb natuke aega.

Robin: Olgu.

Eric: Jah. Võite omamoodi rääkida sellest, millega me siin tegeleme, valitsemistava osas. Ma tean, et te räägite valitsemisest. Sellele mõeldakse tavaliselt väikeste ettevõtete andmete puhul. Nii et nüüd on mul slaid üles tõstetud, Robin. Ärge liigutage midagi. Ja siin sa lähed. Põrand on teie oma. Võta see ära.

Robin: Olgu. Jah. Ma mõtlen, et noh, me korraldasime seda eelnevalt nii, et Mike räägiks analüütilisest küljest ja ma räägiks juhtimisest. Teatud määral järgib juhtimine analüütikat selles mõttes, et see on põhjus, miks teete suuri andmeid, ja see, et kogute kogu analüüsi tegemiseks tarkvara, on see, kus väärtus on.

Siin on probleem. Ja küsimus on selles, et teate, andmeid tuleb segi ajada. Andmed peavad olema korrastatud. Andmed tuleb kokku viia ja hallata viisil, mis võimaldab analüütiliselt toimuda täie enesekindlusega - see on vist sõna. Niisiis, ma arvasin, et räägin, on võrrandi juhtimispool. Ma arvan, et tegelikult tuleb öelda, et juhtimine oli juba teema. Juhtimine oli juba probleem ja sellest saab kogu andmelao mängu küsimus.

Mis tegelikult juhtus, on sellest saanud palju suurem teema. Ja põhjus, miks see on muutunud nii suuremaks numbriks kui ka rohkemateks andmeteks, pean silmas, et need on põhjused, tõesti. Andmeallikate arv on dramaatiliselt laienenud. Varem määratlesid meie andmeallikad suures osas selle, mida andmeladu toitis. Andmeladu toidavad tavaliselt RTP-süsteemid. Võimalik on natuke väliseid andmeid, mitte palju.

Nüüd oleme jõudnud maailma, kus, nagu teate, on praegu olemas andmeturg ja seetõttu toimub seal andmetega kauplemine. Teil on juba palju ja mitmesuguseid voogesituse allikaid, mida saate organisatsiooni tegelikult sisse tuua. Oleme saanud sotsiaalmeedia andmeid, mis on neid võtnud, niiöelda enda arvelt. Ma mõtlen, et kohutavalt palju sotsiaalmeedia saitidel on tegelikult teave, mille nad koondavad ja saavad seetõttu inimestele kättesaadavaks teha.

Oleme ka avastanud, et teate, nagu need oleksid juba olemas. Need logifailid olid Splunki tulekuga meil juba olemas. Ja varsti selgus, et logifailil on väärtus. Nii et organisatsioonis oli andmeid, mis olid - mida võiksime nimetada nii uuteks kui ka välisteks andmeallikateks. Nii, see on üks asi. Ja see tähendab tegelikult seda, et teate, olenemata andmete haldamise eeskirjadest, mis meil varem kehtisid, neid tuleb ühel või teisel viisil laiendada ja neid tuleb ka edaspidi laiendada, et tegelikult reguleerida andmed. Kuid nüüd hakkame ühel või teisel viisil komplekteerima.

Ja minnes sellest loendist alla voogesitus ja andmete saabumise kiirus. Hadoopi populaarsuse üheks põhjuseks on see, et seda saab üsna palju kasutada paljude andmete kogumiseks. See võib ka andmeedastuskiirust tarbida, kui te ei pea seda kohe kasutama, siis on see kena paralleelne, tohutu paralleelne keskkond. Kuid olete ka teadnud, et praegu toimub üsna palju voogesituse analüütikat. Varem olid lihtsalt pangandussektorid, mis olid huvitatud rakenduste voogesitusest, kuid nüüd on see muutunud omamoodi globaalseks. Ja kõik vaatavad rakenduste voogesitust ühel või teisel viisil, mis on potentsiaalne viis andmetest väärtuse saamiseks ja organisatsiooni jaoks analüüside tegemiseks.

Meil on struktureerimata andmed. See statistika, mis on tavaliselt osa vaid 10% -st maailma andmetest, oli relatsioonandmebaasides. Nüüd oli selle üheks peamiseks põhjuseks enamasti see, et see oli tegelikult struktureerimata ja nii see oli - suur osa sellest oli veebis olemas, kuid mitmesuguste veebisaitide kohta üsna laiali. Need andmed on osutunud ka analüüsitavaks ja kasutatavaks. Ja Symanteci tehnoloogia tulekuga, mis järk-järgult olukorrale hiilib, muutub see üha enam.Seega on vaja struktureerimata andmeid tegelikult koguda ja hallata ning see tähendab, et need on palju suuremad kui enne. Meil on olemas sotsiaalsed andmed, mida ma juba mainisin, kuid selle mõte, peamine mõte selles, et see vajab tõenäoliselt puhastamist.

Meil on andmeid asjade interneti kohta. See on teistmoodi olukord. Tõenäoliselt on sellest nii palju, kuid suur osa sellest peab jääma laiali kuskile selle koha lähedale, kus see jookseb. Kuid soovite ka ühel või teisel viisil seda tõmmata, et analüüsida andmeid organisatsioonisiseselt. Niisiis, see on lisatud veel üks tegur. Ja need andmed struktureeritakse erineval viisil, kuna tõenäoliselt - tõenäoliselt vormindatakse need JSON-is või XML-is, nii et nad deklareerivad ennast. Ja mitte ainult, nii või teisiti, et me tõmbame tegelikult andmeid sisse ja suudame seda konkreetset andmestikku lugedes teha omamoodi skeemi.

Meil on küsimus lähtekohas ja see on analüütiline probleem. Mis tahes andmete analüüsi tulemusi - kui soovite - ei saa tõesti heaks kiita, kui need on teada, kui need on teada. Ma mõtlen, et see on lihtsalt professionaalsus andmeteadlaste tegevuse osas. Kuid teate, et andmete päritolu omaks, tähendab see, et tegelikult peame andmeid haldama ja pidama meeles nende päritolu.

Meil on küsimus arvutivõimsusest ja paralleelidest ning kõik, mis sellega kaasneb, muudab kõik kiiremaks. Probleem on selles, et ilmselgelt võivad teatud protsessid, mis meil on paigas, kõige muu jaoks liiga aeglased. Nii et kiiruse osas võib olla erinevusi.

Meil on käes masinõppe tulek. Masinõppe tulemusel on analüütika teistsugune mäng kui see oli enne. Kuid saate seda tõesti ainult siis kasutada, kui teil on jõud.

Oleme teada saanud uue analüütilise töömahu. Meil on paralleelne maailm ja maksimaalse efekti saavutamiseks tuleb mõned analüütilised algoritmid teostada paralleelselt. Ja seetõttu valitseb probleem tegelikult selles, kuidas te tegelikult ühel või teisel viisil andmeid ümber lükkate, neid andmeid kättesaadavaks teha saate. Ja kus te tegelikult analüütilist töökoormust täidate, kuna võite seda teha andmebaasis. Ehk siis teete seda analüütiliste rakenduste piires.

Niisiis, valitsemisprobleeme on terve rida. See, mida me sel aastal tegime - sel aastal tehtud uurimistöö hõlmas tõesti suurandmete arhitektuuri. Ja kui me tegelikult proovime seda üldistada, nägi järeldus, kuhu jõudsime - diagramm, mille me välja tulime, palju sellist.

Ma ei kavatse sellesse süveneda, eriti kuna Mike kavatseb analüütika andmearhitektuuri jaoks üsna palju ära teha. Kuid tegelikult meeldib mulle see, et inimesed keskenduvad sellele alale, kus me ühel või teisel viisil andmeid kogume. Meil on midagi, millele tahaksin viidata, on andmetöötlus või andmete töötlemise keskus. Ja just seal toimub valitsemine. Niisiis, kui me keskendume, näeb see välja selline. Teate, et seda toidavad nii sise- kui ka välisallikad. Rummu peaks teoreetiliselt võtma kõik genereeritavad andmed. Seda tuleks voogesitada ja hallata nii, nagu seda voogesitatakse, kui peate tegema analüüse ja voogesituse andmeid ning edastama seejärel jaoturile. Või muidu satub see kõik jaoturisse. Ja seal on hulk asju, mis käimas - need, mis toimub keskuses. Ja teil ei saa jaoturis toimuda teatud hulgal analüütikat ja SQL-i. Kuid teil on vaja ka andmete virtualiseerimist igas lahtris, et andmeid teistesse piirkondadesse suunata. Kuid enne, kui see juhtub, peate tegelikult ühel või teisel viisil andmete ettevalmistamist täpsustama. Võite seda nimetada andmete ettevalmistamiseks. See on palju suurem. Need on asjad, mida ma arvan, et see hõlmab.

Meil on süsteemihaldus ja teenusehaldus teatud mõttes selles, et see moodustab suurema osa andmekihist, siis peame tegelikult rakendama kõiki operatsioonisüsteemide haldamise jõupingutusi, mida oleme traditsiooniliselt teinud, peaaegu kõigi operatsioonisüsteemide jaoks. Kuid me peame ühel või teisel viisil jälgima ka muid toimuvaid asju, et olla kindel, et neid erinevaid teenustasemeid täidetakse, sest seal on kindlasti määratletud teenuse tase või igasugune analüütika, millena tegutsetakse, või kui BI andmed on tegutsetakse.

Vajame jõudluse jälgimist ja juhtimist. Kui midagi muud, vajame seda selleks, et teada saada, milliseid täiendavaid arvutiressursse me võib-olla peame eri ajahetkedel eraldama. Kuid ka kohutavalt suur osa töökoormusest on siin tegelikult üsna keeruline ja konkureerib ressursside pärast üksteisega. Selles valdkonnas on vaja midagi üsna keerulist teha.

Oleme nüüd saanud andmete elutsüklit viisil, mida meil varem polnud. Siinne tehing on tõepoolest millestki muust üle, et me ei kogunud varem andmeid ega visanud neid minema. Me kippusime vajalikke andmeid koguma ja ilmselt hoidisime neid alles ning arhiveerisime need siis. Kuid tohutult palju sellest, mida me siin edaspidi teeme, on andmete uurimine. Ja kui te ei soovi andmeid, siis matke need ära. Andmete elutsüklid on olenevalt olukorrast erinevad, kuid need on ka kohutavalt palju rohkem andmete koondamist. Seetõttu teate, teades, kust agregaat pärineb, mis on… mis on agregatsiooni allikas jne ja nii edasi. See on kõik vajalik.

Andmeliin on loomulikult laenukas. Ilma selleta peate teadma probleeme, nii et andmed… Peame teadma, et andmed kehtivad, kuid kui usaldusväärsed need tegelikult on.

Oleme saanud ka andmete kaardistamise, sest tegelikult on suur osa andmeid ühel või teisel viisil olemas. Ja see on, kui soovite, MDM-is see teatud määral seotud. Lihtsalt, see on nüüd palju keerulisem, sest kui teil on JSON-i määratletud hulgaliselt andmeid või meie loetud XML-skeemil põhinevaid andmeid, peate ühel või teisel viisil olema väga aktiivsed toimuv andmete kaardistamise tegevus.

Metaandmete haldamise olukord on midagi enamat kui MDM, kuna on vaja ühel või teisel viisil üles ehitada see, mida ma praegu mõelda tahaksin, omalaadne metaandmete ladu kõigest, mis teid huvitab. Seal on metaandmed avastuse, kuna mõnel andmetel ei pea tingimata olema metaandmeid deklareeritud ja soovime seda kohe kasutada. Ja siis toimub andmete puhastamine, mis on tohutu asi, nagu näiteks seeria asju, mida seal teha saab. Ja seal on ka andmeturve. Kõik need andmed tuleb kaitsta vastuvõetavale tasemele ja see võib teatud juhtudel isegi tähendada - näiteks paljude väärtuste krüpteerimist.

Niisiis, kogu see töökoormus on tegelikult valitsemisimpeerium. Kõik see, ühel või teisel viisil, peab toimuma samal ajal või varem, kogu meie analüütiline tegevus. See on suur hulk koordineeritud rakendusi. See on omaette süsteem. Ja siis kannatavad need, kes seda erinevatel ajahetkedel ei tee, edasiminekul puudus, sest tohutu suur osa neist asjadest pole tegelikult valikuline. Lõpuks suureneb entroopia lihtsalt siis, kui te neid ei tee.

Nii et andmeanalüütika ja halduse osas ütleksin, et tõesti, üks käsi peseb teist. Ilma juhtimiseta ei levita analüüs ja BI õigeaegselt. Ja ilma analüütika ja BI-iga pole andmete haldamiseks niikuinii suurt vajadust. Niisiis, kaks asja käivad tõesti käsikäes. Nagu öeldakse Lähis-Idas: "Üks käsi peseb teist." Ja see on tegelikult kõik, mis mul öelda on. Loodan - loodetavasti oleme nüüd Mike tagasi saanud.

Eric: Me teeme seda. Mike, ma eeldan, et sa oled kohal. Ma tõstan teie slaidi üles.

Mike: Olen küll. Okei, kas te kuulete mind?

Eric: Jah, ma kuulen sind. Sa kõlad imeliselt. Niisiis, las ma tutvustan ... Seal sa lähed. Ja sina oled nüüd saatejuht. Võta see ära.

Mike: Olgu, tänan! Tere hommikust, pärastlõunast, tere õhtust teile kõigile. Andesta luksumine alguses. Mingil põhjusel sain end vaigistada ja näen kõiki, kuid nad ei kuulnud mind.

Olgu. Niisiis, see, mida ma tahan kiiresti teha, on rääkida suurandmete analüütilisest ökosüsteemist. Kui soovite minult küsimusi esitada, siis ütlen, et sellel istungjärgul või hiljem saate mind siin minu kontaktandmetest. Nagu ma ütlesin, keset ööd siin Suurbritannias.

Noh, las ma jõuan selleni, millest tahan rääkida. On selge, et viimase paari aasta jooksul oleme näinud igasuguseid uusi leitud andmeid, mida ettevõtted nüüd analüüsida soovivad - kõike alates klikivoo andmetest kuni veebikäitumise mõistmiseni, sotsiaalmeedia andmetest, millest Eric rääkis programmi algus siin. Arvan, et Robin mainis JSON-i, BSON-i, XML-i - seega poolstruktureeritud andmeid, mis on ise kirjeldavad. Muidugi on meil olemas ka terve tonn muud kraami - kõik alates struktureerimata andmetest, IT-infrastruktuuri logidest ja andurite andmetest. Kõik need suhteliselt uued andmeallikad, mille vastu ettevõtted on nüüd huvi tundnud, kuna see sisaldab väärtuslikku teavet, mis võib meie teadmisi veelgi süvendada.

See tähendab põhimõtteliselt, et analüütiline maastik on liikunud kaugemale tavapärasest andmete ladustamisest. Me struktureerime andmed ikkagi struktureeritud ja mitmestruktureeritud andmete kombinatsiooni maailma, kus paljudel juhtudel võivad mitmestruktuurilised andmed pärineda ettevõtte seest või väljast. Nende uute andmetüüpide ja uute analüüsimisvajaduste tulemusel oleme näinud uute analüütiliste töökoormuste tekkimist - kõike alates liikuvate andmete analüüsimisest, mis pöörab traditsioonilise andmelaoarhitektuuri mõnevõrra pea peale, kus me , integreerige traditsioonilistes ringides andmeid, puhastage neid, muutke neid, salvestage ja analüüsige. Kuid analüüsides liikuvaid andmeid, jäädvustame andmed, integreerime need, valmistame ette neid analüüsides ja seejärel säilitades. Niisiis, andmete analüüs toimub enne, kui neid kuskile salvestatakse.

Liigselt analüüsime struktureeritud andmeid, näiteks mudeli arendamiseks, statistiliseks ja ennustavaks mudeli väljatöötamiseks, mis pole mõnele traditsioonilise andmelaopidamise ruumi jaoks midagi uut. Oleme saanud mudelis sisalduvate andmete uuritava analüüsi. See on seal struktureeritud andmete hulk. Oleme saanud uusi töökoormusi graafianalüüsi vormis, mis minu finantsteenuste klientide jaoks sisaldab selliseid asju nagu pettused. See hõlmab ka küberturvalisust. See hõlmab ka sotsiaalseid võrgustikke, mõistagi mõjutajate ja muu sellise mõistmist. Ma õppisin seda isegi juhtimises, tal on mõned aastad graafianalüüsi.

Oleme saanud andmelao optimeerimise või ETL-i töötlemise mahalaadimise, mis on pigem omamoodi IT-kasutamise juhtum, CIO võiks seda rahastada. Ja isegi andmete ja andmeladude arhiveerimine, et hoida seda võrgus sellistes asjades nagu Hadoop. Nii on kõik need uued analüütilised töömahud lisanud analüütilisele maastikule uusi platvorme, uusi salvestusplatvorme. Niisiis, selle asemel, et omada lihtsalt tavapäraseid andmeladusid ja andmekaarte, on meil nüüd Hadoop. Meil on NoSQL-i andmebaase, näiteks graafiaandmebaase, mida kasutatakse sageli analüütiliste töökoormuste jaoks. Muidugi, graafilise analüüsi saame teha nii Hadoopi enda kui ka NoSQL-i graafide DBMS-ide puhul. Meil on voogesituse analüüs, mida Robin mainis. Ja meil on - kui soovite - mudelite ehitamine, võib-olla ka analüütiliste andmelao seadmete jaoks. Kuid see kõik on analüütilise maastiku keeruliseks muutnud, nüüd on vaja mitut platvormi. Ja ma arvan, et kõigi kontori- või tagakontoriga ettevõtete või rahanduse, hangete, personaliteenuste ja mingisuguste toimingute jaoks on väljakutse välja selgitada, millised analüütilised projektid on seotud tavapärase andmelaopindusega. Ja kui teate, et nende uute suurte andmeplatvormidega on seotud analüüsiprojektid ja kus neid käitada, siis teate, milline analüütiline töökoormus on, kuid ärge unustage äri silmist selles mõttes, et see on - näete nüüd, et see on suurte andmeanalüütilised projektid ja traditsioonilised suurandmete ladustamise projektid, mida on vaja tugevdada kliendi või toimingute, riski või rahanduse või jätkusuutlikkuse piires. Seetõttu soovime, et need kõik vastaks meie strateegilistele äriprioriteetidele, et saaksime kursis olla, et teadmiseks lükata nõelad, mis tuleb sisse lükata, et parandada ettevõtte tulemusi, vähendada kulusid, meie ettevõtte kui terviku jaoks riskide jms vähendamiseks. Niisiis, ei ole nii, et üks asendab siin teise suurandmete ja traditsioonilistega. Seda kasutatakse koos. Ja see muudab arhitektuuri dramaatiliselt, teate.

Mul on siin suhteliselt uus arhitektuur, mida kasutan koos oma klientidega. Ja nagu näete nüüd altpoolt, on lai valik andmeallikaid, mitte ainult enam struktureeritud. Mõned neist voogesitavad reaalajas andmeid, näiteks andureid, nagu näiteks turuandmeid. See võib olla isegi otseülekanne voogesituse andmetest. See võib olla reaalajas video voogesituse andmetega. Nii et see ei pidanud olema üles ehitatud. Niisiis, me tegeleme nende andmete sujuva töötlemisega, et reaalajas automaatseid toiminguid teha ning kõik huvipakkuvad andmed saaks filtreerida ja edastada ettevõtte teabehalduse tööriistadesse, mida saab kasutada analüütiliste andmehoidlate asustamiseks. Kui te siin segus ei näe, on meil nüüd traditsiooniline andmeladu, Hadoop ja NoSQL andmebaasid. Samuti on segatud põhiandmete haldamine. Ja see avaldab kogu andmehaldusriistakomplektile suuremat survet mitte ainult nende andmehoidlate asustamiseks, vaid ka andmete teisaldamiseks nende vahel.

Lisaks peame lihtsustama juurdepääsuvahendeid. Me ei saa lihtsalt kasutaja poole pöörduda ja öelda: "hankige kõik need andmehoidlad, hoidke neid API-sid - teie probleem". Peate lihtsustama juurdepääsu. Ja nii, nagu seal punktiirjoontes, näete, et andmete virtualiseerimine ja optimeerimine varjavad mitmekordse andmesalvestuse keerukust, proovige lõppkasutajatel sellele juurde pääseda. Ja muidugi, üleval on terve rida tööriistu - alates traditsioonilistest BI-tööriistadest, mis on juba hakanud andmesalvestuse ülaosast liikuma, liikudes järk-järgult diagrammi vasakule poole, et ühendada Hadoopsiga ja siis maailma NoSQL andmebaasid.

Oleme otsinud uue eluaseme rentimise, eriti keha ümber struktureerimata, struktureerimata andmete jaoks, mida sageli Hadoopis talletatakse. Oleme saanud kohandatud analüütilisi rakendusi teha Hadoopi platvormil koos MapReduce'iga, näiteks Sparksi raamistikuga. Meil on graafianalüüsi tööriistad, mis, tead, keskenduvad seal väga spetsiifilistele töökoormustele. Niisiis, mitmesugused tööriistad ja andmevood on samuti keerukamad. See ei ole enam ainult ühesuunaline tänav andmelaos. Muidugi on see nüüd põhiandmeid.

Meile on tulnud uusi andmeallikaid, mis on kasvõi NoSQL-is hõivatud, teate, andmehoidlad nagu MongoDB, nagu Cassandra, nagu HBase. Saime andmed tuua otse Hadoopi analüüsimiseks ja seal andmete ettevalmistamiseks. Hadoopist ja andmeladudest on tulnud uusi teadmisi. Meil on arhiiv, mis tuleb Hadoopi andmeladudest välja. Nüüd saime andmevooge, mis suunavad ka kõigi NoSQL-i andmebaaside ja andmemarsside juurde. Nii et siin näete, et andmehalduses toimub palju rohkem tegevusi. Ja see tähendab, et see seab andmehaldustarkvara märkimisväärsele survele. See pole enam ainult ühesuunaline tänav. See on kahesuunaline andmete liikumine. See toimub palju rohkem tegevust ja seetõttu on mastaapsus oluline nii andmete haldamise tööriista ees kui ka andmeallikas.

Niisiis, see skeem ulatub tagasi selle arhitektuuri juurde, mida ma hetk tagasi mainisin. See näitab teile erinevaid analüütilisi töökoormusi selle arhitektuuri erinevates osades. Vasakpoolses vasakus servas on voogesitus reaalajas, voo töötlus toimub andmetega, mis väljuvad igasugusest reaalajas andmepoest. NoSQL-i graafiaandmebaasides toimub klassianalüüs. See võib juhtuda ka Hadoopis. Näiteks Sparki raamistiku ja seal asuva GraphX-i abil on meil olemas juurdlusanalüüs ja andmete rafineerimine, mida Robin rääkis Hadoopis toimuvast. Meil on tavapärane töökoormus endiselt käimas ja andmete ladustamine, teate, energiakasutajad ehitavad statistilisi ja ennustavaid mudeleid, võib-olla andmelao seadmetes. Ja me proovime endiselt sellele kõigele juurdepääsu lihtsustada, et see oleks lõppkasutajatele hõlbus.

Niisiis, edu kogu selle seadistuse ümber on midagi enamat kui ainult analüütiline külg. Teate, et me võime analüütilisi platvorme paika panna, kuid kui me ei suuda andmeid koguda ja neelata, siis on suure kiiruse ja mahukaalu andmed, siis pole palju mõtet. Tead, mul pole midagi analüüsida. Ja nii nõuab suurandmete analüütika edukuse suurendamiseks operatsioonisüsteeme. See tähendab, et saate uusi tehinguid toetada, kui teate, tipud. Teate, et kõik seal salvestatud mittetehingulised andmed võivad olla väga uued, väga kõrgeid saabumismäärasid kiirete andmete, näiteks andurite või mis tahes allaneelamise korral, väga kõrged saabumismäärad. Peame suutma seda kõike rahuldada - suutma selliseid andmeid jäädvustada ja analüüsideks tuua. Samuti peame ise analüütikat skaleerima, lihtsustama juurdepääsu juba mainitud andmetele. Ja siis siduge see kinni. Teate, et suletud ringi saamiseks peame suutma neid operatsioonisüsteeme uuesti täpsustada.

Niisiis, maja operatiivse külje skaleerimine andmete kogumiseks, teate, võtab NoSQL-i andmebaasi maailma. Ma mõtlen, et siin näete NoSQL andmebaasi viit kategooriat. See on kategooria, mis modelleeritakse lihtsalt kui kombinatsioon ülejäänud neljast ülaltoodust. Üldiselt teate, selle põhiväärtused, salvestatud dokumendid ja veergude perekonna andmebaasid - seal asuvad kolm esimest - mida kasutatakse omamoodi tehinguliste ja mittetehinguliste andmete jaoks.

Mõned neist andmebaasidest, mis toetavad atribuute; mõned neist mitte. Kuid sellest hoolimata, teate, näeme nende kasutuselevõttu selliste rakenduste laiendamiseks. Ja näiteks näiteks oleme eemaldunud pelgalt töötajatelt, kes teevad klaviatuuril tehinguid, nüüd klientideks ja uudsete seadmetega massideks, et seda teha. Oleme näinud, et ettevõtetega tehtavate tehingute arv on tohutult suurenenud. Ja selleks peame selle jaoks laiendama tehingurakendusi.

Nüüd saab seda üldiselt teha NewSQL-i andmebaasides relatsiooniandmebaasidena, nagu siin näidatud NuoDB ja VoltDB. Või on mängus mõned NoSQL-i andmebaasid, mis toetavad võib-olla ACID-i atribuute, mis tagavad tehingute töötlemise. See kehtib ka mittetehinguliste andmete kohta, näiteks ostukorviandmete kohta enne tehingut, teate enne, kui inimesed ostavad asju, andurite andmeid, kuna ma kaotan anduri näidu sadade miljonite andurite näitude hulgast. See pole suur asi. Klõpsude maailmas on klõpsud, kui klõpsatan, siis pole see suur asi.Niisiis, teate, meil ei pea seal tingimata olema ACID-atribuute ja just seal, kus NoSQL-i andmebaasid mängu tulevad, oli see just seal - see võime teha seda tüüpi uut tüüpi andmete hõivamiseks väga kõrgeid ja õigeid mõõtmeid.

Samal ajal soovime analüütika ulatust. Ja nii, andmete tõmbamine andmepoodidest analüütilistele platvormidele seda enam häkima ei hakka, kuna andmed on liiga suured. Mida me tegelikult tahame, on suruda analüütika teist moodi, Hadoopi ettevõtte andmelaosse, voo töötlusele, et saaksime analüütika andmete juurde suunata. Kuid see, et keegi ütleb, et see on andmebaasi või Hadoopi analüütikas, ei tähenda tingimata, et analüüs toimub paralleelselt. Ja ausalt öeldes, kui kavatsete investeerida nendesse uutesse massiliselt paralleelselt skaleeritavatesse tehnoloogiatesse nagu Hadoop, nagu andmelao seadmed ja mis, nagu klastritud voo töötlemise mootorites, siis on meil vaja, et analüütika toimiks paralleelselt.

See on ainult kontroll. Tead, kui meil on analüütikat, mis aitab ennustada klientidele, toimingutele, riskile jne, siis tahame, et nad töötaksid paralleelselt, mitte ainult platvormis. Me tahame mõlemat. Ja see on sellepärast, et, nagu teate, on tehnoloogia nagu need uued visuaalse avastuse tööriistad, näiteks ka SAS. See on tegelikult üks meie sponsoreid siin.

Üks asi, mida inimesed soovivad, on vähemalt Hadoopi ja seejärel andmebaasianalüütikas olevate inimeste ärakasutamine. Ja me tahame, et need töötaksid paralleelselt, et oleks võimalik tagada nii suure andmemahu korral vajalik jõudlus. Samal ajal üritame sellele kõigele juurdepääsu lihtsustada. Ja nii, SQL on nüüd jälle päevakorral. Tead, SQL on - SQL on Hadoopis praegu kuum. Jälgin seda praegu 19 SQL ja Hadoopi algatuses. Lisaks võite näha, et me pääsete nende andmete juurde mitmel viisil, nii et otse Hadoopi SQL-i juurde pääsedes saame SQL-i minna otsinguregistrisse. Sel viisil, nagu teate, mõnel selles ruumis asuval otsinguteenuse pakkujal, on meil SQL-i juurdepääs analüütilistele relatsiooniandmebaasidele, millel on Hadoopi Exceli tabelid.

Nüüd on meil SQL-i juurdepääs andme virtualiseerimisserverile, mille saab seejärel ühendada Hadoopi andmelaoga. Olen isegi hakanud nägema SQL-i juurdepääsu tekkimist reaalajas voogesituse andmetele. Niisiis, SQL-i juurdepääs sellele kõigele kasvab kiiresti. Ja osa väljakutsetest on just see, et SQL-juurdepääsu turustatakse seal. Küsimus on selles, kas SQL saab hakkama keerukate andmetega? Ja see pole tingimata sirgjooneline. Siin on igasuguseid tüsistusi, sealhulgas asjaolu, et JSON-i andmeid võis pesastada. Meil võib olla skeemivariantide kirjeid. Niisiis, esimesel plaadil on üks skeem. Teisel plaadil on erinev skeem. Need asjad on väga erinevad sellest, mis toimub suhtemaailmas.

Seega peame esitama küsimusi selle kohta, milliseid andmeid me proovime analüüsida ja millised on analüütilised omadused. Kas soovite, seda teha, paneeli? Kas see on masinõpe? Kas see on graafianalüüs? Kas saate seda SQL-ist teha? Kas teate, kas see on SQL-ist puutumatu? Kui palju samaaegseid kasutajaid on meil seda teha? Teate, meil on sadu samaaegseid kasutajaid. Kas see on keerukate andmete korral võimalik? Tead, kõik need asjad on võtmeküsimused. Niisiis koostasin ma siin mõne nimekirja, mida peaksite minu arvates kaaluma. Teate, milliseid failivorminguid? Millistest andmetüüpidest me räägime? Milliseid analüütilisi funktsioone saame SQList keerukate andmete saamiseks kasutada? Ja omamoodi funktsioonid töötavad paralleelselt. Ma mõtlen, et nad peavad paralleelselt tegutsema, kui peame saama seda skaleerida. Ja kas ma saan täna Hadoopis andmetega liituda ka väljaspool seda, teate või see pole teostatav? Ja mida ma teen kõigi nende erinevat tüüpi päringute töökoormustega?

Ja nagu näeme, teate minu nähtu põhjal SQL- ja Hadoopi-jaotuses palju erinevusi. Neid kõiki jälgin. Ja muide, see on puhas SQL Hadoopis. See ei hõlma praegu isegi andmete virtualiseerimist. Ja nii, palju seal ja palju ruumi konsolideerimiseks, mis minu arvates toimub järgmise aasta jooksul, umbes kaheksateist kuud. Kuid see avab ka teise asja, milleks on see, et mul võib Hadoopis olla samadel andmetel potentsiaalselt mitu SQL-mootorit. Ja see on midagi, mida te ei saaks suhetes teha.

Muidugi, see tähendab, et peate siis teadma, millist päringukoormust ma töötan? Kas ma peaksin seda pakkima Hadoopi algatuses konkreetses SQL-is? Kas peaksin Hadoopi algatuse alusel vms interaktiivse päringu töökoormust läbi viima teise SQL-i kaudu, et ma teaksin, kummaga ühendust luua? Ideaalis me muidugi ei peaks seda tegema. Teadlikult oleksime pidanud selle kohta lihtsalt küsimuse esitama. Teate, mõni optimeerija selgitab välja, kuidas seda kõige paremini teha. Kuid me ei ole minu arvates veel täielikult kohal.

Kuid sellest hoolimata on ka andmete virtualiseerimisel, mida ma varem mainisin, väga oluline roll mitmele andmetalletusele juurdepääsu lihtsustamisel. Ja kui me loome Hadoopist uusi teadmisi, on meie jaoks kindlasti usutav, et ühendame need andmed andmetega ja traditsioonilised andmelaod näiteks andmete virtualiseerimise kaudu, ilma et peaksime tingimata viima andmeid Hadoopist traditsioonilistesse andmeladudesse. Muidugi saate seda ka teha. Samuti on usutav, kui arhiveerin andmeid tavapärastest andmeladudest Hadoopi. Saan selle ikkagi kätte ja saan sellega kokku puutuda, mis on meie andmelaos, andmete virtualiseerimiseks. Nii et minu arvates on andmete virtualiseerimisel selles üldises arhitektuuris suur tulevik ja kõigile neile andmepoodidele juurdepääsu lihtsustamine.

Ja ärge unustage, et nende uute arusaamade loomisel, olgu see siis relatsioonilistes või NoSQL-i süsteemides, tahame neid teadmisi siiski oma toimingutesse tagasi suunata, et saaksime leitud teabe väärtust maksimeerida, et saaksime kasutame seda efektiivsemate ja õigeaegsemate otsuste tegemiseks selles keskkonnas meie ettevõtte optimeerimiseks.

Niisiis, selleks, et kokku võtta, mida ma siis näen, kas meil on vaja uusi andmeallikaid. Kui soovite, on meil keerukama arhitektuuri jaoks uued platvormid. Ja Hadoopist saab väga-väga oluline, piisavalt andmete ettevalmistamine meie vedelate liivakastide jaoks, arhiivipäringute jaoks, arhiivimine andmelaost, andmete haldamine, et oma tiivad laiali sirutada, et minna andmehoidlatest kaugemale andmete haldamiseks kõigil nendel platvormidel, ja uued tööriistad oskab neis keskkondades andmeid analüüsida ja neile juurde pääseda, oskab olla mastabeeritavaid tehnoloogiaid andmete paremaks sisselülitamiseks ja analüütika ulatuse suurendamiseks, surudes need platvormidele allapoole, et muuta need paralleelsemaks. Ja siis loodetavasti ka sellele kõigele juurdepääsu hõlbustamiseks, kui tärkav SQL tuleb turule. Niisiis, see annab teile ettekujutuse sellest, kuhu me suundume. Niisiis, lähen sellega tagasi, ma arvan, Eric nüüd, kas see on?

Eric: Okei, see on fantastiline. Ja ma pean ütlema, et selle vahel, mille te äsja Robinilt ja Mikult saite, on see tõenäoliselt umbes nii põhjalik ja sisutihe ülevaade kogu maastikust, kui vaadata, nagu te kuskilt leiate. Las ma lähen edasi ja järjekorda George Corugedo. Ja seal see on. Las ma võtan selle hetkeks. Olgu, George, ma annan teile võtmed kätte ja viin selle ära. Põrand on teie oma.

George: Tore! Suur aitäh, Eric, ja aitäh, Rob ja Mike. See oli suurepärane teave ja palju, millega me nõustume. Nii et naastes Robini arutelu juurde, sest teate, pole juhus, et RedPoint on siin ja SAS on siin. Kuna RedPoint, keskendume tõesti selle andmeküljele haldusele, andmete töötlemisele ja analüüsiks kasutamiseks ettevalmistamisele. Niisiis, lubage mul neist kahest slaidist lihtsalt läbi parkida. Ja tõesti, rääkides Robini mõttest MDM-i kohta ja rääkides sellest, kui oluline see on ja kui kasulik, ma arvan - ja me arvame -, et Hadoop võib olla MDM-i ja andmete kvaliteedi maailmas.

Teate, Robin rääkis natuke sellest, teate, kuidas see on seotud ettevõtte andmelao maailmaga ja ma tulen - teate, olen veetnud mitu aastat Accenture'is. Ja huvitav oli see, mitu korda pidime minema ettevõtetesse ja proovima aru saada, mida teha põhimõtteliselt hüljatud andmelaoga. Ja palju seda juhtus seetõttu, et andmelaopiim ei kohandanud oma ehitust ärikasutajatele ega andmete tarbijatele. Või võttis see lihtsalt nii kaua aega, et selleks ajaks, kui nad olid asja üles ehitanud, oli selle ärikasutus või äripõhimõtted muutunud.

Ja üks asi, mis minu arvates on nii põnevil, idee kasutada Hadoopi põhiandmete haldamiseks, andmete kvaliteediks ja andmete ettevalmistamiseks on see, et saate alati naasta aatomiandmete juurde Hadoopi andmejärv või andmemahuti või andmehoidla või jaotur või mis iganes buzzi vormi soovite kasutada. Kuna aga aatomiandmeid säilitate alati, on teil alati võimalus äriklientidega uuesti joondada. Sest analüütikuna - kuna ma alustasin tegelikult oma statistikukarjääri - pole midagi hullemat kui, teate, ettevõtte andmelaod on aruannete koostamiseks imelised, kuid kui soovite teha tõesti ennustavat analüütikat, on nad tegelikult pole see nii kasulik, sest tegelikult tahate just granulaarseid käitumisandmeid, mis kuidagi andmebaasis kokku võeti ja koondati. Niisiis, ma arvan, et see on tõesti oluline funktsioon, ja see on üks asi, mille osas võin Robini suhtes eriarvamusele jääda, on see, et ma isiklikult jätaksin andmed andmejärve või andmekeskusesse nii kaua kui võimalik, sest nii kaua kui andmed on olemas ja see on puhas, võite vaadata seda ühest või teisest suunast. Saate selle teiste andmetega liita. Teil on alati võimalus selle juurde tagasi tulla ja restruktureerida ning seejärel ennast äriüksuse ja vajadustega ümber kohandada.

Üks teist laadi huvitavaid asju on see, et kuna tegemist on nii võimsa arvutusplatvormiga, suure osa sellest töökoormusest, millest oleme rääkinud, näeme seda kõike jõudvat otse Hadoopi. Ja kuigi ma arvan, et Mike rääkis kõigist erinevatest tehnoloogiatest, mis maailmas olemas on - seda tüüpi suurandmete ökosüsteemis, arvame, et Hadoop on tõesti tööhobune, et teha seda arvutisse intensiivselt töödeldes nii suures mahus, et põhiandmed ja andmete kvaliteet nõuavad. Sest kui te saate seda seal teha, siis teate, just puhas ökonoomika andmete kallimatelt andmebaasidelt teisaldamine ökonoomsetesse andmebaasidesse - see tõepoolest suurendab praegu suurtes ettevõtetes andmete kasutamist.

Nüüd on muidugi mõned väljakutsed, eks? Tehnoloogiate ümber on väljakutseid. Paljud neist on väga ebaküpsed. Ma ütleksin, et te teate, ma ei tea, mitu, aga mitmed tehnoloogiad, mida Mike mainis, on endiselt nullpunktis - midagi vabastatakse, eks? Need tehnoloogiad on väga noored, ebaküpsed, endiselt koodipõhised. Ja see loob tõesti väljakutse ettevõtetele. Ja me keskendume tõesti ettevõtte tasemel probleemide lahendamisele. Ja nii, me arvame, et seal peab olema teistsugune tee ja see on see, mida meie pakume, on teistsugune viis, kuidas mõnda neist asjadest kasutada nende väga tärkavate tehnoloogiate kasutamisel.

Ja siis, siis veel üks siin mainitud huvitav teema, mida on juba varem mainitud: kui teil on andmeid, mida lindistate mis tahes tüüpi Hadoopi keskkonnas, on see tavaliselt loetud skeem, mitte skeem kirjutamiseks mõne erandiga. Ja seda lugemist teevad statistikud väga palju. Ja nii, statistikutel peavad olema tööriistad, mis võimaldavad neil andmeid analüütilistel eesmärkidel korrektselt struktureerida, sest päeva lõpuks, et andmed oleksid kasulikud, peab see olema mingil kujul üles ehitatud, et mõnda näha või küsimusele vastata või äri, teatud tüüpi ettevõte, loovad äriväärtuse.

Niisiis, kus me sisse tuleme, on see, et meil on väga laiapõhjaline ja küps EPL, ELT andmete kvaliteedi põhivõti ja haldusrakendus. See on olnud turul palju aastaid. Ja sellel on kogu funktsionaalsus või suur osa funktsioonidest, mille Robin selles ümmarguses graafikus loetles - alates kõigest puhtast töötlemata andmete kogumisest väga erinevates formaatides ja XML-i struktuurides ning mis tahes vormingus kuni võimeteni teha kogu puhastus, andmete valmimine, andmete parandamine, andmete georuumilised tuumbitid. See on asi, mis muutub asjade interneti abil tänapäeval üha olulisemaks. Teate, et suure osa sellest, mida me teeme, või nende andmetega on seotud geograafia. Ja nii, et kogu parsimine, märgistamine, puhastamine, parandamine, vormindamine, struktureerimine jne toimub meie platvormis.

Ja siis, ja arvame, et kõige tähtsam on deduplikatsiooni idee. Teate, et kui vaadata põhiandmete haldamise mis tahes määratlust, on selle tuum deduplikatsioon. See on võimeline tuvastama üksusi erinevates andmeallikates ja seejärel looma selle olemi jaoks põhiregistri. Ja see üksus võiks olla inimene. See üksus võib olla näiteks lennuki osa. See üksus võib olla toit, nagu oleme teinud ühe oma terviseklubi kliendi jaoks. Oleme neile loonud toidu põhiandmebaasi. Niisiis, olenemata sellest, milliste üksustega me töötame - ja muidugi on üha enam inimesi ja nende identiteedi puhverservereid, mis on sellised asjad nagu sotsiaalsed käepidemed või kontod, mis tahes seadmed, mis on seotud inimestega, mõned asjad, näiteks autod ja telefonid ja mis iganes muud võiksite ette kujutada.

Tead, me töötame koos kliendiga, kes paneb spordiriietusse igasuguseid andureid. Andmeid tuleb igast suunast. Ja ühel või teisel viisil on see tuumaüksuse peegeldus või kujutis. Ja üha enam, see on inimesed ja võime tuvastada seosed kõigi nende andmeallikate vahel ja kuidas need on seotud selle põhiolemiga, ning seejärel suutma seda tuumaüksust aja jooksul jälgida, et saaksite analüüsida ja mõista selle olemi vahelisi muutusi ja kõik need muud elemendid, mis on selle olemi kujutistes, näiteks inimeste pikaajalise ja pikisuunalise analüüsi jaoks kriitilise tähtsusega. Ja see on tõesti üks tõeliselt olulisi eeliseid, mis, arvan, et suurandmed võivad meile tuua - inimeste parema mõistmise ja pikas perspektiivis mõistmise ning nende mõistmise ja kuidas inimesed käituvad, kui nad käituvad milliste seadmete kaudu jne. .

Niisiis, las ma liigun siit kiiresti läbi. Eric mainis lõnga. Tead, ma viskan selle sisse vaid natukese aja jooksul, sest kuigi LÕNG - inimesed räägivad lõngast. Lõnga kohta on minu arust ikka veel palju teadmatust. Ja mitte väga paljud inimesed - lõnga kohta on ikka veel palju arusaamatusi. Ja tõsi on see, et kui teie rakendus on õigesti üles ehitatud ja teil on rakenduse arhitektuuris õige tase või paralleelsus, siis võite kasutada lõnga YARN, et kasutada Hadoopi oma skaleerimisplatvormina. Ja just seda oleme teinud.

Tead jälle, lihtsalt selleks, et tuua välja mõned lõnga ümber olevad mõisted. Meie jaoks on see, mis YARN on, võimaldanud meil enda ja teiste organisatsioonide jaoks saada MapReduce'i ja Sparki ning kõigi muude seal olevate tööriistade eakaaslasteks. Kuid tõsiasi on see, et meie rakendused juhivad optimeeritud koodi otse lõnga HADoopi. Ja seal on tõesti üks huvitav kommentaar, mida Mike mainis, sest tead, et küsimus analüütika ja meie analüütika kohta lihtsalt sellepärast, et nad asuvad klastris, kas nad tõesti käivad paralleelselt? Sama küsimuse saate esitada paljude andmete kvaliteedi tööriistade kohta.

Enamasti peavad seal olevad kvaliteeditööriistad kas andmed välja viima või sisestavad koodi. Ja paljudel juhtudel töödeldakse seda ühe moodi andmevoogu, kuna peate võrrelda andmeid, mõnikord andmete kvaliteediga tegevuste lõikes. Ja tõsi on see, et kuna me kasutame lõnga YARN, oleme saanud paralleelistamise tõesti ära kasutada.

Ja lihtsalt selleks, et anda teile kiire ülevaade, kuna tehakse veel üks kommentaar selle kohta, kui oluline on laiendada traditsioonilisi andmebaase, uusi andmebaase jne, rakendame või paigaldame klastrist väljapoole. Ja me lükkame oma binaarfailid otse ressursihaldurisse YARN. Ja see, ja siis YARN jaotab selle klastri sõlmedes. Ja mis see tähendab, on see, et Lõng - lubame lõngal hallata ja teha oma tööd, milleks on välja selgitada, kus andmed asuvad, ja võtta töö andmete juurde, kood andmete juurde ja mitte andmeid liigutada. Kui kuulete andmekvaliteedi tööriistu ja nad räägivad teile, et parim tava on viia andmed Hadoopist välja, tegutsege kogu oma elu, sest see pole lihtsalt nii. Soovite viia töö andmete juurde. Ja seda teeb YARN kõigepealt. See viib meie kahendkoodid välja sõlmedesse, kus andmed asuvad.

Ja kuna oleme väljaspool klastrit, pääseme juurde ka kõigile traditsioonilistele ja relatsioonilistele andmebaasidele, nii et meil on töid, mis on 100% kliendiserver traditsioonilises andmebaasis, 100% Hadoop või hübriidsed tööd, mis lähevad üle Hadoopi kliendiserveri , Oracle, Teradata - ükskõik, mida soovite ja kõik samal töökohal, sest ühe rakendusega pääseb juurde maailma mõlemale poolele.

Ja kui näete siin kogu tööriistade loomulikkuse idee juurde tagasi minnes, siis on see lihtsalt lihtne kujutis. Ja see, mida me proovime teha, on maailma lihtsustamine. Ja kuidas me seda teeme, on tuua HDFS-i ümber väga lai funktsionaalsuskomplekt, et seda muuta ... Ja see pole nii sellepärast, et me üritame kõrvaldada kõik innovatiivsed tehnoloogiad. Just ettevõtted vajavad stabiilsust ja neile ei meeldi koodipõhised lahendused. Ja see, mida me proovime teha, on anda ettevõtetele tuttav, korratav ja järjekindel rakenduste keskkond, mis annab neile võimaluse ehitada ja töödelda andmeid väga ennustataval viisil.

Kiiresti on see just selline mõju, mille saame oma rakendusega. Näete MapReduce versus Pig vs RedPoint - RedPointis pole koodiridu. Kuus tundi arendustööd MapReduce'is, kolm tundi arendustööd Pigis ja 15 minutit arendust RedPointis. Ja just seal on meil tohutu mõju. Töötlemise aeg on ka kiirem, kuid inimeste aeg, inimeste produktiivsuse aeg on märkimisväärselt pikenenud.

Ja oma viimase slaidina soovin selle mõtte juurde tagasi pöörduda, sest see on meie kohustus kasutada andmejärve või andmekeskust või andmete rafineerimistehast allaneelamise keskpunktina. Ei saaks selle mõttega rohkem nõustuda. Ja me arutame praegu paljude suuremate ülemaailmsete pankade andmejuhtidega ja see on valitud arhitektuur.Kõigist allikatest pärinevate andmete sisselülitamine töötleb ja järk-järgult haldab andmete kvaliteeti ja haldab andmeid, seejärel lükake andmed sinna, kuhu vaja minna, rakenduste toetamiseks ja BI-i toetamiseks, mis iganes see ka poleks. Ja kui teil on BI-s analüütikat, saavad nad joosta otse andmejärves, kus veelgi parem, see võib kohe alata. Kuid väga selle idee pardal. See topoloogia on siin see, mis on - see, et leiame, et see tõmbab turul palju tähelepanu. Ja see ongi kõik.

Eric: Olgu, hea. Liigume siit edasi. Ma lähen edasi ja annan selle Keithile üle. Ja Keith, teil on umbes 10, 12 minutit aega siin maja kisada. Neil saadetel läks natuke aega. Ja me reklaamisime selle jaoks 70 minutit. Lihtsalt minge edasi ja klõpsake sellel slaidil ükskõik kus, kasutage allanoolt ja viige see ära.

Keith: Muidugi. Pole probleemi, Eric. Ma hindan seda. Ma lähen edasi ja taan vaid paar tükki SASi kohta, siis liigun otse tehnoloogiaarhitektuuridesse, kus SAS ristub suure andmesilmaga. Kõigis nendes asjades on palju lahti seletatav. Võiksime tundide kaupa seda üksikasjalikult läbi käia, kuid kümme minutit - peaksite saama minema vaid lühikese ettekujutusega sellest, kuhu SAS on viinud analüütika, andmehaldus- ja äriteabetehnoloogiad selles suures andmemaailmas.

Esiteks, natuke SASi kohta. Kui te pole selle organisatsiooniga tuttav, siis oleme viimase 38 aasta jooksul teinud täiustatud analüütikat, äriteavet ja andmehaldust, lisaks viimase 38 aasta jooksul mitte ainult suurte andmete, vaid ka väikeste andmete ja andmete rikkuse korral. Meil on tohutu olemasolev kliendijaam, umbes 75 000 saiti kogu maailmas, kes teevad koostööd mõne seal asuva tipporganisatsiooniga. Oleme eraõiguslik organisatsioon, kus töötab umbes 13 000 töötajat ja 3 miljardit dollarit tulu. Ja tõesti, ma arvan, et oluline osa on see, et meil on traditsiooniliselt olnud pikaajaline ajalugu märkimisväärse osa oma tulude reinvesteerimisest meie teadus- ja arendustegevuse organisatsiooni, mis on tõepoolest toonud endaga kaasa palju neid hämmastavaid tehnoloogiaid ja platvorme, mida teie ” lähen täna vaatama.

Niisiis, ma lähen otse nendesse hirmutavatesse arhitektuuriskeemidesse. Töötame minu slaidides vasakult paremale. Niisiis, sellel platvormil on tuttavaid asju, mida te näete. Vasakul pool on kõik need andmeallikad, millest me räägime, nendesse suurtesse andmeplatvormidesse sisse toomiseks. Ja siis on teil see suur andmeplatvorm.

Ma ei ole lihtsalt sõna Hadoop sinna tippu pannud, sest lõppkokkuvõttes on näited, mida täna teen, konkreetselt kõigi tehnoloogiate ümber, kus me nende suurte andmeplatvormidega ristume. Hadoop juhtub lihtsalt olema üks neist, kus meil on mõned kõige jõulisemad juurutamisvõimalused, kuid me ka lõikuvad üsna palju ja oleme mõnda aega nende tehnoloogiate osas koos mõne teise ettevõtte andmelaopartneriga nagu Teradata välja arendanud, Oracle, Pivotal jms. Niisiis, ma ei saa põhjalikumalt uurida, kuidas kõiki erinevaid tehnoloogiaid sellel platvormil toetatakse, vaid võin kindel olla, et kõik need, mida ma täna kirjeldan, on enamasti kõik see, mida Hadoop ja suur osa neist ristub teiste tehnoloogiapartneritega, mis meil on. Niisiis, meil on see suur platvorm seal.

Järgmine otse paremale on meil meie SAS LASR Analytic Server. Nüüd on see sisuliselt paralleelne mäluanalüütilise rakenduse serveris. Oleksime selged, et see pole mälusisene andmebaas. See on tegelikult loodud maast madalast. See ei ole päringumootor, vaid on mõeldud analüütiliste taotluste massiliseks ja paralleelseks teenindamiseks. See on teenuse võtmerakendus, mida näete seal paremal.

Me uurime natuke, kuidas inimesed neid asju kasutusele võtavad. Kuid põhimõtteliselt rakendus - kas näete seal - esimene - on meie SASi suure jõudlusega analüüs. See saab olema - ma kasutan paljusid meie olemasolevaid tehnoloogiaid ja platvorme, nagu Enterprise Miner või lihtsalt SAS, ega tee lihtsalt mitut lõime mõne nende algoritmidega, mille oleme sisse ehitanud nendesse tööriistadesse, mille jaoks oleme teinud aastatega, aga ka massiliselt paralleelselt nendega. Niisiis, andmete teisaldamiseks sellelt suurelt andmeplatvormilt sellesse LASR Analytic Serverisse, et saaksime käivitada analüütilisi algoritme - teate, palju uut masinõppimist, närvivõrgud, juhuslikud metsa regressioonid, sellised asjad - jällegi andmed mälus. Niisiis, vabanedes sellest MapReduce'i paradigma kitsaskohast, kus meid nendele platvormidele lahatakse, pole see nii, nagu soovite analüütilist tööd teha. Niisiis, me tahame, et saaksime andmed üks kord mäluruumi tõsta ja seda korrata, tead, mõnikord tuhandeid kordi. Niisiis, see on selle suure jõudlusega analüütilise LASR-serveri kasutamise kontseptsioon.

Samuti - muud selle all olevad rakendused, visuaalne analüüs, mis võimaldab meil neid andmeid mälus säilitada ja teenindada samadel andmetel suuremat populatsiooni. Nii et võimaldades inimestel uurida suurandmeid. Niisiis uurime enne mudeli arendustööde tegemist andmeid, saame neist aru, uurime korrelatsioone, prognoosime või kujundame otsustuspuid - selliseid asju -, kuid väga visuaalsel ja interaktiivsel viisil mälus olevate andmete osas platvorm. See teenindab ka meie BI-kogukonda niivõrd, et sellel on väga lai kasutajate arv, kes saavad sellele platvormile lüüa tavalisi salvestusi, mida te näete - mida te peaaegu teate, BI-i müüja seal.

Järgmise sammuna liigume siis teenindusse. Ja selleks, et aidata meie statistikuid ja meie analüütilisi inimesi, saaksime sedalaadi ad-hoc modelleerida andmetega, mis asuvad mälus, eemaldatakse visuaalsest analüüsist ja uuritakse meie visuaalse statistika rakenduses. See on võimalus inimestel kasutada statistikat mitte partiides, mida tavapäraselt korrati, joosta mudeleid, vaadata tulemusi. Nii et mudeli käivitamiseks vaadake tulemusi. See on interaktiivse statistilise modelleerimise visuaalne lohistamine. See teenib meie statistikuid ja andmeteadlasi suure osa varase uurimusliku visuaalstatistika tööst.

Ja siis ei ole me unustanud oma koodereid - inimesed, kes tõesti tahavad, saavad võimaluse liideste kihid lahti koorida, on kirjutada rakendusi ja kirjutada SAS-is oma koodipõhi. Ja see on meie mälu statistika Hadoopi kohta. Ja just see - peamiselt koodikiht, mis võimaldas meil selle Analytic LASR Serveriga suhelda, et anda käske otse ja kohandada neid rakendusi meie taotluse alusel. See on analüütiline tükk.

Kuidas need asjad üles seatakse ... Vabandust, mul on kahju, poisid. Sinna me läheme.

Niisiis, seda on tõesti paaril viisil. Üks on seda teha suurandmetega - antud juhul Hadoopiga. Ja just seal töötab SAS LASR Analytic Server eraldi masinate rühmas, mis on optimeeritud hardcore analüütika jaoks. See asub mõnusalt ja suurandmeplatvormile lähedal, võimaldades meil seda suurandmeplatvormist eraldi skaleerida. Niisiis, me näeme inimesi seda tegemas, kui nad ei taha, et minusuguseid iseloomustaks nagu vampiiritarkvara, mis sööb nende Hadoopi klastri kõik sõlmed ära. Ja nad ei pea tingimata mõõtma seda suurt andmeplatvormi, mis on sobiv mälusisese analüüsi tegemiseks. Niisiis, teil võib olla Hadoopi klastri 120 sõlme, kuid neil võib olla 16 analüütiliste serverite sõlme, mis on mõeldud sellist tööd tegema.

Meil on endiselt lubatud säilitada seda paralleelsust suurandmete platvormilt, et tõmmata andmed mällu. Niisiis, see on tõesti SAS-i kasutamine koos Hadoopi platvormiga. Erinev kohtumismudel on siis see, et noh, me võime kasutada ka seda kaubaplatvormi ja seda edasi lükata - sisuliselt käitada Analytic LASR serverit Hadoopi platvormidel. Niisiis, siin me oleme ... tegutsete suurandmete platvormis. See on ka meie teiste seadmete müüjatest. Niisiis, see võimaldas meil selle töö tegemiseks põhimõtteliselt seda kaubaplatvormi kasutada.

Me näeme seda sagedamini näiteks suure jõudlusega analüütikas, kus see on ühekordne või ühekordne analüütiline käitamine, rohkem partiile orienteeritud seal, kus olete - te ei soovi Hadoopi mäluruumi tingimata kulutada platvorm. Oleme seda laadi kasutuselevõtu mudeli suhtes väga paindlikud, töötades kindlasti YARN-iga paljudel juhtudel, et olla kindel, et mängime kenade klastritega.

Olgu, nii et see on analüütiline maailm, et analüüsirakendusega seal lihtsalt aru saada. Kuid mainisin, et SAS on algusest peale ka andmehaldusplatvorm. Ja on asju, mis sobivad loogika lisamiseks sellele platvormile. Niisiis, sellel on paar viisi. Üks on andmete integreerimise maailmas, andmetega seotud andmete ümberkujundamise töö tegemine ei pruugi olla mõistlik, nagu me varem oleme kuulnud, tagasi tõmmata, kasutades suuri andmete kvaliteedirutiine. Tahame sellised andmed nagu andmete kvaliteedirutiin kindlasti sellele platvormile alla suruda. Ja siis sellised asjad nagu mudelite punktisüsteem. Niisiis, ma olen oma mudeli välja töötanud. Ma ei taha seda asja MapReduce'is ümber kirjutada ning teha selle töö loomuliku andmebaasi platvormile ümber tegemine keerukaks ja aeganõudvaks.

Niisiis, kui vaadata näiteks meie Hadoopi punktikiirendit, mis võimaldab meil põhimõtteliselt võtta mudeli ja lükata SAS-i matemaatiline loogika sellesse Hadoopi platvormi alla ja seda seal täita, kasutades paralleelsust, mis on selle suure andmeplatvormi sees. Seejärel on meil oma koodikiirend erinevate platvormide jaoks, sealhulgas Hadoop, ja see võimaldab meil sisuliselt paralleelselt käitada SAS-i andmete sammukoodi massiliselt paralleelselt - tehes seda tüüpi andmete ümberkujundamise platvormis. Ja siis meie SAS-i andmekvaliteedi kiirendaja, mis võimaldab meil seal istuda kvaliteetsete teadmiste baasil, kus saab teha selliseid asju nagu sooline sobitamine, standardimise vaste kood - kõik erinevad andmekvaliteedi asjad, mida olete juba täna kuulnud.

Ja siis viimane tükk on seal Data Loader. Me teame, et meie ärikasutajad peavad hakkama suutma mitte kirjutada koodi, vaid tegema andmete ümberkujundamise tööd nendes suurtes andmeplatvormides. Data Loader on kena WYSIWYG GUI, mis võimaldab meil need muud tehnoloogiad kokku panna. See on nagu viisard, kus käitatakse taru päringut või käitatakse andmekvaliteedirutiini ega pea sel juhul koodi kirjutama.

Viimane asi, mida ma mainin, on see esiosa. Nagu ma juba varem mainisin, on meil maailmas tohutu SASi jalg. Ja seda me ei saa lihtsalt tingimata teha kõiki neid platvorme, mis seal asuvad, et selles ruumis kohe olemas olla. Niisiis, meil on kindlasti olemas mõni olemasolev kasutaja, kes peab saama andmeid nendes suurtes andmeplatvormides istudes, näiteks hankima andmed Teradatast ja panema need tagasi Hadoopi ja vastupidi. Mudelite käitamiseks ma juba tean, kuidas oma SAS-i serverites käitada, kuid ma pean hankima andmed, mis on nüüd Hadoopi platvormile paigutatud. Niisiis, seal on see teine väike ikoon, mida nimetatakse "alates" ja mis võimaldab meil oma SAS-i juurdepääsumootoritega ühenduse luua - mootoritele Hadoopi juurde Polause Clouderasse, Teradatasse, Greenplumi kuni ... Ja nimekiri jätkub. See võimaldab meil kasutada juba olemasolevaid küpset SAS-i platvorme, et saada nendelt platvormidelt andmeid, teha tööd, mis meil vaja korda saada, tulemuste neisse valdkondadesse tagasipööramiseks.

Viimane asi, mida mainin, on see, et kõiki neid tehnoloogiaid, mida te näete, juhib sama standardne tavaline metaandmed. Niisiis, me räägime ümberkujundamistöö saamisest, andmete kvaliteedireeglist tööl, selle mällu teisaldamisest, et oleks võimalik teha analüütikat, mudeli väljatöötamisel punktisüsteemis. Meil on olemas kogu analüütiline elustiil, elutsüklit juhivad ühised metaandmed, valitsemine, turvalisus ja kõik need asjad, millest me täna varem rääkisime.

Niisiis, lihtsalt kokkuvõte, seal on tõesti need kolm suurt asja, mis ära võtta. Üks on see, et me võime käsitleda andmeplatvormi samamoodi nagu kõiki muid andmeallikaid, tõmmates neist eemale, surudes nende juurde, kui see on sobiv ja mugav. Saame töötada nende suurte andmeplatvormidega, loetledes andmed sihtotstarbeliselt täiustatud analüütilisteks mäluplatvormideks. See on LASR-server.

Ja siis saame lõpuks töötada otse nendes suurtes andmeplatvormides, võimendades nende turustamisvõimalusi ilma andmeid liigutamata.

Eric: Noh, see on fantastiline värk, inimesed. Jah, see on suurepärane! Mõelgem siis mõnele küsimusele. Tavaliselt kulub neil üritustel umbes 70 minutit või natuke kauem. Niisiis, ma näen, et meil istub seal endiselt suur publik. George, ma arvan, et viskan meie esimese küsimuse teile üle. Kui räägite oma binaarheli sisestamisest Hadoopi, siis see tundub mulle nii, nagu oleksite arvutuslikku töövoogu tõesti optimeerinud. Ja see on kogu võti, et saaksime teha selliseid reaalajas andmete haldamise ja andmete kvaliteedistiili saavutusi, sest see on väärtus, mida soovite saada, eks? Kui te ei taha tagasi pöörduda MDM-i vanasse maailma, kus see on väga tülikas ja aeganõudev, ning peate tõesti sundima inimesi tegutsema teatud viisidel, mis peaaegu kunagi ei toimi. Ja nii, mida olete teinud, olete kokku võtnud selle, mis oli. Nimetagem seda päevadeks, nädalateks, mõnikord isegi kuudeks sekunditeni, eks? Kas see toimub?

George: See on täpselt nii, sest saadav skaala ja klastrist väljatulevad tulemused on tõesti jahmatavad, lihtsalt teate, ma olen alati mõõdupuude osas pisut kõhklev. Kuid just suurusjärgu jaoks, kui me käitaks miljardit, 1,2 miljardit kirjet ja teeks täieliku aadresside standardiseerimise - ma ütlen, et keskklassi HP masin -, siis kuluks, nagu teate, kaheksa protsessorimasinat, teate , 2 gigi RAM-i tuuma kohta, teate, selle käivitamiseks kuluks 20 tundi. Saame seda nüüd teha umbes kaheksa minutiga 12-sõlmelises klastris. Ja nüüd, töötlemise ulatus, mida me nüüd teha saame, on nii dramaatiliselt erinev, et - ja see läheb väga hästi kokku mõttega, et teil on kõik need andmed teie käsutuses. Nii et töötlemine pole nii riskantne. Kui tegite valesti, saate selle uuesti teha. Teil on aega. See muutis tõesti selle ulatust, kus, teate, muutusid sellised riskid MDM-i lahenduste kasutamisel inimeste jaoks tõelisteks äriprobleemideks. Teil peab olema 30 offshore-inimest, kes tegeleb andmete haldamisega ja kõik. Ja nii, teil peab veel mõni selline olema, kuid kiirus ja ulatus, millega saate seda praegu töödelda, annab teile tõesti palju rohkem hingamisruumi.

Eric: Jah, see on tõesti väga hea mõte. Ma armastan seda kommentaari. Niisiis, teil on aeg seda uuesti teha. See on fantastiline.

George: Jah.

Eric: Noh, see muudab dünaamikat, eks? See muudab seda, kuidas te mõtlete selle üle, mida proovite. Ma mõtlen, et mäletan seda 18 aastat tagasi eriefektide tegemise valdkonnas, kuna mul oli klient, kes viibis selles ruumis. Ja vajutaksite nuppe selle renderdamiseks ja läheksite koju. Ja sa tulid tagasi ehk laupäeva pärastlõunal, et näha, kuidas see läks. Aga kui sa said valesti aru, oli see väga, väga, väga valus. Ja nüüd pole see peaaegu lähedal - see pole isegi nii valus, nii et teil on võimalus proovida rohkem asju. Ma pean ütlema, et minu arvates on see tõesti väga hea punkt.

George: Täpselt nii. Jah, ja sa puhud oma lisajalga. Teate, et vanasti on töö poole peal ja see ei õnnestu, olete oma SOS-i puhunud. See selleks.

Eric: Õige. Ja sa oled suures hädas, jah. See on õige.

George: See on õige. See on õige.

Eric: Keith, las ma viskan ühe sulle üle. Mäletan, et tegin intervjuu teie CIL-iga, Keith Collinsiga, usun, et tagasi, ma arvan, et võib-olla 2011. Ja ta rääkis palju juhtimisest, mille SAS võttis konkreetselt seoses tööga klientidega, et kinnistada SASist pärinev analüütika operatsioonisüsteemidesse. Ja muidugi kuulsime Mike Fergusonit rääkimas mäletamise olulisusest. Kogu idee on see, et soovite seda kraami oma toimingutesse siduda. Te ei soovi analüüsi vaakumis, ettevõttest lahus. Sellel pole mingit väärtust.

Kui soovite analüüsi, mis võib toiminguid otseselt mõjutada ja optimeerida. Ja kui ma tagasi vaatan - ja pean ütlema, siis arvasin, et see on toona hea mõte -, siis tundub tagantjärele tõesti väga nutikas idee. Ja ma arvan, et see on teie kuttide tõeline eelis. Ja muidugi, see suur pärand, see tohutu installipõhi ja asjaolu, et olete keskendunud nende analüütika kinnistamisele operatsioonisüsteemidesse, mis tähendab, et nüüd - ja kui see ka on, läheb vaja veel tööd - olen kindel, et te " olen sellega päris kõvasti tööd teinud. Kuid nüüd saate kõiki neid uusi uuendusi kasutada ja olete tõesti selles mõttes, et suudate kogu selle asja oma klientidega kasutusele võtta. Kas see on õiglane hinnang?

Keith: Jah, kindlasti. Mõiste on see, et saate selle otsuse kujundamise või otsusteaduste idee, mis on, teatavasti, mingil määral uurimuslik, teaduse-tüüpi asi. Kui te ei saa protsessi käigus tehnilisi lahendusi teha. Kui mõtlete mõne auto väljatöötamisele, on teil disainerid, kes teevad selle ilusa auto, kuid alles siis, kui insenerid panevad selle plaani paika ja valmistavad teile enne reaalse elujõulise toote suudab asjad tegelikult paika panna ja SAS on seda põhimõtteliselt teinud. See on otsused - otsuste kujundamise protsess koos otsuste kujundamise protsessiga - ühendanud, nii et kui rääkida kiirenditest, konkreetselt punktikiirenditest, siis teate, kui võtate oma väljatöötatud mudeli ja suudate selle välja lükata. Teradatale või lükake see välja Oracle'i või Hadoopi poole, ilma mudeli väljatöötamiseks nullseisakuga, mudeli juurutamiseni. See on oluline, kuna mudelid halvenevad aja jooksul, nende mudelite täpsus. Nii et mida kauem aega selle võtmine ja tootmisesse viimine võtab, on see mudeli täpsuse kadu.

Ja siis teine asi on see, et soovite, et oleks võimalik seda protsessi aja jooksul jälgida ja juhtida. Kui soovite mudeleid vananenud ja ebatäpseks muuta, siis need peaksid amortiseeruma. Soovite seda vaadata, aja jooksul kontrollida nende õigsust ja neid uuesti üles ehitada. Ja nii on meil olemas ka mudelihaldustööriistad, mis jälgivad modelleeritud protsessi metaandmeid. Ja inimesed on öelnud, et modelleerimine, teate, selline kontseptsioon on nagu mudelitehas või mis iganes te seda soovite nimetada. Asi on selles, et metaandmed ja haldamine pannakse paika ning siin on kolm peamist asja, millesse me pihta peame - aitame inimestel raha teenida, raha kokku hoida ja vanglast välja hoida.

Eric: Ka see viimane on päris suur. Otsin seda kõike vältida. Räägime siis ...Esitan ühe lõpliku küsimuse, võib-olla võite mõlemad seda hüpata. Mulle tundub, et meie maailma heterogeensus ainult suureneb. Arvan, et kindlasti näeme hübriidpilvekeskkondade ümber mõnda kristalliseerumist. Kuid sellest hoolimata näete, kuidas paljud tähtsamad mängijad ringi kleepuvad. IBM ei lähe kuhugi. Oracle ei lähe kuhugi. SAP ei lähe kuhugi. Ja seal on nii palju teisi müüjaid, kes on selle mänguga seotud.

Samuti operatiivküljel, kus teil on sõna otseses mõttes tuhandeid ja tuhandeid erinevaid rakendusi. Ja ma kuulsin - enamik teist räägib sellest, kuid arvan, et te mõlemad nõustute sellega, mida ma olen rääkinud. Oleme seda suundumust nüüd näinud just analüütiliste mootorite ja arhitektuuri arvutusvõime osas. Ettevõtted on juba aastaid rääkinud sellest, kas nad saavad kasutada muid mootorid seal ja teenindada omamoodi orkestratsioonipunkti. Ja ma arvan, George, viskan selle kõigepealt sulle. Mulle tundub, et see on midagi, mis ei muutu. Meil on see heterogeenne keskkond, mis tähendab, et on olemas sellised asjad nagu reaalajas CRM ja andmete kvaliteet ning andmete haldamine. Peate hankijana olema liides kõigi nende erinevate tööriistadega. Ja just seda kliendid soovivadki. Nad ei taha midagi, mis nende tööriistadega hästi sobib ja nende tööriistadega nii hästi. Nad tahavad MDM-i ja CRM-i Šveitsi, eks?

George: See on õige. Ja see on huvitav, sest me oleme selle väga omaks võtnud. Osa sellest on ajalugu, mis meil oli kosmoses. Ja ilmselgelt töötasime juba kõigi teiste andmebaaside, terapeutide ja maailma tükkide kallal. Ja siis - rakendasite rakendusprotsessis täpselt nii, nagu me tegime, lihtsalt nii, et see oleks - teil on see ulatus kõigis nendes erinevates andmebaasides. Üks asi, mis minu jaoks huvitav on, on see, et meil on mõned kliendid, kes on lihtsalt kõigi põrkepõhiste andmebaaside eemaldamise nimel vaeva näinud. Ja see on huvitav. Tead, ma mõtlen, et see on korras. See on huvitav. Kuid ma lihtsalt ei näe, et see suurettevõtetes tegelikult aset leiab. Ma ei näe seda pikka aega toimumas. Niisiis, ma arvan, et hübriid on siin juba pikka aega ja teisel pool meie rakendust, kus meil on kampaaniate haldamise platvormil oma sõnumivahetusplatvorm. Oleme selle spetsiaalselt välja töötanud. Nüüd oleme välja andnud versiooni, mis seda teeb ja mis saab nüüd ühenduda hübriidandmekeskkonnaga ja küsida Hadoopilt päringuid või küsida päringuid andmebaaside ja analüütiliste andmebaaside kohta. Niisiis, ma arvan, et see on vaid tuleviku laine. Ja ma olen nõus, et virtualiseerimisel on selles kindlasti suur roll, kuid me oleme lihtsalt - läheme kõigi oma rakenduste andmete juurde.

Eric: Olgu, tore. Ja Keith, ma viskan selle sulle üle. Mida arvate heterogeensest maailmast, millega me silmitsi seistes käime?

Keith: Jah, see on tõesti põnev. Ma arvan, et mida me rohkem leiame - mitte ainult asjade andmehalduse poolelt -, aga praegu on põnev just analüüsibaasi avatud lähtekoodiga olemus. Niisiis, me näeme pardale selliseid organisatsioone või tehnoloogiaid nagu Spark ning inimesi, kes kasutavad Pythoni ja R-i ning kõiki neid muid avatud lähtekoodiga tehnoloogiaid. Ma arvan, et seda võiks tõlgendada mingil määral konfliktina või ohuna. Kuid reaalsus on see, et meil on kõigi nende avatud lähtekoodiga tehnoloogiatega tõeliselt imelisi komplimente. Ma mõtlen, et ühe nimel tegutseme jumala huvides avatud lähtekoodiga platvormidel.

Kuid ka see, et suudame näiteks R-mudeli integreerida SAS-i paradigmasse, saate kasutada mõlema maailma parimat, eks? Nagu, nii et me teame, et mõned eksperimentaalsed asjad akadeemilises maailmas ja mõned mudeli arendustööd on erakordsed ja mudeli väljatöötamise protsessis üliolulised. Kuid kui saaksite selle siduda tootmisklassi tüüpi tööriistadega, siis see puhastaks ja kvaliteeti ning kontrolliks ja veenduks, et mudelis sisalduvad andmed on kindlasti olemas, siis on see korralikult ettevalmistatud, nii et see ei vea hukkamisel. Ja siis, kui saaksite teha selliseid asju nagu avatud lähtekoodiga mudelitega meisterväljakutsuja mudelid. Need on asjad, mida me soovime võimaldada ja mis on kõigi nende tehnoloogiate tõeliselt heterogeense ökosüsteemi osana. Jah, nii see on rohkem - meie jaoks tähendab see rohkem nende tehnoloogiate omaksvõtmist ja komplimentide otsimist.

Eric: Noh, see on olnud fantastiline värk, inimesed. Käisime siin natuke pikalt, kuid sooviksime saada võimalikult palju küsimusi. Edastame küsimuste ja vastuste faili täna saatejuhtidele. Seega, kui mõnele teie esitatud küsimusele ei vastatud, siis veenduge, et see saaks vastuse. Ja inimesed, see pakendab selle 2014. aastaks. Lugupidamisega homme ja järgmisel nädalal DM-raadios, siis on kõik tehtud ja käes on puhkepaus.

Suured tänud teile kõigile teie aja ja tähelepanu eest, et te kõik need suurepärased veebisaated läbi nägid. Meil on 2015. aasta jaoks suurepärane aasta, ja me räägime varsti teiega, inimesed. Aitäh veel kord. Me hoolitseme. Headaega.