Kuidas saab Analytics äritegevust parandada? - TechWise Episode 2 ärakiri - Tehnoloogia

Allikas: Flickr / James Royal-Lawson

Ära võtma:

Host Eric Kavanagh arutab andmeteadlaste ja valdkonna juhtidega analüütika kasutamist ettevõtluses.

Toimetajate märkus: see on ühe meie varasema veebiülekande ärakiri. Järgmine osa saabub kiiresti, registreerumiseks klõpsake siin.

Eric Kavanagh: Daamid ja härrad, tere ja tervitame veel kord TechWise'i 2. osa. Jah, tõepoolest, on aeg hankida tarku inimesi! Mul on täna liinil hunnik tõeliselt tarku inimesi, kes aitavad meid selles ettevõtmises. Minu nimi on muidugi Eric Kavanagh. Ma olen selle välkkiire sessiooni teie host, moderaator. Meil on siin palju sisu, inimesed. Meil on äris mõned suured nimed, kes on olnud meie ruumis analüütikud ja neli kõige huvitavamat müüjat.Seega on meil täna kõnes palju häid toiminguid. Ja muidugi, teie seal publiku ees mängib olulist rolli küsimuste esitamisel.

Nii et taas on saade TechWise ja täna on teemaks "Kuidas saab Analytics ettevõtlust parandada?" Ilmselt on see kuum teema, kus ta proovib mõista erinevaid analüütika liike, mida saate teha ja kuidas see saaks teie toiminguid paremaks muuta, sest päeva lõpuks on see kõik.

Nii et näete ennast seal ülaosas, see on tõesti teie oma. Dr Kirk Borne, George Masoni ülikooli hea sõber. Ta on andmeteadlane, kellel on tohutu kogemus, väga sügavad teadmised selles ruumis ning andmete kaevandamine ja suurandmed ning igasugu muud toredad asjad. Ja loomulikult on meil siin Bloori grupi peaanalüütik dr Robin Bloor. Kes koolitas aktuaariks palju aastaid tagasi. Ja viimase poole kümnendi jooksul on ta tõesti kogu selle suure andmeruumi ja analüütilise ruumi keskendunud. Möödus juba viis aastat ajast, kui käivitasime ise Bloori grupi. Nii et aeg lendab, kui teil on lõbus.

Samuti kuuleme Pentaho peaarhitekti Will Gormanilt; Steve Wilkes, WebActioni CCO; Frank Sanders, MarkLogici tehnikadirektor; ja Hannah Smalltree, ettevõtte Treasure Data direktor. Nii nagu ma ütlesin, on see palju sisu.

Kuidas saab analüütika teie ettevõtet aidata? Noh, kui väga see ausalt öeldes teie ettevõtet aitab? Analüütikat saab kasutada igasuguste viiside abil, mis võimaldavad teie organisatsiooni paremaks muuta.

Nii et tehke toimingud sujuvamaks. See on see, millest te ei kuule nii palju kui näiteks turunduse või tulude suurendamise või isegi võimaluste tuvastamise kohta. Kuid oma toimingute sujuvamaks muutmine on see tõesti väga võimas asi, mida saate oma organisatsiooni heaks teha, kuna saate kindlaks teha kohad, kus saate midagi allhanke korras tellida või näiteks konkreetsele protsessile andmeid lisada. Ja see võib sujuvamaks muuta, kui ei nõuta, et keegi valiks telefonilt helistamise või keegi. Toiminguid saab sujuvamaks muuta nii paljudel erinevatel viisidel. Ja see kõik aitab tõesti teie kulusid vähendada, eks? See on võti, see vähendab kulusid. Kuid see võimaldab teil ka oma kliente paremini teenindada.

Ja kui mõelda, kui kärsitutest inimestest on saanud, ja ma näen seda iga päev, kuidas inimesed suhelda saavad, isegi meie etenduste, teenusepakkujatega, keda me kasutame. Inimeste kannatlikkus, tähelepanuulatus, muutub päevaga aina lühemaks. Ja see tähendab, et peate oma organisatsioonina vastama kiiremini ja kiiremini, et saaksite oma kliente rahuldada.

Nii näiteks, kui keegi on teie veebiülekande saidil või sirvib midagi, et midagi leida, siis kui olete pettunud ja lahkuvad, võite olla lihtsalt kliendi kaotanud. Ja sõltuvalt sellest, kui palju te oma toote või teenuse eest võtate, ja võib-olla on see suur asi. Nii et kokkuvõtlikult võib öelda, et toimingute sujuvamaks muutmine on minu arvates üks kuumimaid ruume analüüsi rakendamiseks. Ja teete seda numbreid vaadates, andmeid krõbistades, näiteks nuputades: "Kuule, miks me kaotame oma veebisaidi sellel lehel nii palju inimesi?" "Miks me kohe selliseid telefonikõnesid saame?"

Ja mida reaalajas saate sedalaadi asjadele reageerida, seda paremad on võimalused, et saate olukorraga paremini kurssi viia ja midagi ette võtta, enne kui on liiga hilja. Kuna on aeg, kus keegi millegi pärast ärritub, on ta rahulolematu või üritab midagi leida, kuid on pettunud; Teil on seal võimalus aknaga, et jõuda nende juurde, haarata neid kinni ja suhelda selle kliendiga. Ja kui teete seda õigesti, kasutades õigeid andmeid või kena kliendipilti - saades aru, kes on see klient, mis on nende kasumlikkus, millised on nende eelistused - kui saate sellest tõesti aru, siis teete seda suur töö klientide hoidmisel ja uute klientide saamisel. Ja selles see ongi.

Nii et ma annan selle tegelikult üle Kirk Borne'ile, ühele meie täna valves olnud andmeteadlasele. Ja nad on tänapäeval üsna haruldased inimesed. Meil on neist vähemalt kaks vähemalt kõne ajal, nii et see on suur asi. Sellega, Kirk, annan selle teile üle, et rääkida analüütikast ja kuidas see aitab äri. Tee seda.

Dr Kirk Borne: Noh, tänan teid väga, Eric. Kas sa kuuled mind?

Eric: See sobib, mine edasi.

Dr Kirk: Hea küll. Tahan lihtsalt jagada, kui räägin viis minutit ja inimesed viipasid mulle käega. Niisiis, sissejuhatav märkus, Eric, et olete selle teemaga tõeliselt seotud, räägin ma järgmise paari minutiga lühidalt, mis seisneb suurandmete ja andmete analüüsi kasutamises andmete toetamiseks otsuste toetamiseks. Teie tehtud kommentaar operatiivse sujuvamaks muutmise kohta kuulub minu jaoks justkui sellesse operatiivanalüütika kontseptsiooni, milles näete peaaegu igas rakenduses kogu maailmas, olgu see siis teaduse rakendus, äri, küberturvalisus ja õiguskaitse ning valitsus, tervishoid. Suvaline arv kohti, kus meil on andmevoog ja me reageerime sündmustele ja häiretele ning käitumisele, mida selles andmevooges näeme.

Ja nii on üks asi, millest tahaksin täna rääkida, omamoodi see, kuidas eraldate teadmisi ja teadmisi suurandmetest, et jõuda selleni, kus me saame tegelikult teha otsuseid meetmete võtmiseks. Ja sageli räägime sellest automatiseerimise kontekstis. Ja täna tahan segada automatiseerimise silmuses oleva inimanalüütikuga. Nii et ma mõtlen sellega, et samal ajal kui ärianalüütik mängib siin olulist rolli panustamise, kvalifitseerimise, konkreetsete toimingute valideerimise või masinõppe reeglite osas, mille me andmetest välja võtame. Kuid kui jõuame punktini, kus oleme üsnagi veendunud, et meie välja töötatud ärieeskirjad kehtivad ja mehhanismid meie hoiatamiseks on kehtivad, siis võime selle automatiseeritud protsessiks muuta. Me teeme seda operatiivset sujuvamaks muutmist, millest Eric rääkis.

Nii et ma mängin siin natuke sõnadega, kuid loodan, et kui see teie jaoks sobib, rääkisin D2D väljakutsest. Ja D2D, mitte ainult kõigi otsuste andmete koondamine, vaatame seda slaidi lõpus nagu loodetavasti näete, tehes avastusi ja suurendades tulusid dollareid meie analüüsi torustikust.

Nii et selles kontekstis on mul tegelikult see turundaja roll, mis mul siin praegu on, kui ma koos töötan ja see on; Esimene asi, mida soovite teha, on oma andmete iseloomustamine, funktsioonide väljavõtmine, klientide või kõigi muude üksuste kirjeldamine, mida te oma ruumis jälgite. Võib-olla on see terviseanalüüsi keskkonnas patsient. Võib-olla on see veebikasutaja, kui vaatate omamoodi küberturbe probleemi. Kuid iseloomustage ja ekstraheerige omadusi ning seejärel eraldage mõned vastused selle inimese, selle olemi kohta. Ja siis kogute need tükid, mille olete just loonud, ja pange need mingisse kollektsiooni, millest saate seejärel masinõppe algoritme rakendada.

Põhjus, miks ma seda ütlen, on see, et ütleme lihtsalt, et teil on lennujaamas valvekaamera. Video ise on tohutu suur maht ja see on ka väga struktureerimata. Kuid saate teha videovalvest, näo biomeetriast andmeid ja tuvastada isikuid valvekaamerate kaudu. Nii et näiteks lennujaamas saate tuvastada konkreetseid isikuid, saate neid lennujaama kaudu jälgida, tuvastades sama isiku risttuvastuse abil mitmes valvekaameras. Niisiis, kaevandatud biomeetrilised omadused, mida te tegelikult kaevandate ja jälitate, ei ole tegelikult üksikasjalik video. Kuid kui need väljavõtted on tehtud, saate masinõppe reegleid ja analüütikat kohaldada, et otsustada, kas peate konkreetsel juhul midagi ette võtma või juhtus midagi valesti või midagi, mida teil on võimalus pakkuda. Kui olete näiteks näiteks siis, kui teil on lennujaamas pood ja näete, et see klient tuleb teie teed, ja teate selle kliendi kohta muu teabe põhjal, et võib-olla oli ta tõesti huvitatud tollimaksuvaba kaupluse kraami ostmisest või midagi sellist, tee see pakkumine.

Milliseid asju ma siis iseloomustamise ja potentsiaalsuse all silmas peaksin? Iseloomustamise all pean ma jälle silmas andmete omaduste ja tunnuste eraldamist. Ja selle saab kas masina abil genereerida, siis saavad selle algoritmid näiteks biomeetrilisi allkirju video- või sentimentaalanalüüsist eraldada. Kliendi tundeid saate saada online-arvustuste või sotsiaalmeedia kaudu. Mõned neist asjadest võivad olla inimese loodud, nii et inimene, ärianalüütik, saab ekstraheerida lisafunktsioone, mida näitan järgmisel slaidil.

Mõnda neist saab hankida hulgimüügist. Ja rahvahulga abil saate sellele mõelda paljudel erinevatel viisidel. Kuid väga lihtsalt, näiteks, teie kasutajad tulevad teie veebisaidile ja nad panevad sisse otsingusõnad, märksõnad ning satuvad teatud lehele ja veedavad sellel lehel tegelikult aega. Et nad vähemalt vähemalt mõistavad, et nad kas vaatavad, sirvivad ja klõpsavad sellel lehel olevaid asju. Mis teile ütleb, on see, et märksõna, mille nad alguses kirjutasid, on selle lehe kirjeldaja, kuna see maandus kliendile sellel lehel, mida nad ootasid. Ja nii saate lisada selle täiendava teabe, st kliendid, kes seda märksõna kasutavad, identifitseerisid selle veebisaidi meie teabearhitektuuris tegelikult kohana, kus see sisu sellele märksõnale sobib.

Ja seetõttu on rahvahulga allhange veel üks aspekt, mille inimesed mõnikord unustavad, see on niiöelda teie klientide riivsaia jälgimine; kuidas nad oma ruumis liiguvad, olgu see siis veebipõhine või kinnisvara. Ja siis kasutage seda teed, mida klient kasutab, kui lisateavet asjade kohta, mida me vaatame.

Nii et ma tahan öelda, et inimese loodud asjad või masina genereeritud asjad päädisid sellega, et nad said omamoodi annoteerida või sildistada konkreetseid graanuleid või üksusi. Kas need üksused on haiglaravil olevad patsiendid, kliendid või mis iganes. Ja nii et sildistamist ja märkimisi on erinevat tüüpi. Osa sellest on seotud andmete endaga. See on üks asjadest, millist tüüpi teavet, millist teavet, mis on selle omadused, kujundid, võib-olla ka ure ja mustrid, anomaalia, mitte-anomaalia käitumine. Ja siis eraldage mõni semantika, st kuidas see seostub muude asjadega, mida ma tean, või on see klient elektroonika klient. See klient on rõivaklient. Või meeldib sellele kliendile muusikat osta.

Nii et kui tuvastada selle kohta mõni semantika, meeldivad need kliendid, kellele muusika meeldib, meelelahutus. Võib-olla võiksime neile pakkuda mõnda muud meelelahutusasutust. Niisiis, mõistmine semantikast ja ka mõnest lähtekohas, mis põhimõtteliselt ütleb: kust see tuli, kes selle väite esitas, mis kellaajal, mis kuupäeval ja mis asjaoludel?

Nii et kui teil on kõik need märkused ja iseloomustused, lisage sellele järgmine samm, mis on järeldus, kes, mis, millal, kus ja miks seda teeb. Kes on kasutaja? Mis kanalil nad tulid? Mis oli teabe allikas? Milliseid taaskasutusi oleme selles konkreetses teabe- või andmetootes näinud? Ja mis on see omamoodi väärtus äriprotsessis? Ja siis koguge need asjad ja hallake neid ning aidake tegelikult andmebaasi luua, kui soovite seda nii mõelda. Muutke need otsitavaks, korduvkasutatavaks muude ärianalüütikute poolt või automatiseeritud protsessi abil. Järgmine kord, kui neid funktsioonide komplekte näen, saab süsteem selle automaatse toimingu teha. Ja nii jõuamegi sellise analüütilise efektiivsuse saavutamiseni, kuid mida rohkem, seda enam kogume kasulikku ja põhjalikku teavet ning seejärel seda nende juhtumite jaoks kureerime.

Me jõuame asja juurde. Teeme andmete analüüsi. Otsime huvitavaid mustreid, üllatusi, uudsusi ja kõrvalekaldeid. Otsime elanikkonnast uusi klasse ja segmente. Otsime seoseid ja seoseid ning seoseid erinevate üksuste vahel. Ja siis kasutame kõike seda oma avastuse, otsustamise ja dollarite tegemise protsessi juhtimiseks.

Nii et jällegi, siin on meil viimane andmestik, mis mul on vaid põhimõtteliselt kokkuvõtlik, hoides ärianalüütikut silmnähtavalt - jällegi, te ei tõmba seda inimest välja ja on tähtis, et see inimene seal püsiks.

Neid funktsioone pakuvad kõik masinad või inimanalüütikud või isegi hulgimüük. Me rakendame seda asjade kombinatsiooni oma mudelite koolituskomplektide parendamiseks ja lõppkokkuvõttes täpsemate ennustavate mudelite, vähem valepositiivsete ja -negatiivide, efektiivsema käitumise, tõhusamate sekkumistega klientide või ükskõik kellega.

Niisiis, päeva lõpuks ühendame me lihtsalt masinõppe ja suurandmed selle inimese tunnetuse jõuga, kuhu just selline sildistamise annotatsioonitükk tuleb. Ja see võib viia visualiseerimise ja visuaalse analüüsi tüüpi tööriistad või ümbritsevad andmekeskkonnad või hulgimüük. Ja lõpuks, mida see tegelikult teeb, genereerib meie avastus, arusaamad ja D2D. Ja need on minu kommentaarid, nii et tänan teid kuulamast.

Eric: Kuule, see kõlab suurepäraselt ja lase mul minna edasi ning andma klahvid üle dr Robin Bloorile, et anda ka tema vaatenurk. Jah, mulle meeldib kuulda teid kommenteerimas seda toimingukontseptsiooni sujuvamaks muutmist ja te räägite operatiivsest analüüsist. Ma arvan, et see on suur valdkond, mida tuleb üsna põhjalikult uurida. Ja ma arvan, et tõeliselt kiiresti enne Robini toon ma teid tagasi sisse, Kirk. See nõuab, et teil oleks ettevõtte erinevate osaliste vahel päris märkimisväärne koostöö, eks? Peate rääkima operatsioonide inimestega; peate oma tehnilised inimesed hankima. Mõnikord saate oma turundusinimesi või veebiliidese inimesi. Need on tavaliselt erinevad rühmad. Kas teil on parimaid tavasid või soovitusi, kuidas panna igaüks oma mängu mängu?

Dr Kirk: Noh, ma arvan, et see tuleb koostöö ärikultuuriga. Tegelikult ma räägin kolmest C-st omamoodi analüüsikultuurist. Üks on loovus; teine on uudishimu ja kolmas on koostöö. Nii et soovite loovaid, tõsiseid inimesi, kuid peate ka need inimesed koostööle panema. Ja see algab tõesti ülaltpoolt, seda tüüpi kultuuri üles ehitamisest inimestega, kes peaksid ettevõtte ühiste eesmärkide nimel avalikult jagama ja koos töötama.

Eric: See kõik on mõistlik. Ja selleks, et see juhtuks, peate tõepoolest saama tippu hea juhtimise. Läheme siis edasi ja andkem see dr Bloorile. Robin, põrand on sinu oma.

Dr Robin Bloor: Olgu. Tänan teid selle sissejuhatuse eest, Eric. Olgu, kuidas need välja paistavad, need näitavad, sest meil on kaks analüütikut; Saan näha analüütiku ettekannet, mida teised poisid ei tee. Ma teadsin, mida Kirk kavatseb öelda, ja lähen lihtsalt täiesti teise nurga alt, nii et me ei peaks liiga palju kattuma.

Nii et see, millest ma tegelikult räägin või kavatsen siin rääkida, on andmeanalüütiku roll ja ärianalüütiku roll. Ja see, kuidas ma seda iseloomustan, on keelega põske teatud määral iseloomulik Jekylli ja Hyde'ile. Erinevus on konkreetselt selles, et vähemalt teadlased teavad teadlasi, mida nad teevad. Ehkki ärianalüütikud pole nii, on matemaatika toimimisviisiga korras, mida võib usaldada ja mida mitte.

Mõelgem lihtsalt põhjusele, et me seda teeme, põhjusel, et andmete analüüs on ühtäkki muutunud suureks probleemiks, peale selle, et me saame tegelikult analüüsida väga suuri andmemahte ja tõmmata andmeid väljastpoolt organisatsiooni; kas see maksab See, kuidas ma seda vaatan - ja ma arvan, et see on lihtsalt muutumas juhtumiks, kuid arvan kindlasti, et see on juhtum -, on andmete analüüs tegelikult ettevõtluse teadus- ja arendustegevus. See, mida te tegelikult andmeanalüüsiga ühel või teisel viisil teete, on see, et vaatate äriprotsesse ühel viisil või on see suhtlus kliendiga, olgu see siis teie jaemüügitegevuse, juurutamise viis teie kauplustes. Pole tegelikult vahet, milles asi on. Vaatate konkreetset äriprotsessi ja proovite seda täiustada.

Eduka teadus- ja arendustegevuse tulemus on muutuste protsess. Ja võite mõelda tootmisele, kui soovite, selle tavalise näitena. Kuna tootmises koguvad inimesed teavet kõige kohta, et proovida tootmisprotsessi täiustada. Kuid ma arvan, et see, mis juhtus või mis toimub suurandmetes, on see kõik, mida nüüd kasutatakse igasuguse äriettevõtte jaoks, nii et igaüks võib mõelda. Nii et suvaline äriprotsess on uurimiseks vajalik, kui saate selle kohta andmeid koguda.

Nii et see on üks asi. Kui soovite, käsitleme seda andmete analüüsis. Mida saab andmeanalüüs ettevõtte heaks teha? Noh, see võib ettevõtte täielikult muuta.

See konkreetne diagramm, mida ma ei kavatse põhjalikumalt kirjeldada, kuid see on diagramm, mille tulemusel jõudsime selle aasta esimese kuue kuu jooksul läbi viidud uurimisprojekti kulminatsioonini. See on viis suurandmete arhitektuuri esindamiseks. Ja mitmeid asju, mida tasub veel enne järgmisele slaidile siirdumist rõhutada. Siin on kaks andmevoogu. Üks on reaalajas andmevoog, mis kulgeb diagrammi ülaosas. Teine on aeglasem andmevoog, mis kulgeb diagrammi põhjas.

Vaadake diagrammi allosas. Hadoop on meil andmemahuti. Meil on mitmesuguseid andmebaase. Meil on seal terve hulk andmeid, millel on terve hulk tegevusi, millest suurem osa on analüütiline tegevus.

Siinkohal tahan öelda, et ainus tõde, mida ma siin tõesti öelda tahan, on see, et tehnoloogia on raske. See pole lihtne. See ei ole lihtne. See pole midagi, mille kõik, kes on mängu uued, saavad tegelikult lihtsalt kokku panna. See on üsna keeruline. Ja kui te kavatsete ettevõtet mõõta usaldusväärse analüütika tegemiseks kõigis nendes protsessides, siis ei pea see toimuma eriti kiiresti. Segule lisamiseks on vaja palju tehnoloogiat.

Okei. Küsimusele, mis on andmeteadlane, võiksin väita, et olen andmeteadlane, kuna tegelikult koolitati mind statistika alal juba enne, kui ma olin kunagi arvutikoolitust koolitanud. Ja ma tegin teatud aja kindlustusmatemaatilist tööd, nii et ma tean, kuidas ettevõte korraldab statistilist analüüsi ka selleks, et ennast juhtida. See pole tühine asi. Ja nii inimeste kui ka tehnoloogia poolel on kaasatud kohutavalt palju häid tavasid.

Niisiis, esitades küsimuse "mis on andmeteadlane", panin Frankensteini pildi lihtsalt seetõttu, et see on kombinatsioon asjadest, mis tuleb kokku kootud. Kaasatud on projektijuhtimine. Statistikas on sügavat mõistmist. Tegemist on domeeniettevõtte asjatundlikkusega, mis on tingimata pigem ärianalüütiku kui andmeteadlase probleem. Andmearhitektuuri mõistmiseks ja andmearhitekti loomiseks on vaja kogemusi või vajadust aru saada ja sellega on kaasas tarkvara arendamine. Teisisõnu, see on tõenäoliselt meeskond. Tõenäoliselt pole see üksikisik. Ja see tähendab, et ilmselt on vaja osakonda, mida tuleb korraldada, ja selle korralduse üle tuleb mõelda küllaltki põhjalikult.

Segades masinõppe fakti. Me ei saaks seda teha, ma mõtlen, et masinõpe ei ole uus selles mõttes, et enamik masinaõppes kasutatavaid statistilisi tehnikaid on teada juba aastakümneid. Seal on mõned uued asjad, ma mõtlen, et närvivõrgud on suhteliselt uued, ma arvan, et nad on alles umbes 20 aastat vanad, nii et mõned neist on suhteliselt uued. Masinõppe probleem oli aga see, et tegelikult polnud meil tegelikult arvutivõimsust, et seda teha. Ja peale kõige muu juhtus see, et arvuti toide on nüüd paigas. Ja see tähendab kohutavalt palju seda, mida me, näiteks andmeteadlased, oleme varem teinud olukordade modelleerimise, andmete valimise ja seejärel sorteerimise abil andmete sügavama analüüsi saamiseks. Tegelikult võime mõnel juhul arvutivõimsuse lihtsalt ära kasutada. Valige lihtsalt masinõppe algoritmid, visake see andmete juurde ja vaadake, mis välja tuleb. Ja seda saab teha ka ärianalüütik, eks? Kuid ärianalüütik peab mõistma, mida nad teevad. Ma mõtlen, et see on küsimus tegelikult rohkem kui miski muu.

Noh, see on lihtsalt selleks, et teada saada ettevõttest selle andmete põhjal rohkem kui muul viisil. Einstein ei öelnud seda, ma ütlesin seda. Panin tema pildi usaldusväärsuse huvides lihtsalt üles. Kuid tegelikult hakkab arenema olukord, kus tehnoloogia nõuetekohase kasutamise korral ja matemaatika, kui seda õigesti kasutatakse, suudavad ettevõtet juhtida nagu iga inimene. Oleme seda koos IBMiga jälginud. Esiteks võiks see võita male parimaid poisse ja siis Jeopardy parimaid poisse; kuid lõpuks suudame ettevõtte juhtimisel parimad poisid läbi lüüa. Statistika triumfeerib lõpuks. Ja on raske aru saada, kuidas seda ei juhtu, seda pole lihtsalt veel juhtunud.

Nii et see, mida ma ütlen, ja see on omamoodi minu ettekande täielik osa, on need kaks ettevõtte küsimust. Esimene on see, kas saate tehnoloogia õigesti kätte? Kas saate panna tehnoloogia tööle meeskonna jaoks, kes tegelikult kavatseb seda juhtida ja saada kasu ettevõttele? Ja siis teiseks, kas saate inimesed korda? Ja mõlemad need on probleemid. Ja need on probleemid, mis pole praegusel hetkel lahendatud.

Olgu, Eric, ma annan selle teile tagasi. Või peaksin selle ehk Willile edastama.

Eric: Tegelikult jah. Tänan teid, Will Gorman. Jah, sinna sa lähed, Will. Vaatame siis. Lubage mul anda teile WebExi võti. Mis teil siis juhtus? Pentaho, muidugi, te, kutid, olete juba mõnda aega olnud ja avatud lähtekoodiga BI-s selline, kus alustasite. Kuid saite palju rohkem kui vanasti, nii et vaatame, mis teil tänapäeval analüütika jaoks olemas oli.

Will Gorman: Absoluutselt. Tere kõigile! Minu nimi on Will Gorman. Olen Pentaho peaarhitekt. Neile, kes meist pole veel kuulnud, mainisin just, et Pentaho on suur andmete integreerimise ja analüüsiga tegelev ettevõte. Oleme ettevõtlusega tegelenud kümme aastat. Meie tooted on arenenud suure andmekogukonnaga kõrvuti, alustades andmete integreerimise ja analüütika avatud lähtekoodiga platvormina, mis on uuendusmeelsed sellise tehnoloogiaga nagu Hadoop ja NoSQL, isegi enne, kui nende tehnika ümber moodustati äriüksused. Ja nüüd on avatud lähtekoodiga innovatsiooni tulemusel meil üle 1500 ärikliendi ja veel palju tootmiskohtumisi.

Meie arhitektuur on väga manustatav ja laiendatav, eesmärgi saavutamiseks paindlik, kuna eriti suurandmete tehnoloogia areneb väga kiiresti. Pentaho pakub kolme peamist tootevaldkonda, mis töötavad koos suurandmete analüüsi kasutamise juhtumite lahendamisel.

Esimene toode meie arhitektuuri ulatuses on Pentaho Data Integration, mis on suunatud andmetehnoloogile ja inseneridele. See toode pakub visuaalset, pukseerimiskogemust andmesidejuhtmete ja protsesside määratlemiseks andmete korraldamiseks suurtes andmekeskkondades ja ka traditsioonilistes keskkondades. See toode on Java jaoks loodud kerge metaandmebaas, andmete integreerimise platvorm ja seda saab protsessina kasutusele võtta MapReduce või YARN või Storm ja paljudes teistes pakk- ja reaalajas platvormides.

Meie teine tootevaldkond on visuaalse analüütika ümber. Selle tehnoloogia abil saavad organisatsioonid ja originaalseadmete tootjad pakkuda kaasaegsete brauserite ja tahvelarvutite abil ärianalüütikutele ja ärikasutajatele rikkalikku lohistamise visualiseerimise ja analüüsimise kogemust, võimaldades aruannete ja armatuurlaudade ajutist loomist. Nagu ka piksliteks täiusliku armatuurlaua ja aruannete esitlus.

Meie kolmas tootevaldkond keskendub ennustavale analüütikale, mis on suunatud andmeteadlastele, masinõppe algoritmidele. Nagu varem mainitud, saab sarnaselt närvivõrkudega integreerida andmete ümberkujundamise keskkonda, võimaldades andmeteadlastel minna modelleerimisest tootmiskeskkonda, võimaldades juurdepääsu prognoosimisele ja see võib äriprotsesse mõjutada kohe, väga kiiresti.

Kõik need tooted on tihedalt integreeritud ühte paindlikku kogemusse ja annavad meie ettevõtte klientidele paindlikkuse, mida nad vajavad oma äriprobleemide lahendamiseks. Me näeme traditsiooniliste tehnoloogiate suurandmete kiiresti arenevat maastikku. Kõik, mida me kuuleme suures andmeruumis asuvatelt ettevõtetelt, kujutab EDW lõppu. Tegelikult näeme oma ettevõtte klientides, et nad peavad sisestama olemasolevatesse äri- ja IT-protsessidesse suurandmeid, mitte neid asendama.

See lihtne diagramm näitab arhitektuuri punkti, mida me sageli näeme, mis on teatud tüüpi EDW-juurutusarhitektuur andmete integreerimise ja BI-i kasutamise juhtumitega. Nüüd on see skeem sarnane Robini slaidiga suurendmete arhitektuuril, see hõlmab reaalajas ja ajaloolisi andmeid. Uute andmeallikate ja reaalajas esitatavate nõuete ilmnemisel näeme suurandmeid üldise IT-arhitektuuri täiendava osana. Need uued andmeallikad hõlmavad masina genereeritud andmeid, struktureerimata andmeid, standardset mahtu ja kiirust ning mitmesuguseid nõudeid, millest suurtes andmetes kuuleme; need ei sobi traditsioonilistesse EDW-protsessidesse. Pentaho teeb tihedat koostööd Hadoopi ja NoSQL-iga, et lihtsustada nende andmete sisestamist, andmetöötlust ja visualiseerimist ning nende andmete segamist traditsiooniliste allikatega, et kliendid saaksid oma andmekeskkonnast täieliku ülevaate. Teeme seda juhitud viisil, et IT saaks pakkuda nende ärivaldkonnale täielikku analüüsilahendust.

Lõpetuseks tahaksin rõhutada meie filosoofiat suurandmete analüüsi ja integratsiooni ümber; usume, et need tehnoloogiad töötavad paremini koos ühe ühtse arhitektuuriga, võimaldades mitmeid kasutusjuhte, mis muidu poleks võimalikud. Meie klientide andmekeskkonnad on midagi enamat kui lihtsalt suurandmed, Hadoop ja NoSQL. Igasugused andmed on aus mäng. Ja suured andmeallikad peavad olema kättesaadavad ja töötama koos, et mõjutada ettevõtte väärtust.

Lõpuks usume, et selleks, et neid äriprobleeme ettevõtetes andmete kaudu väga tõhusalt lahendada, peavad IT ja ärivaldkonnad töötama koos juhitud, segatud lähenemisviisiga suurandmete analüütikale. Noh, tänan teid väga, et andsite meile aega rääkida, Eric.

Eric: Sa panustad. Ei, see on hea värk. Tahan jõuda küsimuste ja vastuste juurde tagasi teie arhitektuuri sellele küljele. Liigume siis läbi kogu ülejäänud esitluse ja tänan teid selle eest väga. Te, kutid, olete kindlasti paar viimast aastat kiiresti liikunud, pean seda kindlasti ütlema.

Nii et Steve, las ma lähen edasi ja annan selle teile üle. Ja klõpsake seal lihtsalt allanoolt ja minge edasi. Nii et Steve, ma annan sulle võtmed. Steve Wilkes, klõpsake lihtsalt kõige kaugemat allanoolt seal klaviatuuril.

Steve Wilkes: Seal me läheme.

Eric: Seal sa lähed.

Steve: See on siiski suurepärane tutvustus, mille olete mulle andnud.

Eric: Jah.

Steve: Nii et ma olen Steve Wilkes. Olen WebActioni CCO. Oleme olnud alles viimased paar aastat ja kindlasti oleme ka sellest ajast alates kiiresti edasi liikunud. WebAction on reaalajas suurandmete analüüsi platvorm. Eric mainis juba varem, omamoodi, kui oluline on reaalaeg ja kuidas teie rakendused reaalajas saavad. Meie platvorm on loodud reaalajas rakenduste loomiseks. Ja selleks, et võimaldada järgmise põlvkonna andmepõhiseid rakendusi, millele saab järk-järgult juurde ehitada, ja lubada inimestel ehitada juhtpaneelid nendest rakendustest genereeritud andmete põhjal, keskendudes reaalajale.

Meie platvorm on tegelikult täielik otsplatvorm, mis teeb kõike alates andmete hankimisest, andmetöötlusest kuni andmete visualiseerimiseni. Ja võimaldab mitmel erinevat tüüpi inimesel meie ettevõttes töötada koos, et luua tõelisi reaalajas rakendusi, andes neile ülevaate nende ettevõttes toimuvast nii, nagu juhtus.

Ja see erineb natuke sellest, mida enamik inimesi on suurandmetes näinud, nii et traditsiooniline lähenemisviis - noh, traditsiooniline on paar viimast aastat - suurandmetega lähenemine on olnud selle püüdmine terve hulga erinevatest allikatest ja siis kuhja see suurde veehoidlasse või järve või kuhu iganes sa seda nimetada tahad. Ja siis töödelge seda, kui peate selle kohta päringu käitama; suuremahuliste ajalooliste analüüside tegemiseks või isegi suurte andmemahtude jaoks lihtsalt ad hoc päringute tegemiseks. Nüüd töötab see teatud kasutusjuhtudel. Kuid kui soovite oma ettevõttes ennetavalt tegutseda, kui soovite, et teile tegelikult räägitaks, mis toimub, selle asemel, et teada saada, millal midagi päeva või nädala lõpu poole valesti läks, peate tõesti kolima reaalajas.

Ja see muudab asjad natuke ümber. See liigutab töötlemise keskele. Nii tõhusalt võtate ettevõttes pidevalt genereeritavaid suures mahus andmevooge ja töötlete seda nii, nagu saate. Ja kuna töötlete seda nii, nagu saate, ei pea te kõike talletama. Saate lihtsalt talletada olulist teavet või asju, mida peate meeles pidama, mis tegelikult juhtus. Nii et kui jälgite teel liikuvate sõidukite GPS-i asukohta, ei huvita teid tegelikult see, kus nad iga sekund asuvad, ei pea te talletama, kus nad asuvad iga sekund. Peate lihtsalt hoolima, kas nad on sellest kohast lahkunud? Kas nad on sellesse kohta saabunud? Kas nad on kiirteelt sõitnud või mitte?

Seega on tõesti oluline arvestada, et kui üha rohkem andmeid genereeritakse, siis kolm versiooni Kiirus määrab põhimõtteliselt selle, kui palju andmeid iga päev genereeritakse. Mida rohkem andmeid genereeritakse, seda rohkem peate talletama. Ja mida rohkem peate ladustama, seda kauem töötlemine võtab. Kuid kui saate seda töödelda nii, nagu saate, saate sellest tõesti palju kasu ja saate sellele reageerida. Teile võib öelda, et asjad toimuvad pigem selle asemel, et hiljem neid otsida.

Nii et meie platvorm on loodud väga skaleeritavaks. Sellel on kolm peamist detaili - omandamistükk, töötlemisosa ja seejärel platvormi kohaletoimetamise visualiseerimise tükid. Omandamise poolel ei vaata me ainult masina genereeritud logiandmeid, nagu veebipäevikud või rakendused, millel on kõik muud genereeritavad logid. Saame ka sisse minna ja andmebaasidest andmete kogumist muuta. Nii et see põhimõtteliselt võimaldab, oleme näinud ETL-i poolt, mida Will esitleb, ja traditsioonilist ETL-i, peate andmebaaside vastu päringuid esitama. Meile võib öelda, kui andmebaasis asjad juhtuvad. Me muudame seda ja jäädvustame selle ning võtame need sündmused vastu. Ja siis on ilmselgelt sotsiaalsed kanalid ja reaalajas kasutatavad seadmed, mida teile TCP- või ACDP-pistikupesade kaudu pumbatakse.

Andmete saamiseks on palju erinevaid viise. Ja kui rääkida helitugevusest ja kiirusest, siis näeme mahtusid, mis on miljardeid sündmusi päevas, eks? Nii et juurde tuleb suuri ja suuri andmeid, mida on vaja töödelda.

Seda töötleb meie serverite klaster. Kõigil serveritel on sama arhitektuur ja nad on kõik võimelised tegema samu asju. Kuid saate neid konfigureerida, et nad saaksid erinevaid asju teha. Ja serverites on meil kiire päringutöötluse kiht, mis võimaldab teil andmete suhtes reaalajas analüüsida, andmeid rikastada, sündmuste korrelatsiooni teha, ajaakendes toimuvat jälgida, ennustavaid andmeid teha analüüs, mis põhineb andmetes näha olevatel mustritel. Ja neid andmeid saab seejärel salvestada erinevates kohtades - traditsioonilises RDBMS-is, ettevõtte andmelaos, Hadoopis, suurandmete infrastruktuuris.

Ja samu reaalajas andmeid saab kasutada ka reaalajas andmepõhiste rakenduste toiteks. Nendel rakendustel võib olla reaalajas ülevaade toimuvast ja inimesi saab ka oluliste asjade ilmnemisel hoiatada. Nii et selle asemel, et päeva lõpus sisse minna ja teada saada, et päeval juhtus tõesti midagi halba, võidakse teid sellest teavitada, kui me seda juba märkame ja see suundub otse lehe juurde, et teada saada, mis on edasi minema.

Seega muudab see paradigmat täielikult, kui tuleb andmeid analüüsida pärast fakti saamist, kui öeldakse, kui huvitavad asjad toimuvad. Ja meie platvormi saab seejärel kasutada andmepõhiste rakenduste loomiseks. Ja just siin keskendume nende rakenduste välja töötamisele. Klientidele, koos klientidega, paljude erinevate partneritega, et näidata reaalajas andmete analüüsimisel tõelist väärtust. Nii et see võimaldaks inimestel või näiteks saidirakendusi pakkuvatel ettevõtetel jälgida klientide kasutamist aja jooksul ja tagada teenuse kvaliteedi järgimine, märgata reaalajas pettusi või rahapesu, märgata mitut sisselogimist või häkkimiskatsed ja sellised turvasündmused, nagu näiteks digibokside või muude seadmete haldamine, sularahaautomaadid, et neid reaalajas jälgida rikete osas, mis on juhtunud, võib juhtuda, võib juhtuda tulevikus ennustava analüüsi põhjal. Ja see ulatub tagasi toimingute sujuvamaks muutmiseni, mida Eric mainis juba varem, et oleks võimalik märgata, millal midagi juhtub, ja korraldada oma ettevõte nende asjade parandamiseks, selle asemel, et kutsuda kedagi välja, et tegelikult midagi ette võtta pärast fakti, mis on palju kallim.

Tarbimisanalüütika on veel üks asi, mille abil saate teada, millal klient midagi teeb, kui ta teie poes alles on. Juhtkonnale saadetavad andmed, et oleks võimalik ressursside kasutamist reaalajas jälgida ja toimimisharjumusi muuta ning et oleks võimalik teada saada, millal asjad ebaõnnestuvad, palju õigeaegsemal viisil.

Nii et need on meie tooted lühidalt ja ma olen kindel, et tuleme küsimuste ja vastuste sessioonil mõne sellise juurde tagasi. Aitäh.

Eric: Jah, tõesti. Suurepärane töö. Hea küll. Ja nüüd järgmine peatus meie välguvoorus, kus MarkLogicist helistab meile Frank Sanders. Ma olen nende kuttide kohta juba mitu aastat teada olnud, väga-väga huvitav andmebaasitehnoloogia. Nii et Frank, ma annan selle sulle üle. Klõpsake lihtsalt selles osas. Kasutage klaviatuuri allanoolt ja olete võistlustest eemal. Palun.

Frank Sanders: Suur tänu, Eric. Nagu Eric mainis, olen koos firmaga MarkLogic. Ja mida MarkLogic teeb, on see, et pakume ettevõtte NoSQL andmebaasi. Ja võib-olla kõige olulisem võime, mille me selle juurde lauale toome, on võime tegelikult kõik need erinevad teabeallikad kokku viia, et seda teavet analüüsida, otsida ja kasutada süsteemis, mis sarnaneb teie omaga harjunud traditsiooniliste relatsioonisüsteemidega, eks?

Ja mõned põhifunktsioonid, mida me selles osas tabelisse toome, on kõik ettevõtte funktsioonid, mida võiksite oodata tavapäraselt andmebaasihaldussüsteemilt, teie turvalisus, teie HA, teie DR, teie varukoopiad on laos, teie vara tehingud. Nagu ka disain, mis võimaldab teil pilve või kauba riistvara skaleerida, et saaksite hakkama saada sellise teabe mahu ja kiirusega, mida peate töötlema, et seda laadi üles ehitada ja analüüsida teavet.

Ja võib-olla on kõige olulisem võime see, et me oleme skeem agnostilised. See tähendab praktiliselt seda, et te ei pea otsustama, millised teie andmed välja näevad, kui hakkate oma rakendusi looma või kui hakkate neid andmeid kokku tõmbama. Kuid aja jooksul saate lisada uusi andmeallikaid, tõmmata lisateavet ja seejärel kasutada finantsvõimendust ja päringuid ning analüüsida seda teavet nii, nagu teeksite seda kõike, mis oli olemas alates disaini alustamisest. Okei?

Kuidas me seda teeme? Kuidas me tegelikult võimaldame teil laadida erinevat tüüpi teavet, olgu see siis RDF-kolmikud, georuumilised andmed, ajalised andmed, struktureeritud andmed ja väärtused või kahendkoodid. Ja vastus on see, et me oleme oma serveri juba maast madalast üles ehitanud, et lisada otsingutehnoloogia, mis võimaldab teil teavet sisestada ja seda teavet ise kirjeldada ning mis võimaldab teil sellelt teabelt päringuid otsida, otsida ja otsida, olenemata selle allikast või vormingust .

Ja mida see praktiliselt tähendab - ja miks see on analüüsi tegemisel oluline - kas analüüs ja teave on kõige olulisemad, kui see on õigesti koondatud ja suunatud, eks? Niisiis on igasuguse analüüsi väga oluline võtmeosa otsing ja võtmeosa on otsinguanalüütika. Teil ei ole tõesti üht-teist olemas ja saavutate edukalt selle, mille püstitasite. Õige?

Ja ma räägin lühidalt kolmest ja poolest erinevast kasutusjuhust, mis meil on tootmisel olevate klientide jaoks, kes kasutavad MarkLogicit sedalaadi analüütika käivitamiseks. Okei. Nii et esimene selline klient on Fairfaxi maakond. Ja Fairfaxi maakond on tegelikult ehitanud kaks eraldi rakendust. Üks põhineb lubade andmisel ja kinnisvara haldamisel. Ja teine, mis on ilmselt natuke huvitavam, on Fairfaxi maakonna politseiürituste rakendus. Politseiürituste rakendus tegelikult koondab teabe, nagu politsei teated, kodanike teated ja kaebused, Tweets, muu teave, mis neil on, näiteks seksuaalkurjategijad, ja mis tahes muu teave, millele neil on juurdepääs muudest asutustest ja allikatest. Siis võimaldavad nad neil seda visuaalselt tutvustada ja kodanikele tutvustada, et nad saaksid läbi otsida ja uurida mitmesuguseid kuritegevusi, politsei tegevust, kõik ühe ühtse georuumilise indeksi kaudu, eks? Nii et saate esitada selliseid küsimusi nagu "milline on kuritegevus viie miili raadiuses" või "millised kuriteod toimusid minu asukohast viie miili raadiuses?" Okei.

Teine kasutaja, kes meil on, teine klient, kes meil on, on OECD. Miks on OECD selle vestluse jaoks oluline, sest lisaks kõigele, mida oleme Fairfaxi maakonna jaoks teabe kogumise jaoks võimaldanud, eks; kogu teave, mida saaksite kõigist erinevatest OECD riikidest, mille kohta nad annavad aru majanduslikust vaatenurgast. Panime sellesse tegelikult sihtpuuri, eks. Nii et vasakpoolses servas näete spetsiaalselt Taani vaadet ja võite selle kohal näha lille kroonlehte, mis hindab seda eri telgedel. Õige? Ja see kõik on hästi ja hea. Kuid mida OECD on teinud, on nad läinud sammu edasi.

Lisaks nendele kaunitele visuaalsetele kujutistele ja kogu teabe koondamisele võimaldavad need reaalajas reaalajas luua oma parema elu indeksi, paremal, mida näete paremal. Mis teil seal on, on teil olemas liugklapid, mis võimaldavad teil tegelikult teha selliseid asju nagu eluaseme olulisus või sissetulek, töökohad, kogukond, haridus, keskkond, kodanikuaktiivsus, tervis, eluga rahulolu, turvalisus ja teie töö / elu tasakaal. Ja dünaamiliselt selle põhjal, kuidas te tegelikult seda teavet sisestate, ja kaalute neid asju, kasutab MarkLogic reaalajas indekseerimise ja päringuvõimalusi, et muuta seejärel nende riikide järjestus, et anda teile idee, kui hästi teie riigi või teie elustiilikaardid antud riigi kaudu. Okei?

Ja viimane näide, mida ma jagan, on MarkMail. Ja see, mida MarkMail tegelikult proovib näidata, on see, et me saame need võimalused pakkuda ja saate teha just sellist analüüsi mitte ainult struktureeritud teabe või tulevaste andmete osas, mis on arvulised, vaid tegelikult ka lõdvemini struktureeritud ja struktureerimata teabe osas, eks? Asjad nagu s. Ja mida me siin nägime, tõmbame tegelikult sellist teavet nagu geograafiline asukoht, er, ettevõte, korstnad ja kontseptsioonid, näiteks Hadoop, mainitakse kontekstis ja visualiseeritakse see siis kaardil ning vaadatakse, kes need isikud ja mis kogu nimekiri, saadetud ja kuupäev. Siin vaadatakse asju, mis traditsiooniliselt ei ole struktureeritud, mis võivad küll olla nõrgalt üles ehitatud, kuid suudavad sellest teabest siiski struktureeritud analüüsi tuletada, ilma et peaksite võtma palju aega, et seda tegelikult proovida ja struktureerida või töödelda. aeg. Ja see ongi kõik.

Eric: Kuule, hea küll. Ja saime veel ühe. Hannah Smalltree on meil väga huvitavast ettevõttest Treasure Data. Ja see on palju suurepärast sisu, inimesed. Suur tänu teile kõigile nii heade slaidide ja nii heade detailide eest. Hannah, ma andsin teile lihtsalt võtmed, klõpsake ükskõik kus ja kasutage klaviatuuri allanoolt. Said pihta. Võta see ära.

Hannah Smalltree: Tänan teid väga, Eric. See on Hannah Smalltree ettevõttest Treasure Data. Olen Treasure Data direktor, kuid mul on olnud tehnikaajakirjanikuna minevik, mis tähendab, et hindan kahte asja. Esiteks võivad need olla pikad, et läbi vaadata palju erinevaid tehnoloogia kirjeldusi, ja see võib kõlada nii, nagu see jookseb kokku, nii et ma tõesti tahan keskenduda meie eristajale. Ja reaalainete rakendused on tõesti olulised, nii et ma hindan seda, et kõik mu eakaaslased on nende pakkumisel olnud suurepärased.

Treasure Data on uut tüüpi suurandmete teenus. Meid tarnitakse tarkvara või hallatava teenuse mudeliks täielikult pilve. Dr Drori varem öeldes võib see tehnoloogia olla tõesti väga raske ja selle üles seadmine ja käitamine võib olla väga aeganõudev. Aardeandmete abil saate kõik need võimalused, mis Hadoopi keskkonnas või keerulises kohapealses keskkonnas pilves saada, väga kiiresti, mis on nende uute suurandmete algatuste jaoks tõesti abiks.

Nüüd räägime oma teenusest mõnes erinevas faasis. Pakume voogesituse andmete kogumiseks väga unikaalseid kogumisvõimalusi, eriti sündmuste andmeid, muud tüüpi reaalajas andmeid. Nendest andmetüüpidest räägime natuke lähemalt. See on meie teenuse jaoks suur eristaja. Suurtesse andmetesse sattudes või kui olete juba selles, teate, et nende andmete kogumine pole tühine. Kui mõelda autole, kus 100 andurit on minutis andmeid kogumas, isegi need 100 andurit, mis kasutavad minutis iga kümne minuti tagant, lisandub see tõesti kiiresti, kui hakkate sensoritega väljastatavate toodete hulka korrutama ja see muutub kiiresti väga raske juhtida. Nii et me räägime klientidega, kellel on miljoneid, ja meil on kliente, kellel on miljardeid andmeribasid päevas, kui nad meile viivad. Ja nad teevad seda alternatiivina, et proovida ja hallata end keerulises Amazoni infrastruktuuris või isegi proovida viia see omaenda keskkonda.

Meil on oma pilvesalvestuskeskkond. Me saame sellega hakkama. Me jälgime seda. Meil on meeskond inimesi, kes teevad kõike seda teie jaoks. Ja nii voolab andmeid sisse, see läheb meie hallatud salvestuskeskkonda.

Siis oleme manustatud päringumootorid, nii et teie analüütik saab sisse minna ja päringuid teha ning teha andmetega esialgseid andmeid ja neid uurida. Praegu on meil selleks paar erinevat päringumootorit. Võite kasutada SQL-i süntaksit, mida teie analüütikud ilmselt teavad ja armastavad, et teha põhiandmeid, teha mõnda keerukamat analüüsi, mis on kasutaja määratletud funktsioonid, või isegi teha asju nii lihtsalt, et koondada need andmed kokku ja muuta need väiksemaks, et saate selle oma olemasolevasse andmelao keskkonda tuua.

Saate ühendada ka oma olemasolevad BI-tööriistad, teie Tableau, on meie suur partner; kuid tegelikult saab enamik BI-sid, visualiseerimis- või analüüsivahendeid luua ühenduse meie tööstusstandardi JDBC ja ODBC draiverite kaudu. Nii et see annab teile selle suurandmete täieliku komplekti. Teil on lubatud oma päringu tulemusi või andmekogumeid igal ajal tasuta eksportida, et saaksite neid andmeid hõlpsalt integreerida. Käsitlege seda andmete rafineerimisel. Mulle meeldib mõelda sellest rohkem kui rafineerimistehast kui järvest, sest tegelikult saate sellega asju ajada. Võite minna läbi, leida väärtuslikku teavet ja seejärel viia see oma ettevõtte protsessidesse.

Järgmisel slaidil räägime suurandmete kolmest V-st - mõned inimesed ütlevad, et neli või viis. Meie kliendid kipuvad võitlema nende juurde tulevate andmete mahu ja kiirusega. Ja nii et andmetüüpide kohta täpsemini jõuda - Clickstream, veebipääsu logid, mobiilne andmeside on meie jaoks suur ala, mobiilirakenduste logid, kohandatud veebirakenduste või muude rakenduste rakenduse logid, sündmuste logid. Ja üha enam on meil palju kliente, kes tegelevad andurite andmetega, nii kantavatest seadmetest, toodetest, autodest kui ka muud tüüpi masinaandmetest. Nii et kui ma ütlen suurandmeid, siis on see suurandmete tüüp, millest ma räägin.

Nüüd on mõni üksikjuhtum teie jaoks perspektiivikas - teeme koostööd jaemüüjaga, suure jaemüüjaga. Nad on Aasias väga tuntud. Nad laienevad siin USA-s. Te hakkate kauplusi nägema; neid nimetatakse sageli Aasia IKEA-ks, nii et lihtne kujundus. Neil on lojaalsusrakendus ja veebisait. Ja tegelikult, aardeandmeid kasutades, suutsid nad selle lojaalsusrakenduse väga kiiresti kasutusele võtta. Meie kliendid tõusevad tööle ja töötavad päevade või nädalate jooksul meie tarkvara ja teenuse arhitektuuri tõttu ning kuna meil on kõik inimesed, kes teevad kogu selle raske töö kulisside taga, et pakkuda teile kõigile neid võimalusi teenusena.

Nii kasutavad nad meie teenust mobiilirakenduste analüüsi jaoks, vaadates käitumist, seda, mida inimesed oma mobiilne lojaalsusrakenduses klõpsavad. Nad vaatavad veebisaidil tehtud klikke ja ühendavad selle meie e-kaubanduse ja POS-andmetega, et kujundada tõhusamaid reklaame. Tegelikult tahtsid nad inimesi poodidesse juhtida, kuna leidsid, et poodidesse minnes kulutavad inimesed rohkem raha ja ma olen selline; asjade korjamiseks kulutate rohkem raha.

Veel üks kasutusjuhtum, mida me näeme digitaalsetes videomängudes, uskumatu paindlikkus. Nad tahavad näha täpselt, mis nende mängus toimub, ja teha selles mängus muudatusi isegi mõne tunni jooksul pärast mängu ilmumist. Nende jaoks on see reaalajas vaade uskumatult oluline. Andsime just välja mängu, kuid märkasime juba esimese tunniga, et kõik on 2. tasemelt alla kukkumas; kuidas me seda muudame? Nad võivad seda sama päeva jooksul muuta. Nii et reaalaeg on väga oluline. Nad annavad meile miljardeid sündmuste logisid päevas. Kuid see võib olla igasugune mobiilirakendus, kus soovite mingit reaalajas vaadet selle kohta, kuidas keegi seda kasutab.

Ja lõpetuseks, suur ala meie jaoks on meie tootekäitumine ja sensorianalüüsid. Nii et andurite andmetega, mis on autodes, mis muud tüüpi masinate ja kommunaalteenuste puhul, on meie jaoks veel üks valdkond, kantavates seadmetes. Meil on teadus- ja arendusmeeskonnad, kes tahavad kiiresti teada saada, millist mõju tootele muudatus avaldab, või inimesi, keda huvitab käitumine, kuidas inimesed tootega suhestuvad. Ja meil on palju rohkem juhtumeid, mida muidugi jagame hea meelega teiega.

Ja lõpuks, lihtsalt näidata teile, kuidas see teie keskkonda sobib, pakume taas võimalust neid andmeid koguda. Meil on väga ainulaadne kogumistehnoloogia. Niisiis, kui reaalajas kogumine on asi, milles vaeva näete või kellega arvate vaeva nägevat, siis palun otsige aardeandmete teenust. Oleme voogesituse andmete kogumiseks tõesti võimalused teinud. Samuti saate oma andmeid hulgikaupa laadida, salvestada, analüüsida meie manustatud päringumootorite abil ja siis, nagu ma mainisin, saate selle otse oma andmebaasi eksportida. Ma arvan, et Will mainis vajadust sisestada suurandmed oma olemasolevatesse protsessidesse. Nii et ärge käige ringi ega looge uut silo, vaid kuidas neid andmeid väiksemaks muuta ja siis oma andmelaosse teisaldada ning saate ühenduse luua oma BI, visualiseerimise ja täiustatud analüüsitööriistadega.

Kuid võib-olla on peamised punktid, millest ma tahan teile järele jääda, see, et meid hallatakse teenusega, see on tarkvara kui teenus; see on väga tasuv. Igakuine tellimisteenus, mis algab mõnest tuhandest dollarist kuus ja me valmistame teid paari päeva või nädala jooksul tööle. Võrrelge seda kuude ja kuudega, mis kulusid teie enda taristu ehitamisel ja nende inimeste palkamisel ning leidmisel ja kogu selle aja infrastruktuurile kulutamisel. Kui katsetate või kui vajate eile midagi, saate Treasure Data abil tõusta ja kiiresti tegutseda.

Ja ma viitan teile lihtsalt meie veebisaidile ja meie starditeenusele. Kui olete praktiline inimene, kellele meeldib mängida, tutvuge meie starditeenusega. Võite minna, ilma krediitkaardita pole vaja, peate lihtsalt nime andma ja saate mängida meie näidisandmetega, laadida enda andmeid ja saada tõesti aru, millest me räägime. Nii palju tänu. Vaadake ka meie veebisaiti. Meid nimetati sel aastal Big Data Gartneri lahedaks müüjaks, oleme selle üle väga uhked. Samuti saate meie veebisaidilt tasuta selle aruande koopia ja palju muid analüütikute valgeid raamatuid. Nii palju tänu.

Eric: Olgu, tänan teid väga. Inimesed, meil on siin aega küsimuste esitamiseks. Läheme ka natuke pikaks, sest meil on siin ikka terve rida inimesi. Ja ma tean, et mul on ka mõned küsimused, nii et lasin mul edasi minna ja kontrolli tagasi saada ning siis esitan paar küsimust. Robin ja Kirk, sukelduge oma äranägemise järgi vabalt.

Laske mul siis edasi minna ja hüpata paremale ühele neist esimestest slaididest, mille ma Pentahost välja kontrollisin. Nii et ma armastan seda arenevat suurandmete arhitektuuri, kas te saaksite rääkida näiteks sellest, kuidas selline ettevõttes kokku sobib? Sest ilmselgelt asute mõnda üsna suurde organisatsiooni, isegi keskmise suurusega ettevõttesse, ja teil on inimesi, kellel on see värk juba olemas; kuidas sa selle kõik kokku lõite? Nagu see, kuidas rakendus välja näeb, aitab teil kogu selle materjali kokku õmmelda ja kuidas see liides välja näeb?

Tahe: Suurepärane küsimus. Liidesed on erinevad, sõltuvalt kaasatud isikutest. Kuid näitena tahame rääkida loo - üks paneelimees mainis andmete rafineerimistehaste kasutamise juhtumit - näeme seda palju klientides.

Üks meie klientide näiteid, kellest me räägime, on Paytronix, kus neil on see traditsiooniline EDW andmeside keskkond. Samuti tutvustavad nad Hadoopi ja eriti Clouderat ning pakuvad mitmesuguseid kasutajakogemusi. Nii et esiteks on olemas insenerikogemus, kuidas siis kõik need asjad kokku panna? Kuidas luua liim Hadoopi keskkonna ja EDW vahel?

Ja siis on teil ärikasutaja kogemus, millest me rääkisime, mitmed BI-tööriistad, eks? Pentahol on manustatavam OEM BI-tööriist, kuid seal on suurepäraseid, näiteks Tableau ja Excel, kus inimesed soovivad andmeid uurida. Kuid tavaliselt tahame veenduda, et andmeid hallatakse, eks? Üks arutelude küsimus, mis saab ühe versiooniga kogemusest, kuidas seda hallata ja ilma sellise tehnoloogiata nagu Pentaho andmete integreerimine, et need andmed kokku panna mitte klaasile, vaid IT-keskkondadesse. Nii et see tõesti kaitseb ja haldab andmeid ning võimaldab ärianalüütikul ja ärikasutajatel saada üheainsa kogemuse.

Eric: Olgu, hea. See on ausalt öeldes hea vastus keerukale küsimusele. Ja lubage mul esitada küsimus kõigile saatejuhtidele ja siis võib-olla Robinile ja Kirkile, kui te tahate ka sisse hüpata. Seega tahaksin edasi minna ja lükata seda slaidi WebActioni jaoks, mis on minu arvates tõesti väga huvitav ettevõte. Tegelikult tean ka Sami Akbayt, kes on ka üks kaasasutajatest. Mäletan, et rääkisin temaga paar aastat tagasi ja ütlesin: "Kuule mees, mida sa teed? Millega sa tegeled? Ma tean, et sa pead millegi kallal tööd tegema." Ja muidugi, ta oli. Ta töötas WebActionis siinsete kaante all.

Teie jaoks tuli küsimus, Steve, et ma annan selle teile üle andmete puhastamisest, eks? Kas saate rääkida nende reaalajas võimete komponentidest? Kuidas suhtute sellistesse probleemidesse nagu andmete puhastamine või andmete kvaliteet või kuidas see isegi töötab?

Steve: Nii et see sõltub tõesti sellest, kust te oma vooge saadate. Tavaliselt, kui saate andmevoo muutmisel oma vooge andmebaasist, sõltub see jällegi sellest, kuidas andmed sisestati. Andmete puhastamine muutub tõesti probleemiks, kui saate oma andmeid mitmest allikast või kui inimesed sisestavad neid käsitsi või kui teil on meelevaldseid asju, mida peate proovima, et asjad välja tõmmata. Ja see võib kindlasti olla osa protsessist, ehkki see tüüp lihtsalt ei võimalda tõelist, omamoodi kiiret reaalajas töötlemist. Andmete puhastamine on tavaliselt kallis protsess.

Nii et võib juhtuda, et seda saab teha pärast fakti kaupluse saidil. Kuid teine asi, milles platvorm on, tõesti väga hea, on korrelatsioon, seega korrelatsioonis ja andmete rikastamisel. Saate reaalajas saabuvaid andmeid korreleerida ja kontrollida, kas need vastavad teatud mustrile või vastavad andmetele, mida otsitakse andmebaasist või Hadoopilt või mõnest muust poest. Nii saate seda seostada ajalooliste andmetega - see on üks asi, mida võiksite teha.

Teine asi, mida saate teha, on põhimõtteliselt analüüsida neid andmeid ja vaadata, kas need vastavad teatud nõutavatele mustritele. Ja seda saate ka reaalajas teha. Kuid traditsiooniline andmete puhastamine, kus parandate ettevõtete nimesid või parandate aadresse ja kõiki neid asju, peaksite seda tegema tõenäoliselt allikas või pärast seda, mis on väga kallis ja te palvetate et nad ei tee neid reaalajas.

Eric: Jah. Ja kutid, proovite tõesti tegelda asjade reaalajas olemusega, aga ka saada inimesed õigeks ajaks. Ja me rääkisime, eks, ma mainisin tunni lõpus seda kogu võimaluste akent ja te olete tõesti suunatud konkreetsetele rakendustele ettevõtetes, kus saate koondada andmeid, mis ei lähe tavalisele teekonnale, minna teisele alternatiivsele teekonnale ja teha seda nii madala latentsusajaga, et saaksite kliente hoida. Näiteks võite hoida inimesi rahul ja see on huvitav, kui ma rääkisin Samiga pikalt sellest, mida te teete, siis ta rääkis tõesti hea asja. Ta ütles, et kui vaadata palju uusi veebipõhiseid rakendusi; vaatame näiteks Bitlyt või mõnda neist muudest rakendustest; need on väga erinevad kui vanad rakendused, mida vaatasime näiteks Microsoftilt, nagu Microsoft Word.

Tarkvara arengust rääkimiseks kasutan Microsofti sageli justkui piitsutajana ja konkreetselt Wordi nimel. Sest Microsoft Word sai alguse muidugi tekstitöötlusprogrammina. Olen üks neist inimestest, kellele Word Perfect meelde tuleb. Armastasin seda, et sain teha paljastusvõtmeid või paljastamiskoodi, põhimõtteliselt seda, kus näete seal olevat tegelikku koodi. Saate midagi puhastada, kui teie täppide nimekiri oli vale, saate selle puhastada. Noh, Word ei lase teil seda teha. Ja ma võin teile öelda, et Word manustab iga teie tehtud lehe sisse koodiringi. Kui keegi mind ei usu, minge Microsofti Wordi, tippige "Hello World" ja tehke siis "Export as" või "Save as" .html. Seejärel avage see dokument redaktoris ja see on umbes nelja lehekülje pikkune kood kahe sõna jaoks.

Nii et kutid, ma arvasin, et see on väga huvitav ja on aeg sellest rääkida. Ja just selles, teie kutid, keskenduvad, õigupoolest selle tuvastamine, mida võiksite nimetada platvormiüleseks või ettevõtteüleseks või domeenidevaheliseks võimaluseks andmete koondamiseks nii kiiresti, et saaksite mängu muuta, eks?

Steve: Jah, kindlasti. Ja üks võtmetest, millest te vist nagunii mööda saite, on see, kas soovite tõesti teada saada sellest, mis juhtub enne, kui teie kliendid seda teevad või enne, kui need tegelikult on, tõesti probleemiks. Näitena võib tuua digiboksid. Kaablikarbid kiirgavad kogu aeg telemeetriat, koormusi ja koormusi telemeetriat. Ja mitte ainult kasti tervis, vaid see on see, mida te vaatate, ja kõik muud laadi asjad, eks? Tüüpiline on see, kui ootate, kuni kast ei õnnestu, ja siis helistate oma kaabelteenuse pakkujale ja nad ütlevad: "Noh, me võtame teiega ühendust kogu novembri kuu jooksul kella 18–23." See pole just väga hea kliendikogemus.

Kuid kui nad saaksid seda telemeetriat reaalajas analüüsida, siis võiksid nad hakata tegema selliseid asju, nagu me teame, et need kastid tõenäoliselt järgmisel nädalal põhinevatel ajaloolistel mustritel ebaõnnestuvad. Seetõttu plaanime oma kaabli remondimeeskonna tulla selle inimese majja enne, kui see ei õnnestu. Ja me teeme seda viisil, mis meile sobib, selle asemel, et teda Santa Cruzist kuni Sunnyvale viia. Planeerime kõik kenas järjekorras, reisimüüjate mustriga jne, et saaksime oma ettevõtet optimeerida. Ja nii on klient rahul, kuna tal pole rikkega kaablikarpi. Ja kaabeltelevisiooni pakkuja on rahul, sest nad on asju lihtsalt sujuvamaks muutnud ja nad ei pea seda tegema kõikjal. See on lihtsalt väga kiire näide.Kuid on palju näiteid, kus teadmine juhtuvate juhtumite kohta enne nende toimumist võib ettevõtetele varanduse päästa ja tõesti parandada nende kliendisuhteid.

Eric: Jah, jah. Pole mitte mingit kahtlust. Lähme edasi ja liigume edasi MarkLogicu juurde. Nagu ma juba varem mainisin, olen nendest tüüpidest juba mõnda aega teada saanud ja seetõttu toon teid siia, Frank. Te, kutid, olite kogu suurandmete liikumisest teie rakenduse väljatöötamise osas kaugel ees - see on tõesti andmebaas. Kuid ehitades selle välja ja rääkisite otsingu olulisusest.

Nii et paljud kosmoset jälginud inimesed teavad, et paljud seal olevad NoSQL-i tööriistad otsivad nüüd otsinguvõimalusi kas kolmandate osapoolte kaudu või proovivad nad oma asju teha. Kuid see, et see otsing oleks juba sisseehitatud, niiöelda sisse küpsetatud, on tõesti suur asi. Sest kui järele mõelda, kui teil pole SQL-i, siis kuidas siseneda ja andmeid otsida? Kuidas sellest andmeallikast tõmmata? Ja vastus on see, et kasutate otsitud andmete saamiseks tavaliselt otsingut, eks?

Nii et ma arvan, et see on üks peamisi eristajaid teie jaoks, peale selle, et suudate koguda andmeid kõigist nendest erinevatest allikatest ja neid andmeid talletada ning hõlbustada sellist hübriidset keskkonda. Arvan, et otsimisvõimalused on teie jaoks suur asi, eks?

Frank: Jah, kindlasti. Tegelikult on see ainus viis probleemi järjekindlaks lahendamiseks, kui te ei tea, millised kõik andmed välja näevad, eks? Kui te ei suuda kõiki võimalusi ette kujutada, on ainus viis veenduda, et leiate kogu soovitud teabe, et saate selle järjekindlalt leida ja saate seda leida sõltumata sellest, kuidas oma andmemudelit ja andmekogumeid arendate, on et anda inimestele üldisi tööriistu, mis võimaldavad neil neid andmeid üle kuulata. Ja seda on kõige lihtsam ja intuitiivsem viis läbi otsinguparadigma, eks? Ja sama lähenemisviisi abil toimub otsimine ka siis, kui lõime tagurpidi indeksi. Teil on kirjeid, kus saate neid tegelikult uurida ja seejärel leida kirjeid ja dokumente ning ridu, mis sisaldavad tegelikult otsitud teavet, seejärel tagastada see kliendile ja lubada tal seda töödelda vastavalt oma äranägemisele.

Eric: Jah ja me rääkisime sellest palju, aga te annate mulle tõesti hea võimaluse sellesse süveneda - selle võrrandi kogu otsingu- ja avastamiskülg. Kuid kõigepealt on see väga lõbus. Kõigile, kellele see kraam meeldib, on see lõbus osa, eks? Kuid ma peaksin ütlema, et võrrandi või mündi teine külg on see, et see on tõesti korduv protsess. Ja te peate saama - siin kasutan mõnda turunduskeelt - saama seda vestlust andmetega, eks? Teisisõnu, peate saama hüpoteesi kontrollida, sellega ümber mängida ja vaadata, kuidas see töötab. Võib-olla seda pole seal, katsetage midagi muud ja muutke pidevalt asju ning korrake ja otsige ning uurige ja mõelge lihtsalt asju. Ja see on protsess. Ja kui teil on suuri takistusi, mis tähendab pikka latentsusaega või rasket kasutajaliidest, või peate minema IT-le; see tapab lihtsalt kogu analüütilise kogemuse, eks?

Seega on oluline omada sellist paindlikkust ja osata otsinguid kasutada. Ja mulle meeldib see, kuidas te seda siin kujutasite, sest kui me otsime erinevaid kontseptsioone või võtmeid, kui soovite, siis võtmeväärtusi ja need on erinevad mõõtmed. Kas soovite seda kraami omavahel segada ja sobitada, et teie analüütik saaks kasulikku kraami leida, eks?

Frank: Jah, kindlasti. Ma mõtlen, et ka hierarhia on oluline asi, eks? Nii et kui lisate midagi pealkirja, õiget või konkreetset terminit või väärtust, saate tegelikult osutada sellele õigele. Nii et kui otsite artikli pealkirja, ei saa te raamatute pealkirju, eks? Või ei saa te blogipostituste pealkirju. Samuti on oluline nende eristamine ja teabe hierarhia kaudu.

Te osutasite arengule juba varem, eks, eks? Äärmiselt väärtuslik on meie klientide võimalus tõmmata mõne tunniga uusi andmeallikaid, hakata nendega koostööd tegema, hindama, kas need on kasulikud või mitte, ning jätkama nende integreerimist või jätma need kõrvale. Kui võrrelda seda traditsioonilisema rakenduste arendamise lähenemisviisiga, mille lõpuks peate välja mõtlema, milliseid andmeid soovite kasutada, neid hankima, välja mõtlema, kuidas neid oma olemasolevasse andmemudelisse sobitada või selles mudelis, muutke seda andmemudelit selle kaasamiseks ja alustage siis tegelikult arendamist, eks? Kui me pöördume selle poole ja ütleme, et lihtsalt toome selle meile, lubage teil alustada arendustööga ja seejärel hiljem otsustada, kas soovite seda säilitada või peaaegu kohe, kas see on väärtuslik või mitte.

Eric: Jah, see on tõesti hea punkt. See on hea punkt. Lubage mul edasi minna ja tuua siia meie neljas saatejuht, Treasure Data. Ma armastan neid poisse. Ma ei teadnud neist suurt midagi, nii et löön end kuidagi maha. Ja siis tuli Hannah meie juurde ja rääkis meile, mida nad teevad. Ja Hannah mainis, et ta oli meediainimene ja läks üle pimeda poole.

Hannah: Ma tegin, ma vedasin.

Eric: See on siiski okei, sest teate, mis meile meediamaailmas meeldib. Nii et on alati tore, kui meediumiinimene läheb müüja poole, sest saate aru, hei, seda kraami pole nii lihtne sõnastada ja veebisaidilt võib olla keeruline kindlaks teha, mida see toode teeb, võrreldes selle tootega. Ja see, mida te kutid räägite, on tõesti üsna huvitav. Nüüd olete pilvehaldusega teenus. Nii et kõik andmed, mida keegi soovib kasutada, laadivad teie pilve üles, kas see on õige? Ja siis saate ETL-i või CDC-d, lisaandmeid kuni pilve, kas see töötab?

Hannah: No jah. Lubage mul teha oluline erinevus. Enamik andmeid, suurandmed, mille abil meie kliendid meid külastavad, on juba tulemüürist väljas - mobiilne andmeside, andurites sisalduvad andmed. Ja seetõttu kasutatakse meid sageli ajutise peatuspaigana. Seega ei satu andmed kellegi ettevõtte kaudu meie teenusesse sageli nii palju, et see voolab veebisaidilt, mobiilirakendusest, tootest, milles on palju andureid - meie pilvekeskkonda.

Nüüd, kui soovite seda suurandmeid meie keskkonnas rikastada, saate kindlasti mõnda rakenduse või kliendi andmeid hulgi üles laadida, et seda rikastada ja teha rohkem analüüse otse pilves. Kuid suur osa meie väärtusest seisneb nende andmete kogumises, mis asuvad juba tulemüürist väljaspool ja koondatakse ühte kohta. Nii et isegi kui kavatsete seda oma tulemüüri taha tuua ja täiustatud analüütikat rohkem kasutada või olemasolevasse BI- või analüüsikeskkonda tuua, on see tõesti hea lähtepunkt. Kuna te ei soovi oma andmelaosse tuua miljard rida päevas, pole see kuluefektiivne. See on isegi keeruline, kui plaanite selle kuskile salvestada ja seejärel pakettidena üles laadida.

Nii et oleme sageli esimene punkt, kus kogutakse juba tulemüüriväliseid andmeid.

Eric: Jah, ka see on tõesti hea punkt. Sest paljud ettevõtted lähevad närvi oma ärisaladuse alla kuuluvate klientide andmete võtmise, pilve üles seadmise ja kogu protsessi juhtimise pärast.

Hannah: Jah.

Eric: Ja see, millest te räägite, on tõesti see, et inimesed saavad ressursiks nende suurte koormustega numbrite krigistamiseks, nagu te arvate, mis on kolmanda osapoole andmed, näiteks mobiilne andmeside ja sotsiaalsed andmed ning kõik muud laadi lõbusad asjad. See on päris huvitav.

Hannah: Jah, kindlasti. Ja ilmselt ajavad nad tooteid närvi, sest andmed on juba väljaspool. Ja jah, enne selle sissetoomist mulle väga meeldib see rafineerimisteenus, nagu ma mainisin, võrreldes järvega. Kas saate teha mõned põhilised rafineerimistehased? Hankige head asjad välja ja viige see tulemüüri taha oma teistesse süsteemidesse ja protsessidesse sügavamaks analüüsimiseks. Nii et seda saavad teha tõesti kõik andmed, mida teadlased saavad teha - selle uue sissetuleva suurandme reaalajas andmete uurimine.

Eric: Jah, see on õige. Noh, las ma lähen ja toome kohale meie analüütikud ning me läheme tagasi pöördumise järjekorda. Alustan teiega, Robin, seoses aardeandmetega ja läheme siis Kirki teiste juurde. Ja siis tagasi Robini ja tagasi Kirki juurde, et saada selle kohta rohkem hinnangut.

Ja teate, et andmete rafineerimistehas Robin, millest Hannah siin räägib. Ma armastan seda kontseptsiooni. Olen kuulnud, et ainult mõned inimesed räägivad sellest niimoodi, kuid ma arvan, et te mainisite seda kindlasti varem. Ja see vastab tõesti sellele, mis teie andmetega tegelikult toimub. Kuna muidugi rafineerimistehas, destilleerib see põhimõtteliselt asju juurte tasemeni, kui mõelda naftatöötlemistehaste peale. Uurisin seda mõnda aega ja see on üsna lihtne, kuid sellesse sissejuhitav tehnika peab olema täpselt õige või kui te ei saa soovitud asju. Nii et ma arvan, et see on suurepärane analoogia. Mida arvate sellest kogu aardeandmete pilveteenuse kontseptsioonist, mis aitab teil lahendada mõnda neist väga spetsiifilistest analüütilistest vajadustest ilma, et peaksite asju majja tooma?

Robin: Noh, ma mõtlen, sõltuvalt asjaoludest, kui mugav see on. Kuid keegi, kes on juba protsessi valmis saanud, paneb teid juba mängu ette, kui te seda ise pole saanud. See on esimene midagi sellist. Kui keegi on midagi kokku pannud, on nad seda teinud, see on turul tõestatud ja seetõttu on sellel mingisugune väärtus, noh, töö on sellesse juba sisse läinud. Ja seal on ka väga üldine asjaolu, et andmete täpsustamine saab olema palju suurem probleem kui kunagi varem. Ma mõtlen, et sellest ei räägita, minu arvates niikuinii, sellest ei räägitud nii palju kui peaks olema. Lisaks asjaolule, et andmete maht on kasvanud ning allikate arv ja mitmekesisus on märkimisväärselt kasvanud. Ja andmete usaldusväärsus selles osas, kas need on puhtad, peavad nad andmeid täpsustama, kõikvõimalikud probleemid, mis tekivad just andmete haldamise osas.

Nii et enne, kui olete selle kohta usaldusväärse analüüsi tegema hakanud, teate, kui teie andmed on räpased, siis on teie tulemused mingil või teisel viisil viltu. Niisiis tuleb sellega tegeleda ja sellest tuleb teada saada. Ja triangulaator, mis osutab, niipalju kui mina näen, väga elujõulist teenust selles abistamiseks.

Eric: Jah, tõesti. Noh, las ma lähen edasi ja viin Kirki siinse võrrandi juurde tagasi lihtsalt kiiresti. Tahtsin heita pilgu ühele neist muudest slaididest ja saada just selline mulje asjadest, Kirk. Ehk siis lähme tagasi selle MarkLogici slaidi juurde. Ja muide, Kirk esitas lingi mõnele tema klassi avastusslaidile, kui te seda ei näinud, sest see on väga huvitav kontseptsioon. Ja ma arvan, et see on omamoodi õlletootmine minu peas, Kirk, nagu ma hetk tagasi sellest rääkisin. Kogu see küsimus, mille üks osalejatest esitas, kuidas teil uute klasside leidmisega edasi minna. Ma armastan seda teemat, kuna see räägib tõepoolest asjade kategoriseerimise keerulisest küljest, kuna mul on alati olnud raske asju kategoriseerida. Mulle meeldib: "Oh, jumal, ma mahun viide kategooriasse, kuhu ma selle panen?" Nii et ma ei taha lihtsalt midagi kategoriseerida, eks?

Ja sellepärast ma armastan otsingut, kuna te ei pea seda kategoriseerima, te ei pea seda kausta panema. Lihtsalt otsige seda ja leiate, kui teate, kuidas otsida. Aga kui proovite selles segmenteerimisprotsessis osaleda, kuna see on põhimõtteliselt kategoriseerimine, siis see on segmenteerimine; uute klasside leidmine, see on selline huvitav asi. Kas saate rääkida näiteks otsingute, semantika ja hierarhiate jõudust, näiteks kui Frank rääkis MarkLogicist ja rollist, mis mängib uute klasside leidmisel, siis mida te sellest arvate?

Kirk: Noh, ma kõigepealt ütleksin, et te loete minu mõtteid. Kuna see oli see, mida ma mõtlesin ühele küsimusele juba enne, kui teie rääkisite, siis kogu see siinne semantiline tükk, mille MarkLogic esitas. Ja kui tulete tagasi minu slaidi juurde, ei pea te seda tegema, vaid tagasi viiendale slaidile selle juurde, mida ma täna pärastlõunal esitasin. Ma rääkisin sellest semantikast, et andmed tuleb jäädvustada.

Nii et see kogu otsingu idee, sinna sa lähed. Ma usun sellesse kindlalt ja olen alati uskunud, et suurandmete korral võtke omamoodi Interneti-analoogia, ma mõtlen, et lihtsalt veeb, ma pean silmas seda, et veebitirvijas oleks maailmateadmiste ja -teabe ning andmete olemasolu. Kuid selleks, et seda saaks otsida ja tõhusalt otsida, nagu üks suur otsingumootoriettevõte meile pakub, on just see tõeline avastusjõud. Kuna otsiterminid ühendatakse, sorteerige kasutaja huvialad konkreetse andmegraanuli või konkreetse veebilehega, kui soovite mõelda veebinäitele või konkreetsele dokumendile, kui räägite dokumenditeeki. Või konkreetse kliendi tüüpi segment, kui see on teie enda jaoks.

Ja semantika annab teile sedalaadi teadmiste kihilisuse lisaks sõnaotsingule. Kui otsite teatud tüüpi asju, siis mõistke, et selliste asjade klassi liikmel võib olla teatud suhe teiste asjadega. Lisage isegi seda tüüpi suhteteavet ja see on klasside hierarhia teave, et leida asju, mis on sarnased otsitavale. Või mõnikord isegi täpselt vastupidine sellele, mida otsite, sest see annab teile omamoodi täiendava mõistmise tuuma. Noh, ilmselt midagi, mis on sellele vastupidine.

Eric: Jah.

Kirk: Saage siis sellest aru. Ma näen midagi, mis on sellele vastupidine. Ja semantiline kiht on väärtuslik komponent, mis sageli puudub, ja nüüd on huvitav, kui see siin esile tuleks. Kuna olen juba kümmekond aastat õpetanud andmebaaside, andmete kaevandamise, andmetest õppimise ja andmeteaduse bakalaureuseõppe kursusi, mida iganes te seda nimetada soovite; ja üks minu semestripikkuse kursuse üksustest on semantika ja ontoloogia. Ja sageli vaatavad mu õpilased mind, kuidas see on seotud sellega, millest me räägime? Ja muidugi lõpus arvan ma, et me mõistame, et paneme need andmed mingisse teadmiste raamistikku. Nii et näiteks otsin teavet konkreetse kliendi käitumise kohta, mõistes, et selline käitumine toimub, seda inimesed ostavad spordiüritusel. Milliseid tooteid pakun oma klientidele, kui märkan nende sotsiaalmeedias - või -, et nad ütlevad, et nad lähevad spordisündmustele nagu jalgpall, pesapall, jäähoki, maailmameistrivõistlused, mis iganes see ka poleks.

Olgu, nii spordisündmus. Nad ütlevad, et nad kavatsevad, näiteks, pesapalli mängida. Olgu, ma saan aru, et pesapall on spordiüritus. Ma saan aru, et see on tavaliselt sotsiaalne ja käid inimestega kaasas. Ma saan aru, et see toimub tavaliselt väliruumis. Mõistan kõigi nende ühiste omaduste mõistmist, see võimaldab kaasatud kliendi omamoodi, võimsamat, segmenteerimist ja teie isikupärastamist kogemustele, mida annate neile näiteks siis, kui nad suhtlevad teiega ruumi läbi mobiilirakenduse, kui nad staadionil istuvad.

Niisiis, kõik sellised asjad annavad andmetele niivõrd palju lisajõudu ja avastuspotentsiaali, et indekseerimise idee andmegraanulite indekseerimiseks nende semantilise koha ja teadmiste ruumi järgi on tõesti üsna märkimisväärne. Ja mulle tehti muljet, mis täna välja tuli. Ma arvan, et see on omamoodi põhimõtteline asi, millest rääkida.

Eric: Jah, see on kindel. See on väga oluline avastamisprotsessis, see on väga oluline klassifitseerimisprotsessis. Ja kui järele mõelda, töötab Java tundides. See on objektorienteeritud, ma arvan, enam-vähem võiks öelda, et programmeerimise vorm ja Java töötab klassides. Nii et kui te tegelikult projekteerite tarkvara, on see kogu uus klasside proovimise kontseptsioon tegelikult funktsionaalsuse mõttes üsna oluline asi, mida proovite pakkuda. Kuna eriti selles uues metsikus ja vilgas suurandmete maailmas, kus teil on nii palju Java välja töötatud, nii palju neid erinevaid rakendusi on, on teada, et on olemas 87 000 või enamat viisi, kuidas arvutiga midagi teha, natukenegi natuke juurde saada funktsionaalsus tehtud.

Üks minu jooksutavatest naljadest, kui inimesed ütlevad: "Oh, saate ehitada andmelao, kasutades NoSQL-i." Mulle meeldib: "Noh, sa võiksid, jah, see on tõsi. Samuti võiksite andmelao ehitada Microsoft Wordi abil." See pole parim idee, see ei hakka eriti hästi toimima, kuid saate seda tegelikult teha. Nii et peamine on see, et peate leidma parima viisi, kuidas midagi teha.

Lase käia.

Kirk: Lubage mul sellele lihtsalt vastata. On huvitav, et te mainisite Java klassi näidet, mis ei tulnud mulle pähe enne, kui te selle ütlesite. Üks Java ja klasside ning seda tüüpi objektide orientatsiooni aspekte on see, et on olemas meetodeid, mis seovad konkreetseid klasse. Ja see on tõesti selline asi, mida ma oma esitluses üritasin proovida ja kui olete aru saanud mõnest neist andmegraanulitest - neist teadmiste nuggetest, nendest siltidest, nendest annotatsioonidest ja nendest semantilistest siltidest -, saate sellega meetodi siduda. Põhimõtteliselt on neil see reaktsioon või see vastus ja nad lasevad teie süsteemil seda tüüpi automatiseeritud, ennetava reageerimise sellele asjale järgmine kord, kui me seda andmevooges näeme.

Niisiis on see konkreetse klassi jaoks siduvate toimingute ja meetodite kontseptsioon tegelikult automatiseeritud reaalajas analüüsi üks võimeid. Ja ma arvan, et olete justkui millegi vastu löönud.

Eric: Tubli, hea, hea. No see on hea värk. Vaatame siis, Will, ma tahan selle teile tagasi anda ja tegelikult visata teile publiku hulgast mõni küsimus. Meil on siin ka mõni neist. Ja inimesed, me läheme pikaks, sest tahame nende heade küsimuste hulgas leida mõnda neist toredatest kontseptsioonidest.

Lubage mul esitada teile küsimus ühe publiku hulgast, kes ütleb: "Ma ei näe tegelikult, kuidas äriteave eristab põhjust ja tagajärge". Teisisõnu, kuna süsteemid teevad otsuseid jälgitava teabe põhjal, kuidas nad arendavad uusi mudeleid maailma tundmaõppimiseks? See on huvitav seik, nii et ma kuulen siin põhjuse ja tagajärje korrelatsiooni, algpõhjuste analüüsi ja see on mingi selline kõrgema kvaliteediga asi analüütikas, millest te räägite, erinevalt traditsioonilisest BI-st, mis on tegelikult just selline teatamine ja omamoodi mõistmine juhtunust. Ja loomulikult liigub kogu teie suund, lihtsalt siin slaidile vaadates, selle ennustamisvõime poole, et neid otsuseid teha või vähemalt neid soovitusi anda, eks? Nii et idee on see, et kutid proovite teenindada kogu toimuva, ja olete aru saanud, et võti, tõeline maagia, asub seal paremal asuvas analüütilises eesmärgi komponendis.

Tahe: Absoluutselt.Ma arvan, et see küsimus on mõneti tulevikku suunatud, selles mõttes, et andmeteadus, nagu ma juba mainisin, nägime slaidi andmeteadlase nõuetega; kellegi olemine on üsna keeruline ülesanne. Neil peavad olema nii rikkalikud teadmised statistikast ja teadusest. Matemaatiliste teadmiste rakendamiseks domeenides peavad teil olema domeeniteadmised. Niisiis, mida me täna näeme, kas pole neid väliseid ennustusvahendeid, mida näiteks ärikasutaja saaks Excelis üles tõmmata ja automaatselt oma tulevikku ennustada, eks?

Selles etapis on vaja täpseid teadmisi tehnoloogia alal. Kunagi tulevikus võib juhtuda, et mõned neist süsteemidest muutuvad tundlikuks ja hakkavad mingit metsikut kraami tegema. Kuid ma ütleksin, et selles etapis peab teil ikkagi olema keset andmeteadlast, et jätkata mudelite, mitte nende mudelite ehitamist. Need andmekaevandamise ümber käivad ennustavad mudelid ja sellised on andmeteadlase poolt põhjalikult häälestatud ja üles ehitatud. Neid ei genereerita üksi, kui teate, mida ma mõtlen.

Eric: Jah, täpselt nii. Täpselt nii. Ja üks minu ridadest on "Masinad ei valeta, vähemalt veel mitte."

Tahe: veel mitte, täpselt.

Eric: Ma lugesin artiklit - ma pean sellest midagi kirjutama - mõne katse kohta, mis tehti ülikoolis, kus nad ütlesid, et need arvutiprogrammid õppisid valetama, aga ma sain teile öelda, et ma ei usu seda tegelikult . Teeme selle kohta mõned uuringud.

Ja viimase kommentaari jaoks, nii et Robin ma toon teid tagasi, et vaadata seda WebActioni platvormi, sest see on väga huvitav. See on see, mida ma terve ruumi juures armastan, see, et teil on nii erinevad vaatenurgad ja erinevad nurgad, mille erinevad müüjad on võtnud väga konkreetsete vajaduste rahuldamiseks. Ja ma armastan seda formaati meie show jaoks, sest meil oli neli tõeliselt huvitavat müüjat, kes ausalt öeldes ei astu tegelikult üldse üksteise varvastele. Kuna me kõik teeme erinevaid palasid ja tükke, mille üldine vajadus on analüüside kasutamine ja asjade tegemine.

Kuid ma tahan lihtsalt saada teie vaatenurka sellele konkreetsele platvormile ja nende arhitektuurile. Kuidas neil asju läheb. Minu arvates on see üsna kaalukas. Mida sa arvad?

Robin: Noh, ma mõtlen, et see osutab andmete voogesituse eriti kiiretele tulemustele ja otsinguna peate selle arhitektuurima. Ma mõtlen, et te ei kavatse midagi ära teha, amatöörlik, kuna meil on midagi sellist. Ma kuulen, et see on äärmiselt huvitav ja ma arvan, et see on üks neist asjadest, mille tunnistajaks me oleme olnud minevikus; Ma mõtlen, et ma arvan, et teie ja mina, meie lõualuu on viimase paari aasta jooksul üha enam langenud, kui nägime, et ilmub üha rohkem asju, mis olid just nagu erakordselt kiire, erakordselt nutikad ja üsna enneolematud.

Ilmselt on see WebAction, niiöelda esimene rodeo. Tegelikult on seal olnud teatud määral nimede võtmine. Nii et ma ei näe, aga peaksime olema üllatunud, et arhitektuur on üsna vahetatud, kuid kindlasti on.

Eric: No ma ütlen sulle mida, inimesed. Põlesime siin läbi kindla 82 minutit. Ma mõtlen, et tänan kõiki neid inimesi, kes on kogu aja kuulanud. Kui teil on küsimusi, millele ei vastatud, siis ärge kartke, öelge, et see on teie oma. Meil peaks keegi minu juurest kuskil ringi lamama. Ja suur-suur aitäh meie mõlemale tänasele saatejuhile, dr Kirk Borne'ile ja dr Robin Bloorile.

Kirk, ma tahaksin koos teiega mõnda neist semantilistest asjadest lähemalt uurida, võib-olla mõnes tulevases veebiülekandes. Sest ma arvan, et oleme nüüd väga uue ja huvitava etapi alguses. Mida me saaksime kasutada paljudel ideedel, mis inimestel on, ja muuta need teoks palju kergemini, sest ma peaksin ütlema, et tarkvara läheb odavamaks. See muutub kasutatavamaks ja kogume kõiki andmeid ainult nendest erinevatest allikatest. Ja ma arvan, et see on lähiaastatel väga huvitav ja põnev teekond, kui me tõesti uurime, mida see kraam teha saab ja kuidas saaksime meie äritegevust parendada.

Nii suured tänud ka Techopediale ja muidugi meie sponsoritele - Pentahole, WebActionile, MarkLogicile ja Treasure Data'le. Ja inimesed, vau, me teeme selle lõpetuseks, kuid tänan teid nii palju aega ja tähelepanu eest. Järgmise saate jaoks ootame teid umbes pooleteise kuu pärast. Ja muidugi jätkub infotundide tuba; raadio jätkab liikumist; kõik meie muud veebiülekandeseeriad jätkavad rokkimist ja veeremist, inimesed. Tänan sind väga. Kohtume järgmisel korral. Headaega.