Andmete kaevandamise ja andmeteaduse õppimise 7 sammu

Autor: Eugene Taylor
Loomise Kuupäev: 12 August 2021
Värskenduse Kuupäev: 22 Juunis 2024
Anonim
Andmete kaevandamise ja andmeteaduse õppimise 7 sammu - Tehnoloogia
Andmete kaevandamise ja andmeteaduse õppimise 7 sammu - Tehnoloogia

Sisu


Allikas: Paul Fleet / Dreamstime.com

Ära võtma:

Andmeteadust õpitakse kõige paremini tehes, kuid oluline on ka statistika ja masinõppe hea alus.

Minult küsitakse sageli, kuidas õppida andmekaevandamist ja andmeteadust. Siin on minu kokkuvõte.

Andmetöötlust ja andmeteadust saate kõige paremini õppida tehes, nii et alustage andmete analüüsimist nii kiiresti kui võimalik! Ärge unustage siiski teooriat õppida, kuna teil on vaja head statistika- ja masinõppe alust, et aru saada, mida teete, ja leida suurandmete mürast tõelisi väärtuslikke tükke.

Andmete kaevandamise ja andmeteaduse õppimiseks on siin seitse sammu. Kuigi need on nummerdatud, saate neid teha paralleelselt või muus järjekorras.

  1. Keeled: õppige R, Pythonit ja SQL-i
  2. Tööriistad: saate teada, kuidas kasutada andmete hankimise ja visualiseerimise tööriistu
  3. raamatud: lugege sissejuhatavaid raamatuid, et mõista põhialuseid
  4. Haridus: vaadake veebiseminarid, võtke kursusi ja kaaluge sertifikaati või kraadi andmetöötluse alal (Loe lisaks ajakirjas Ben Loricas, kuidas turundada andmesidet.)
  5. Andmed: kontrollige saadaolevaid andmeallikaid ja leidke sealt midagi
  6. Võistlused: osalege andmete kaevandamise võistlustel
  7. Suhtlege teiste andmeteadlastega sotsiaalvõrgustike, rühmade ja kohtumiste kaudu

Selles artiklis kasutan andmekaevandamist ja andmeteadust vaheldumisi. Vaadake minu ettekannet Analyticsi tööstuse ülevaade, kus vaatlen erinevate terminite, näiteks statistika, teadmiste avastamine, andmete kaevandamine, ennustav analüüs, andmeteadus ja suurandmed, arengut ja populaarsust.


1. Keelte õppimine

Hiljutine KDnuggetsi küsitlus leidis, et andmekaevandamiseks on kõige populaarsemad keeled R, Python ja SQL. Igaühe jaoks on palju ressursse, näiteks:

  • Tasuta e-raamat andmeteadusest koos R-iga
  • Andmeteaduse Pythoni kasutamise alustamine
  • Andmeanalüüsi Python: Agiilsed tööriistad pärismaailma andmete jaoks
  • Asendamatu Python: andmete hankimine andmeteadusele
  • W3 koolid õpivad SQL-i

2. Tööriistad: andmete kaevandamine, andmeteadus ja visualiseerimistarkvara

Erinevate ülesannete jaoks on palju andmekaevandamise tööriistu, kuid kõige parem on õppida kasutama andmete kaevandamise komplekti, mis toetab kogu andmeanalüüsi protsessi. Võite alustada avatud lähtekoodiga (tasuta) tööriistadega, nagu KNIME, RapidMiner ja Weka.

Paljude analüütikutööde jaoks peate siiski teadma SAS-i, mis on juhtiv kommertstööriist ja mida kasutatakse laialdaselt. Teiste populaarsete analüüsi- ja andmekaevetarkvarade hulka kuuluvad MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler ja Rattle.


Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

Visualiseerimine on mis tahes andmete analüüsi oluline osa. Siit saate teada, kuidas kasutada Microsoft Exceli (sobib paljude lihtsamate ülesannete jaoks), R-graafikat (eriti ggplot2) ja ka Tableau - suurepärane pakett visuaalseks kasutamiseks. Muud head visualiseerimisvahendid hõlmavad TIBCO Spotfire ja Miner3D.

3. raamatud

Andmekaevandamist ja andmeteadust käsitlevaid raamatuid on palju, kuid saate neid kontrollida:

  • Andmete kaevandamine ja analüüs: põhimõttelised kontseptsioonid ja algoritmid, tasuta PDF-i allalaadimine (mustand), autorid Mohammed Zaki ja Wagner Meira Jr.
  • Andmete kaevandamine: praktilised masinõppe tööriistad ja tehnikad, autorid Ian Witten, Eibe Frank ja Mark Hall, Weka autorid ning Weka ulatuslik kasutamine näidetes
  • Statistilise õppe, andmete kaevandamise, järelduste ja ennustamise elemendid, autorid Trevor Hastie, Robert Tibshirani, Jerome Friedman. Suurepärane sissejuhatus matemaatiliselt orienteeritud inimestele
  • LIONbook: õppimine ja arukas optimeerimine, autorid Roberto Battiti ja Mauro Brunato, vabalt veebis saadaval, peatükkide kaupa
  • Massiivsete andmekogude kaevandamine, autorid A. Rajaraman, J. Ullman
  • StatSofti elektroonilise statistika raamat (tasuta) sisaldab paljusid andmekaevandamise teemasid

4. Haridus: veebiseminarid, kursused, tunnistused ja kraadid

Alustuseks võite vaadata mõnda paljudest tasuta veebiseminaridest ja veebisaadetest, mis käsitlevad analüütika, suurandmete, andmekaevandamise ja andmeteaduse uusimaid teemasid.

Samuti on palju veebikursusi, nii lühikesi kui ka pikki, paljud neist on tasuta. (Vt KDnuggetsi veebikoolituse kataloogi.)

Kontrollige eriti neid kursusi:

  • Masinõpe Kursusel, õpetanud Andrew Ng
  • Õppimine andmetest edX-is, õpetas Caltechi professor Yaser Abu-Mostafa
  • Avatud veebikursus rakenduslike andmete teaduses Syracuse iSchoolist
  • Andmete kaevandamine Wekaga, tasuta veebikursus
  • Vaadake ka tasuta slaidid minu andmekaevandamise kursusest, mis on semestri pikkune sissejuhatav kursus andmekaevandamisel

Lõpuks kaaluge sertifikaatide saamist andmekaevandamises ja andmeteaduses või kõrghariduses, näiteks magistrikraad infoteaduses.

5. Andmed

Analüüsimiseks vajate andmeid - vaadake KDnuggetsi andmekaevanduse andmebaaside kataloogi, sealhulgas:

  • Valitsuse, föderaalse, osariigi, linna, kohalike ja avalike andmete saite ja portaale
  • Andmeliidesed, jaoturid, turuplatsid, platvormid, portaalid ja otsingumootorid
  • Tasuta avalikud andmekogumid

6. Võistlused

Jällegi õpid kõige paremini tehes, seega osalege Kaggle võistlustel. Alustage võistlustega algajatele, näiteks Titanicu ellujäämise ennustamine masinõppe abil.

7. Suhelge: koosolekud, rühmad ja suhtlusvõrgustikud

Võite liituda paljude eakaaslastega. Vaadake Analyticsi, suurandmete, andmekaevandamise ja andmeteaduse 30 parimat Linkedini rühma.

AnalyticBridge on aktiivne kogukond analüütika ja andmeteaduse alal.

Võite osaleda paljudel Analyticsi, suurandmete, andmekaevandamise, andmeteaduse ja teadmiste avastamise kohtumistel ja konverentsidel.

Kaaluge ka liitumist ACM SIGKDD-ga, mis korraldab iga-aastast KDD konverentsi - valdkonna juhtivat teaduskonverentsi.

See artikkel on pilliroog saidilt KDNuggets.com. Seda on kasutatud autori loal.