Tugevdamise õppimine vs. Sügav tugevdusõpe: milles on erinevus?

Autor: Laura McKinney
Loomise Kuupäev: 5 Aprill 2021
Värskenduse Kuupäev: 26 Juunis 2024
Anonim
Tugevdamise õppimine vs. Sügav tugevdusõpe: milles on erinevus? - Tehnoloogia
Tugevdamise õppimine vs. Sügav tugevdusõpe: milles on erinevus? - Tehnoloogia

Sisu


Ära võtma:

Käisime ekspertide juures ja palusime neil vastata olulistele erinevustele tugevdusõppe ja sügava tugevdamise õppimise vahel

Masinõppe algoritmid võivad elu ja tööd lihtsamaks teha, vabastades meid üleliigsetest ülesannetest, töötades kiiremini - ja nutikamalt - kui terved inimeste meeskonnad. Masinõpet on aga erinevat tüüpi. Seal on näiteks tugevdusõpe ja sügav tugevdusõpe.

"Ehkki nii tugevdusõpe kui ka sügav tugevdusõpe on masinõppe tehnikad, mis õpivad iseseisvalt, on siiski ka mõningaid erinevusi," ütles New Jersey osariigis Wayne'is asuva William Patersoni ülikooli arvutiteaduse dotsent dr Kiho Lim. "Tugevdusõpe on dünaamiline õppimine katse-eksituse meetodil, et tulemust maksimeerida, samas kui tugevdav õppimine õpib olemasolevatest teadmistest ja rakendab seda uuele andmekogumile."


Aga mida see täpselt tähendab? Käisime ekspertide juures ja palusime neil tuua palju näiteid!

Mis on tugevdusõpe?

Nagu Lim ütleb, on tugevdamineõppimine katse-eksituse meetodil õppimise praktika ja praktika. "Selles distsipliinis õpib mudel kasutuselevõtu ajal seda, et teda premeeritakse järk-järgult õige ennustamise eest ja karistatakse valede ennustuste eest," ütles Data Science Dojo andmeteadlase praktikant Hunaid Hameed, Redmond, WA. (Loe tugevdusõpe võib anda turundusele kena dünaamilise pöörde.)

"Tugevdusõpet nähakse tavaliselt AI-de mängimisel ja mängude parandamisel aja jooksul."

Tugevdamise õppimise kolm olulist komponenti on agent, tegevus ja tasu. “Tugevdusõpe järgib konkreetset metoodikat ja määrab kindlaks parimad viisid parima tulemuse saavutamiseks,” ütles Mountain View, Kalifornias asuva Fiddler Labsi andmeteaduste osakonna juhataja dr Ankur Taly. "See on väga sarnane videomängu mängimise ülesehitusele, kus tegelane (agent) osaleb proovide (toimingute) seerias, et saada kõrgeim punktisumma (tasu)."


See on siiski autonoomne iseõppimissüsteem. Videomängu näidet kasutades ütleb Taly, et positiivne kasu võib tuleneda punktide või punktide suurendamisest ning negatiivne kasu võib tuleneda takistustele sattumisest või ebasoodsate käikude tegemisest.

CA-s asuva Skymindi San Francisco tegevjuht Chris Nicholson tugineb näitele, kuidas algoritmid õpivad katse-eksituse meetodil. ”Kujutage ette, et mängite esimest korda Super Mario Brothersit ja proovite teada saada, kuidas võita: te uurite ruumi, te pardite, hüppate, lööte mündi, maandute kilpkonnale ja siis näete, mis juhtub. ”

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Programmeerimisoskust ei saa parandada, kui keegi tarkvara kvaliteedist ei hooli.

Õppides häid ja halbu toiminguid, õpetab mäng käituma. “Tugevdusõpe teeb seda igas olukorras: videomängud, lauamängud, reaalajas kasutamise juhtumite simulatsioonid.” Tegelikult kasutab Nicholson tema organisatsiooni tugevdusõpet ja simulatsioone, et aidata ettevõtetel keerukates olukordades paremini välja mõelda.

Täiendusõppes teeb agent suurema eesmärgi saavutamiseks mitu väiksemat otsust. Veel üks näide on roboti õpetamine kõndima. „Tugevalt kodeerivate juhiste asemel ühe jala tõstmiseks, põlve painutamiseks, selle alla panemiseks ja nii edasi võib tugevdusõppe lähenemisviis võimaldada robotil katsetada erinevate liigutustega ja teada saada, millised kombinatsioonid on selle tegemisel kõige edukamad. edasi liikuda, ”ütleb Stephen Bailey, MD teadur Immuta andmeteadlane ja analüüsivahendite ekspert.

Lisaks videomängudele ja robootikale on ka teisi näiteid, mis aitavad selgitada, kuidas tugevdusõpe töötab. Washingtonis, Babel Streeti vanemandmeteadlane Brandon Haynie võrdleb seda sellega, kui inimene õpib jalgrattaga sõitma. "Kui olete liikumatult paigal ja tõsta oma jalgu ilma pedaalimiseta, on vältimatu kukkumine või karistus."

Kui aga hakata pedaalima, siis jääte rattale - premeerige - ja liigute järgmisesse olekusse.

"Tugevdusõppel on rakendusi, mis hõlmavad mitut sektorit, sealhulgas finantsotsused, keemia, tootmine ja muidugi robootika," räägib Haynie.

Mis on süvaõppe õpe?

Siiski on võimalik, et otsused muutuvad tugevdatud õppimisviisi jaoks liiga keerukaks. Haynie sõnul võib algoritmi jaoks kõigist olekutest õppimine ja tasutee määramine olla üle jõu käiv. "Siin võib abiks olla sügavmõõtmeline õppimine:" sügav "osa viitab närvivõrgu kasutamisele olekute hindamiseks, selle asemel et iga lahendus kaardistada, luues otsustusprotsessis paremini hallatava lahenduste ruumi."

See pole uus kontseptsioon. Haynie sõnul on see eksisteerinud alates 1970. aastatest. "Kuid odava ja võimsa andmetöötluse tulekuga võivad närvivõrkude täiendavad eelised aidata lahendada valdkondi, et vähendada lahenduse keerukust," selgitab ta. (Loe Mis vahe on tehisintellektil ja närvivõrkudel?)

Niisiis, kuidas see töötab? Teradata ameeriklaste AI meeskonna juhi Peter MacKenzie sõnul on tabelitesse salvestamiseks liiga palju teavet ja tabelitabelite meetodid nõuavad agendilt kõigi osariikide ja toimingute kombinatsioonide külastamist.

Põhjalik tugevdusõpe asendab olekuväärtuste hindamise tabelmeetodeid funktsiooni lähendamisega. "Funktsiooni lähendamine ei välista mitte ainult vajadust kõiki oleku- ja väärtusepaare tabelisse salvestada, vaid võimaldab agendil sarnaste olekute väärtuste abil üldistada nende olekute väärtust, mida ta pole kunagi varem näinud, või kui tal on selle kohta osaline teave," Ütleb MacKenzie.

“Suur osa põnevatest edusammudest sügava tugevdamise õppimisel on toimunud tänu närvivõrkude tugevale võimele laieneda tohututesse ruumiruumidesse.” Ja MacKenzie märgib, et sügava tugevdamise õppimist on kasutatud programmides, mis on ületanud mõned parimad inimkonkurendid. sellistes mängudes nagu Male ja Go ning vastutavad ka robootika paljude edusammude eest. (Loe 7 AI, masinõppe ja robootika naisjuhti.)

Bailey nõustub ja lisab: "Selle aasta alguses peksis AlphaStariks nimetatud AI agent maailma parimat StarCraft II mängijat - ja see on eriti huvitav, sest erinevalt mängudest nagu Chess ja Go, ei tea StarCraft mängijad, mida nende vastane teeb." Tema sõnul pidid nad välja töötama esialgse strateegia ja seejärel kohanema, kui said teada, mida nende vastane plaanib.

Aga kuidas see on isegi võimalik? Kui mudeli neuraalvõrk koosneb rohkem kui viiest kihist, on Hameedi sõnul sellel võime rahuldada suure mõõtmega andmeid. "Seetõttu saab mudel õppida tundma mustreid iseseisvalt, ilma et neil oleks inseneri kuraati, ja valida muutujad, mis tuleks mudelisse sisestada, et seda õppida," selgitab ta.

Avatud stsenaariumides näete tõesti sügava tugevdamise õppimise ilu. Taly kasutab näitena restoranis laua broneerimist või eseme tellimist - olukordi, kus agent peab vastama mis tahes teisest otsast saadud sisendile.

"Sügava tugevdamise õppimist võib kasutada vestlusagendi koolitamiseks otse teisest otsast või helisignaali kaudu," ütleb ta. "Helisignaali kasutamisel võib agent õppida ka heli peensusteni jõudmiseks nagu pausid, intonatsioon jms - see on sügava tugevdamise õppimise jõud."

Ja sügava tugevdamise õppimise uusi rakendusi on jätkuvalt juurde tulnud. Järgmise parima kliendiga suhtlemiseks vajaliku tegevuse valimisel ütleb MacKenzie, et „olek ja toimingud võivad hõlmata kõiki toodete, pakkumiste ja sõnumite kombinatsioone kõigis erinevates kanalites, kusjuures igaüks neist on isikupärastatud - sõnastus, pildid, värvid, fondid”.

Teine näide on tarneahela optimeerimine, näiteks kiiresti riknevate toodete tarnimine kogu USA-s. “Võimalikud osariigid hõlmavad kõigi eri tüüpi transpordiliikide praegust asukohta, varusid kõigis tehastes, ladudes ja jaemüügipunktides ning nõudluse prognoosi kõigi jaoks kauplustes, ”räägib MacKenzie.

"Süvaõppe kasutamine riigi ja tegevusruumi esindamiseks võimaldab agendil teha paremaid logistilisi otsuseid, mille tulemuseks on väiksemate kuludega õigeaegsemad saadetised."