Tugevdusõpe

Autor: Lewis Jackson
Loomise Kuupäev: 11 Mai 2021
Värskenduse Kuupäev: 15 Mai 2024
Anonim
Tugevdusõpe - Tehnoloogia
Tugevdusõpe - Tehnoloogia

Sisu

Definitsioon - mida tähendab tugevdusõpe?

Tugevdusõpe on tehisintellekti kontekstis dünaamilise programmeerimise tüüp, mis treenib algoritme, kasutades tasu ja karistuse süsteemi.


Tugevdava õppimise algoritm ehk agent õpib oma keskkonnaga suheldes. Agent saab autasu õigesti täites ja karistused väära täitmise eest. Esindaja õpib inimeselt sekkumiseta, maksimeerides selle tasu ja minimeerides karistuse.

Sissejuhatus Microsoft Azure'i ja Microsoft Cloud | Kogu selle juhendi kaudu saate teada, mis on pilvandmetöötlus ja kuidas Microsoft Azure aitab teil pilvest rännata ja oma ettevõtet juhtida.

Techopedia selgitab tugevdusõpet

Tugevdusõpe on lähenemine masinõppele, mis on inspireeritud biheivioristlikust psühholoogiast. See on sarnane sellega, kuidas laps õpib uut ülesannet täitma. Tugevdusõpe vastandub muudele masinõppe lähenemisviisidele selles osas, et algoritmile ei öelda sõnaselgelt, kuidas ülesannet täita, vaid see toimib probleemi üksi.

Agent, mis võib olla isesõitv auto või malet mängiv programm, suhtleb oma keskkonnaga, saab tasu oleku, sõltuvalt selle toimimisest, näiteks turvaliselt sihtkohta sõitmine või mängu võitmine. Esindaja saab vastupidiselt trahvi ebaõige täitmise eest, näiteks teelt välja minemise või kontrollitud teose eest.


Agent otsustab aja jooksul dünaamilise programmeerimise abil oma tasu maksimeerimiseks ja trahvi minimeerimiseks. Selle tehisintellekti lähenemise eeliseks on see, et see võimaldab AI-programmis õppida ilma programmeerijata, et ta täpsustaks, kuidas agent peaks ülesannet täitma.