Miks on kunstlikke korduvaid närvivõrke sageli raske treenida?

Sisu

K:

A:

Kunstlike korduvate närvivõrkude väljaõppe raskus on seotud nende keerukusega.

Üks lihtsamaid viise, miks korduvaid närvivõrke on raske treenida, on see, et need ei ole edasisuunalised närvivõrgud.

Edasisestes närvivõrkudes liiguvad signaalid ainult ühte suunda. Signaal liigub sisendkihist erinevatesse peidetud kihtidesse ja edasi süsteemi väljundkihti.

Seevastu korduvatel närvivõrkudel ja muud tüüpi närvivõrkudel on keerukamad signaali liikumised. Klassifitseerituna tagasisidevõrkudeks võivad korduvatel närvivõrkudel olla nii edasi kui ka tagasi liikuvad signaalid ning need võivad võrgus sisaldada mitmesuguseid “silmuseid”, kus numbrid või väärtused suunatakse võrku tagasi. Eksperdid seostavad seda korduvate närvivõrkude aspektiga, mis on seotud nende mäluga.

Lisaks on tegemist teist tüüpi keerukusega, mis mõjutab korduvaid närvivõrke. Üks suurepärane näide selle kohta on loomuliku keele töötlemise valdkonnas.

Keeruka loomuliku keele töötlemise korral peab närvivõrk suutma asju meelde jätta. Samuti tuleb sisendeid vastu võtta. Oletame, et on mõni programm, mis soovib mõnda sõna analüüsida või ennustada mõne muu sõna lauses sisalduvat sõna. Süsteemi hindamiseks võib olla näiteks fikseeritud viis sõna. See tähendab, et närvivõrgul peavad olema sisendid kõigi nende sõnade jaoks, koos võimalusega neid sõnu meelde jätta või treenida. Neil ja muudel sarnastel põhjustel on korduvatel närvivõrkudel süsteemis tavaliselt need väikesed varjatud ahelad ja tagasiside.

Eksperdid kurdavad, et need komplikatsioonid muudavad võrkude koolitamise keeruliseks. Üks levinumaid viise selle selgitamiseks on plahvatava ja kaduva gradiendi probleemi tsiteerimine. Põhimõtteliselt põhjustab võrgu kaal kas plahvatusohtlikke väärtusi või kadu suure hulga möödumistega.

Neuraalvõrgu pioneer Geoff Hinton selgitab seda nähtust veebis öeldes, et tagurpidi lineaarsed läbisõidud põhjustavad väiksemate raskuste kahanemise eksponentsiaalselt ja suuremate raskuste plahvatuse.

Ta jätkab, et see probleem süveneb pikkade jadade ja arvukamate ajaetappidega, mille ajal signaalid kasvavad või lagunevad. Kaalude lähtestamine võib aidata, kuid need väljakutsed on korduva närvivõrgu mudelisse sisse ehitatud. Seal on alati see küsimus seotud nende konkreetse disaini ja ehitada. Põhimõtteliselt trotsivad mõned keerukamad närvivõrkude tüübid meie võimet neid hõlpsalt hallata. Saame luua praktiliselt lõpmatu hulga keerukusi, kuid sageli näeme, et etteaimatavus ja mastaapsuse probleemid suurenevad.