Mokymasis atsiminti: nuolatinio mokymosi pagrindas - sinapsinis plastiškumas

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi („ML Research“)

Žmonės turi nepaprastą sugebėjimą nuolat mokytis visą gyvenimą. Gebėjimas pritaikyti anksčiau išmoktas žinias naujose situacijose, aplinkose ir užduotyse yra pagrindinis žmogaus intelekto bruožas. Biologiniu lygmeniu tai paprastai priskiriama gebėjimui selektyviai saugoti ir valdyti prisiminimus per pakankamai ilgą laiką neuroninėse jungtyse, vadinamose sinapsėmis. Kitaip nei biologinės smegenys, įprasti dirbtiniai neuroniniai tinklai (ANN) neturi galimybės valdyti sinapsinių jungčių tarp neuronų stiprumo. Tai lemia ypač trumpą „ANNs“ atminties gyvavimo laiką - šį efektą vadina katastrofišku pamiršimu.

Per pastarąjį dešimtmetį dauguma dirbtinio intelekto (AI) tyrimų buvo nukreipti į žmogaus lygio našumo viršijimą atliekant atskiras, aiškiai apibrėžtas užduotis, tokias kaip kompiuterinių žaidimų žaismas, šlamšto el. Laiškų rūšiavimas, šunų kačių klasifikavimas ir kalbos atpažinimas. Išvardyti kelis. Dėl to didžiąją dalį PG, supančio mūsų kasdienį gyvenimą, galime vadinti dirbtiniu siauru intelektu arba silpnu PG. Stiprus AI, priešingai, reiškia į žmogų panašų AI, kuris gali atlikti bet kokią intelektualią užduotį, tuo pat metu gebėdamas nuolat mokytis, pasirinktinai pamiršti, greitai prisitaikydamas prie naujų užduočių ir pasinaudodamas ankstesne patirtimi. Į šias savybes tik neseniai atkreipė AI tyrėjų dėmesį.

Kodėl reikia nuolat mokytis? Raktas į nuolat besikeičiančius scenarijus

Pamiršimas ir trūkstamas žinių perdavimas yra vienas iš pagrindinių iššūkių kelyje nuo silpnos PG prie stiprios PG. Skirtingai nuo žmonių, kurie pamiršta pasirinktinai, mašinos pamiršta katastrofiškai. Atitinkamai, kol „kūdikis išmoksta ropoti, vaikščioti ir bėgti“ (~ Dave'as Watersas), AI, pamiršęs vaikščioti, visiškai pamirštų nuskaityti ir pamirštų vaikščioti, kai išmoktų bėgti. Prieš apžvelgdami galimus nuolatinio mokymosi visą gyvenimą iššūkius, apsvarstykime paprastą PG pagrindu sukurto drabužių katalogo paieškos pavyzdį.

Mašinų mokymosi modelis, treniruojamas duomenų rinkinyje, kuriame yra (sezono) drabužių elementai, būtų ypač efektyvus ieškant šio sezono (A) gaminių. Tačiau pasikeitus sezonui, gali pasikeisti ir mados tendencijos. Pasikeitus mados tendencijoms, į katalogą gali būti įtrauktos naujos produktų kategorijos, modeliai ir stiliai (pvz., Aukštakulniai vietoj sportbačių, ilgos striukės vietoj trumpų striukių ir tt). Modelis, treniruotas pagal pirmojo sezono duomenis (A), būtų neveiksmingas ieškant daiktų, kurie buvo įtraukti į naują sezoną. Tiesą sakant, tiesiog treniruodami mūsų modelį pagal naujojo sezono duomenis, katastrofiškai pamiršime galimybę ieškoti tarp praėjusio sezono elementų.

Dažnas būdas pamiršti?

Vienas iš ankstyviausių būdų, kaip sušvelninti katastrofišką užmiršimą, yra žinomas kaip patirties pakartojimas arba „repeticija“. Tęsdami mūsų katalogo paieškos pavyzdį, norėdami išlaikyti informaciją, kuri buvo išmokta per pirmąjį sezoną, mašininio mokymosi modelis yra tiesiog perprantamas nuo nulio abiejų sezonų duomenų mišinyje, ty anksčiau išmoktos žinios pakartojamos modeliui, treniruotam naujojo sezono duomenys. Paprastai perkvalifikuojant modelį kaskart, kai „paskirstomi“ duomenų paskirstymai, būtų sunaikintos duomenų saugojimo išlaidos ir pastangos, reikalingos intelektinėms sistemoms palaikyti, jau nekalbant apie dramatišką sistemos mastelio sumažėjimą. Galiausiai ankstesnių užduočių neapdorotų duomenų saugojimas gali iš esmės pažeisti realiojo pasaulio programos duomenų privatumo reikalavimus.

Šiame kontekste daugelis tyrėjų sutelkė dėmesį į nervų sistemos plastiškumo modeliavimą ANNs ir taip sušvelnino neapdorotų duomenų saugojimo poreikį (1,2,3,4,5,6). Paprastai tai atliekama taip vadinamoje „užduoties padidinimo“ sąrankoje, kai kiekvienas naujai pridėtas duomenų rinkinys laikomas atskira užduotimi, o informacija apie užduoties etiketę laikoma prieinama bandymo metu. Grįžtant prie katalogo paieškos pavyzdžio, kiekvienoje užklausoje reikės pateikti informaciją apie sezono etiketę (užduoties etiketę); taigi norint klasifikuoti tam tikrą drabužių elementą, reikia a priori informacijos apie sezoną, kuriam jis priklauso (užduoties etiketė). Turėdami tokią „užduoties etiketę“, modelio išvestis automatiškai sumažėtų iki klasių, priklausančių prisiimtai užduočiai. Taigi mūsų aukščiau pateiktame pavyzdyje modelis būtų apribotas tik tam tikru sezonu. Šias prielaidas retai galima įgyvendinti realiame pasaulyje.

Atskira darbo dalis skirta realesniam scenarijui. Pagal šį „klasės laipsniško augimo“ scenarijų modelio klasifikacija išplečiama nuolat, nes mokomos naujos klasės. Šiame kontekste bendra strategija yra įvesti vadinamąjį generatyvinės atminties komponentą (pvz., 7,8,9). Vietoj neapdorotų duomenų kaupimo mokomas generacinis modelis, pavyzdžiui, GAN arba VAE (žr. Ankstesnį internetinį dienoraštį), kad būtų galima sukaupti pakartotiną patirtį. Taigi katalogo pavyzdyje būtų sugeneruotos ir pakartotinai pateiktos pirmojo sezono prekės (su atitinkama klase).

Dabartiniai generatyvinės atminties metodai dažniausiai remiasi gilaus generatyvinio pakartojimo idėja, kai generacinis modelis yra pakartotinai perplanuojamas tuo metu turimų realių duomenų (naujojo sezono) ir ankstesnio generatoriaus (praėjusio sezono) susintetintų pakartojimo epizodų deriniu. Tačiau be to, kad šie metodai yra labai neveiksmingi mokyme, jie yra linkę į efektą, vadinamą „semantiniu dreifuojančiu“. „Semantinis dreifas“ reiškia vaizdų kokybę, sugeneruotą kiekvienos kartojamos atminties metu, atsižvelgiant į anksčiau sugeneruotus vaizdus, ​​todėl atsiranda jautrumas klaidoms plisti, todėl prarandama kokybė ir pamirštama.

Siūlomas sprendimas - plastiškumo mokymasis generacinės atminties tinkle

Iki šiol mes sužinojome, kad pakartotinis patyrimas yra paprasta ir naudinga strategija, norint įveikti pamiršimą apskritai ANNs, ypač sudėtingoje situacijoje, kurioje padidėja klasė. Vis dėlto ši strategija taikoma tik tada, kai pakartojimo epizodai nėra saugomi kaip neapdoroti duomenys, o atitinkamų ir efektyviai saugomų atminties formų pavidalu.

Norėdami tai išspręsti, mes pasiūlėme metodą, vadinamą dinamine generatyvine atmintimi (DGM) - tęstinio mokymosi sistema, nuo kurios iki galo galima mokyti, sinapsinį plastiškumą imituojančia mokomojo sunkaus dėmesio kauke, taikoma generacinio tinklo (GAN) parametrams. . Sunkus maskavimas identifikuoja tinklo segmentus, kurie yra būtini įsimenant šiuo metu išmoktą informaciją, ir neleidžia jų atnaujinti būsimo mokymosi metu. Tinklas taip pat skatinamas pakartotinai panaudoti anksčiau išmoktas žinias, kurios buvo kaupiamos tokiuose „rezervuotuose“ tinklo segmentuose, kurie suteikė teigiamą žinių perdavimą ateityje. Taigi mūsų produktų katalogo pavyzdyje, žinant apie naujojo sezono prekes, galima efektyviai panaudoti žinias apie praėjusio sezono prekių katalogo elementus. Apskritai, DGM gali išmokti naujų užduočių nereikia pakartoti senų žinių, taip pagerindamas mokymo efektyvumą ir tapdamas tvirtesniu, kai katastrofiškai pamiršti.

Todėl DGM gali generuoti informatyvius ir įvairius anksčiau išmoktų kategorijų pavyzdžius bet kuriame nuolatinio mokymosi etape, kaip parodyta paveikslėlyje žemiau. Pakeitus šiuos pavyzdžius į užduočių sprendimo modelį (D), gaunamas modelis, kuris gali išlaikyti aukštą klasifikavimo našumą visose klasėse, kurios buvo matomos nuolatinio mokymosi proceso metu.

Dėl mastelio

Atsižvelgiant į ribotą tinklo dydį, neišvengiama, kad daugėjant užduočių, kurių reikia išmokti, tam tikru metu modelio pajėgumas yra išeikvotas. Ši problema yra sudėtingesnė, kai imituojamas nervų plastiškumas su parametrų lygio sunkaus dėmesio maskavimu. Siekdamas garantuoti pakankamą pagrindinio tinklo pajėgumą ir nuolatinę išraiškingą galią, DGM palaiko pastovų „laisvųjų“ parametrų (ty vieną kartą juos galima efektyviai atnaujinti) skaičių, plečiant tinklą tiksliai tiek parametrų, kiek buvo rezervuota ankstesniam tinklui. užduotis. Pagrindinė mintis yra ta, kad esant tam tikram teigiamam žinių perdavimui (t. Y. Parametrų pakartotiniam panaudojimui), laikui bėgant turėtų sumažėti naujų užduočių parametrų rezervacijų skaičius, o tinklo augimas tam tikru momentu turėtų būti sotus.

Išsamesnės informacijos apie DGM metodą rasite išsamiame „arXiv“ dokumente.

Nors DGM vis dar yra toli nuo katastrofiško pamiršimo klausimo išsprendimo ir nepaisant keleto apribojimų, DGM demonstruoja veiksmingą tinklo plėtrą ir tvirtumą prieš katastrofišką užmiršimą sudėtingame „klasės pagreičio“ modelyje. Mes tikime, kad pateikti tyrimai gali padėti mums tobulinti nuolatinio mokymosi supratimą - esminį sugebėjimą kelyje į stiprią PG, gebančią adaptuotis ir palaipsniui mokytis (ir pamiršti).

Mūsų darbas mokantis visą gyvenimą pristatomas „CVPR 2019“.

Apie autorių: SAP kompiuterinio mokymosi tyrimų grupės asocijuotasis mokslo inžinierius Oleksiy Ostapenko dirba su nuolatinio mokymosi visą gyvenimą iššūkiais, aptartais šiame pranešime savo darbe, kuris bus pristatytas šių metų CVPR.