AI spirito varykla (1 dalis): AI tyrimų vaizdas iš paukščio skrydžio

Įvairūs lęšiai, kuriuos galima pamatyti per AI; motyvacija ir įvadas į mūsų žiniatinklio programą

Pastaba: jei norite, kad jūsų namuose būtų robotai and ir norėtumėte, kad tai įvyktų greičiau, o ne vėliau, prašau apsilankykite mūsų labai trumpoje apžvalgoje. Jūsų atsakymai padės nukreipti mūsų modeliuojamus aplinkos tyrimų ir robotikos projektus

Skirkite 3 minutes savo laiko: https://forms.gle/hPiP1p3sJ734Hzk19
Nuoširdžiai dėkoju!

„MTank“ dirbame siekdami dviejų tikslų. (1) AI žinių ir distiliavimo pavyzdžių rinkinys. (2) padarykite pažangą kurdami tikrai intelektualias mašinas. Kaip šių pastangų dalis mes išleidžiame kūrinius apie savo darbą, kad žmonės galėtų džiaugtis ir pasimokyti. Jei jums patinka mūsų darbas, tada parodykite savo palaikymą, sekdami, dalydamiesi ir plodami savo asilus. Ačiū iš anksto!

  • 1 dalis. AI tyrimai iš paukščio skrydžio
  • 2 dalis. Distiliavimas įterpiant

Kas tai yra ir kodėl tu tai padarei?

Sveiki atvykę į mūsų pirmąją AI distiliavimo projekto dalį, kurioje mūsų „MTank“ komanda, nusivylusi AI tyrimų apimtimi visame pasaulyje, bando nulaužti sprendimą mūsų neskaitytų popierių krūvai, kurie pridedami kasdien. Ankstesniame savo vizijų tinklaraštyje žaismingai ir tiksliai apibūdinome pasaulinių AI tyrimų publikacijų apimtį kaip ugnies žarną - neįtikėtinai didelę apimtį, tačiau terpę, kuri neleidžia tinkamai numalšinti jų troškulio. Taigi mes nusprendėme išbandyti savo jėgas akvakultūros srityje, kad gautume gaivių įžvalgų apie PG ir įvairias susijusias sritis.

Kodėl klausi? Na, visų pirma, mes manėme, kad tai yra įdomi problema. Antra, mes išgirdome (ir suderinome) tyrėjų kankinimus, išsigandusius dėl jų nesugebėjimo suspėti su progresu, net ir ezoteriškiausiuose PG poskyriuose. Dažnai tyrėjui reikia paskirstyti laiką skaitymui, kodavimui, administravimui, mokymui ir pan. Ir kartais, kai reikia parašyti dokumentą iki nustatyto termino, autoriai kaltai pripažįsta, kad neskaito jokių naujų darbų galbūt mėnesius per laiko, kol jie ruošiasi pateikimui.

Didžioji dalis mokslo žinių skleidžiama vienu pagrindiniu formatu: moksliniais darbais. Visai neseniai viešosios internetinės saugyklos, leidžiančios cituoti, kaip „ArXiv“, tapo plačiai priimtu metodu greitai skelbti mokslinį turinį (žr. Yann LeCun tviterį). Straipsniai tebėra svarbiausi tam, kaip mes perduodame žinias mokslo srityje - tai paradigma, kuri dar turi prasmingai pasikeisti. Šie straipsniai priimami į žurnalus ir konferencijas arba tiesiog tampa populiarūs vien iš socialinės žiniasklaidos. Šiuo metu „ArXiv“ yra didžioji dauguma AI esančių dokumentų, dar prieš pradedant tarpusavio vertinimą.
Vienu sakiniu mūsų tikslas yra:
Automatiškai modeliuoti ir distiliuoti žinias AI viduje

Šis tikslas yra didelis, neaiškus ir puikiai tinka darbui, kurį norėtume atlikti per ateinančius kelerius metus. Tai, be abejo, apima darbą, kurį rankomis atlikome ankstesniuose dviejuose apklausos leidiniuose: Metai kompiuterio matyme ir Multimodaliniai metodai. Leidiniai, kurie, rašydami mus, privertė sukramtyti ir pabandyti pridėti geriausius ir naujausius šiuolaikinius (SOTA) dokumentus šiuose poskirsniuose, kol supratome, kokia tai beprasmiška.

Stulbinantis AI progreso monstras negailestingai veržiasi į priekį, nes desperatiškai bandėme suvirškinti, kiekybiškai įvertinti ir parašyti apie jo nuotykius. Tačiau „AI Distillery“ tikslas yra išplėsti savo požiūrį ir spręsti mokslinius tyrimus kitu kampu - mes atkreiptume jūsų žvilgsnį į žodį automatiškai.

Gal atėjo laikas pritaikyti AI AI ir automatizuoti šios srities žinių kaupimą ir apibendrinimą? Mes žinome, kad yra daug nuostabių šaltinių, skirtų AI tyrimams, pavyzdžiui, distill.pub, tačiau tokių išteklių kaupimas, redagavimas ir kūrybinis procesas užima daug laiko. Ar yra dar vienas būdas įžvalgas kurti pasyviai?
Tinklo mokslo sritis yra skirta tyrinėti ir ieškoti ryšių dideliuose šaltinių tinkluose. „Arxiv-sanity“, vienas didžiausių mūsų įkvėpimų, labai padeda žmonėms pagaliau ieškoti ieškomų dokumentų arba rekomenduoti dokumentus, kurie jiems galėtų patikti. Tai paieškos galimybių ir automatiškumo patikrinimas.

Bet mus domina meta tyrimų žaidimas - ką patys mūsų tyrimai gali pasakyti apie PG tyrimus? Kur yra šio universiteto, verslo pradžios ir pramonės puoselėjimas? Kokios sritys bendradarbiauja labiausiai? Kas dabar karšta, o kas - karšta netrukus, atsižvelgiant į mokslinius tyrimus?

Dar nežinome, bet eikime paskui ir galbūt sužinokime kartu.

Problema iš informacijos paieškos (IR) perspektyvos

Skirtingoms situacijoms reikia skirtingų informacijos gavimo būdų. Tiriamąją paiešką sunku atlikti standartinėse IR sistemose, nes terminija gali skirtis net ir glaudžiai susijusiose srityse (tinklo analizė ir grafinis neuroninis tinklas). Kaip rasti panašių frazių, nežinant ko ieškote? Kaip rasti naujų jūsų idėjos idėjų GAN dokumentų miške?

Šiuolaikinis natūralių kalbų apdorojimas davė įrankius atlikti tokius tiriamuosius paieškas, mums tereikia juos pritaikyti vertingų šaltinių, tokių kaip ArXiv, duomenims. Todėl mes siekiame kuo greičiau ir kuo tiksliau pateikti aktualiausią, prasmingiausią informaciją. Tokiu būdu tyrėjai ir praktikai bus atleisti nuo varginančios „užklausų inžinerijos“, kad galėtų rasti reikiamą informaciją iš didelio dokumentų rinkinio.

Duomenų rinkinio kūrimas

Į „ArXiv“ per mėnesį įtrauktų dokumentų skaičius nuo 2014 m. 2018 m. „ArXiv“ per mėnesį pirmiau minėtose srityse buvo išleista daugiau nei 1000 straipsnių. Kiekvieną mėnesį, išskyrus sausį. Lapkritį buvo išleista daugiau nei 2000 dokumentų.

Kaip kilmingo tikslo išeities tašką mes panaudojome „arxiv-sanity“ kodų bazę (sukūrė Andrej Karpathy), kad surinktume ~ 50 000 popierių iš „ArXiv“ API, išleistų nuo 2014 m. Ir kurie buvo cs laukuose. [CV | CL | LG | AI | NE] arba stat.ML. Kudos į abi šias sistemas, nes tokie neįtikėtini atvirojo kodo ištekliai mus nuveda į tašką, kuriame kiekvienas gali naudotis šiomis žiniomis. Tačiau atsirado bent vienas mažas išoriškumas:

Kaip rasti tai, ko mums reikia, jei yra tiek daug [prakeiktų] dokumentų?

Na, galbūt yra būdas vizualizuoti senus ir naujus dokumentus, susijusius su jais. Tai yra, ne tik pats polaukis, bet ir įvairūs lizdai, kuriuose jis gyvena. Tyrimas tampa lengvesnis, atradimas ir naršymas yra nepaprastai svarbūs, pirmiausia žinant, kur yra jūsų ir žinių erdvė, kur esate.

Teksto korpuso išgryninimas

~ 50000 dokumentų buvo suskirstyti naudojant pdf2text. Pašalinome raktinius žodžius (pvz., „A“, „“ “,„ iš “) ir žetonus, kurie kelis kartus rodomi mažiau nei riba (pvz., 5 arba 30 - skiriasi kiekvienam metodui). Įprasti įdėjimai, kuriuos mes norėtume išmokti, yra paplitę didieji („giluminiai mokymai“) ir trigramai („konvoliucijos_neuroniniai tinklai“), tačiau kuriant n-gramus kyla problema dėl kombinatorinio sprogimo.

Paprasčiau tariant, mes norėtume vengti mokytis įterpti tokius dviračių gramus kaip „and_the“ ir „this_paper“, kurių yra tūkstančiai. Nes, dar paprasčiau, jie neteikia jokios vertės PG tyrimų kontekste. Jie paprastai apibūdina tautų kalbą.
Vietoj to, mes rankiniu būdu apibrėžėme svarbų sąvokų rinkinį iš didesnio įprastų n-gramų rinkinio - „pasikartojantys neuroniniai tinklai“, „palaikymo vektoriaus aparatas“ ir kt. Pirmiausia mes randame šias sąvokas tekste ir jas pakeičiame. su koncepcijos žetonais (convolutional_neural_networks, support_vector_machine).

AI spirito varykla: internetinė programa, skirta tyrinėti AI tyrimus

Mes sukūrėme žiniatinklio programą, kurią galite rasti svetainėje ai-distillery.io, kurioje parodysime daugumą rezultatų, įrankių, valdiklių, įžvalgų, schemų ir dar daugiau. Naudojant žiniatinklio programą galima ištirti kai kuriuos mūsų apmokytų modelių duomenis, kuriuos surinkome, taip pat kiekvienam leisti tyrinėti susijusias sąvokas, rasti panašius dokumentus arba gauti kiekvieno iš jų apžvalgą kartu su tendencijomis ir sekti jų pažangą bėgant laikui. Iš viso šiuo metu yra 6 puslapiai, ir mes planuojame tai daug atnaujinti per ateinančius mėnesius. Šitie yra:

Popieriaus paieška (AI spirito varykla)

Popieriaus paieška: panaši savo funkcionalumu kaip „arxiv-sanity-preserver“, tačiau norėdami daugiau lankstumo ir mastelio, naudojame „Whoosh“ paieškos biblioteką. Išmeskite užklausą ir raskite tinkamiausius šios užklausos dokumentus.

Popieriaus artumas (AI spirito varykla)

Žodžių įterpimo artumas: raskite semantiškai panašius žodžius, pvz. „CNN“ yra artimas „convnet“, o „RNN“ yra artimas „LSTM“

Popieriaus įterpimo artumas: raskite panašius popierius, pvz. „AlexNet“ popierius gali būti artimas „GoogLeNet“ popieriukui arba apskritai, tame pačiame lauke esantys dokumentai bus linkę būti arčiau nei atskiri laukai.

Vizualizacijų įdėjimas (AI spirito varykla)

Žodžių įdėjimo vizualizacija: 2D T-SNE diagrama, parodanti, kokie žodžiai yra arti vienas kito įterpimo erdvėje, naudojant žodžių įterpimo būdus: Word2vec ir fastText

Popieriaus įterpimo vizualizacija: dar viena T-SNE diagrama, bet skirta paties popieriaus įdėjimo vietos vizualizavimui ir mūsų dviem pasirinktais įterpimo būdais yra LSA ir doc2vec.

Diagramos ir papildomos įžvalgos: mums įdomios diagramos ir įžvalgos, kurias sukūrėme savo kelionės metu, pvz. svarbiausi autoriai, geriausi darbai, per mėnesį išleistų straipsnių skaičius ir kt.
Kai kurių diagramų ir įžvalgų pavyzdys, kurias mūsų sistema gali gaminti automatiškai iš „ArXiv“ popieriaus korpuso. „GAN“ egzistavimas laikraščiuose, daugiausiai publikuota tema, cituojami autoriai ir kt.

Suapvalinta

Mes naudojame geriausius ginklus, norėdami sutramdyti AI žvėris, t. Y. Su Flask, ReactJS, D3.js, ChartJS ir Whoosh. Turėjome smagią kelionę, kai apsikeitėme iš „Heroku“ (per mažai RAM) į „Google Compute Engine“ (per brangu, jei per mažai RAM), kol galiausiai priglobėme dabartinę programos versiją kartu su „Hertzner“.

Pradėjome AI distiliavimo gamyklą dviem „popieriaus įdėjimo“ metodais, vėlyvosios semantinės analizės (LSA) ir „doc2vec“ - ir dviem žodžių įterpimo algoritmais, „word2vec“ ir „fastText“. Kitoje įmokoje mes skaitytojus apžiūrėsime šiuos įdėjimus ir visus mūsų sukurtus puslapius. Kol kas nedvejodami tyrinėkite šią svetainę (ai- distillery.io). Mūsų eksperimento kodą galite rasti „AI Distillery GitHub“ repote, kur mes panaudojome tokius principus kaip „gensim“, „sklearn“ ir „spacy“, kad atliktume kai kuriuos iš aukščiau paminėtų dalykų.

Kaip visada, ačiū, kad skyrėte laiko skaityti mūsų darbus. Ir prašau, apkabink ir pasidalyk „MTank“ darbais su visais, kurie, jūsų manymu, gali patikti. Jūsų palaikymas skatina mus visus motyvuoti išbandyti naujus dalykus ir du centus prisidėti prie PG bendruomenės. Taigi šiuo atveju nelaikykite savo plojimų, jei jums patinka tai, ką mes darome!

Jei norite bendradarbiauti su mumis siekdami padaryti AI pažangą skaidresnį ar turite komentarų apie bet kurią mūsų tyrimų ar žiniatinklio programos dalį, esame atviri pasiūlymams, todėl drąsiai susisiekite su jais komentarų skiltyje arba el. paštu (info@themtank.com). Stebėkite netrukus pasirodysiančią šios serijos 2 dalį ir naujos tinklaraščių serijos, kurią paminėjome savo vizijų tinklaraštyje, pradžią (Nuo taurių iki sąmonės).