Trumpa ASR istorija: automatinis kalbos atpažinimas

Tai yra pirmasis įrašas serijoje apie automatinį kalbos atpažinimą, pagrindinę technologiją, leidžiančią aprašyti. Mes ištirsime dabartinę pramonės būklę, kur ji eina, ir šia įmoka, kur ji buvo.

„Descript“ didžiuojasi, kad yra naujos kartos kūrybinės programinės įrangos dalis, kurią įgalino naujausi automatinio kalbos atpažinimo (ASR) pasiekimai. Tai jaudinantis laikas: neseniai technologija peržengė ribą, leidžiančią prekiauti savo ilgalaikiais pažadais už puikų naudingumą, ir ji tik tobulėja.

Ši akimirka praėjo ilgą laiką. Kalbos atpažinimo technologija buvo kuriama daugiau nei pusę amžiaus, išgyvenant kelis intensyvaus pažadėjimo ir nusivylimo laikotarpius. Taigi, kas pasikeitė, kad ASR taptų perspektyvus komercinėse programose? Ir ką tiksliai galėjo įgyvendinti šios sistemos, dar ilgai, kai kas nors iš mūsų buvo girdėjęs apie „Siri“?

Kalbos atpažinimo istorija yra tiek apie skirtingų požiūrių taikymą, kiek apie neapdorotų technologijų plėtrą, nors jie yra neatsiejamai susiję. Per kelis dešimtmečius tyrinėtojai sugalvojo daugybę būdų, kaip išskaidyti kalbą: pagal garsus, pagal struktūrą ir pagal statistiką.

Ankstyvos dienos

Žmogaus pomėgis atpažinti ir susintetinti kalbą kilo šimtus metų (bent jau!) - tačiau tik mūsų XX amžiaus viduryje mūsų protėviai sukūrė kažką atpažįstamo kaip ASR.

1961 m. - „IBM Shoebox“

Tarp ankstyviausių projektų buvo „skaitmenų atpažinimo priemonė“, vadinama „Audrey“, kurią sukūrė „Bell Laboratories“ tyrėjai 1952 m. Audrey galėjo atpažinti šnekamuosius skaitmeninius skaitmenis ieškodamas garso pirštų atspaudų, vadinamų formantais¹ - distiliuotų garsų esencijomis.

Septintajame dešimtmetyje IBM sukūrė „Shoebox“ - sistemą, galinčią atpažinti skaitmenis ir aritmetines komandas, tokias kaip „plius“ ir „total“. Dar geriau, jei „Shoebox“ galėtų perduoti matematikos problemą pridėjimo mašinai, kuri apskaičiuos ir atsispausdins atsakymą².

Tuo tarpu Japonijos tyrėjai sukūrė aparatūrą, kuri atpažintų sudedamąsias kalbos dalis, pavyzdžiui, balses; kitos sistemos galėtų įvertinti kalbos struktūrą, kad išsiaiškintų, kur gali baigtis žodis. Anglijos universiteto koledžo komanda galėjo atpažinti 4 balses ir 9 priebalsius analizuodami fonemas, kalbos diskrečius garsus¹.

Bet nors laukas žengė laipsniškus žingsnius į priekį, nebūtinai buvo aišku, kur kelias eina. Ir tada: nelaimė.

1969 m. Spalio mėn. - Amerikos akustinės draugijos žurnalas

Auskarų užšalimas

Posūkio taškas įvyko laiško, kurį 1969 m. Parašė Johnas R. Pierce'as, forma.

Pierce jau seniai įsitvirtino kaip tarptautinio pripažinimo inžinierius; be kitų pasiekimų, jis sukūrė žodį tranzistorius (dabar visur žinomas inžinerijoje) ir padėjo paleisti „Echo I“, pirmąjį ryšių palydovą. Iki 1969 m. Jis buvo „Bell Labs“, kuris daug investavo į kalbos atpažinimo plėtrą, vykdomasis direktorius.

Atvirame laiške, publikuotame „The Acoustical Society of America“ žurnale, Pierce išdėstė savo susirūpinimą. Cituodamas „sodrią“ finansinę aplinką po Antrojo pasaulinio karo ir „Sputnik“ bei jos atskaitomybės stoką, Pierce'as pripažino lauką dėl mokslinio griežtumo stokos tvirtindamas, kad vyksta per daug laukinių eksperimentų:

„Mes visi tikime, kad kalbos mokslas yra įmanomas, nepaisant to, kad trūksta žmonių, kurie elgiasi kaip mokslininkai, ir rezultatų, panašių į mokslą.“ - J. R. Pierce, 1969 m.

Pierce'as įdėjo darbdavio pinigus ten, kur buvo jo burna: jis niekino Bello ASR programas, kurios nebus atnaujintos, kol jis neatsistatydins 1971 m.

Pažanga tęsiasi

Laimei, kitur buvo daugiau optimizmo. Aštuntojo dešimtmečio pradžioje JAV gynybos departamento ARPA (agentūra, dabar žinoma kaip DARPA) finansavo penkerių metų programą, vadinamą „Speech Understanding Research“. Tai paskatino sukurti keletą naujų ASR sistemų, iš kurių sėkmingiausia buvo Carnegie Mellon universiteto „Harpy“, kuri iki 1976 m. Galėjo atpažinti šiek tiek daugiau nei 1000 žodžių.

Tuo tarpu IBM ir „AT&T Bell Bell“ laboratorijos pastangomis pastūmėjo technologiją į galimas komercines programas. IBM teikė pirmenybę kalbos transkripcijai biuro korespondencijos kontekste, o Bell rūpinosi „komandų ir valdymo“ scenarijais: rinkimais balsu pirmtakais ir automatiniais telefonų medžiais, kuriuos mes šiandien žinome¹.

Nepaisant šios pažangos, aštuntojo dešimtmečio pabaigoje ASR dar buvo ilgas būdas būti gyvybingais bet kokiais, išskyrus labai specifinius, naudojimo atvejus.

Tai skauda ir mano galvą.

Dešimtasis dešimtmetis: Markovas ir dar daugiau

Dešimtojo dešimtmečio viduryje populiarėjant paslėptiems Markovo modeliams (HMM), esminis posūkis įvyko. Šis požiūris reikšmingai pakeitė „nuo paprastų šablonų atpažinimo metodų, pagrįstų šablonais ir spektrinio atstumo matavimu, prie statistinio kalbos apdorojimo metodo“ ⁴, kuris perteikė tikslumo šuolį į priekį.

Didelė dalis kalbos atpažinimo sistemų patobulinimų nuo septintojo dešimtmečio pabaigos atsirado dėl šio statistinio požiūrio galios kartu su kompiuterinių technologijų pažanga, būtina HMM įgyvendinti. “

HMM pramonę užklupo audra, tačiau jie nebuvo sėkmingi per naktį. Jimas Bakeris pirmą kartą pritaikė juos kalbos atpažinimui aštuntojo dešimtmečio pradžioje CMU, o pačius modelius aprašė Leonardas E. Baumas šeštajame dešimtmetyje. Tik 1980 m., Kai Džekas Fergusonas Gynybos analizės institute skaitė šviečiamąsias paskaitas, ši technika pradėjo plačiau sklisti⁴.

HMM sėkmė patvirtino Frederiko Jelineko darbą IBM „Watson“ tyrimų centre, kuris nuo aštuntojo dešimtmečio pradžios pasisakė už statistinių modelių naudojimą kalbai aiškinti, o ne bandė priversti kompiuterius imituoti tai, kaip žmonės virškina kalbą: per prasmę. sintaksė ir gramatika (tuo metu bendras požiūris). Kaip vėliau sakė Jelinekas: „Lėktuvai nelenkia sparnais.“ ⁹

Šie duomenimis pagrįsti metodai taip pat palengvino pažangą, kuri buvo tiek susijusi su pramonės bendradarbiavimu ir atskaitomybe, tiek su individualiais „eureka“ momentais. Didėjant statistinių modelių populiarumui, ASR laukas pradėjo judėti aplink testų rinkinį, kuris suteiktų standartizuotą etaloną, su kuriuo būtų galima palyginti. Tai dar labiau paskatino išleisti bendri duomenų rinkiniai: dideli duomenų kaupikliai, kuriuos tyrėjai galėjo naudoti mokydami ir išbandydami savo modelius.

Kitaip tariant, pagaliau buvo (netobulas) būdas įvertinti ir palyginti sėkmę.

1990 m. Lapkritis, „Infoworld“

Vartotojų prieinamumas - 90-tieji metai

Geriau ir blogiau, devintajame dešimtmetyje vartotojai buvo supažindinti su automatiniu kalbos atpažinimu tokia forma, kokią mes šiandien atpažįstame. Drakono diktatas, pradėtas 1990 m. Už stulbinamus 9000 USD, priskaičiuojamas 80 000 žodžių žodynas ir tokios savybės kaip natūralios kalbos apdorojimas (žr. Aukščiau esantį „Infoworld“ straipsnį).

Šios priemonės užtruko daug laiko (straipsnis teigia kitaip, tačiau „Dragon“ tapo žinomas dėl to, kad paragino vartotojus „išmokyti“ diktavimo programinę įrangą savo balsu). Ir reikėjo, kad vartotojai kalbėtų nepriekaištingai: Drakonas iš pradžių galėjo atpažinti tik 30–40 žodžių per minutę; žmonės paprastai kalba maždaug keturis kartus greičiau.

Bet tai buvo pakankamai gerai, kad „Dragon“ išaugo į verslą, kuriame dirba šimtai darbuotojų, o klientai aprėpia sveikatos priežiūros, įstatymų ir kitus dalykus. Iki 1997 m. Kompanija pristatė „Dragon NaturallySpeaking“, kuri galėjo fiksuoti žodžius sklandesniu tempu - ir už 150 USD žymiai mažesnę kainą.

Nepaisant to, galbūt buvo tiek grumtynių, kiek džiaugsmo šūksnių: tiek, kiek šiandien ASR vertina vartotojus skeptiškai, dalis kredito turėtų būti skiriama pernelyg entuziastingam šių ankstyvųjų produktų rinkodarai. Tačiau be pramonės pionierių Džeimso ir Janet Baker (kurie 1982 m. Įkūrė „Dragon Systems“) pastangų, ASR gamyba galėjo užtrukti daug ilgiau.

1993 m. Lapkričio mėn., IEEE ryšių žurnalas

Kur kalba atpažįstama - tęsinys

Praėjus 25 metams po to, kai buvo paskelbtas J. R. Pierce'o straipsnis, IEEE paskelbė tęsinį pavadinimu „Kur kalbėjimo atpažinimas: ateinantys 25 metai“, kurio autoriai buvo du „Bell Laboratories“ (tos pačios įstaigos, kurioje dirbo Pierce) vyresnieji darbuotojai.

Pastarajame straipsnyje apžvelgiama pramonės padėtis maždaug 1993 m., Kai buvo paskelbtas straipsnis, ir tai tarsi savotiškas paneigimas originalo pesimizmui. Tarp jo kelionių:

  • Svarbiausia Pierce laiško problema buvo jo prielaida, kad norint, kad kalbos atpažinimas būtų naudingas, kompiuteriai turės suprasti, ką reiškia žodžiai. Atsižvelgiant į tuometinę technologiją, tai buvo visiškai neįmanoma.
  • Tam tikra prasme Pierce'as buvo teisus: iki 1993 m. Kompiuteriai menkai suprato kalbą, o 2018 m. Jie vis dar menkai supranta prasmę.
  • Pierce'o klaida buvo ta, kad jis nenumatė daugybės kalbų atpažinimo būdų, net jei kompiuteris nežino, ką žodžiai iš tikrųjų reiškia.

„Whhere“ tęsinys baigiasi prognoze, numatančia, kur bus ASR po 1993 m. Skirsnis yra sudrėkintais gyvatvoriais („Mes užtikrintai prognozuojame, kad bent vienas iš šių aštuonių prognozių pasirodys neteisingas“), bet bet tai vis tiek intriguoja. Tarp jų aštuonių prognozių:

  • „Iki 2000 m. Daugiau žmonių nuotolinę informaciją gaus naudodamiesi balso dialogais, o ne įvesdami komandas kompiuterių klaviatūrose, kad pasiektumėte nuotolines duomenų bazes.“
  • „Žmonės išmoks pakeisti savo kalbos įpročius naudodamiesi kalbos atpažinimo priemonėmis, lygiai taip pat, kaip jie pakeitė savo kalbėjimo elgesį palikdami žinutes atsakikliuose. Nors žmonės išmoks naudotis šia technologija, žmonės visada skųsis kalbos atpažinimo priemonėmis “.

Tamsusis arklys

Būsimoje šios serijos dalyje mes ištirsime naujausius pokyčius ir dabartinę automatinio kalbos atpažinimo būklę. Įspėjimas apie spoilerį: pagrindinius vaidmenis atliko neuroniniai tinklai.

Bet neuroniniai tinklai iš tikrųjų yra seni, kaip ir dauguma čia aprašytų metodų - jie buvo įdiegti šeštajame dešimtmetyje¹! Tik šiuolaikinės eros skaičiavimo galia (kartu su daug didesniais duomenų rinkiniais) pakeitė kraštovaizdį.

Bet mes einame į priekį patys. Sekite savo naująjį pranešimą apie automatinį kalbos atpažinimą, laikydamiesi aprašymo laikmenose, „Twitter“ ar „Facebook“.

Laiko juosta per „Juang & Rabiner¹“

Pastaba: ASR istorija pripildyta daugiau bendraautorių ir naujovių, nei mes galime išsamiai aprašyti šiame kūrinyje; apžvelgėme keletą pagrindinių etapų ir pateikėme nuorodas į tolesnį skaitymą toliau. Jei praleidome ką nors gyvybiškai svarbaus, praneškite mums!

Papildoma literatūra

Čia yra šaltiniai, kurie buvo naudingi rašant šį kūrinį, kai kurie iš jų išsamiau aprašomi:

  1. Automatinis kalbos atpažinimas - trumpa technologijos plėtros istorija. B.H. Juangas ir Lawrence'as R. Rabineris. Jei jus domina išsamesnė ASR istorija, tai yra puikus šaltinis.
  2. „Shoebox“ - „IBM History Exhibits“

3. Kur yra kalbos atpažinimas? - J. R. Pierce'as

4. Iš pirmų rankų: paslėptas Markovo modelis - Lawrence R. Rabiner

5. Kur kalbėjimo atpažinimas: ateinantys 25 metai - D.B. Roe ir J.G. Vilponas

6. Kalbos ir balso atpažinimo laiko juosta - Vikipedija

7. Kalbos atpažinimas - Vikipedija

8. „Fortūnos“ straipsnis apie „Drakoną, natūraliai kalbantį“, 1998 m. - Shaifali Puri

9. Frederickas Jelinekas, kuris davė mašinai raktą į žmogaus kalbą, mirė sulaukęs 77 metų - Steve'as Lohras

10. Penkiasdešimt kalbėjimo ir kalbėtojų pripažinimo pažangumo metų - Sadaoki Furui

Ačiū Arlo Faria ir Adam Janin iš Remeeting, kurie pateikė vertingą istorinį kontekstą.