Stemmegjenkjenning

Talegjenkjenning er prosessen der menneskelig muntlig språk gjenkjennes og deretter behandles gjennom en datamaskin eller mer spesifikt gjennom et spesielt talegjenkjenningssystem.

Stemmegjenkjenningssystemer brukes til automatiserte taleapplikasjoner i forbindelse med telefonapplikasjoner , for eksempel automatiske telefonsentraler , for dikteringssystemer , som lar deg diktere taler til datamaskinen, eller for kontrollsystemer til navigasjonssystemets satellitt eller telefon i bilen via talekommandoer.

Historie

Det første stemmegjenkjenningssystemet så lyset i 1952: det besto av en enhet for gjenkjenning av enkle talte sifre [1] , en annen enhet fra de første årene var IBM Shoebox , utstilt på New York Motor Show i 1964 [2] . På 1960-tallet var noen universitetsforskere innen teknologi for enkeltordgjenkjenning aktive i Italia, som Angelo Raffaele Meo i Torino og andre.

I Italia har imidlertid talegjenkjenningsteknologien blitt studert mye, spesielt av en forskningsgruppe fra CSELT i Torino fra 1979 [3] : fra 1980 begynte senteret studiet av statistiske modeller, med utgangspunkt i studiet av språkets difoner. italiensk og andre europeiske språk. I løpet av 1980-tallet koordinerte CSELT flere europeiske prosjekter på dette feltet og ga i 1990 ut den første italienske boken om toppmoderne (som det også finnes en engelsk versjon av, gjengitt i 2013 av Springer). Etter privatiseringen av Telecom Italia, morselskapet til senteret, ble denne gruppen den nye Loquendo SpA, den største italienske aktøren i sektoren og en av de viktigste i verden.

På begynnelsen av 1990-tallet foreslo SIP en versjon av CSELTs talegjenkjenningstjeneste for 1412-tjenesten (som også brukte CSELTs talesyntese for respons) [3] , i sammenheng med et dialogsystem .

I følge bransjeeksperter ble talegjenkjenning (SR) på begynnelsen av 1990-tallet presentert som et system for å eliminere transkripsjon fullstendig i stedet for å gjøre transkripsjonsprosessen mer effektiv, så det ble ikke umiddelbart akseptert. I tillegg til dette var at teknologien på det tidspunktet fortsatt var i full modenhet.

Den største tekniske begrensningen ved transkripsjon gjennom talegjenkjenning er at karakteren til den narrative diktaten noen ganger er fortolkende og derfor kan kreve en vurdering som kan gis av et menneske, men ennå ikke av et automatisk system. En annen begrensning har vært den enorme mengden tid som kreves av brukeren og/eller systemleverandøren for å trene programvaren av brukeren: imidlertid, de siste årene, krever programvaren rimelig tidkrevende opplæring eller ingen i det hele tatt.

Et skille mellom automatiserte talegjenkjenningssystemer skilles ofte mellom:

Den første applikasjonen i verden av mobiltelefoni dukker opp i 2003 med Nokia 6630 og brukes mer og mer inntil den blir dominerende i 2010 i ulike smarttelefoner , eller gjennom direkte implementeringer i mobiltelefonen eller tredjepartsapplikasjoner.

Programvare

Disse programmene arbeider med adaptive algoritmer av en inferensiell statistisk type, som rekonstruerer språket basert på frekvensen av assosiasjoner mellom ord. De har også et fonetisk vokabular med de grunnleggende uttalene av en rekke ord på det valgte språket, og gjenkjenner dermed også talerens stemmeklang.

Den andre store familien av språkanalysesystemer bruker et domenevokabular bygget av produsenter og av brukeren, for eksempel via ontologier . Talegjenkjenningsprogrammet trenger egentlig ikke å «forstå», men å transkribere det som er sagt. Imidlertid er besittelse av et vokabular ikke bare av enkeltord, men av deres typiske assosiasjoner, skrevet inn av mennesker eller rekonstruert med statistiske midler, til betydelig hjelp for å forbedre kvaliteten på gjenkjennelsen.

Maskinvare

Fra midten av 1980- tallet begynte noen bransjer å produsere mikroprosessorer som spesialiserte seg på talegjenkjenning. I 1986 presenterte det italienske forskningssenteret CSELT fra STET-gruppen på Eusipco 86-konferansen, i Nederland, en VLSI -mikroprosessor for talegjenkjenning uavhengig av høyttaleren for kontinuerlig tale i telefonsektoren: RIPAC (Recognition of Connected PArlato) [4 ] . Denne kretsen ble designet med Elsag og produsert av SGS .

Stemmeskriving

Programmene lar deg diktere dokumenter i et hvilket som helst tekstredigeringsprogram som Notisblokk, Word, OpenOffice eller tekstboksen til e-postprogrammet ditt. De lar deg også bygge stemmemakroer som kommanderer musepilen for å starte datamaskinen på nytt, åpne og lukke filer og programmer, få tilgang til menyer eller et gitt nettsted osv.

Installasjonen krever lesing av en sang foran mikrofonen, for å venne programmet til å gjenkjenne stemmen, som tas opp og analyseres for å bygge ( innstille ) et bibliotek med vokalfiler. Å trene programmet med hensyn til leserens stemme reduserer drastisk feil knyttet til talegjenkjenning.

Senere ber programmet om en liste over Word-dokumenter eller andre formater skrevet av høyttaleren, for å lagre ordforrådet hans.

Treningen kan fortsette når programmet ikke gjenkjenner uttalen av et ord, ved å skrive teksten og ta opp den tilsvarende uttalen slik at programmet lager en stemmefil (som kombinerer lyden og stavemåten til ønsket ord). Alternativt kan ordet kombineres med en sekvens av symboler fra det fonetiske alfabetet.

Andre applikasjoner

Talegjenkjenning, som involverer oversettelse av menneskelig taleinngang til datainnsamlingsinngang og utgang av data til taleutgang, brukes også i optimaliseringen av prosesser knyttet til forsyningskjeden. Når integrert med bærbar PC og trådløst LAN for logistikkapplikasjoner, øker talegjenkjenning dramatisk produktiviteten og datainnsamlingshastigheten for mobile arbeidsløsninger.

Mange applikasjoner er ideelle kandidater for talegjenkjenningsløsninger: lager-/distribusjonsoperasjoner, lagerstyring , kvalitetskontroll, felttjenester, leselys , vann, gass, helsetjenester, etc.

Talegjenkjenning muliggjør multi-tasking som igjen resulterer i en betydelig økning i produktiviteten til disse applikasjonene sammenlignet med papirbaserte eller håndengasjerende løsninger. Med skriftlige systemer, eller de som engasjerer hendene deres, vekselvis 'arbeid' eller 'kommuniserer' brukere. Denne prosessen forsinker operatørenes arbeid og fører til sløsing med tid.

Stemmeløsninger lar deg derimot kommunisere mens du håndterer produkter. Som et resultat kan samme mengde arbeid fullføres på kortere tid.

Talegjenkjenning resulterer i betydelige forbedringer i både produktivitet og datanøyaktighet for operasjoner som produktplukking på lageret (som står for mer enn 40 % av arbeidskostnadene og mer enn 45 % av feilene i lagerdriften).

Standardisering

W3C har definert standarder for taleteknologi, som er VoiceXML (fra desember 2007, versjon 2.1) og CCXML . For spesifikasjonen av vokalgrammatikk introduserte den Speech Recognition Grammar Specification , for talesyntesen SSML 1.0 ( Speech Synthesis Markup Language ), for uttalen PLS 1.0 ( Pronunciation Lexicon Specification ), for den semantiske tolkningen av resultatene SISR 1.0 Interpret ( Semantic Interpret ) for talegjenkjenning ).

Merknader

  1. ^ Davies, KH, Biddulph, R. og Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits , J. Acoust. Soc. Am. 24 (6) s. 637 - 642
  2. ^ IBM skoeske
  3. ^ a b Billi, R., Canavesio, F., Ciaramella, A., & Nebbia, L. (1994, september). Interaktiv stemmeteknologi på jobben: CSELT-opplevelsen. I Interactive Voice Technology for Telecommunications Applications, 1994., Second IEEE Workshop on (s. 43-48). IEEE.
  4. ^ "A Custom Integrated Circuit with Dynamic Time Warping for Speech Recognition" av R. Cecinati, A. Ciaramella, G. Venuti, C. Vincenzi, CSELT Technical Reports, Vol. 15. N.1., februar 1987 - Opptrykk av saksbehandlingen til Eusipco 86 - Haag - september 1986

Bibliografi

Relaterte elementer

Eksterne lenker