VoiceXML ( VXML ) akronym for V oice og X tensible M arkup L anguage, definert av World Wide Web Consortium (W3C), representerer standarden i XML -format for oppretting av interaktive dialoger mellom en person og en datamaskin.
VoiceXML-plattformen fungerer på samme måte som en HTML -nettleser : VoiceXML-dokumenter lastes ned fra en webserver og tolkes og transformeres til stemme av en Voice Gateway som ligger på sluttbrukerens datamaskin.
VoiceXML er et språk designet for å lage talepresentasjons- og interaksjonssystemer, kalt Voice User Interface (VUI, på italiensk stemmebrukergrensesnitt ), ved å bruke telefonlinjen for datatilgang.
VoiceXML tillater å lage menneske-maskin-dialoglogikker i naturlig språk gjennom integrasjon med forskjellige teknologier, inkludert:
VoiceXML-språket er uttrykkelig utviklet for nettorienterte operasjoner og applikasjoner: dette gjør at VoiceXML-dokumenter kan produseres dynamisk og interaktivt med brukeren, gjennom serversidespråk (ASP, ASP.NET, JSP, PHP, etc.), som det skjer for nettsider.
Noen av funksjonene til VoiceXML-språket er:
Brukeren kobler seg til via sin egen telefon (uten å måtte bruke en bestemt nettleser eller plugin) til en Voice Gateway gjennom det ordinære telefonnettet .
Voice Gateway utfører følgende funksjoner:
Når forespørslene fra Voice Gateway er mottatt, gjør webserveren VoiceXML-dokumentene tilgjengelige for tolkning og konvertering til tale til sluttbrukeren.
Eksempel på et VoiceXML-dokument:
<? xml-versjon = "1.0"-koding = "UTF-8"?> <vxml- versjon = "2.0" xmlns = "http://www.w3.org/2001/vxml" > <form id = "primo_form" > <blokk> <spørring> Hei Verden! </prompt> </block> </form> </vxml>Voice Gateway-tolkningen av denne VoiceXML-siden gjør at ordene " Hello World! " uttales via et integrert talesyntesesystem.
Eksempler på mulige bruksområder er: e-post, offentlig nytteinformasjon (vær, trafikk ...), aksjekurser, kundesenter, lagerstyring, fritidstjenester (horoskoper, etc.).
Phone Markup Language (PML) er et tidlig markeringsspråk for stemmeinteraksjoner over telefon, utviklet av AT & Ts Bell Laboratories . Utviklingen fortsatte selv da Bell Laboratories ble skilt ut fra AT&T og integrert i Lucent Technology .
I mellomtiden utviklet IBM og Motorola også sine egne talemarkeringsspråk, kalt henholdsvis SpeechML og VoxML.
I mars 1999 bestemte IBM, AT&T, Lucent og Motorola seg for å forene utviklingen på et felles grunnlag, og fødte VoiceXML Forum som i august 1999 begynte spesifikasjonen av VoiceXML-språket, og publiserte versjon 1.0 i mars 2000 . Det nye markeringsspråket, også takket være likhetene med HTML, ble umiddelbart utbredt. Den italienske hovedaktøren i aktivitetene til forumet var CSLT .
I mars 2004 ble versjon 2.0 av VoiceXML en offisiell anbefaling fra W3C [1] som tar seg av utviklingen og utviklingen.
I juni 2007 ga W3C ut versjon 2.1 av VoiceXML [2] , som har en rekke utvidelser som sikrer bakoverkompatibilitet med den forrige versjonen.
I juni 2009 slapp W3C det andre utkastet til versjonen av 3.0-utgaven av VoiceXML [3] , som inkluderer ytterligere utvidelser inkludert stemmeidentifikasjon og verifisering og videoopptak og avspilling.
Som en del av aktivitetene knyttet til taleapplikasjoner, har W3C ytterligere separert kontrollen av talegrensesnitt ved å definere forskjellige markup-språk, hver orientert mot spesifikke aspekter.
Speech Recognition Grammar Specification (SRGS) er språket som brukes til å skrive grammatikkene (reglene) som brukes av talegjenkjenneren for å gjenkjenne brukerinndata.
Semantisk tolkning for talegjenkjenning (SISR) brukes til å kontrollere den semantiske tolkningen, ved å sette inn passende instruksjoner i grammatikkene, for å manipulere resultatene oppnådd ved talegjenkjenning i henhold til applikasjonskonteksten.
Pronunciation Lexicon Specification (PLS) brukes av både talegjenkjenneren og synthesizeren for å kontrollere korrekt uttale av et ord, spesielt i flerspråklige applikasjoner.
Speech Synthesis Markup Language ( SSML ) brukes til å forbedre prosodien til setninger ved å kontrollere aspekter som betoning, vokal klang, lydstyrke og lesehastighet.
Call Control eXensible Markup Language (CCXML) brukes til å administrere telefonsamtaler. Den lar deg akseptere et innkommende anrop, foreta et utgående anrop, avslutte en samtale og koble til flere konferansesamtaler.