VoiceXML

VoiceXML ( VXML ) akronym for V oice og X tensible M arkup L anguage, definert av World Wide Web Consortium (W3C), representerer standarden i XML -format for oppretting av interaktive dialoger mellom en person og en datamaskin.

VoiceXML-plattformen fungerer på samme måte som en HTML -nettleser : VoiceXML-dokumenter lastes ned fra en webserver og tolkes og transformeres til stemme av en Voice Gateway som ligger på sluttbrukerens datamaskin.

Applikasjoner

VoiceXML er et språk designet for å lage talepresentasjons- og interaksjonssystemer, kalt Voice User Interface (VUI, på italiensk stemmebrukergrensesnitt ), ved å bruke telefonlinjen for datatilgang.

VoiceXML tillater å lage menneske-maskin-dialoglogikker i naturlig språk gjennom integrasjon med forskjellige teknologier, inkludert:

VoiceXML-språket er uttrykkelig utviklet for nettorienterte operasjoner og applikasjoner: dette gjør at VoiceXML-dokumenter kan produseres dynamisk og interaktivt med brukeren, gjennom serversidespråk (ASP, ASP.NET, JSP, PHP, etc.), som det skjer for nettsider.

Funksjoner

Noen av funksjonene til VoiceXML-språket er:

Slik fungerer det

Brukeren kobler seg til via sin egen telefon (uten å måtte bruke en bestemt nettleser eller plugin) til en Voice Gateway gjennom det ordinære telefonnettet .

Voice Gateway utfører følgende funksjoner:

Når forespørslene fra Voice Gateway er mottatt, gjør webserveren VoiceXML-dokumentene tilgjengelige for tolkning og konvertering til tale til sluttbrukeren.

Eksempel

Eksempel på et VoiceXML-dokument:

<? xml-versjon = "1.0"-koding = "UTF-8"?> <vxml- versjon = "2.0" xmlns = "http://www.w3.org/2001/vxml" > <form id = "primo_form" > <blokk> <spørring> Hei Verden! </prompt> </block> </form> </vxml>

Voice Gateway-tolkningen av denne VoiceXML-siden gjør at ordene " Hello World! " uttales via et integrert talesyntesesystem.

Eksempler på mulige bruksområder er: e-post, offentlig nytteinformasjon (vær, trafikk ...), aksjekurser, kundesenter, lagerstyring, fritidstjenester (horoskoper, etc.).

Språkhistorie

Phone Markup Language (PML) er et tidlig markeringsspråk for stemmeinteraksjoner over telefon, utviklet av AT & Ts Bell Laboratories . Utviklingen fortsatte selv da Bell Laboratories ble skilt ut fra AT&T og integrert i Lucent Technology .

I mellomtiden utviklet IBM og Motorola også sine egne talemarkeringsspråk, kalt henholdsvis SpeechML og VoxML.

I mars 1999 bestemte IBM, AT&T, Lucent og Motorola seg for å forene utviklingen på et felles grunnlag, og fødte VoiceXML Forum som i august 1999 begynte spesifikasjonen av VoiceXML-språket, og publiserte versjon 1.0 i mars 2000 . Det nye markeringsspråket, også takket være likhetene med HTML, ble umiddelbart utbredt. Den italienske hovedaktøren i aktivitetene til forumet var CSLT .

I mars 2004 ble versjon 2.0 av VoiceXML en offisiell anbefaling fra W3C [1] som tar seg av utviklingen og utviklingen.

I juni 2007 ga W3C ut versjon 2.1 av VoiceXML [2] , som har en rekke utvidelser som sikrer bakoverkompatibilitet med den forrige versjonen.

I juni 2009 slapp W3C det andre utkastet til versjonen av 3.0-utgaven av VoiceXML [3] , som inkluderer ytterligere utvidelser inkludert stemmeidentifikasjon og verifisering og videoopptak og avspilling.

Relaterte standarder

Som en del av aktivitetene knyttet til taleapplikasjoner, har W3C ytterligere separert kontrollen av talegrensesnitt ved å definere forskjellige markup-språk, hver orientert mot spesifikke aspekter.

SRGS og SISR

Speech Recognition Grammar Specification (SRGS) er språket som brukes til å skrive grammatikkene (reglene) som brukes av talegjenkjenneren for å gjenkjenne brukerinndata.

Semantisk tolkning for talegjenkjenning (SISR) brukes til å kontrollere den semantiske tolkningen, ved å sette inn passende instruksjoner i grammatikkene, for å manipulere resultatene oppnådd ved talegjenkjenning i henhold til applikasjonskonteksten.

PLS

Pronunciation Lexicon Specification (PLS) brukes av både talegjenkjenneren og synthesizeren for å kontrollere korrekt uttale av et ord, spesielt i flerspråklige applikasjoner.

SSML

Speech Synthesis Markup Language ( SSML ) brukes til å forbedre prosodien til setninger ved å kontrollere aspekter som betoning, vokal klang, lydstyrke og lesehastighet.

CCXML

Call Control eXensible Markup Language (CCXML) brukes til å administrere telefonsamtaler. Den lar deg akseptere et innkommende anrop, foreta et utgående anrop, avslutte en samtale og koble til flere konferansesamtaler.

Merknader

  1. ^ Voice Extensible Markup Language ( VoiceXML ) versjon 2.0 W3C-anbefaling, 16. mars 2004
  2. ^ Voice Extensible Markup Language (VoiceXML) 2.1 W3C- anbefaling , 19. juni 2007
  3. ^ Voice Extensible Markup Language (VoiceXML) 3.0 W3C Working Draft , 2. juni 2009