Microsoft ponuja razpoznavo in sintezo govora v slovenščini
Microsoft je posodobil spletno storitev Azure Speech Services, ki zdaj podpira razpoznavo in sintezo govora v večini jezikov Evropske unije, med katerimi tudi slovenščino. Azure Speech Services s pomočjo algoritmov umetne inteligence Neural TTS nudi tri različne storitve, ki utegnejo igrati pomembno vlogo pri razvoju nove generacije programov z interakcijo v naravnem (govorjenem) jeziku.
Prva storitev omogoča pretvorbo jezika v slovenski govorjeni jezik (Text-to-Speech). Trenutno so za slovenščino na voljo trije govorni vzorci (en ženski, dva moška), ki nudijo izredno kvalitetno branje besedila, kjer je skoraj nemogoče zaznati razliko med strojnim govorjenjem in človeškim govorom profesionalnega govorca. Delovanje je možno preizkusiti na tej povezavi.
Druga storitev je najbrž najbolj zanimiva in težko pričakovana: omogoča namreč pretvorbo govora v besedilo v slovenščini (Speech-to-Text). Storitev cilja na aplikacije s podporo za glasovno upravljanje, prepisovanje pogovorov in analizo klicev v centrih za podporo strankam. Na spletni strani Azure Speech Services demo program še ne podpira slovenščine, tako da na preizkus kakovosti razpoznave še čakamo.
Tretja storitev je prav tako zanimiva, saj omogoča neposredno prevajanje govora iz izvornega v enega izmed 70 podprtih jezikov. Tudi tu slovenščina še ni možna izbira za vir govora, je pa možno preizkusiti prevod iz poljubnega jezika v slovenščino, kjer so rezultati spodbudno dobri.
Storitve Azure Speech Services so na voljo predvsem razvijalcem programske opreme, ki lahko podporo za različne glasovne storitve vgradijo v svoje programe. Temu primerna je tudi cenovna politika Microsofta, ki storitev nudi kot plačljivo storitev v oblaku, cena pa je odvisna od količine besedila oziroma trajanja zvočnih posnetkov.
Za preizkus storitev Microsoft nudi celo brezplačni nivo storitev. Razpoznavo govora ne bomo plačali za posnetke dolžine do 5 ur na mesec. Enako velja za strojno prevajanje govora. Pri sintezi pa lahko računamo na brezplačno kvoto 5 milijonov znakov na mesec v standardnem načinu oziroma pol milijona, če uporabimo kvalitetnejši algoritem Neural TTS.
Od tu dalje je treba plačati 0,844€ na uro zvočnega zapisa oziroma 1,181€ na uro, če je razpoznava uporabljena na ciljni napravi (tipično za mobilne naprave). Strojno prevajanje govora stane 2,11€ na uro zvočnega zapisa. Pri sintezi govora sta na voljo dve kvaliteti: 3,374€ na milijon znakov v standardni kvaliteti in 13,493€ na milijon znakov pri uporabi algoritma Neural TTS.