Objavljeno: 23.12.2014 | Avtor: Jure Forstnerič | Monitor Januar 2015

Pogovarjamo se z zmajem

Računalniško prepoznavanje govora je tehnologija, ki jo razvijajo že dolgo, v zavest javnosti pa so jo šele v zadnjem letu znova potisnile digitalne pomočnice. Z navadnimi računalniki pa se lahko že kar dolgo pogovarjamo, vodilni program na tem področju je Dragon Natural Speaking.

Govor je eden izmed najstarejših načinov komunikacije, pravzaprav nekateri menijo, da je raziskovanje izvora jezikov ena najtežjih nalog znanosti. Zato ne preseneča, da je razvoj prepoznave in sinteze govora potekal vzporedno z razvojem računalništva. V petdesetih letih so tako že predstavili sisteme, ki so znali prepoznati izgovorjene številke, za prve korake so poskrbeli v podjetjih Bell Labs in IBM. Razvoj se je še pohitril v sedemdesetih letih, ko je na to področje posegla ameriška agencija za vojaške raziskave (DARPA).

Tehnologija je sicer bila na očeh javnosti že v znanstvenofantastičnih filmih, prvi komercialni izdelki pa so nastali v osemdesetih letih. Med prvimi, ki so začeli ponujati te storitve, je tudi podjetje Dragon Systems. Ustanovljeno je bilo leta 1982, sprva so preživeli predvsem po zaslugi državnih razpisov, leta 1984 pa so sodelovali z angleškim podjetjem Apricot Computers, a je šlo slednje kmalu v stečaj. V naslednjih letih so močno sodelovali s prej omenjeno agencijo DARPA, v devetdesetih letih pa ponudili različne programe za domače uporabnike, najbolj so jih cenili invalidi. V tem času so postali največje oziroma najpomembnejše podjetje na področju prepoznave govora za rabo doma, to velja še danes. Vmes so prišli pod okrilje podjetja Nuance Communications in tam ostajajo še danes.

Program ima vgrajen modul, s katerim se uči naše izgovarjave. Tega privzeto zažene ob prvi namestitvi, lahko pa ga naknadno tudi ponovno zaženemo.

Program ima vgrajen modul, s katerim se uči naše izgovarjave. Tega privzeto zažene ob prvi namestitvi, lahko pa ga naknadno tudi ponovno zaženemo.

Preizkusili smo Dragon NaturallySpeaking 12, čeprav je že nekaj mesecev na voljo novejša različica 13. Zanimala nas je predvsem dejanska raba tega programa, sploh če upoštevamo krajevni prostor oziroma to, da govorimo angleško s slovenskim naglasom (velja sicer omeniti, da govori pisec teh besed angleščino z naravnim, ameriškim naglasom). Najbrž ni treba poudarjati, da ti programi ne poznajo slovenščine, glede na težavnost jezika in velikost trga je najverjetneje tudi nikoli ne bodo. Dragon svoje izdelke ponuja le v šestih jezikih, poleg angleščine so na voljo še francoščina, nemščina, italijanščina, španščina in nizozemščina.

Program je namenjen predvsem narekovanju daljših besedil, upravljanje računalnika je nekoliko  drugotnega pomena. Zato je raba programa in upravljanje občutno drugačno, kot smo vajeni pri Siri in drugih pomočnicah. Pri slednji smo vajeni podajati kratka, jedrnata navodila, kjer je dokaj vseeno, ali nas naprava takoj povsem dovolj natančno razume, saj lahko iz nekaj besed razume kontekst. Besede »dodaj«, »koncert« in »koledar« so skupaj dovolj nazorne, da se bo koncert samodejno znašel na koledarju.

Prepoznava govora, ki jo izvaja Dragon, pa je čisto drugačna. Gre za cele stavke in cela besedila, kjer je natančnost bistveno pomembnejša. Program mora jasno prepoznati vsako ločeno besedo, to pa postane pri navadnem govoru vse kaj drugega kot lahka naloga. Med govorom namreč radi besede potiskamo skupaj, sploh krajše besede in medmete – najslabše je z enozložnicami. Besede »all«, »old« in »oh« (kot vzdih) je program veselo mešal kljub večkratnim popravkom. Res je, da gre tu za razmeroma majhne razlike v intonaciji oziroma izgovarjavi, velik del težave pa je tudi v tem, da je pri takih besedah včasih težko izluščiti pomen glede na kontekst. Ob nepravilno prepoznani besedi lahko sicer programu povemo, da jo želimo črkovati, a tudi s tem so težave.

Če program kakšno besedo narobe razume, ga lahko tudi popravimo – to je sicer občutno počasnejše in manj učinkovito kot naknadno popravljanje s tipkanjem.

Če program kakšno besedo narobe razume, ga lahko tudi popravimo – to je sicer občutno počasnejše in manj učinkovito kot naknadno popravljanje s tipkanjem.

V vgrajenem brskalniku po ukazih bomo preživeli kar nekaj časa. Ukazi so razdeljeni glede na programe, še največ možnosti imamo v programih Microsoftovega paketa Office ter v brskalniku Firefox.

V vgrajenem brskalniku po ukazih bomo preživeli kar nekaj časa. Ukazi so razdeljeni glede na programe, še največ možnosti imamo v programih Microsoftovega paketa Office ter v brskalniku Firefox.

Ko program namestimo, oziroma ga prvič zaženemo, si naredimo lasten profil, tako lahko program loči med različnimi uporabniki. Najprej zahteva od nas, da na glas preberemo oziroma narekujemo srednje dolgo besedilo, s tem se začne učiti našega glasu. Za gradnjo besednega zaklada oziroma besed, ki jih pogosteje uporabljamo, mu lahko dovolimo tudi analizo starih dokumentov in elektronske pošte. Kasneje lahko spet zaženemo prebiranje določenega besedila, s tem dosežemo še večjo natančnost pri prepoznavi. Obenem mu lahko pomagamo s prepoznavo le določene besedne zveze ali fraze.

Program pozna nekaj različnih načinov delovanja. Najosnovnejši je t. i. navadni način (»normal mode«), kjer lahko tako narekujemo kot podajamo ukaze. Pozna tudi namenski način za narek in način upravljanja računalnika, na voljo sta namenska načina za črkovanje in podajanje številk.

Pri prepoznavi govora moramo govoriti čim jasneje in tem bolj razločno, pravzaprav velja pri tem pretiravati, sploh če upoštevamo še naglas. Počasen govor na splošno pomaga, čeprav smo bili v nekaterih primerih prijetno presenečeni, kako hiter govor je program dejansko sposoben prepoznati – s hitrostjo se sicer tudi večajo napake. Velja govoriti čim bolj tekoče in enakomerno, to pa zahteva kar nekaj zbranosti.

Zelo velik del narekovanja so ločila. Programu moramo izrecno narekovati vse pike, vejice, dvopičja, tudi novo vrstico. Pri pikah in novih vrsticah s tem ni težav, več smo jih imeli s postavljanjem vejic, saj je med govorom to zelo nenaravno, še toliko bolj zaradi angleščine. Glavna težava je vnaprej razmišljati o vejici (ali drugih ločilih), da jo med govorjenjem stavka postavimo na pravo mesto – to se izkaže kot precejšen zalogaj, vsaj tistim, ki tega nismo vajeni. Program se sicer spozna na apostrof pri združevanju dveh besed (recimo pri uporabi »don't« namesto »do not«).

Prepoznava govora je, če se nekoliko potrudimo, presenetljivo dobra, tudi ob hitrejšem govorjenju. Pomembneje je to, da zna uporabnik smiselno narekovati besedilo. V nekaterih okoljih to ni potrebno, taka orodja so priljubljena med drugim tudi pri zdravnikih, saj zanje stavčna struktura ni pomembna (pred leti smo pisali tudi o programu, ki ga uporabljajo v eni izmed slovenskih bolnišnic ravno za ta namen). Na splošno pa bo zahtevalo privajanje nareku kar veliko dela. Res ne toliko kot učenje slepega tipkanja, a je slednje po našem mnenju kljub temu uporabnejše, sploh če upoštevamo, da se področje prepoznave govora še vedno izboljšuje.

Program lahko uporabljamo tudi za nadzor osnovnih funkcij računalnika, a je integracija na splošno dokaj slaba. Zna v brskalniku odpreti nov zavihek in podobno, lahko si nastavimo tudi zagon programov, a vse skupaj deluje razmeroma počasi in ne najbolj natančno. Vsekakor je odlična rešitev za invalide, prizorom iz Zvezdnih Stez pa žal ne bomo priča.

Kljub temu smo navdušeni nad tehnologijo in nad možnostmi, ki jih bo v naslednjih letih prinesla. Ta hip je najbolj razširjena Applova Siri, za katero verjamemo, da bo kar hitro prišla tudi do namiznih in prenosnih računalnikov. Pomočnica je tesno povezana tako z operacijskim sistemom naprav (trenutno iPhone in iPad) kot tudi s spletnimi in drugimi storitvami (od vremena pa do koledarjev dogodkov in podobno).

Video

O tem, kako se narekovanje obnese v praksi, smo posneli tudi zabaven video posnetek: www.monitor.si/dragonspeaking

S podobnim sistemom se ukvarjajo v Microsoftu, njihova pomočnica, ki je zaenkrat le na mobilnih napravah, se imenuje Cortana. Ravno pred kratkim smo objavili novico, da za konec januarja pripravljajo dogodek, na katerem bodo predstavili nekaj novosti v zvezi z bodočim operacijskim sistemom Windows 10, ena izmed teh novosti pa bo tudi globoka integracija digitalne pomočnice Cortane. Tako integracija z operacijskim sistemom kot odprti dostop zunanjih razvijalcev bosta ključnega pomena za popularizacijo te tehnologije oziroma za njeno razširjeno rabo.

Kot rečeno, bomo Slovenci za to najverjetneje ostali prikrajšani, vsaj v materinščini. S časom bomo lahko vsaj po angleško (ali nemško, italijansko) le krmilili računalnik, vse boljše pa bodo tudi možnosti neposrednega prevajanja in sporazumevanja. Dotlej pa ostajajo namenski programi za prepoznavo govora domena le peščice uporabnikov.  

Dragon NaturallySpeaking 12

Program za prepoznavo govora.

Prodaja: www.nuance.com

Cena: od 75 EUR dalje (različica Home).

✓    Solidno natančna in hitra prepoznava...

✗    ... ki pa je močno odvisna od uporabnika oziroma njegove angleščine, zahteva kar nekaj privajanja.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji