Razumeti slovensko
Učinkovito prepoznavanje govora je zagotovo ena najbolj goreče pričakovanih reči v računalništvu. Rešitev, ki utegne temeljito spremeniti način, kako uporabljamo računalnike. Da bi se pri tem napredku kdo spomnili na nas Slovence in naše jezikovne posebnosti, so že vrsto let le sanje. Zato smo bili toliko bolj presenečeni, ko smo naleteli na povsem delujočo rešitev, in to v okolju, v katerem tega nismo pričakovali.
Računalniško prepoznavanje in predvsem interpretacija govora ima pravzaprav že zelo dolgo zgodovino. V različnih obdobjih računalništva je bilo pogosto videti, kot da smo tik pred tem, da se na tem področju zgodi veliki preboj. Kot vemo, doslej ni bilo nič iz tega ali pa zelo malo. Pri reviji Monitor smo imeli večkrat priložnost videti demonstracije, ki človeka težko pustijo ravnodušnega, toda vselej je ostalo le pri tem - pri prototipih, ki so zamrli.
Resnici na ljubo se angleško govorečim, pa tudi nekaterim z drugih velikih jezikovnih področij, godi nekoliko bolje. Tam imajo že vrsto let programske pakete, ki bolj ali manj uspešno opravljajo prepoznavanje govora, vendar so doslej ostali nišni izdelki. Še najbolje so se obnesli v okoljih, kjer se uporablja strokovni, nekoliko manjši nabor izrazov, ki jih je laže prepoznati. To velja predvsem za področje zdravstva, prava in nekaterih finančnih inštitucij. Le redki pa uporabljajo računalniško prepoznavanje besed za vnos "generičnih" besedil, kot so dopisi, članki, elektronska pošta. Preveč napak, preveč dvoumnosti, skratka, omejena uporabnost.
Na sončni strani Alp je še nekoliko bolj skromno. Razvoj prepoznavanja govora je namreč močno povezan s posameznim jezikom in njegovimi posebnostmi, tako da delo, opravljeno z enim jezikom, le delno pomaga pri podpori za drugi jezik. Celo algoritmi se lahko med različnimi jeziki precej razlikujejo. To je slaba novica za okoli dva milijona ljudi, ki govorijo prav poseben slovanski jezik. Zagotovo pa premajhen trg, v katerega je težko investirati velika sredstva za razvoj specifične podpore. Vsaj za zdaj. To pomeni, da smo bili doslej Slovenci bolj ali manj prepuščeni sami sebi. Nekaj raziskovalnih projektov na fakultetah, nekaj specifičnih uporab omejenega nabora prepoznave besed pri telekomunikacijskih operaterjih, in to je to. Malo, skoraj nič. Vsaj to, kar je znano avtorjem, ki pripravljajo to revijo (če je še kdo tam zunaj, naj se javi!).
Nekaj vendarle je na voljo!
Naključen obisk pri prijatelju, dr. Branku Cvetičaninu v Splošni bolnišnici Izola, sicer predstojniku oddelka za radiologijo, ki sodi na področju uvajanja računalniške tehnologije v medicini med najbolj napredne v Sloveniji. Prav tu so uvedli prvi povsem digitalni proces radioloških preiskav, elektronsko hrambo izvidov in še bi lahko naštevali. Pa to ni predmet tokratnega članka. Mimogrede omeni, da ima program, s katerim lahko brez težav narekuje besedila v računalnik. V slovenščini! Priznam, sprva sem bil precej nejeveren.
Nato demonstracija, po kateri se ti povesi spodnja čeljust od presenečenja. Narekovane diagnoze v slovenščini je program na računalniku prepoznal s praktično 100 % natančnostjo. Opa, to pa ni kar tako. Gre za programsko opremo tujega izdelovalca (Philips SpeechMagic) in plod domačega truda, razvoja zbirke besedil, ki omogoča prepoznavanje omejenega nabora besed, ki so povezane z diagnozami v radiologiji. Še daleč od popolnega slovenskega besedišča, pa vendar dovolj daleč, da ima povprečen opazovalec vtis, da gre skoraj za čudež.
Velik del zaslug za zanesljivo prepoznavanje ima tudi dober specializiran Philipsov mikrofon.
Seveda čudežev ni, se jim pa lahko približamo s trdim delom in zagrizenostjo, da ne rečemo navdušenostjo. Zgodba gre približno tako. Na enem od kongresov, posvečenih področju radiologije, pride v stik z ekipo razvijalcev na Dunaju, ki pripravljajo zbirke prepoznavanja govora za področje medicine. Po krajšem pogovoru pade ideja, da bi nekaj podobnega lahko brez večjih težav naredili tudi za slovenščino. Pisalo se je leto 2006. Zbirko so začeli graditi na podlagi vzorcev. V prvi fazi so prebrali okoli sto diagnoz in vnesli ustrezna besedila. Že prvi rezultati so bili navdušujoči. V drugi fazi je bilo prebranih več kot tisoč (anomiziranih) diagnoz, prostovoljno jih je prebralo in vneslo okoli deset zdravnikov z različnih koncev Slovenije. Danes je v zbirki že okoli 60.000 besed in še vedno stalno raste.
Takoj je treba povedati, da trenutna izvedba ni samostojna aplikacija, temveč orodje, ki je tesno povezano s sistemom Interris izdelovalca Interexport, ki rabi za upravljanje diagnoz v radiologiji. Na voljo je sicer tudi samostojna različica paketa SpeechMagic, ki lahko uporablja enako zbirko podatkov, prepoznavanje pa izvajamo neposredno v Microsoftovem Wordu, vendar to ni primaren način rabe. Cilj je bil namreč čim bolj avtomatizirati in optimizirati proces postavljanja diagnoze, pri katerem lahko prepoznavanje govora prihrani kar nekaj korakov.
V radiologiji po običajnem postopku zdravnik posname zvočni zapis diagnoze pri prebiranju digitalnih slik pacienta. Te zapise nato nekdo drug posluša in pretipka, nato zdravnik še enkrat preveri zapisnik in potrdi, da zapisano dejansko drži. S prepoznavanjem govora se je ta postopek drastično skrajšal, zmanjšala pa se je tudi možnost napake. Transkript diagnoze je takoj viden na zaslonu, zdravnik morebitne napake hitro popravi. V Splošni bolnišnici Izola ocenjujejo, da so samo zaradi tega prihranili okoli 20 % časa, ki je potreben za postavitev diagnoze. Še več, dr. Cvetičanin je praktično že opustil klasični sistem postavljanja diagnoz in ga nadomestil s tem, ki omogoča prepoznavanje govora. Rešitev je torej vredna zaupanja.
Tehnologija
Seveda nas je zanimalo, kaj je v ozadju. Sam paket SpeechMagic deluje z zbirko na namenskem strežniku, ki hkrati rabi tudi za izmenjavo podatkov z drugimi radiološkimi centri v Sloveniji. Cilj je namreč, da bi zbirko besed gradili na podlagi vseh narekov, ne glede na to, kje in kdo jih izvaja. S časom naj bi tako še bolj pridobili na natančnosti prepoznave, ki je že zdaj, milo rečeno, zelo dobra. Pri demonstraciji nekaj deset prebranih diagnoz smo samo enkrat zasledili napako pri prepoznani besedi. Strežnik sicer prepoznavanje govora razdeli na več korakov, od prepoznave govora prek prilagajanja akustičnega referenčnega modela in jezikovnega modela do adaptacije besedišča. Arhitektura je lahko en strežnik, ki izvaja tri naloge (prepoznava - Recognition task, prilagajanje - Context Adaptation task in brisanje - Purge task), do več strežniških sistemov, ki delijo naloge.
Dober del zaslug kakovostne prepoznave gre tudi na račun specializiranih mikrofonov, ki so zelo ozko usmerjeni in imajo majhen domet, tako da šum iz okolice ne moti pri prepoznavanju zvoka. Navdušuje tudi to, da je Philipsov sistem razmeroma odporen proti raznim variacijam hitrosti govora in višine zvoka. Dovolj je, da pred prvo uporabo opravimo profiliranje uporabnika, ki traja le nekaj minut. Nato lahko vsakdo računa na že obstoječo zbirko, ki so jo prispevali drugi.
Kljub temu da pri diagnozah prepoznava govora, je sistem narejen tako, da obenem hrani tudi zvočni zapis. Program Interris je namreč zasnovan tako, da mora zdravnik radiolog preveriti narekovano besedilo, ga popraviti in potem z ukazom "avtoriziraj" končati, ga tako elektronsko podpisati. V tem trenutku se izvid pošlje v bolnišnični informacijski sistem. Tam je zaklenjen in zaradi varnosti ne dovoljuje nikakršnega popravljanja.
Kot pravijo v podjetju Interexport, ki poleg sistema RIS/PACS ponuja in razvija tudi sistem za prepoznavanje govora, je sistem tik pred redno produkcijo. Za zdaj deluje le na treh lokacijah v Sloveniji, cilj pa je, da bi pokrili vse radiološke centre v Sloveniji. Toda načrti so še precej večji. Če je bil dosedanji prototip omejen na področje radiologije, izkušnje že selijo na druga področja. Cilj je, da bi pokrili splošno področje medicine, trenutno sistem deluje pri zdravniku ortopedu v Ljubljani. V podjetju Interexport razmišljajo tudi o področju prava in zavarovalništva, vendar je to še stvar odločitve v prihodnjih letih.
Program za prepoznavanje govora Speech Magic je tesno povezan z radiološkim informacijskim sistemom Interris.
Seveda sistem ni vsemogoč. Besedišče SpeechMagic je zgrajeno po Philipsovih postopkih iz velikanske količine izvidov, pri čemer, denimo, različni skloni samostalnikov predstavljajo različne entitete. Ker gre pri prepoznavanju govora tudi za statistično obdelavo, je za ustrezno kakovost (98 % in več) zaželeno, da se obseg besedišča ne poveča za več kot 10 %. Zato je tudi postopek širitve besedišča strogo nadzorovan in predmet ocene upraviteljev sistema. To pomeni, da vnašalec ne more sam dodati in takoj uporabiti nove besede pri diktiranju diagnoze. Toda zaradi tega nadzorovanega postopka se lahko danes pohvalijo, da v povprečju dosegajo 99,5 % zanesljivost pri prepoznavah.
Delovno mesto zdravnika - na desni digitalni CT pacienta, na levi radiološki sistem z vgrajenim prepoznavanjem govora.
Eppur si muove!
Glavna novica v tej zgodbi je ta - računalniško prepoznavanje govora v slovenščini je na voljo in deluje presenetljivo dobro. Žal večina računalniških uporabnikov od tega ne bo imela kake posebne koristi, vsaj kratkoročno ne. No, lahko se zgodi, da bo imel kdo (upajmo sicer, da ne bo treba) posredno korist pri bolj učinkovitem in pravilnem zdravljenju. Ali pri krajših čakalnih dobah. Oboje pozdravljamo. Lahko pa je zgoraj opisani projekt lep primer, kako je mogoče z vrhunsko tehnologijo prihraniti: sredstva, čas, zmanjšati število napak. Kot že rečeno, je radiologija le prvo od področij, ki lahko pridobijo s tako rešitvijo. Brez težav lahko naštejemo še več področij, na katerih bi lahko najbrž zaznali podobne pozitivne učinke.
Upam tudi, da bo ta projekt spodbuda, da se bo na tem področju začelo več razvijati, tudi vlagati v razvoj, saj je težko pričakovati, da bodo tovrstne rešitve vselej prihajale "od zunaj". Sicer lahko vsi skupaj precej tvegamo. Pomislite, kaj bi se zgodilo, če bi v tujini veselo uporabljali prepoznavanje govora, pri nas pa bi še naprej pridno tipkali? Ali bi bili še konkurenčni, ne glede na področje rabe računalniške tehnologije?
Philips SpeechMagic/Interris
Kaj: Specializiran sistem za prepoznavanje govora v radiologiji.
Izdeluje: Philips, www.speechmagic.com; Interexport, www.interexport.si, (01) 530 73 50.
Cena: Ni v redni prodaji.
Za: Prepoznavanje slovenščine, odlična zanesljivost prepoznavanja pri razmeroma ozkem besedišču, neobčutljivost za manjše šume, spremembe tona in hitrost govora.
Proti: Namenjena le zelo ozkemu krogu uporabnikov, nekoliko zapleten postopek dodajanja novih besed.