Objavljeno: 25.11.2014 | Avtor: Vladimir Djurdjič | Monitor December 2014

Rečeno, storjeno!

Na platformi današnjih mobilnih naprav nastaja nova kategorija programskih rešitev, ki utegne zelo vplivati na to, kako bomo uporabljali računalniške in spletne storitve v prihodnosti. Tako imenovane »Digitalne pomočnice« so programi, ki združujejo prepoznavo in sintezo govora, algoritme umetne inteligence, zbirke znanja, spletne iskalnike, podatke iz tipal v mobilnih napravah ter informacije o uporabniku, z njegovimi navadami vred. To so osebne pomočnice v pravem pomenu besede, a v digitalnem svetu.

Zamisel o tako imenovanih »digitalnih pomočnicah« je pravzaprav preprosta in stara skoraj toliko kot računalniki. Računalniku (telefonu, tablici …) dobesedno narekujemo, kaj želimo, in poišče nam informacijo ali opravi nalogo, ki smo mu jo zadali. Vse skupaj v naravnem jeziku in v ozadju tolmačeno z ustreznim prepoznavalnikom ter uporabniku posredovano z generatorjem govora.

Pomočnica lahko prepozna zahtevani ukaz, pošlje sporočilo, naredi zabeležko, rezervira čas za sestanek, opravi rezervacijo letala in še bi lahko naštevali. V ožjem pomenu besede torej digitalne pomočnice počnejo natanko isto kot tajnice v podjetju ali osebne pomočnice. No, če si jih lahko privoščimo. Žal kave (še) ne znajo skuhati.

Avtorji sodobnih digitalnih pomočnic so namenoma zgradili način rabe in vmesnik, ki sta nadvse preprosta. Če vzamemo Applovo pomočnico Siri, bomo takoj opazili, da imamo na voljo le en gumb za zastavitev vprašanja ali ukaza, Siri pa nam pogosto rezultate posreduje le v zvočni obliki. Taka raba je načrtna, saj omogoča drugačne interakcije, brez uporabe tipkovnice, zaslonov in še česa drugega.

Na prvi pogled se zdijo digitalne pomočnice prej igrača kot pomembna smer razvoja računalništva. Še posebej, če se z njimi ne pogovarjamo v enem od redkih podprtih jezikov, kar močno omejuje uporabnost. Zlasti pri nas. Tudi če ukaze izgovarjamo v brezhibni angleščini, rezultati še vedno pogosto niso taki, kot bi želeli. Na to vpliva cel kup dejavnikov, od kakovosti zvoka, natančnosti izgovorjave do, seveda, konteksta. Digitalne pomočnice nas danes pogosto napačno razumejo. To je včasih zabavno, pogosto, ko bi res potrebovali pomoč, pa moteče.

Pa vendar smo šele na začetku, z obeti, da lahko pričakujemo fantastičen razvoj na tem področju. Domala vse rešitve temeljijo na algoritmih samodejnega učenja, zato postajajo vsak dan boljše, tako v kontekstu prepoznave in razumevanja posameznika kot tudi zbiranja informacij iz interakcije z množico ljudi. Resnici na ljubo, znajo te pomočnice nekatere preproste stvari opraviti fenomenalno dobro in natančno. Moramo jim dati torej le dovolj časa. To je povsem nova kategorija programske opreme, taka, ki se s časom izboljšuje.

Drugi ponudniki

Na prvi pogled se zdi, kot da so digitalne pomočnice področje, na katerem se spopadajo samo največji ponudniki računalniških programov in storitev. Toda k sreči ni čisto tako. Nekateri prvotni avtorji Applove pomočnice Siri zdaj delajo z zagonskim podjetjem Viv Labs.

BlackBerry s svojim najnovejšim mobilnim telefonom ponuja svojo pomočnico.

BlackBerry s svojim najnovejšim mobilnim telefonom ponuja svojo pomočnico.

Bržkone ni presenetljivo, da je predmet razvoja tega podjetja digitalna pomočnica, ki pa bo precej zmogljivejša od Siri. Jedro je programska oprema s področja umetne inteligence, ki se zna sama učiti in povezovati sorodne dejavnosti v ločene celote.

Svojega digitalnega pomočnika načrtujejo tudi v BlackBerryju. Zadeva se imenuje BlackBerry Assistant (kakopak) in omogoča nekatere stvari, ki so standardne tudi na drugih platformah, denimo zagon programov z govorjenim ukazom, pošiljanje sporočil, nastavljanje opomnikov in podobno.

Mlado storitveno podjetje Ooloo pa ponuja hibridni pristop, ko ljudje odgovarjajo na vprašanja uporabnikov 24 ur na dan. A v tem primeru ne gre za navadno poizvedbo po telefonu. V pripadajoči mobilni aplikaciji zapišemo ali kar narekujemo vprašanje, ga posredujemo Ooloo, ko je odgovor pripravljen, pa dobimo obvestilo o rezultatu. Preprosta zamisel, ki utegne biti v nekaterih primerih rabe prav privlačna.

Anatomija digitalne pomočnice

Ko govorimo o sodobnih digitalnih pomočnicah, pravzaprav razpravljamo o zelo širokem naboru različnih programov. Prepoznavo govora, denimo, najdemo v številnih izdelkih, ki bi jim težko rekli »pomočniki«, še več prvin današnjih pomočnic pa je v številnih spletnih storitvah in iskalnikih.

Da bi zožili področje analize, se bomo tokrat posvetili zgolj pomočnicam v mobilnih napravah. To so predvsem Apple Siri, Microsoft Cortana in Googlova storitev Google Now. Vse druži podoben namen in bolj ali manj tekmujejo med seboj, čeprav imajo razmeroma različne funkcije in so za povrh vezane na različne platforme.

Ali ste opazili, da v zgoraj navedenih primerih vselej govorimo o pomočnicah, navideznih osebah ženskega spola? Verjemite, to ni naključje. Podlaga so temeljite analize, kako s končnim uporabnikom ustvariti zaupljiv, pomirjajoč odnos. Pokazale so, da je najboljše uporabiti ženski glas in ton, ki pomirja, podobno kot pri radijskih voditeljicah.

Začeli smo z glasom, a to je le vrh ledene gore. Predstavitev rezultatov iskanja s sintezo govora je le končni rezultat kompleksnih algoritmov, ki tolmačijo uporabnikovo zahtevo, iščejo rezultate in opravljajo odločitve. Denimo odločitev, ali bo rezultat podan v obliki prebranega besedila ali zagona drugega mobilnega programa.

Značilna raba digitalnih pomočnic – narekovanje telefonu.

Značilna raba digitalnih pomočnic – narekovanje telefonu.

Delovni proces pomočnice

Prvi korak je vsekakor prepoznava govora. Govor je seveda za ljudi najnaravnejši način interakcije, bistveno bolj kot pisava in kretnje po zaslonih. Dodana vrednost je to, da pri  govoru ne potrebujemo interakcije z drugimi čutili, kot sta vid in dotik. Potrebujemo pa seveda sluh. To je bistveno sprejemljivejši način rabe v številnih okoliščinah, na primer med vožnjo vozila.

O računalniškem prepoznavanju govora smo že dosti pisali, zato se tokrat ne bi poglabljali v podrobnosti. Ostanimo le pri ugotovitvi, da to še vedno ostaja »sveti gral« računalniške industrije in obenem področje, na katerem še nismo naredili resničnega preboja. Še zlasti ne v Sloveniji. Toda zdajšnja stopnja algoritmov je dovolj dobra, da je postala osnova za moderne digitalne pomočnice.

Rezultati prepoznave govora morda še niso dovolj dobri, a postajajo vsak dan boljši. Tu se je prav v kombinaciji z mobilnimi, internetno povezanimi napravami v zadnjih letih zgodil velik korak naprej. Prepoznava govora namreč ni več odvisna samo od uporabnikove naprave, celo ne zgolj od interakcije z enim samim uporabnikom. Tako Cortana kot Siri poznata namreč dvostopenjsko prepoznavo.

Če gre za »preprosto« prepoznavo (definicija tega, kaj je preprosto, je skrbno varovana skrivnost v algoritmih), se izvaja lokalno, na mobilni napravi. Delno se resda v predelani obliki posreduje strežnikom ponudnika storitev, kjer je na voljo večja procesna moč in zbirka znanja. V tem primeru znanja za iskanje konteksta prepoznanega vprašanja.

Pomočnica Siri je na voljo v vseh sodobnih napravah z Apple iOS.

Pomočnica Siri je na voljo v vseh sodobnih napravah z Apple iOS.

Veliko je namreč mogoče narediti, če ob prepoznavi govora upoštevamo še druge parametre, denimo podobnost in število podobnih vprašanj in rezultatov drugih uporabnikov, ki v določenem hipu uporabljajo storitev. Na podlagi vsega naštetega, pa še iskanja po novicah in drugih virih s spletnimi iskalniki, zna digitalna pomočnica »uganiti«, da želimo informacijo določene vrste, denimo rezultate tekme ali pa novico o dogodku, ki je pravkar potekal.

Število tipal in dejavnikov, ki vplivajo na odgovor, je veliko in vsak dan večje. Omenimo samo lokacijske storitve (kje je uporabnik trenutno), pa zgodovino (preference) dosedanje rabe, podatke iz spletnih zbirk podatkov (denimo o rezervaciji mize v restavraciji), priljubljenost pri drugih (vzporedna analiza več zahtevkov) in tako naprej.

Ko digitalne pomočnice na koncu pripravijo komplet odgovorov, podatkov ali aktivnosti, jih prikažejo uporabniku prek mobilne naprave. To je praviloma odgovor s sintezo govora. Toda tudi tu so v zadnjih letih razvijalci zelo napredovali. Sodobne pomočnice imajo skrbno razvite algoritme, da vse skupaj zveni bolj »človeško«.

Apple Siri

Trenutno priljubljenost digitalnih pomočnic lahko dodobra povežemo s prihodom Applove pomočnice Siri jeseni 2011. Siri je hitro postala priljubljeno in uporabno orodje, zlasti v ZDA. Apple je svojo pomočnico spretno povezal z nekaterimi lokalnimi priljubljenimi spletnimi storitvami (OpenTable, MovieTickets TaxiMagic). Preprostost pomoči pri izbiri, priklicu, nasvetih ali rezervacijah so uporabniki zelo lepo sprejeli.

Siri pravzaprav ni projekt, ki bi nastal znotraj korporacije Apple. V osnovi gre za stranski projekt organizacije SRI International Artificial Intelligence Center in je povezan s projektom CALO, ki ga financira ameriška obrambna agencija DARPA. Tehnologijo in dobršen del razvojne ekipe je nato Apple kupil spomladi leta 2010. Mimogrede, ime je menda izpeljano iz norveščine, kot okrajšava za Sigrid, kar pomeni »lepota« in »zmaga«.

Razvoj in prilagoditev Applovim napravam in standardom sta trajala približno poldrugo leto in se materializirala jeseni leta 2011 v telefonu iPhone 4S. Od leta 2012 pa je Siri na voljo v vseh napravah z operacijskim sistemom iOS (tablicah in telefonih). Trenutno deluje v angleščini, francoščini, nemščini, italijanščini, španščini, japonščini, kitajščini in  korejščini.

Siri ima pomembno vlogo pri digitalizaciji avtomobilov.

Siri ima pomembno vlogo pri digitalizaciji avtomobilov.

Nenehno se izboljšuje, ne le po točnosti prepoznave zastavljenih vprašanj ali ukazov (dobršen del tega poteka v ozadju na Applovih strežnikih), temveč tudi po funkcionalnosti, praktično z vsako nadgradnjo sistema iOS. V zadnji s storitvijo Shazam, ki jo sprožimo tudi zgolj tako, da rečemo »Hey Siri«.

Letos je Siri pristala tudi v avtomobilih, prek Applove novosti CarPlay, kar začenjajo izdelovalci pravkar ponujati v novih modelih vozil. To je pomemben korak za Apple, pa tudi avtomobilsko industrijo, saj je krmiljenje digitalnih naprav s prepoznavo govora  pomemben napredek na področju varnosti rabe. Prvi preizkuševalci so menda navdušeni.

Pomočnica Siri je doživela v javnosti kar lep uspeh. Postala je nekakšen modni dodatek, ki je deležen lepe pozornosti občil in javnosti, pa čeprav se večkrat posmehujejo napačno tolmačenim zahtevam. Kljub temu da ima med vsemi pomočnicami ta hip najmanj funkcionalnosti, je po drugi strani najbolj priljubljena in v rabi vsak dan. Tako vsaj kažejo raziskave v ZDA.

Ena od kritik pomočnice Siri je lahko njena zaprtost. Apple je v novem iOS8 odprl cel kup tehnologij drugim razvijalcem, denimo prepoznavalnik prstnih odtisov TouchID, Siri pa ostaja, vsaj za zdaj, zgolj orodje, ki ga lahko uporabljajo in tudi znajo uporabljati le Applovi programi.

Apple še naprej veliko vlaga v razvoj pomočnice. Po neuradnih podatkih naj bi želel Siri postaviti na lastne noge (podobno, kot je Maps spravil stran od nekdanjih temeljev Googla), brez sodelovanja z družbo Nuance. Nekatere patentne vloge nakazujejo na to, da bo Apple tehnologijo Siri prenesel tudi v Mac OS X.

Digitalne pomočnice bodo imele pomembno vlogo tudi pri pametnih urah.

Digitalne pomočnice bodo imele pomembno vlogo tudi pri pametnih urah.

Microsoft Cortana

Cortana je ime Microsoftove najnovejše digitalne pomočnice in pripomočka za navigacijo in predstavitev rezultatov brez fizične interakcije z mobilno napravo. Prva inkarnacija je v operacijskem sistemu Windows Phone 8.1, a se Microsoft ne bo ustavil zgolj tu. Skoraj zagotovo jo lahko pričakujemo tudi v operacijskem sistemu Windows 10 in igralni konzoli Xbox One, predvidoma sredi leta 2015.

Cortana temelji na tehnologiji, ki jo je Microsoft pridobil z nakupom podjetja Tellme Networks zdaj že davnega leta 2009. Obenem so uporabili tudi številne tehnologije in algoritme, ki so jih razvili v Microsoftovemu razvojnemu oddelku MS Research.

Microsoftova Cortana je najmlajša in najbolj vsestranska.

Microsoftova Cortana je najmlajša in najbolj vsestranska.

Prvič so se o njej razpisali junija 2013, uradna predstavitev je bila skupaj z okoljem Windows Phone 8.1 aprila 2014, med uporabnike pa je prišla letos septembra. Ime Cortana sicer izhaja iz računalniških iger, natančneje igre Halo, kjer se tako imenuje eden izmed likov, ki predstavlja umetno inteligenco.

Kljub ženskemu glasu v ozadju ni podobe, na zaslonu vidimo animiran krog. Na interaktivni ploščici (Live Tile) lahko dodatno prikazuje zanimive stvari za uporabnika. Cortana namreč ve kar precej o uporabniku, po prvih preizkusih precej več od Applove in Googlove pomočnice.

Microsoftova pomočnica zna na primer vzpostaviti telefonski klic, poslati sporočilo SMS ali elektronsko pošto, narediti zapis v koledar, zabeležko v beležnico, nastaviti alarm, opozoriti na nalogo, zagnati glasbo, pokazati pot do cilja in še kaj. Za povrh so vgradili varnostni mehanizem, da Cortana nalogo prepozna, določi, kaj bo naredila, in nato uporabniku to pove ter ga prosi za potrditev.

Kaj vse lahko naredi v interpretaciji konteksta? Cortani lahko, denimo, ukažemo, naj nas spomni na določeno stvar, ko bomo naslednjič (po telefonu, chatu, mailu) govorili z določenim človekom. Mar ni to cilj tako prave kot digitalne pomočnice?

V ozadju Cortane je iskalnik Bing, ki skrbi za zbirko znanja. Zato se to še posebej dobro kaže pri iskanju podatkov. Denimo, pri iskanju bližnjih restavracij. Cortana je zdaj na voljo le v ZDA, preizkušajo pa jo še v Veliki Britaniji, na Kitajskem, Kanadi, Avstraliji in Indiji. Do konca leta 2014 naj bi prišle na vrsto še nekatere druge evropske države.

Siri je, kar zadeva integracijo z drugimi programi, dokaj skromna, Microsoft pa je to postavil v ospredje že v začetni različici. Kot kaže, so pravočasno sprevideli (načrtno) pomanjkljivost Siri in Cortano odprli za rabo drugim razvijalcem, s tem pa tudi drugim aplikacijam. Cortana se med drugim že povezuje s storitvami in programi, kot so Forsquare, Skype, Fitbit, Coretrends, SeatGeek, MixRadio in Twitter. Tu je Microsoft našel nišo, kjer lahko Apple in Google vsaj začasno prehiti po levi in desni.

Čeprav je Cortana najmlajša med digitalnimi pomočnicami na glavnih platformah, vse kaže, da je trenutno nemara celo najzmogljivejša. Microsoftu je uspelo narediti zelo dobro premišljeno platformo za povezavo z različnimi programi in storitvami. Zato je Cortana morda odločilni dejavnik, ki lahko povzdigne celotno platformo Windows Phone.

Poslovna raba

Digitalne pomočnice utegnejo postati pomembne tudi v poslovnem svetu, da bi olajšale dostop do informacij in opravljanje nalog, a s poudarkom na poslovnih vsebinah.

Poleti je javnost, denimo, presenetila informacija o sodelovanju med družbama IBM in Apple. Čeprav je to sodelovanje širše narave, je v ozadju nedvomno tudi sodelovanje na področju digitalnih pomočnikov. Nekateri viri omenjajo možnost rabe digitalne pomočnice Siri ali njenih derivatov v napredni poslovni analitiki.

Zaradi poteze družb Apple in IBM se je na drugi strani, kot kaže, vzpostavila koalicija med družbama Hewlett Packard in Google prav pri rabi tehnologije Google Now. Tu naj bi imel pobudo spletni velikan Google, ki bi rad svojo tehnologijo ponudil poslovnim okoljem.

Microsoft bi utegnil v naslednji fazi poleg okolja Windows 10 s Cortano povezati tudi  pisarniško zbirko Office. Najnovejše informacije iz Redmonda pa navajajo še to, da bo najnovejša različica poslovnega paketa za upravljanje odnosov s strankami, Microsoft Dynamics CRM 2015, tesno povezljiva s pomočnico Microsoft Cortana na telefonih z okoljem Windows Phone 8.1.

Google Now

Googlov ustreznik digitalne pomočnice se imenuje Google Now. Kot je razvidno, ne gre za kako eksotično žensko ime, saj je Google Now prej spletna storitev kot digitalna pomočnica. Google se je (za zdaj) odločil, da bo pomoč posredoval v obliki manj osebne komunikacije kot Microsoft in Apple.

Za razliko od Cortane in Siri je Now bistveno bolj grafično, ne zvočno zasnovan pomočnik, ki temelji na prikazu podatkov v obliki kartic, vprašanja pa zastavljamo v naravnem jeziku. Tu je prepoznava govora nekako izbirna, manj je v ospredju kot na konkurenčnih platformah. Tudi sinteza govora, denimo, ima drugotno vlogo. Google želi, da bi rezultate gledali predvsem na zaslonu ciljne naprave.

Google Now je v sedanji obliki zaživel poleti 2012, ob predstavitvi operacijskega sistema Android 4.1, premierno v znamenitem telefonu Google Nexus. Toda Now ne deluje zgolj na napravah z Androidom. Storitev lahko uporabljamo (čeprav z različnimi omejitvami) tudi na operacijskih sistemih Windows, Mac OS X in Linux v okrilju brskalnika Chrome. Seveda je na voljo tudi v operacijskem sistemu ChromeOS, kjer ima pomembno vlogo, podobno kot na Androidu. Zanimivo, da je Google storitev Now prenesel tudi na Applovo platformo iOS, čeprav ima tam le delček zmogljivosti iz Androida.

Google Now bolj ali manj temelji na tehnologijah spletnega iskanja in obširne zbirke znanja, ki jo vzdržuje Google. Dobršen del tehnologij so si sposodili pri sorodnem projektu Knowledge Graph, kjer uporabljajo tehnične semantične analize podatkov in povezovanja informacij iz različnih virov.

Kot rečeno, glavna dodana vrednost pomočnika Now so informacijske kartice, ki prikazujejo povzetke ključnih informacij, zanimivih za uporabnika. Pri tem program uporabi vse informacije, ki so mu na voljo, sem sodijo lokacijske informacije, zapiski v uporabnikovem koledarju, zgodovina spletnih iskanj, pogostost rabe posameznih spletnih storitev in tako naprej.

V karticah lahko pregledujemo novice, naslednje naloge in zmenke, povzetek dnevnih rekreacijskih dejavnosti, obvestila o letih, novosti o dogodkih v bližini, kjer smo, in na ciljnih lokacijah, vremensko napoved in še kup drugih koristnih ali zanimivih informacij.

Google Now je v ZDA še posebej priljubljen zaradi dobre povezljivosti z različnimi lokacijskimi storitvami, povezanimi s sistemom Google Maps. Obeta se, da bo Now lahko razbral kontekst iskanja in celo sam svetoval glede na zunanje dejavnike. Eden takih je sistem obveščanja o promocijah v bližnjih trgovinah, seveda če uporabnik dovoli deliti podatke o lastni lokaciji. Google Now naj bi igral pomembno vlogo tudi pri nadaljevanju avtomatizacije v domačem okolju, kar razvijajo v Googlovi podružnici Nest.

Google Now rezultate prikazuje v obliki podatkovnih kartic.

Google Now rezultate prikazuje v obliki podatkovnih kartic.

Uporabnost v praksi

Če bi ocenili stopnjo izobrazbe digitalnih pomočnic, bi lahko rekli, da so v najboljšem primeru nekje v vrtcu. Izdelovalci pravzaprav šele ugotavljajo, kje vse bi lahko uporabljali te pomočnike in kako. Če k temu prištejemo še razmeroma nezanesljivo tehnologijo prepoznave govora, se marsikdo upravičeno vpraša, ali so te pomočnice res uporabne in ali si zaslužijo pozornost, ki jim jo vsi posvečajo.

Toda raziskave kažejo, da se je nekaj od tega že prijelo. V ZDA jih uporabljajo zlasti mlajši (po starosti in srcu), nekoliko starejši pa so do teh pripomočkov precej bolj zadržani. Zanimiv preizkus je opravila marketinška družba Stone Temple. Primerjali so tri največje tekmece: Apple Siri, Google Now in Microsoft Cortano.  

Pri 3086 zastavljenih vprašanjih je Google Now pravilno odgovoril v 58 % primerov. Apple Siri je bil natančen v 29 % primerov, Cortana pa v 20 % primerov. Treba je poudariti, da dobljeni rezultati odsevajo bolj kakovost spodaj ležeče zbirke znanja kot pa natančnost in kakovost prepoznavalnika. S te plati je daleč najboljši rezultat Googla razumljiv: nedvomno ima boljšo zbirko znanja od tekmecev.

Čeprav digitalne pomočnice niso zgolj v domeni trojice Apple, Google in Microsoft, se zdi, da so trenutno vse oči uprte predvsem v te tri. Nekateri izdelovalci (denimo ponudniki poslovnih rešitev) se na področju teh pomočnic raje povezujejo z njimi, kot pa bojujejo proti njim. Kakšen je njihov domet, najbrž nihče ne ve natančno. Zagotovo pa bodo poleg posredovanja pomoči in avtomatizacije vedno pogosteje znale tudi prehiteti uporabnika z informacijami, še preden bo pomislil nanje. Prav to so najboljše lastnosti pomočnic, ne le digitalnih. 

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji