Osnove, dragi Watson
Od leta 2010 sta kandidatki Hrvaška in Makedonija, to pa je edina nekdanja jugoslovanska republika, ki je članica EU. - Kaj je Bosna?
Tako nekako bi se v prevodu glasilo vprašanje, na katerem so padle tri modre glave - največji zaslužkar kviza Jeopardy (in hkrati avtor zgornjega napačnega odgovora), njegov konkurent, ki je zmagal v 74 zaporednih šovih istega kviza, ter Watson.
Kaj ima ameriško nepoznavanje majhnih balkanskih državic z našo revijo in zakaj v računalniškem časopisu pišemo o tujih kvizih? Če ste v zadnjem mesecu spali na ušesih, naj vam povem, da se je konec februarja na ameriških televizijah odvrtel zanimiv tridnevni dogodek, v katerem je z omenjenima prvakoma Jeopardyja tekmoval Watson, računalnik podjetja IBM.
Jeopardy je kviz za ljudi z obsežnim znanjem, saj v njem nastopajo najrazličnejše teme - od umetnosti prek EU pa vse do računalniških tipkovnic in formule ena (kratek izbor tem iz tekmovanja, o katerem pišem). Zaradi tega je strašno primeren za računalniško podprto reševanje. Prebereš vprašanje (pravzaprav odgovor, kajti pri Jeopardyju je vprašanje v obliki trditve, odgovor pa v obliki vprašanja; o tem si več preberite na blog.monitor.si/2011/02/nam-bodo-racunalniki-zavladali) in ga vpišeš v Google, iz zadetkov pa hitro ugotoviš, kakšen je pravi odgovor. Če je tako enostavno, zakaj torej niso računalniki prehiteli ljudi že pred leti?
Težava je v razumevanju vprašanja. Če se v temi "Tudi na tipkovnici" znajde vprašanje "okrajšava za avtomobilski šport" vam Google ne bo dosti pomagal. (Pravzaprav vam februarja ne bi pomagal, dandanes pa na to kombinacijo besed - v angleščini, seveda - takoj najde kup člankov o Jeopardyju in Watsonu in med njimi tudi pravi odgovor.) Vprašanje je treba najprej razumeti, šele nato lahko iščeš.
Tudi če sta tema in vprašanje dovolj enostavna, da internetno iskanje izvrže pravo stran, delo za program ni lahko. Na strani mora najti iskane besede, nato razumeti sobesedilo, iz njega potegniti pravi odgovor in ga oblikovati v vprašanje. Ni več tako enostavno, kot se je zdelo na prvi pogled, kajneda? Kako je torej Watsonu uspelo premagati dva odlična tekmovalca?
Za začetek tako, da Watson niti ne poskuša razumeti vprašanja, temveč se problema reši s statistično analizo - približno tako, kot strani išče Google. Watson vzame temo in vprašanje, poseže v svojo velikansko zbirko podatkov (priklop v internet ni bil dovoljen, pa tudi prepočasen bi bil) in poišče čim več strani, na katerih nastopajo iskane besede. Nato te strani analizira in iz njih nekako (točnega postopka niso razkrili) potegne bistvo. To mu večinoma uspe, včasih, kot na primer v zgornjem primeru s tipkovnico in avtomobili (pravilni odgovor je "Kaj je F1?"), pa niti približno ne.
Kritiki so se seveda takoj oglasili, da Watson "goljufa", ker ne "razume" ne vprašanja ne podatkov, po katerih išče odgovore. (Narekovaje okoli "razume" sem postavil, ker pravzaprav nihče ne ve, kako ljudje izvajamo to "razumevanje".) Zagovorniki pa so odgovorili, da je to popolnoma nepomembna podrobnost. Bistveno je, da "umetna inteligenca" v Watsonu deluje bolje od vseh drugih sistemov za razumevanje splošnih besedil - in to precej bolje. Približno tako, kot statistična analiza v Googlovem prevajalniku deluje bolje od vseh sistemov za strojno prevajanje, ki se trudijo razumeti besedilo. Res pa je, da tako Watson kot Google občasno tako hudo usekata mimo, da sistem, ki besedilo analizira, take napake nikoli ne bi naredil.
Je torej prihodnost računalnikov v statistični analizi velikanskih količin besedil? Morda ne. Pred kratkim je Guardian objavil članek, v katerem je član Googlove ekipe za strojno prevajanje priznal, da so naleteli na omejitve te tehnologije in da potrebujejo podvojeno količino dokumentov, da izboljšajo prevod za borih 0,5 odstotka. Ker jim bo pri takšnem tempu prav hitro zmanjkalo gradiva, lahko računamo, da se strojno prevajanje v naslednjih letih ne bo kaj prida izboljšalo. Ugibam, da velja nekaj podobnega tudi za watsonovski pristop k iskanju odgovorov. Možno je, da bodo sistemi, ki se trudijo razumeti vsebino, z veliko truda kljub vsemu prišli do stopnje, kjer bodo prehiteli "statistično" konkurenco. Vemo pa tega seveda ne.
Kljub vsem omejitvam je Watson premagal človeška tekmeca, in to kar pošteno. Pozorni gledalci smo opazili, da je bila razlika majhna in merljiva v desetinkah. Watson je imel dve malenkostni prednosti, ki sta skupaj pripomogli k temu, da je lahko prvi pritisnil na stikalo in zato tudi prvi odgovarjal. Vprašanje je dobil v elektronski obliki, gumb pa je pritiskal z mehansko napravo, ki je imela hitrejši reakcijski čas, kot ga imamo ljudje.
Watson je torej zmagal in zdaj ga bodo predelali v sisteme za brskanje po obsežnih zbirkah podatkov za najrazličnejša področja. Za začetek se bo preizkusil v medicini. (Sistem bodo imenovali House. Ne, saj ne.) V dobro pacientov upamo, da tam ne bo kvasil takšnih neumnosti, kot jih je občasno na kvizu.
In kako je na vprašanje iz uvoda odgovoril Watson? "Kaj je Srbija?" Ah, Watson, pravilni odgovor je "Kaj je Slovenija?" Osnove, dragi Watson!