Najboljši programi za OCR
Zakaj bi ročno pretipkavali besedila iz papirnih dokumentov, ko to zmore celo mobilni telefon? Katere aplikacije za optično prepoznavanje znakov so najboljše, kaj zmorejo in koliko stanejo? Kako jih uporabiti, da bo odstotek pravilno prebranega besedila kar najvišji? Katere so dovolj kakovostne za večje projekte?
Optično prepoznavanje znakov (OCR, angl. optical character recognition) in grafičnega videza besedil sta eni kompleksnejših nalog za osebne računalnike in mobilnike, za kateri potrebujemo ustrezno programsko opremo; lahko pa uporabimo tudi katero od številnih spletnih aplikacij. Čeprav je večina orodij za OCR samostojnih, so nekatera tudi del aplikacij za urejanje besedil, shranjevanje beležk, urejanje večpredstavnih datotek ipd.
Enostavna orodja za besedilo OCR zgolj prepoznajo – večina tudi pravilno interpretira postavitev besedila v stolpce – in ga izpišejo v neoblikovani tekstovni obliki; kakovostnejša zaznajo videz dokumenta in ga razbijejo na območja z besedilom in tabelami ter območja z grafičnim oblikovanjem in slikami. Prepoznano besedilo samodejno prikažejo s pisavami ustreznih velikosti in oblik; nekatera orodja celo samodejno izdelajo nove pisave, če med standardnimi ni na voljo dovolj podobnih. Vse elemente nato znova sestavijo v zapisu, ki omogoča urejanje v priljubljenih urejevalnikih besedil, kot je Microsoft Word, pri čemer skušajo ohraniti izvirno obliko in velikost ter postavitev besedila, tabel, slik in grafik. Veliko orodij lahko prepoznane vsebine sestavi tudi v klasični PDF, ki je po videzu navadno bliže izvirniku, a je manj prijazen za urejanje. Namesto klasičnega lahko izberemo tudi iskalni PDF, pri katerem je prepoznano besedilo zgolj navezano na posamezne dele izvirnega dokumenta v obliki digitalne slike, zato ne dopušča urejanja. Pri prepoznavanju besedila si boljša orodja pomagajo tudi s slovarji naravnih jezikov in samodejno zaznavo jezika besedila, s čimer zmanjšajo število napak v prepoznanem besedilu, oziroma uporabnika opozorijo na morebitne napake pri prepoznavanju, pa tudi na napake v tiskanem besedilu. Nekatera orodja omogočajo celo glasovno branje besedila z angleško izgovarjavo, oziroma izdelavo zvokovnih datotek.
Kakovost OCR
Izdelovalci manj kakovostnih orodij OCR se včasih hvalijo z 98 % natančnostjo prepoznave tiskanega besedila. A to je razmeroma slabo, saj pomeni dve napaki na 100 znakov; vemo pa, da ima v povprečju toliko znakov že ena vrstica tiskanega besedila. Nekatera orodja imajo težave s prepoznavanjem šumnikov in drugih črk, ki niso v angleški abecedi.
Kakovost merimo tudi glede na pogoje predpriprave besedila. Večina programov pričakuje izrazito izstopajoče temno obarvane črke na svetlem ozadju. Prav tako mora biti besedilo izpisano v vodoravnih vrsticah. Kakovostni programi za OCR sami prilagodijo svetlobne razmere in zasukajo digitalno sliko besedila v primeren položaj za prepoznavo.
Programska orodja so večinoma na voljo za operacijske sisteme Windows, Mac OS X, Android in iOS, redkejša pa tudi za Linux. Čeprav so kakovostnejša plačljiva, so na voljo tudi brezplačna, ki z večine vrnejo prepoznano besedilo brez oblikovanja. Nekateri izdelovalci ponudijo OCR tudi kot spletno storitev. Toda vsako vsebino moramo prej naložiti v javni spletni oblak ali v spletni strežnik ponudnika. Zato taka oblika prepoznavanja ni primerna za zaupne vsebine.
Priljubljena orodja
ABBY FineReader 14 (www.abbyy.com) je kakovostno orodje za OCR z natančno prepoznavo videza in besedila eno ali več strani dolgih dokumentov. Komunikacija s skenerjem omogoča pretvorbo papirnih dokumentov v optimalno digitalno obliko za OCR; lahko pa FineReader v tako obliko pretvori tudi različne slikovne datoteke, ki jih zajamemo s fotoaparatom, tabličnim računalnikom, mobilnim telefonom ali jih potegnemo iz spleta. Podpira 190 različnih jezikov, med njimi tudi slovenščino. Znova oblikovane dokumente lahko shranimo v zapisih, ki jih urejamo v Microsoftovih Wordu in Excelu, ali pa izdelamo iskalne PDF. Na voljo so: 15-dnevna preizkusna (z omejitvijo OCR na 50 strani), profesionalna (angl. professional) in skupinska (angl. corporate) različica. Profesionalna različica, ki stane 144 dolarjev, je namenjena domači in poslovni rabi na enem računalniku, skupinska različica (Corporate version) za 999 dolarjev in več, ki vključuje licenčni strežnik, pa večjim podjetjem.
Adobe Acrobat DC (acrobat.adobe.com/us/en/free-trial-download.html) je programsko orodje za uvoz, pripravo, urejanje in izvoz dokumentov PDF v druge oblike ter urejanje njihovega delovnega toka. Pretvorba slikovnih datotek z OCR v dokumente za urejanje je podobno natančna kot pri FineReaderju. Izbiramo lahko med obliko PDF za urejanje in iskalnim PDF. Posebej velja izpostaviti možnost urejanja in dodajanja besedila v črkovnih naborih izvirnega dokumenta, četudi ti niso naloženi v osebni računalnik. Dokumente PDF lahko izvozimo v različne digitalne zapise za urejanje, še posebej tiste, ki jih podpirajo Microsoftovi Word, Excel in PowerPoint. Acrobat DC Pro omogoča tudi integracijo v Adobov računalniški oblak, prek katerega delimo datoteke s sodelavci. Acrobat DC lahko najamemo ali kupimo. Cena mesečnega najema za standardno različico je v ZDA 12,99 dolarja, za profesionalno pa 14,99 dolarja. Nakup neomejene standardne ali profesionalne različice nam bo denarnico olajšal za 299 dolarjev, oziroma 499 dolarjev. Za sedemdnevno preizkusno različico moramo posredovati podatke svoje kreditne kartice in se še pravi čas odjaviti, drugače moramo plačati naročnino.
Programski razvojni paketi in izvirna koda
Nekatera orodja za OCR imajo na voljo tudi programske razvojne pakete (SDK, angl. software development kits) in aplikacijske programske vmesnike, nekatera celo izvorno kodo. SDK omogoča neposredno vgradnjo programske opreme za OCR v lastno aplikacijo. S tem bistveno pohitrimo in poenostavimo samodejno obdelavo dokumentov, pa tudi skeniranje. Denimo, SDK imata na voljo tako FineReader kot SimpleOCR, a je izvirna koda na voljo le za SimopleOCR. Po drugi strani ima spletna aplikacija Captricity aplikacijski programski vmesnik, ki omogoča enostavno integracijo v lastne aplikacije. Vse omenjeno je večinoma plačljivo. Denimo, izvirna koda za SimpleOCR stane 2500 dolarjev na razvijalca.
Nuance OmniPage 19 (www.nuance.com) se uvršča med najboljša namenska orodja za OCR. Pri OCR se odreže podobno kot FineReader in Acrobat DC. Dokumente lahko prepoznavamo iz slikovnih datotek ali pa jih neposredno zajamemo s skenerjem. Mogoč je tudi množični zajem iz izbranega datotečnega imenika ali s pomočjo skenerja s podajalnikom papirja. Podpira več kot 120 jezikov, med njimi tudi slovenščino; toda za pravilno prepoznavanje šumnikov moramo jezik ročno nastaviti. Na našem testu je OmniPage 19 poskušal prebrati celo nekaj besedila iz slik v dokumentu, a bi bilo bolje, ko bi se temu izognil, kot sta se FineReader in Acrobat DC. OmniPage vsebuje tudi algoritem za trirazsežno korekcijo črk, s katerim bistveno poveča uspešnost njihovega prepoznavanja. Prepoznane dokumente lahko izvozimo v različnih oblikah, še posebej tistih, ki jih podpira Microsoftov Office. OmniPage zna tekstovni dokument tudi prebrati in ga shraniti v obliki MP3. Čeprav je za branje slovenskega besedila neuporaben, razločno prebere angleške dokumente; a se bo tudi pri teh moral naučiti, da na primer 10120 ni enako 10120. Med drugimi lastnostmi velja omeniti možnost povezave z javnimi računalniškimi oblaki in spletnimi shrambami, kot sta Dropbox in Evernote, kar olajša delo na terenu. Na voljo so 15-dnevna preizkusna različica in standardna različica (149,99 USD), ki je primernejša za individualne uporabnike, ter ultimativna različica (499,99 USD) za poslovno rabo.
Creaceed Prizmo (itunes.apple.com/app/id546392952) je odlično orodje za skeniranje dokumentov v operacijskem sistemu MacOS X, ki vključuje OCR v več kot 40 jezikih. Omogoča skeniranje in urejanje več strani dolgih dokumentov, povezavo z javnim računalniškim oblakom iCloud in spletnimi shrambami, kot so: Evernote, Dropbox in Google Drive, pa tudi branje besedil s tehnologijo VoiceOver. Na voljo je 70 govorcev, ki lahko besedilo preberejo v 26 jezikih. Deluje tudi na iPhonu in iPadu. Omogoča obdelavo eno ali več strani dolgih dokumentov, pri čemer upošteva vrste dokumentov, kot so: navadna besedila, revije, časopisi … Prizmo ima vgrajen algoritem za prilagoditev slike dokumenta pred izvajanjem OCR. Včasih mu moramo pomagati z ročno izbiro področja besedila ali odstavka, ki ga je treba prepoznati. Poleg demonstracijske različice sta za voljo še standardna za 49,99 dolarja in Prizmo Pro Pack, ki zajema podporo množičnemu zajemu dokumentov, skripte za izvoz dokumentov in avtomatizacijo za 74,99 dolarja.
ReadIris Pro 16 (www.irislink.com) je kakovostna in uveljavljena programska rešitev za OCR belgijskega izdelovalca I.R.I.S, ki podpira pisave 130 jezikov, za nekatere jezika pa ima vgrajene tudi slovarje. Prepozna videz izvirnega dokumenta in besedilo ter vse zopet sestavi v obliki za urejanje, ki je kar najbolj podobna izvirni obliki. Poleg uvoza besedila iz slikovnih datotek omogoča tudi uporabo različnih skenerjev. Prepoznane dokumente lahko izvozimo v datoteke za Microsoft Office, PDF, HTML in druge zapise. Preizkusno različico lahko uporabljamo 10 dni. Za 99 USD in 199 USD sta na voljo tudi profesionalna (Pro) in skupinska (Corporate) različica. Prednosti skupinske različice so: povezave z javnimi računalniškimi oblaki in spletnimi shrambami podatkov, kot so: Dropbox, Google Drive in Evernote, naloga pretvorbe besedila v govor in orodja za indeksiranje in spreminjanje velikosti dokumentov.
Captricity (www.captricity.com) je spletna aplikacija oziroma storitev OCR, namenjena večjim podjetjem. Deluje v računalniškem oblaku. Omogoča varen zajem podatkov iz kateregakoli vira uporabnikovega informacijskega sistema. Obljubljajo več kot 99 % natančnost OCR, prepoznavo ročno napisanih besedil, enostavno integracijo in gradnjo digitalnega arhiva obdelanih dokumentov, ki ga lahko nato prenesemo s spletne strani. Naročnina na Captricity stane od 825 dolarjev naprej. Za prikaz delovanja storitve se moramo prej prijaviti prek spletnih dveri.
Microsoft OneNote (www.microsoft.com) je elektronska beležka in del paketa Microsoft Office, a mnogi niti ne vedo, da podpira tudi funkcionalnost OCR. Gre za nekoliko starejšo tehnologijo, ki iz slike dokumenta prepozna le besedilni zapis, ne zna pa dokumenta znova sestaviti v obliko za urejanje. Kljub temu nima težav z besedili v več stolpcih. Natančnost OCR je slabša kot pri prej omenjenih rešitvah, kljub temu si z njim prihranimo pretipkavanje. Letna naročnina na Microsoft Office 365 v ZDA je za domačo rabo in rabo v manjših pisarnah od 69.99 dolarja do 149.99 dolarja.
Nuance PaperPort 14 (www.nuance.com) je v primerjavi z OmniPage 19 predvsem orodje za upravljanje dokumentov. Omogoča skeniranje in shranjevanje skeniranih dokumentov v obliki, ki omogoča tekstovno iskanje. Mogoč je tudi izvoz prepoznanega besedila, a brez oblikovanja. Če imamo hkrati nameščen OmniPage, se poveže z njim, ko potrebujemo zahtevnejši OCR. Poveže se lahko tudi z različnimi javnimi oblaki in spletnimi shrambami, kot so: Dropbox, Google Drive in Evernote. Na voljo sta nekoliko cenejša standardna in skupinska (Corporate) različica.
Presto! PageManager 9.5 Pro (www.newsoftinc.com) je prav tako orodje, namenjeno predvsem upravljanju dokumentov. Dokumente lahko skeniramo in shranimo neposredno v javni spletni oblak oziroma v spletno hrambo, kot so: Dropbox, Google Drive in Skydrive, ali pa jih delimo z drugimi uporabniki Facebooka. Vgrajeni Presto! PageViewer omogoča pregledovanje in dopolnjevanje dokumentov PDF in OCR za pisave 54 jezikov in izdelavo iskalnega PDF. Iz slednjega lahko zajamemo tudi prepoznano besedilo. Stane 99,95 dolarja.
Google Docs (docs.google.com) je brezplačna spletna storitev oziroma spletna pisarna, za uporabo katere potrebujemo le spletni brskalnik in brezplačni Googlov uporabniški račun s prijavo v Google Drive. Omogoča ustvarjanje in urejanje besedil in preglednic pa tudi OCR iz slikovnih dokumentov. Prednost te rešitve je, da nam ni treba nameščati programske opreme, prav tako nam tudi ni treba skrbeti za njene posodobitve. Če zaupamo Googlu in nimamo zaupnih podatkov in visokih zahtev glede kakovosti OCR, velja poskusiti. Če pa si premislimo ali le želimo ustvariti kopije svojih dokumentov, je na Google Drive na voljo tudi njihov izvoz v zapise zbirke Microsoft Office in druge, ki jih lahko shranimo na krajevni disk. OCR sicer ne prepozna oblike dokumenta, prav tako ne zna določiti stolpcev z besedilom, zato je besedilo izpisano po vrsticah in brez oblikovanja.
SimpleOCR (www.simpleocr.com) je namensko orodje za OCR z nekoliko starejšim uporabniškim vmesnikom, ki prepoznava strojno izpisane pisave. Poleg prepoznavanja iz besedila iz slikovnih datotek omogoča tudi povezavo s skenerjem. Sliko z besedilom najprej pretvori v monokromatsko sliko s črnim besedilom in belim ozadjem. Sodobnejša orodja za OCR namesto tega pred prepoznavanjem raje izdelajo sivinsko sliko ali pa le prilagodijo kontrast in osvetlitev, kar ohranja bistveno več podatkov in omogoča boljše prepoznavanje. Kakorkoli, na našem testu smo bili razočarani nad kakovostjo prepoznavanja znakov, pa tudi nad tem, da SimpleOCR ne zazna stolpcev besedila.
SimpleOCR, ki je za nekomercialno osebno rabo zastonj, vsebuje tudi plačljivo aplikacijo SimpleWriting s 14-dnevno preizkusno različico, ki omogoča prepoznavo ročno napisanega besedila v obliki velikih in malih tiskanih črk. Za pravilno prepoznavanje ročno napisanega besedila je treba najprej zagotoviti učno besedilo s 300–500 besedami, na podlagi tega pa se SimpleWriting nauči prepoznavati posamezno ročno pisavo.
Kaj se splača in kaj ne?
Čeprav so namenska orodja za OCR, kot je FineReader, večinoma po kakovosti še vedno v ospredju, OCR počasi postaja le ena izmed funkcionalnosti orodij za urejanje besedil in upravljanje datotek, kot je Adobe Acrobat DC Pro, ter dopolnjuje funkcionalnosti digitalnih (spletnih) pisarn, kot je Google Docs. Nakup namenskega orodja za OCR ali naročnina na spletno storitev, kot je Captricity, se izplača, če to funkcionalnost pogosto potrebujemo za veliko količino daljših dokumentov. Drugače pa je bolje, če uporabimo katero od zastonjskih rešitev, kot je SimpleOCR, ali rešitev, kot je Microsoft OneNote, ki jo morda že imamo na voljo.
Komentarji
Borut Golob | 8.6.2018 | 15:38
Pozdravljeni Niste omenili Office Lens, ki je meni zelo uporaben za manjše dokumente - stran ali dve. Slikam, pretvorim v Word ali pdf in obdelujem. Kvaliteta je sicer odvisna od slike in le-ta od svetlobe. LP, Borut Golob