Računalniško prepoznavanje posnetkov za vsakogar
Minili so časi, ko je bilo treba za uporabo računalniškega prepoznavanja posnetkov poznati vse podrobnosti te tehnologije, jo večidel samostojno sprogramirati in imeti hkrati dovolj lokalne računske moči. Amazon že nekaj časa ponuja knjižnice (API), ki to za nas počno na Amazonovi programski in strojni opremi. Sadovi strojnega učenja so tako na voljo vsem.
Pravzaprav je tako z vsako novo tehnologijo. Ko so bili računalniki novost, so jih uporabljali le veliki strokovnjaki. Ko je bil internet še v povojih, je bil dostop omejen na majhno skupino ljudi, ki je razumela tehnično latovščino in imela interes za priklapljanje piskajočih škatel na računalnike. Danes je računalnik z dostopom do interneta na skoraj vsaki pisalni mizi. Spočetka sta bila strojno učenje in prepoznavanje vsebine posnetkov takisto rezervirana za visoko usposobljene. Zdaj nič več.
Ob koncu preteklega leta je Amazon svojo AWS (Amazon Web Services) nadgradil s storitvijo Amazon Rekognition Video, ki dopolnjuje slikovni Rekognition. Ta je na voljo od decembra 2016 in je do danes znatno napredoval. Kljub svojim zmožnostim pa Rekognition v javnosti ni tako znan, kot bi lahko bil.
Kaj je Amazon Rekognition?
Gre za knjižnico (API), ki jo uporabimo v svojih aplikacijah, da dobimo dostop do prepoznavanja predmetov, ljudi, besedila, aktivnosti in pokrajine ter neprimerne vsebine. To pomeni, da bo Rekognition identificiral ljudi tudi na skupinskih fotografijah ter na njih prepoznal, kdaj igramo odbojko, in razbral napise na skodelicah. Fotografije in video posnetke za to početje preprosto shranimo z Amazon S3 (to se izvede samodejno, lahko pa pripravimo tudi večjo količino podatkov za paketno obdelavo) in nadnje pošljemo Rekognition.
Rekognition zna brati fotografije in video posnetke. Slika: Amazon
Rekognition sestavlja več različnih API. DetectLabels analiza fotografijo in vrne oznake (labels), ki ji ustrezajo. Te označujejo predmete (drevo, miza), dogodke (poroka, zabava), koncepte (večer, narava) in aktivnosti (igranje odbojke, vožnja avtomobila), ki opisujejo fotografijo. DetectFaces pridobi podatke o obrazih, torej kje na fotografiji je obraz, kje so oči, nos, usta, kakšna čustva kaže ipd. Za prepoznavanje zvezdnikov služi RecognizeCelebrities, medtem ko CompareFaces primerja, ali je na dveh fotografijah ista oseba. Če imamo zajetno zbirko, lahko tako izvajamo prepoznavanje oseb. DetectModerationLabels pa ugotavlja, ali so fotografije neprimerne. To je uporabno, da raznih nečednosti ni treba ročno prebirati ljudem. Iste operacije lahko izvajamo tudi na video posnetkih, le API se imenujejo drugače. Kaj bomo torej z Rekognition počeli, je odvisno od potreb.
Rekognition poišče oznake, ki najbolje opisujejo fotografijo. Slika: Amazon
Storitev seveda ni zastonj, temveč se obračunava po dejanski porabi, naročnine pa ni. Na evropskih strežnikih, ki so na Irskem, stane analiza minute video posnetka 10 centov, če je shranjen vnaprej, in 12 centov, če gre za živo sliko. Analiza fotografij stane od 0,4 do 1,0 dolarja na 1000 fotografij, odvisno od količine (več je ugodneje). Shranjevanje metapodatkov s fotografij obrazov, ki jih potrebujemo za prepoznavanje, stane cent za tisoč obrazov mesečno. Brez te zbirke prepoznavanje oseb seveda ne deluje.
Kako deluje
Razumljivo Amazon na dolgo široko opisuje, kako lahko Rekognition uporabljamo, precej redkobesednejši pa je pri opisu, kako deluje. Iz dokumentacije in predstavitev izvemo le, da uporablja vrsto strojnega učenja (deep learning), ki ga je Amazon implementiral v svoje storitve s področja umetne inteligence (AI).
Google v nemilosti zaradi sodelovanja s Pentagonom
Marca je ogromno prahu dvignilo razkritje, da Google sodeluje s Pentagonom pri projektu, ki razvija umetno inteligenco, strojni vid in prepoznavanje slik za analizo posnetkov, posnetih z ameriškimi brezpilotnimi letali. Projekt, ki se imenuje Maven, ima upravičeno oznako orožarski. Začel se je aprila lani in se bo iztekel leta 2019.
Prvi del projekta je razvoj sistema za učinkovito analizo posnetkov, ki jih je preveč, da bi jih mogli pregledati ljudje. Pentagon pred projektom ni znal uporabljati modernih tehnologij umetne inteligence, kamor sodita tudi big data in strojno učenje. Del projekta je tudi sledenje posameznikom na posnetkih, ki jih identificira in spremlja njihovo gibanje med lokacijami.
Po razkritju se je na Google usulo veliko nestrinjanja, tako od javnosti kakor lastnih zaposlenih, izmed katerih so nekateri celi podali odpovedi, več kot 4000 pa je podpisalo peticijo proti projektu. Junija je Google sporočil, da prihodnje leto ne bodo podaljšali pogodbe o sodelovanju pri projektu Maven.
Dodajmo, da je Maven sorazmerno skromen projekt s proračunom deset milijonov dolarjev. Pentagon je za umetno inteligenco v zadnjih letih zapravil več to sedem milijard dolarjev. Prav tako to ni edini projekt, kjer Google sodeluje z obrambnim ministrstvom. Ko je kupil Boston Dynamics, so, na primer, poskusili robotske pse prodati ministrstvu. Ko pa je kupil Skybox, ki se ukvarja s sateliti, je ta prekinil pogodbe z obrambnim sektorjem.
Dodaten namig se skriva v Amazonovi opombi, da se Rekognition ves čas uči in da se z uporabo izboljšuje. Uporablja nevronske mreže, ki jih je tudi Amazon razvil in preizkusil. Podrobno smo o nevronskih mrežah pisali pred dvema letoma (Računalniki se učijo, Monitor 01/16) in osnovni koncepti so enaki. Za trening nevronske mreže potrebujemo veliko količino vhodnega materiala, za katerega poznamo želeni odziv. Mreža se potem tako dolgo uči, da je sposobna to reproducirati. Potem je, vsaj v teoriji, nared za delo na nepoznanem materialu.
Amazonova storitev združuje različne namenske nevronske mreže, denimo optično razpoznavanje besedila, prepoznavanje obrazov in analizo video posnetkov, v paket, ki je enostaven za uporabo. Hkrati ima tudi vso potrebno strojno opremo, da uporaba ni težka. In res, industrija je navdušena.
Industrija in policija sta navdušeni
Maja letos je neprofitna organizacija ACLU (American Civil Liberties Union) dobila informacije, da Amazon nudi Rekognition nudi tudi policiji. Trenutno ga uporabljajo vsaj v Orlandu na Floridi in v okrožju Washington v Oregonu.
Britanci vse obraze prepoznali kot kriminalce
Lanski finale lige prvakov v valižanskem Cardiffu je bil za britansko policijo kot nalašč, da preizkusi svojo novo igračko. Kamere, ki vključujejo samodejno prepoznavanje obrazov in identifikacijo ljudi, bi lahko bistveno olajšale preiskavo izgredov in kaznivih dejanj, zato je bila omenjena tekma idealna priložnost, da prvikrat uporabijo to tehnologijo. Rezultati so bili tako katastrofalni, da jih Britanci sploh niso želeli razkriti, in šele letos so po zahtevku za dostop do informacij javnega značaja morali priznati, da v Cardiffu ni šlo vse po načrtih.
Policija je s kamerami spremljala množico 170.000 ljudi, ki so 3. junija 2017 pripotovali v Cardiff na tekmo med Real Madridom in Juventusom. Sistem je med njimi prepoznal 2470 ljudi kot kriminalce, kar je neverjetno veliko. Izkazalo se je, da je bila velika večina napačno identificiranih. Od »kriminalcev« je bilo 2297 napačno identificiranih, kar prestavlja 92 odstotkov lažno pozitivnih rezultatov. Policija je dejala, da sta bila vzrok za to slaba kakovost posnetkov in dejstvo, da so sistem uporabili prvič.
A niti drugič ali tretjič ni bilo nič bolje. Oktobra 2017 je sistem na boksarskem dvoboju med Anthonyjem Joshuo in Kubratom Pulevom zabeležil 90 odstotkov lažnih pozitivnih (46 izmed 51), novembra na ragbijski tekmi pa 88 odstotkov (42 izmed 48).
Wales vztraja, da je sistem koristen, četudi ni popoln. V letu dni uporabe so identificirali več kot 2000 kriminalcev in aretirali okrog 500 ljudi. Poudarjajo, da vsak zadetek preverijo ljudje, ki zavržejo nepravilne identifikacije. Toda če je takih 90 odstotkov, koliko časa potrošijo? Policija v Walesu pravi, da se sistem vseeno izplača.
Policija v Walesu ima v kombijih opremo za prepoznavanje obrazov in identifikacijo v realnem času. Slika: South Wale Police
V Orlandu Rekognition izvaja prepoznavanje obrazov na posnetkih prometnih kamer po mestu, da med njimi išče iskane osebe. Zbirka 300.000 ljudi, ki so bili že aretirani (imajo njihove posnetke, t. i. mugshots), je na razpolago Rekognitionu. Pogovarjajo se že, da bi tehnologijo prenesli tudi na telesne kamere, ki jih ponekod nosijo policisti.
Niso pa zanimivi le kriminalci, je na konferenci aprila letos v Seulu pojasnil vodja projekta Amazon Rekognition Ranju Das. Včasih želijo vedeti, ali je mogoče župan na določenem mestu, ali slediti kakšni drugi zanimanja vredni osebi. ACLU se je seveda odzval s številnimi pomisleki, da gre za uvajanje samodejnega množičnega nadzora, in skupaj z več deset drugimi organizacijami na Amazonovega izvršnega direktorja Jeffa Bezos naslovil odprto pismo z zahtevo, da preneha sodelovati s policijo. To se seveda ni zgodilo. Amazon je v odzivu dejal, da tehnologije ne smemo prepovedati samo zato, ker bi jo bilo mogoče uporabiti v nezakonite namene, saj bi bilo naše življenje precej slabše brez (katerekoli) tehnologije.
Kitajci težav nimajo
V nasprotju z Britanci (sosednji okvir) Kitajci težav z učinkovitostjo prepoznavanja obrazov, vsaj uradno, nimajo. Letos so se pohvalili, kako je njihov sistem s kirurško natančnostjo 7. aprila v Nanchangu na koncertu med 60.000 obiskovalci uspešno identificiral iskanega ubežnika. Policija ga je še med koncertom prijela. Sporočili so le, da ga iščejo zaradi kriminala belih ovratnikov. Če upoštevamo, da ima Kitajska 1,4 milijarde prebivalcev, ki so v njenih zbirkah, je taka natančnost osupljiva. A treba je priznati, da se moški ni poskusil zakriti ali kako drugače spremeniti svojega videza, saj je bil prepričan, da ga v množici ne bo nihče prepoznal. Imel je prav: prepoznal ga ni nekdo, temveč nekaj.
Kitajski policisti so v Pekingu že dobili pametna očala, ki so povezana s centralnim sistemom za prepoznavanje obrazov in identifikacijo vozil. Po državi tudi kar mrgoli nadzornih kamer (CCTV), ki jih je bilo konec preteklega leta 170 milijonov, v naslednjih treh letih pa nameravajo njihovo število potrojiti.
Kitajski policisti v Pekingu imajo pametna očala, ki jim omogočajo enostavno identifikacijo vozil in prepoznavanje potnikov. Slika: AFP
Kitajci so v 60.000-glavi množici uspešno identificirali kriminalca in ga pridržali. Slika: China Daily
Rekognition so uporablja tudi v nekoliko manj sporne namene. Na letošnji poroki britanskega princa Harryja in Meghan Markle je britanska televizija Sky News sodelovala z Amazonom. Njihov Rekognition so uporabljali za identifikacijo gostov, da so lahko gledalci pred televizijskimi zasloni videli, kdo vstopa v cerkev Sv. Jurija v Windsorju. Ker Rekognition ne prepoznava le ljudi, temveč tudi predmete in besedila, so Amazonove stranke tudi Pinterest, C-SPAN in pa Motorola Solutions, ki proizvaja telesne kamere za policiste.
Amazon Rekognition je pomagal Sky Newsu identificirati goste na Harryjevi poroki maja letos. Slika: Sky News
To je prihodnost
Če si to želimo ali ne, je prepoznavanje vsebine fotografij in video posnetkov z nevronskimi mrežami prihodnost. Amazon ni edini, ki ponuja te storitve v komercialni obliki. To počne tudi Google in še kdo. Tehnologije tudi ni mogoče prepovedati, saj gre za algoritme in (matematične) koncepte. Nekoč so želeli prepovedati tudi šifriranje, pa seveda ni uspelo.
Tehnologija je po eni strani koristna. Predstavljajte si aplikacijo, s katero fotografirate neki napis, pa vam ga prevede. Ali pa sistem, ki sam išče neprimerne fotografije in jih briše, da ni treba ljudem gledati posnetkov nesreč ali otroške pornografije. Toda upravičeni so strahovi, da tehnologija vodi v popolni nadzor. Kamer je čedalje več, število posnetkov raste, tehnologija se razvija. Zdi se, da hitreje od zdrave pameti in zakonodaje.