Gostujoče pero: Baby you can’t drive my car ...*
Če analiziramo mnenja in napovedi o tem, kako pomembni so in bodo podatki, jih lahko grobo razdelimo na takšne, da bi morali s svojimi podatkih oziroma zbirko podatkov dobro zaslužiti, in tiste, da velika podjetja izkoriščajo naše podatke za lastno bogatenje, ne da bi mi kaj imeli od tega.
Dejan Spasovski, direktor podjetja Ineor, d. o. o.
Predvidevam, da se komu celo poraja utopično futuristična slika o ne tako oddaljeni prihodnosti, ko si nadene nosljivo napravo, nekaj vitalnih podatkov proda multinacionalkam in tako dobi dovolj (realnih ali virtualnih) sredstev, da lahko natoči gorivo za zabavo v mestu. Nekaterim se bo takšna ideja zdela praktična in dobrodošla, drugim pa nehumana in nenaravna kot prodaja ledvice za estetske korekcije telesa.
Pogosto slišimo opredelitev, da so podatki gorivo bodočnosti. A podatki niso gorivo in ne morejo poganjati avtomobila, ga pa lahko krmilijo in so osnova za vse bolj avtonomno upravljanje. Varnost podatkov in dobra podatkovna infrastruktura sta zato nujna za prihodnost.
Podatki so zelo dragoceni – a le, ko obstajajo v določenem kontekstu. Danes veliko (posebej industrijskih) podjetij nima urejenega pravilnega ravnanja s podatki. Te celo pridobivajo zelo načrtno, a jih ne zbirajo v pravem pomenu besede. Kup podatkov ni isto kot zbirka podatkov.
Škoda, kajti pot, ki prinese uspeh, je preprosta. V prvem koraku samo zbereš in zavaruješ podatke, recimo v oblaku. A ta korak, po katerem mnogi z zadovoljstvom po dobro opravljenem delu že odnehajo, je šele začetek – v nadaljevanju jim je namreč treba dati smisel. Ob pomoči matematike, statistike, računalništva … si lahko podatke morda le ogledujemo, lahko jih izvozimo v razpredelnico, da so preglednejši, jih očistimo (tudi tipala naredijo napake), iz njih izdelamo poročila in grafe, jih primerjamo, delimo, prenašamo, zbiranje lahko avtomatiziramo, poizvedujemo po vsebini in povezavah, uporabimo sistem, ki opozarja na različne dogodke, uporabljamo napredne modele za analizo in nedokončno predvidevamo dogodke, ki so lahko usodni za projekt ali podjetje – pozitivno ali negativno. Podatkom lahko že danes damo zelo uporaben smisel. Za to rabimo dovolj podatkov in dovolj različnih tipov dovolj aktualnih ter hitro pridobljenih podatkov. Trojni V (volume, variety in velocity, torej količina, različnost in hitrost nabiranja) podatke dela še bolj dragocene. Če podatke zbiramo dovolj dolgo, široko in hitro, zberemo dovolj veliko število uporabnih, kar je pomembno, saj količina povečuje statistični potencial. In če povečamo različnost atributov tipov podatkov, bomo izboljšali statistično natančnost sistema, s hitrostjo pa zmanjšamo čas obdelave, ki bi se že danes moral dogajati v realnem času.
Kaj to pomeni v praksi? V zdravstvenih ustanovah zbiramo vse več podatkov o zdravju. A potenciala teh podatkov ne izkoriščamo za predvidevanje, kontroliranje, preprečevanje in omilitev neljubih dogodkov in posledic. Raje štejemo padce iz postelj, kot da jih predvidevali in preprečevali. Če bi zdravstvene zbirke združevali s sosednjimi državami, bi lahko natančno predvideli, kdaj se val okužb približuje ali oddaljuje. Če segmentiramo podatke glede na statistične skupine, lahko omejimo ukrepe ne samo na določene občine, ampak tudi na določene starostne skupine in zanje poskrbimo bolje, avtomatske simulacije vseh scenarijev razvoja bolezni, mogočih ukrepov in njihovega (ne le zdravstvenega) vpliva na dogajanje v družbi pa so za nadzor nad morebitno epidemijo nepogrešljive. Izjemno dobro in izjemno agilno upravljanje tveganj je ključno.
Pred leti me je davčna uprava povabila, da predstavim svoje videnje in predlagam rešitev za uvedbo davčnih blagajn. Tako kot vedno sem celostno preučil vse podobne sisteme v svetu ter pripravil predlog, ki je temeljil na predvidevanju neželenih dogodkov glede na obstoječe podatke ob pomoči strojnega učenja. Rešitev je že vsebovala osnovni model iskanja goljufij v sklopu že tako komplicirane zakonodaje na tem področju. Predstavil sem tudi rešitve, ki so temeljile na strojni opremi, verifikaciji programske opreme, centralnem sistemu za zbiranje in obdelavo podatkov, ki je že obstajal, ali omenjenem prediktivnem modelu brez dodatnih sprememb. S preprostejšo zakonodajo in z boljšo obdelavo podatkov z uporabo sodobnih tehnologij je morda že danes napočil čas za poenostavitev poslovanja in celo ukinitev davčnih blagajn. Poenostavitev je ključna za gospodarski napredek države.
In še to: podatke je treba deliti, še posebej, če si država. Večina jih mora biti in ostati javnih (odprtih). Odprti podatki so pomembna osnova za inovacije ali nove posle, kar na koncu ustvarja nova delovna mesta z visoko dodano vrednostjo in tako pozitivno vrne podatkovno demokratičnost državi, ki te podatke deli. Na ta način bi se, namesto da se vedno sprašujemo in pričakujemo, kaj država sploh počne in kaj lahko naredi za nas, lahko vprašali, kaj lahko naredimo sami zase, saj v resnici tako največ naredimo tudi za družbo in državo. Vsakdo najbolje pozna težave, ki jih ima, in ko zanje najde rešitev, bo z deljenjem podatkov lahko rešil isto težavo tudi drugim, ki jo imajo – manj težav pa pomeni boljše stanje družbe.
*Ljubica, ne dam ti avta ...