Že čutite težo podatkov?
Pa bi jo morali. Vsak dan se v svetu ustvari 3,5 triljona bajtov novih podatkov. Že danes nepredstavljiva količina podatkov pa, odkar pomnimo, zgolj narašča. Kako obvladati množične podatke?
Ideja je očitna – podjetja, ki lahko izkoristijo moč množičnih podatkov, vidijo priložnosti prej kot druga in imajo možnost skočiti pred konkurenco. Toda obdelava, shranjevanje in analiziranje množičnih podatkov danes predstavljajo neverjeten poslovni izziv.
Če še nikoli niste slišali za besedo kvintiljon iz uvoda, niste edini. Gre za milijardo milijard ali milijon bilijonov. V matematičnem jeziku pa zapis predstavlja enico, ki jih sledi 18 ničel, torej izredno dolgo številko. Povprečen človek namreč vsako sekundo ustvari 1,7 MB podatkov, in če upoštevamo, da je danes na internetu pet milijard ljudi, se vsakodnevno ustvari nepredstavljiva količina podatkov. Tudi če se le delež te uporablja v poslovne namene, je treba goro podatkov spoštovati. Na spletu sem zasledil, da štirje tehnološki velikani, in sicer Amazon, Facebook, Google in Microsoft, skupaj hranijo že 1,2 milijona terabajtov podatkov. Le zakaj … Samo pomislite, koliko trdih diskov je to in koliko tehtajo.
Koncept uporabe množičnih podatkov ni nov. Včasih so za množične podatke veljale že ogromne zbirke podatkov, potem podatkovni bazeni, za njimi podatkovna jezera … Dejstvo je, da se z množičnimi podatki ukvarja vedno več podjetij, posebej največjih. Zahvaljujoč skokovitemu napredku na področjih računalniških zmogljivosti – tako hrambe kot obdelave podatkov –, pospešeni digitalizaciji in razširjeni selitvi podatkov v oblak, podjetja odkrivajo pravi potencial analitike množičnih podatkov. Ta podjetjem ponuja nekakšno zlato jamo priložnosti. Na kaj morajo torej biti pozorna, ko gre za izkoriščanje gore podatkov?
Razvoj pretočne analitike
Najbolj vroč trend v svetu množičnih podatkov je t. i. pretočna analitika. Ta temelji na ideji, da je podatke mogoče analizirati v realnem času, torej ko se nekam pošiljajo, nalagajo, in ne šele, ko prispejo na ciljno lokacijo. Do zdaj so namreč podjetja čakala, da so se na določeni lokaciji, npr. v podatkovnem skladišču ali bazenu, zbrali vsi podatki in šele nato zagnala analitiko. Nič več.
K vzponu pretočne analitike sta prispevala predvsem dva ključna dejavnika. Prvi je očiten: vedno več podjetij seli svoje poslovanje na splet, kjer se tudi že sicer izvaja velik obseg poslovanja. To pomeni, da imajo podjetja zdaj več dostopa do podatkov v realnem času kot kadarkoli prej. Drugič, količina ustvarjenih podatkov se je v zadnjem desetletju eksponentno povečala. Kako izkoristiti pretočno analitiko v navezi z množičnimi podatki? Številna orodja za analitiko v realnem času so kos tudi množičnim podatkom. Oglejte si rešitve, kot so Spark, Kafka, Kinesis in HubSpot Operation Hub.
Ko se podatkov loti umetna inteligenca
Prihodnost poslovanja bo v vse večji meri vodila umetna inteligenca in tudi nova generacija rešitev s področja analitike množičnih podatkov bo temeljila na njej. Zmogljivosti procesorjev, osrednjih in grafičnih, so vse večje, stroški pomnilnika pa so se znatno zmanjšali, kar naredi analitiko v pomnilniku izredno privlačno. To namreč omogoča shranjevanje in obdelavo podatkov na načine, ki si jih pred desetletjem ni bilo mogoče zamisliti. Ko v to enačbo (ali lonec) dodamo še algoritme umetne inteligence, dobimo novo dimenzijo (ali pa okus).
Orodja umetne inteligence namreč s pridom izkoriščajo tehnologije vzporedne obdelave podatkov, podpirajo obdelavo na zahtevo ter hitrejše premikanje podatkov med različnimi fazami obdelave, kar je na stežaj odprlo vrata rabi umetne inteligence. Poleg tega je umetna inteligenca povečala natančnost, s katero lahko interpretira podatke, hkrati pa je razširila možnosti algoritmov in knjižnic, izboljšala učinkovitost in omogočila kombinacijo cevovodov algoritmov za boljše napovedi in rezultate.
Skupaj z rabo umetne inteligence v podatkovnem svetu se je razširila tudi stopnja avtomatizacije. Ko so enkrat definirani potrebni podatkovni modeli in t. i. hiperparametri, avtomatizacija že prevladuje, saj skrbi za vse faze – od zbiranja podatkov do njihovega vnašanja v podatkovni cevovod, ob tem pa tudi sproži algoritem strojnega učenja –od začetka do končne analitične nadzorne plošče ali obvestil, zaradi česar celoten proces teče brez napak in hitro.
Podatki imajo težo
Ste si zapomnili besedo kvintiljon? Danes na lokacijah podjetij, pa tudi v različnih scenarijih interneta stvari (IoT), na posameznih mestih nastaja ogromna količina podatkov. Ta je tako velika, da je ni več smotrno pošiljati čez ves svet v analizo podatkovnemu centru oblačnega ponudnika, saj to povzroča velike stroške povezljivosti in storitev analitike. Podjetja se zato vse pogosteje zatekajo k rabi robnega računalništva. To predstavlja obdelavo podatkov na robu omrežja ali naprave in ne na centralizirani lokaciji. Ko enkrat govorimo o internetu stvari, je težko upravljati vse podatke z ene centralizirane lokacije, saj jih lahko robno računalništvo hitreje obdela in prej postreže s ključnimi ugotovitvami ter vpogledi ali pa povratnimi informacijami in podatki.
Odvisnost od oblačne hrambe
Čeprav ima nekaj slabosti, je shranjevanje v oblaku precej praktična možnost za hrambo velikih količin podatkov. A če ima podjetje opraviti z zaupnimi ali s posebej občutljivimi podatki, to ni vedno idealna možnost. Poleg tega je težko slediti velikim količinam računov za hrambo v oblaku. Toda dandanes se podjetja bolj ukvarjajo s tem, kdo ima dostop do njihovih podatkov, kot pa s tem, kje se ti hranijo.
Za podjetja z občutljivimi podatki je najpogostejša skrb, ali lahko do njihovih podatkov dostopa tudi kateri izmed konkurentov in kako zaščiteni so pred kibernetskimi napadi. Podjetja imajo zato velike izzive, ko načrtujejo, kako in kje bodo shranjeni njihovi podatki. A odvisnost od oblačne hrambe je že tu in je realna – poti nazaj, v strežnike in strežniške omare, v podjetju bržkone ni več. Nenazadnje te preprosto niso kos množičnim podatkom, zato je bolje, če podjetje svoje napore usmeri v to, da ponudnika oblačne hrambe kar najbolj »privije« na področju varnostnih zahtev.
Primanjkljaj podatkovnih znanstvenikov
V svetu kronično ne primanjkuje le podatkovnih znanstvenikov, ampak tudi analitikov in arhitektov podatkovnih skladišč. Pa je to le vrh ledene gore. Primanjkuje namreč dobesedno vseh strokovnjakov, ki se ukvarjajo s podatki. Podjetja jih zato težje pretvorijo v vrednost, čeprav se razvijalci analitičnih rešitev trudijo postreči z rešitvami, ki ne zahtevajo znanja programiranja, in s takimi, ki karseda posnemajo delovanje spletnih iskalnikov.
Toda podjetja, katerih delo je povezano z množičnimi podatki, nimajo izbire. Zaposlovati in vzgajati morajo podatkovne strokovnjake, sicer ne bodo kos hitri rasti podatkov, cevovodov, umetne inteligence in analitike, ki postajo del vsakodnevnega poslovanja. Že danes obstaja več vidikov upravljanja podatkov v podjetju in seznam možnosti ter načinov njihove rabe se daljša. Pa opravljanje poizvedb poslovnih uporabnikov in serviranje očem prijaznih poročil vodstvu sploh nista glavna izziva. Zbiranje, čiščenje, obdelava podatkov, spremembe podatkovnega modela, testi varnosti in zasebnosti, dodajanje podatkovnih virov in druge naloge so upravljanje podatkov naredile izredno zahtevno. Poleg tega so podatki strank in partnerjev tudi vsak dan večja odgovornost podjetij. Skrbeti za to, da v podatkovno gnanem svetu ne bo šlo kaj narobe, je ena bolj nehvaležnih nalog, a tisti, ki jo opravijo najbolje, so bogato nagrajeni.
Praktična raba množičnih podatkov
Različne panoge se na različne načine osredotočajo na množične podatke, a prav vse opažajo številne spremembe v tem, kako jim lahko množični podatki pomagajo rasti in se spreminjati (na bolje).
Bančništvo
Banke dobesedno morajo uporabljati množične podatke za obdelavo poslovanja strank, saj prek njih prepoznajo tveganja s področja kibernetske varnosti, npr. najrazličnejše zlorabe (računov/kartic) in prevare. Seveda jih s pridom izkoriščajo tudi za ocene tveganja komitentov – komu posoditi denar in koliko, da ga bo še lahko vrnil, oziroma komu ne. Množični podatki lahko bankam pomagajo tudi pri t. i. lokacijski inteligenci za upravljanje in določanje ciljev, ko gre za posamezne lokacije podružnic. Prav na osnovi analize ogromnih količin podatkov se zadnja leta odločajo za zapiranje nekaterih podružnic, saj, denimo, prepoznajo, da so v nekem kraju ali regiji komitenti večinoma že prešli na spletno in/ali mobilno bančništvo.
Kmetijstvo
Kmetijstvo je pomembna panoga, množični podatki pa so lahko ključnega pomena – podobno kot v industriji, ki že razume njihov pomen. Različna orodja za množične podatke morajo v kmetijstvu združevati veliko dimenzij, vključno z vremenom, s podatki tal, potrebo po namakanju, z analizo škodljivcev, rabo zaščitnih sredstev (beri: pesticidov), s stanjem pridelka, z razpoložljivostjo opreme in delovne sile itd.
Upravljanje nepremičnin in premoženja
Razumevanje trenutnih trendov na nepremičninskem trgu je potrebno za vse, ki iščejo, prodajajo ali najemajo stanovanje. Z množičnimi podatki lahko nepremičninska podjetja opravijo boljšo analizo trga nepremičnin in jih izkoristijo sebi ter svojim strankam v prid.
Podjetja za upravljanje nepremičnin prav tako uporabljajo lastne množične podatke, zbrane iz stavb, za povečanje učinkovitosti upravljanja, vzdrževanja, odpravo ozkih grl ter varčevanje.
Zdravstvo
Množični podatki so ena najpomembnejših tehnologij v zdravstvu in bodo v prihodnje le še pomembnejši. Zdravstveni zavodi se šele v zadnjih letih zavedajo, kaj vse je moč doseči na račun množičnih podatkov – od hitrejšega odkrivanja bolezni do boljše in natančnejše zdravstvene oskrbe. Analiza množičnih podatkov o pacientih in njihovih simptomih vodi do boljših odločitev o tem, katera zdravila naj bolnik jemlje, kakšne so njegove vitalne funkcije in kako se lahko spremenijo ter kako in koliko naj se prehranjuje in giblje (ali ne), da bo čim prej okreval. V prihodnje bo zbiranje podatkov prek nosljivih naprav lahko pomagalo zdravnikom še bolje razumeti svoje paciente ter jim zagotoviti boljšo oskrbo – in obenem prihraniti denar.