Amazonovo lepilo za čiščenje podatkov
Amazon je predstavil novo orodje DataBrew v okviru storitev AWS Glue, ki je namenjeno specifično področju priprave in čiščenja podatkov za zagotovitev kvalitetne nadaljnje analize v drugih oblačnih storitvah. Naprave IoT, večpredstavne vsebine in številne spletne storitve so danes vir čedalje večjega števila najrazličnejših podatkov, ki pa lahko s primerno interpretacijo postrežejo s povsem novimi in potencialno koristnimi spoznanji. Toda podatke je pred uporabo treba ustrezno pripraviti, normalizirati, prečistiti in prilagoditi ciljni storitvi, kar je zamudno oziroma potrebuje specializirana znanja.
Tovrstni postopki pogosto potekajo s specializiranim orodji ali celo programskimi jeziki, kot je jezik R. Toda DataBrew to počne z vizualnim orodjem, ki omogoča pripravo podatkov praktično brez pisanja kode. Programska rešitev omogoča raziskovanje, eksperimentiranje neposredno nad podatki v podatkovnih skladiščih in bazah podatkov.
Uporabniki imajo na voljo čez 250 vgrajenih funkcij, s katerimi lahko delajo transformacije na podatkih, dobršen del teh pa uporablja tehnike strojnega učenja za različne naloge, na primer procesiranje naravnih jezikov, torej besedil. Amazon z novim orodjem cilja predvsem na podatkovne znanstvenike (data scientists), do neke mere pa tudi napredne poslovne uporabnike, ki iščejo nove koristne informacije v svojih podatkovnih zbirkah.
Amazon pa ostaja nekoliko skrivnosten glede cene uporabe orodja DataBrew. V sporočilu za javnost trdijo, da uporabnikom ne bo treba vnaprej plačevati uporabo, zlasti ne za čas eksperimentiranja in iskanja pravilnih postopkov za obdelavo podatkov. Amazon pa pričakuje plačilo za rezultate tovrstnega raziskovanja, ko bodo metode aplicirane na produkcijskih podatkovnih zbirkah.
G8o5ekfbBO4