Slovenščina, angleščina in ɢooglščina?
Pogled v statistiko obiskov naše spletne strani je pokazal, da so »spamerji« postali zelo iznajdljivi. Ker se z nenavadnimi statistikami spoprijemajo vse večje spletne strani, smo pogledali, kje tiči vzrok, in se prepričali, da nam »spamerji« s svojim početjem ne morejo neposredno škoditi, povzročijo pa lahko kakšen siv las
Presenečenje nas čaka na prvi strani Google Analytics (GA) za naše spletišče, kjer vidimo osnovno statistiko obiska, ki vsebuje tudi jezik obiskovalcev. Največ jih ima slovenščino, sledi angleščina, na petem mestu pa namesto dvočrkovne kode jezika piše Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump! Pregled napotiteljev (referral) na našo stran na šestem mestu kaže čudno domeno lifehacĸer.com, na devetem mestu pa motheroard.vice.com, od koder verjetno res nimamo obiska. Ob podrobnem pogledu vidimo, da sta v domenah dve nenavadni črki – ɢoogle.com in lifehacĸer.com ni isto kot google.com in lifehacker.com. Prvi domeni sta pod nadzorom spamerjev, drugi sta uveljavljeni domeni. Kaj se dogaja?
»Spamerji« v lažnih zahtevkih za Google Analytics ponaredijo polje jezik brskalnika in tja vpišejo poljubno besedilo.
Nič hudega, le »spamerji« so se odločili pustiti svoje odtise v našem GA. V internetu ni nič, kot se zdi, to velja tudi za podatke, ki jih trosimo naokoli in jih GA zaznava. Majhen del statistike je nadzorovan in ne omogoča izumljanja novosti, denimo celine ali države, kjer so možnosti vnaprej določene. Še vedno se lahko predstavljamo kot obiskovalec iz Erevana. Ne moremo pa zapisati, da smo iz Narnije, ker tega mesta ni. Večina drugih komponent statistike pa je odprtih, zato je po njih mogoče smetiti. Ime brskalnika, jezik ali napotitvena domena so zgledi statistik, kjer lahko zapišemo karkoli.
Kako
Spamerjem ni treba obiskati naše spletne strani, da bi v GA pustili svoj odtis, zato je največkrat res ne. Na spletni strani imamo košček kode v javascriptu za brskalnik. Z njo v Googlove strežnike pošlje (HTTP request) osnovne informacije obiskovalca in obiska skupaj s številko spletišča (property ID). Google iz tega IDja ve, za katero spletno stran gre. Spamerjem je vseeno, kje bodo pustili svoj podpis, želijo pa to izvesti čim ceneje, zato se ne ukvarjajo z dostopanjem do naše strani, da bi dobili številko ID. Namesto tega IDje generirajo naključno in potem v GA neposredno pošiljajo spam. Temu se reče promet duhov (ghost traffic).
Čeprav je lifehacĸer.com pod nadzorom »spamerjev«, motheboard.vice.com pa je legitimna spletna stran, so v statistiko obiskov obe lažno vstavili »spamerji« s ponarejenim poljem »referral«.
Nekateri »spamerji« dejansko obiščejo našo stran, s čimer povzročajo merljivo škodo (obremenitev strežnikov). K sreči jih je manj, ker to več stane tudi spamerje. Ti bodo v dnevniški datoteki (log) in GA, duhovi pa le v GA.
Kaj
Pred spamom duhov se ne moremo ubraniti s klasičnimi prijemi, kot so blokiranje naslovov IP, domen, brskalnikov ali napotiteljev v datoteki .htaccess, ker promet nikoli ne pride do naše strani. Slabost je tudi to, da statistike iz GA ne moremo izbrisati. Nikoli. Zato lahko ukrepamo le za naprej. GA omogoča nastavitev filtrov (Admin / All Filters / New Filter), kateri promet se ne beleži. V polju jezik lahko prepovemo klicaje, pike, vejice in predolge zapise. Najbolj univerzalna rešitev je, da dovolimo le hostname, ki ustreza našim domenam.
Nastavitve bodo veljale vnaprej. Za nazaj statistike ne moremo popravljati, lahko pa pri pregledu ignoriramo spam, če uporabimo funkcijo Add Segment in si odfiltriramo spam. In kako ga prepoznamo? Če je napad očiten, že iz aviona (čudne domene, jezik itd.), če pa je spamer pretkan in želi namerno izkriviti našo statistiko, zelo zelo težko.
Kdo
Spamerjev po navadi ne poznamo, a Vitalij Popov je izjema. Slavni ruski spamer javno priznava svoje početje in poudarja, da ne počne nič nezakonitega, se pa pri tem neizmerno zabava. Popov je registriral domeno ɢoogle.com, ki se začne s posebnim Unicode znakom s kodo 0262. Gre za homografski napad, ki ga omogoča razširitev domen na vse znake Unicode (IDN). Kopica lažnih spletnih strani uporablja domene, ki so na las podobne avtentičnim, a imajo namesto latinskih črk kakšno cirilično enakega videza (svoj čas je bil priljubljen pаypal.com). Tu je cilj jasen – pretentati uporabnike, da vnesejo svoje prijavne podatke.
»Spamerji« sploh ne obiščejo naše spletne strani, temveč podatke pošiljajo neposredno v Google Analytics.
Polje jezik spremenijo zato, ker je idealno za to. Pojavi se na prvi strani analitike, hkrati pa ima večina spletnih strani obisk iz zelo malo različnih jezikovnih skupin, zato se je mogoče že z nizkim številom lažnih obiskov prebiti visoko na lestvici. Nekoliko manj primerno, a še vedno zanimivo je polje napotitelj (referral), načeloma pa lahko napademo katerokoli.
Čemu
Google je potrdil, da spamanje GA nima nobenega vpliva na rangiranje spletne strani v iskalnem algoritmu. Če nas izkrivljena statistika ne moti, lahko spam pustimo in se z njim ne obremenjujemo. Google za problem ve in ga po najboljših močeh rešuje, drugače bi bilo še bistveno slabše. Toda dokler bo osnova GA ostala enaka, trajne rešitve ni pričakovati.
Če pa spletno stran pilimo za čim večji obisk, so podatki iz GA pomembni, kjer spam megli stanje, zato ga s filtri odstranimo. Na nekaterih straneh (oglaševalskih, spletnih trgovinah itd.) je pravilna statistika ključna.
In kaj sploh želijo »spamerji«? Pozornost. Nekatere spletne strani imajo podatke iz GA javno dostopne, drugod jih gledajo skrbniki in tržniki. V vsakem primeru upajo, da njihovo spletno stran obiščemo. Včasih želijo le promet, včasih nam podtaknejo posredniško povezavo (affiliate link), včasih nas želijo okužiti s kakšnim trojancem.