Analiza DNK prek spleta - Pljuni in pošlji
Dve ločeni tehnologiji sta morali napredovati, da lahko danes iz svojega naslanjača ugotovimo, kdo je naš pradedek, h katerim genskim boleznim smo nagnjeni in celo iščemo zločince. Poceniti se je moralo analiziranje DNK in dobiti smo morali internet. Zdaj prek njega naročimo in po pošti prejmemo komplet, na katerega kanemo malo sline in odpošljemo. Kmalu zatem lahko sorodnike najdemo tudi prek interneta.
Diagram sorodnosti zadetkov v zbirki, s katerimi so identificirali Williama Earla Talbotta, ki je bil kasneje obsojen zaradi dveh umorov.
Pred štirimi leti je policija v Sacramentu potrkala na vrata 72-letnega Josepha Jamesa DeAngela, ker je v letih 1974–1986 ubil vsaj 13 ljudi in jih še štirikrat toliko posilil. Dve leti pozneje je bil že pred glavno obravnavo obsojen na 12 dosmrtnih kazni, saj je zločine priznal. Po več kot štirih desetletjih policijskega tavanja v temi se je leta 2018 sestavljanka bliskovito zložila, dokazi pa so bili dovolj trdni, da DeAngelo sploh ni ugovarjal. Ključni preobrat, da je šla preiskava po skoraj petih desetletjih vendarle v pravo smer, pa so omogočile nove internetne storitve.
DeAngelo je imel že od mladih nog problematično življenje, ki je vključevalo vlome, mučenje živali, tatvine iz trgovin, grožnje zaročenki, a zgodbo moramo nekje začeti. Njen začetek zato postavimo v leto 1973, ko so se na območju Visalie v Kaliforniji dogajali vlomi, ki so postajali čedalje nasilnejši in so zahtevali vsaj eno smrtno žrtev. Policiji kljub nekaterim materialnim dokazom nikoli ni uspelo ugotoviti identitete vlomilca. Tri leta pozneje so vlomili ponehali, se je pa v Sacramentu zgodilo več posilstev. Sprva je neznanec napadal ženske, ki so živele same ali z otroki, kasneje tudi pare. Do leta 1979 je posilil vsaj 50 žensk in ubil vsaj dve osebi. Nato se je premaknil na jug Kalifornije, kjer je v letih 1979–1981 ubil vsaj 10 ljudi.
Tedaj policija sploh ni vedela, da so primeri povezani. Vlomilec iz Visalie (Visalia Ransacker), posiljevalec iz vzhodnega predela (East Area Rapist) in nočni zalezovalec (Original Night Stalker) so bile tri ločene preiskave. Kljub predrznosti storilca, ki je večkrat klical na policijo in bahavo napovedal čas in lokacijo naslednjih napadov, so šele leta 2001 uradno povezali primere. A preboj se je zgodil šele leta 2016, ko je policija ponovno odprla primer in leta 2018 posiljevalčev DNK naložila v več spletnih storitev.
Razlikujemo se le za en promile
Deoksiribonukleinska kislina (DNK) je zapisana s štiričrkovno abecedo. Vso raznolikost življenja na Zemlji opisujejo različna zaporedja štirih organskih baz adenina, citozina, gvanina in timina (A, C, G, T). Človeški genski zapis vsebuje okoli tri milijarde baznih parov. Zmotno je prepričanje, da so razlike med ljudmi velike, saj 99,9 odstotka genskega zapisa delimo vsi ljudje. Forenzične analize se morajo zato osredotočiti na tisti promil, ki nas razlikuje.
Pri uporabi DNK za identifikacijo se zato osredotočijo na dele DNK, kjer so prisotne kratke tandemske ponovitve (STR), katerih dolžina je močno variabilna (VNTR). V teh segmentih DNK se različno mnogokrat (npr. od 20- do 60-krat) ponovijo kratka zaporedja baznih parov. Različni ljudje seveda lahko imajo enako število ponovitev enega zaporedja, zato se preverja več zaporedij. Standardizacija metode, kateri lokusi se preverjajo, je omogočila primerljivost in zanesljivost rezultatov. Hkrati pa omogoča več od zgolj preverjanja ujemanja identitete.
Mogoče je tudi ugotoviti, ali sta imetnika dveh vzorcev v bližnjem ali daljnem sorodu – in prav to je bil ključ pri iskanju zlikovcev s spletnimi storitvami za analizo DNK. Spletne storitve za analizo DNK za iskanje sorodnikov spremljajo enonukleotidne polimorfizme (SNP). Gre za mesta v genomu, kjer ima določen delež populacije različico nukleotida – na primer namesto adenozina imajo citozin. Komercialni ponudniki določajo nekaj sto tisoč teh mest, iz česar je moč sklepati na gensko sorodnost dveh vzorcev. Iz zbirk SNP je mogoče pridobiti bistveno več podatkov o posamezniku kakor iz STR.
Testiranje DNK
Pred sto leti nismo vedeli niti, koliko kromosomov imajo ljudje, kaj šele, kako je videti DNK. Resda ga je pred poldrugim stoletjem odkril Friedrich Miescher, a sta šele Watson in Crick v 50. letih razkrila njegovo zgradbo. A da bi bilo odkritje uporabno za identifikacijo ljudi in iskanje sorodnikov, se je poleg znanosti morala zgoditi še tehnologija. Projekt človeški genom (HGP), ki se je začel leta 1991 in v okviru katerega so do leta 2021 prvikrat določili celotno gensko zaporedje človeka, je stal 2,7 milijarde dolarjev. Leta 2001 je določevanja genoma stalo še 100 milijonov dolarjev, leta 2011 10.000 dolarjev in leta 2021 manj kot sto dolarjev. Na trg so bili vstopili komercialni ponudniki.
Testiranje in določevanje zaporedja v DNK bi lahko primerjali z rentgenskim slikanjem ugasnjenega računalnika. Če smo jih videli dovolj mnogo, lahko iz posnetkov njegove zgradbe precej dobro ocenimo, kako bo deloval, kje bo imel težave in katerim je podoben, a prave slike brez podrobnega načrta in izvorne kode programov ne bomo imeli. Podobno je z določanjem DNK v ljudeh. Iz prisotnih genov lahko zelo dobro prepoznamo nekatere genske bolezni (denimo kromosomske defekte ali pa Huntingtonovo bolezen), za druge nastavke ali nagnjena za bolezni pa zgolj statistično verjetnost. Za večino genov pač poznamo korelacije z določenimi boleznimi stanji ali tveganji. Druga, precej eksaktnejša znanost pa je risanje družinskih debel in iskanje sorodnikov. Tedaj nas namreč ne zanima, kaj kakšen del DNK pomeni, temveč le, kolikšno ujemanje najdemo z drugimi osebami.
A oboje je privlačna tržna niša, ki so jo z upadom cen sekvenciranja DNK podjetja hitro zapolnila. Pionir je 23andMe, ki so ga za zasebno testiranje DNK in interpretacijo rezultatov leta 2006 ustanovili Linda Avey, Paul Cusenza in Anne Wojcicki. Že kmalu zatem so ponudili tudi testiranje DNK za potrebe iskanja sorodnikov.
Danes je testiranje DNK preprostejše kot kadarkoli. Za približno 100 dolarjev po pošti dobimo komplet za odvzem vzorca, ki je preprosto slina. Odvzamemo ga po priloženih navodilih, kar je zgolj učen izraz za nadzorovan pljunek, in pošljemo nazaj. Zunaj ZDA je zaradi pravnih omejitev mogoče dobiti le informacijo o prednikih in lastnostih, ne pa tudi zdravstvenih informacij in nasvetov. Na spletni strani imajo tudi orodje za gradnjo družinskega drevesa z informacijami, ki jih vpišemo sami in genskimi informacijami. Ponudnikov je cel kup, o čemer več v nadaljevanju.
Kako so ga ujeli
Z zasebnostnega in varnostnega vidika ima DNK precej slabosti, zato podobno kot ostala biometrika ni primeren kot izključni način zagotavljanja prisotnosti (avtentikacija) pri dostopu v računalniške sisteme. DNK je nespremenljiv, podobno kot prstni odtisi, zato ga ob pobegu ne moremo vzeti nazaj ali ga spremeniti. Ko nam uide, ni več pod našim nadzorom. To ni redko, saj lahko analogijo s prstnimi odtisi nadaljujemo. Sledove DNK puščamo vsi povsod, ne le posiljevalci v žrtvah. Zadostuje že pobrati kozarec, iz katerega smo srkali mojito, pa bo nekdo drug imel dovolj našega DNK za praktične potrebe. V nasprotju s prstnimi odtisi pa DNK sploh nikoli ni bil samo naš. Z vsakim izmed staršev in s sorojenci ga delimo polovico (variabilnega dela), z bratranci četrtino in tako dalje. Tu se kot analogija vsiljuje deljenje fotografij na Facebooku. Četudi nikoli nismo naložili ničesar, je morda skupno fotografijo tja priobčil kakšen prijatelj. In četudi na 23andMe ne pošljemo svojega DNK, se bo prej ali slej našla sestrična v drugem kolenu ali mrzli nečak, ki bo to storil.
Verjetnost, da bo vsaj en bratranec v n-tem kolenu v zbirki, in število pričakovanih zadetkov (podatki za ZDA). Slika: Graham Coop, Univerza v Kaliforniji, Davis
Najbolj preiskani narod na svetu
Islandija je država z najbolj analiziranim genomom, saj sta že več kot dve tretjini prebivalstva oddali vzorec DNK v raziskovalne namene. Nekdanji profesor na Harvardu Kári Stefánsson je leta 1996 ustanovil podjetje deCODE genetics, da bi z analizo genoma velike skupine ljudi skupaj z njihovimi zdravstvenimi podatki odkril korelacije in vzroke za pojav nekaterih bolezni. Potreboval je veliko ljudi, ki so bili pripravljeni prispevati svoj DNK, temeljite zdravstvene kartoteke teh ljudi in natančne genealoške podatke. Islandija se je izkazila kot idealni poligon.
Do danes je v projektu, ki ga podpirata tudi država in velik del prebivalstva, sodelovalo več kot 160.000 ljudi. Ti darujejo kri, izpolnijo obsežne vprašalnike in prestanejo še nekaj preiskav za tipične bolezni. Do danes so prispevali kar nekaj znanstvenih odkritij, denimo različice genov, odgovorne za razvoj Alzheimerjeve bolezni, povečano tveganje za osteoporozo in nekatere vrste raka. A Stefánsson je kontroverzna oseba, ki mu mnogi očitajo požvižganje na etične norme, izsiljevanje in manipulacije ter izigravanje zakonov.
Islandski eksperiment odpira druga vprašanja, denimo, ali obvestiti vse nosilke gena BRCA2, da imajo povečano tveganost za razvoj raka dojk. Pravni strokovnjaki so na koncu odločili, da vlada tega ne sme storiti, temveč morajo ženske same zahtevati to informacijo.
Ko je DeAngelo posiljeval in moril, uporaba sledov DNK s kraja zločina še ni obstajala in tedaj si nihče ni mogel misliti, da bo to kdaj izvedljivo. Podobno kot pred odkritjem nevtrona Einstein ni verjel, da bo radioaktivnost kdaj kaj več od fizikalne zanimivosti, s katero si ne moremo kaj dosti pomagati, tudi ob odkritju strukture DNK v 50. letih nihče ni verjel, da bo kdaj pomagala iskati zločince. Prvi posameznik, ki so ga obsodili zaradi umora in posilstva zaradi dokazov, ki jih je priskrbel DNK, je bil leta 1988 Colin Pitchfork. A tudi tedaj so kriminalci (upravičeno) pričakovali, da jih bodo lahko odkrili le, če bodo primerjali njihov DNK. Preiskovalci so namreč še vedno preverjali le ujemanje. V policijskih bazah je sicer DNK nekaterih osumljencev ali obsojencev, širokega testiranja prebivalstva pa seveda ni možno niti dopustno izvesti.
Da je DNK sorodnikov podobnejši kot med neznanci, ni nič presenetljivega. Tega dejstva pa do vznika spletnih storitev, kot sta Ancestry.com in 23andMe, ni bilo moč uporabiti, ker dovolj velikih zbirk preprosto ni bilo. A izkaže se, da ljudje v resnici radi delijo svoje podatke, če dobijo nekaj v zameno. Množice bi težko prepričali, da bi privolile v oddajo svojih posnetkov državi za izgradnjo velike zbirke fotografij obrazov, nič pa nimajo proti deljenju teh podatkov na družbenih omrežij. To izkoriščajo zasebna podjetja, denimo Clearview AI. Ta je postrgal vse dostopne posnetke in izdelal orodje za prepoznavanje obrazov več kot milijarde ljudi. Podobno je z DNK, ki ga ljudje prav radi delijo z zasebnimi podjetji, če jim ta obljubijo iskanje sorodnikov in polznanstveno diagnosticiranje bolezni.
Ujemanje genoma s starimi starši. Slika: Graham Coop, Univerza v Kaliforniji, Davis
Policisti so torej storilčev DNK, ki so ga izolirali iz več primerov, naložili na stran GEDMatch. Leta 2010 sta jo ustanovila Curtis Roger in John Olson, da bi pomagala amaterskim in profesionalnim genealogom. Uporabniki lahko na GEDMatch naložijo svoje genske podatke v standardizirani obliki (datoteka gedcom), spletna stran pa jim prikaže uporabnike, ki so z njimi v sorodu, in ocenjeno sorodstveno oddaljenost. Tudi DeAngelov DNK je imel 10–20 zadetkov daljnih sorodnikov, ki so bili potomci njegovega praprapradedka iz začetka 19. stoletja. Iz teh podatkov so zgradili 25 različnih družinskih dreves, na katerih je bilo približno 1.000 ljudi. Eden izmed njih je bil DeAngelo, le najti ga je bilo treba. V naslednjih štirih mesecih so iz znanih podatkov (spol, starost, prebivališče, alibi itd.) izločali ljudi s seznama, dokler na njem ni ostal le DeAngelo. Začeli so mu slediti in 18. aprila 2018 so na skrivaj odvzeli dva vzorca njegovega DNK: s kljuke na avtomobilskih vratih in iz zabojnika za smeti pred njegovo hišo. Ker sta se oba ujemala z DNK, ki so ga našli na žrtvah, so ga 24. aprila aretirali. Krivdo je priznal.
Ni bil prvi
Joseph DeAngelo oziroma »morilec iz zlate države« (Golden State Killer), kot so ga poimenovali mediji, ker je deloval v Kaliforniji, še zdaleč ni bil edini, ki so ga ujeli s primerjavo DNK v spletnih zbirkah. Samo v letu 2018, ko so ameriški policisti začeli uporabljati GEDMatch, so ob njegovi pomoči razvozlali 28 primerov, pri katerih pred tem ni bilo napredka. Večinoma je šlo za zločine, ki so se dogajali v 80. in 90. letih preteklega stoletja, nekateri pa tudi v prvem desetletju tega. Družilo jih je dejstvo, da so policisti imeli storilčev DNK, a ga niso mogli z ničimer primerjati. Prav tako GEDMatch ni edina spletna stran, ki omogoča tovrstne vpoglede (več v nadaljevanju).
Ni pa bil DeAngelo prvi obsojeni z dokazi iz komercialnih zbirk DNK, je le najbolj razvpiti primer. Ta »značka« pripada Williamu Earlu Talbottu II, ki je bil aretiran maja 2018, a je bil kot prvi obsojen že junija 2019. Leta 1987 je ubil 20-letnika in 18-letnico, na prizorišču pa so našli njegov DNK. Z GEDMatch so leta 2018 odkrili dva njegova sorodnika v četrtem kolenu, enega po očetovi strani in drugega po materini. Sodba je bila sicer lani zaradi nepravilnosti pri izbiri enega porotnika razveljavljena, postopek se bo ponovil.
Joseph James DeAngelo je bil zaradi spletne storitve analize DNK ujet skoraj pol stoletja po morilskem pohodu.
Zbirke, ki so jih ustvarili ponudniki, so osupljivo velike. GEDMatch je imel leta 2020 že poldrugi milijon uporabnikov, 23andMe jih ima že več kot 12 milijonov, Ancestry dobrih 15 milijonov, MyHeritage in Family Tree DNA pa okoli štiri milijone. A ključno vlogo je odigral GEDMatch, saj 23andMe, Ancestry in podobni omogočajo analizo lastnega DNK, ki ga dostavimo kot vzorec sline, kar bi policija težko naredila. V GEDMatch pa naložimo že obdelane podatke, ki smo jih dobili od zunanjega ponudnika – ali forenzičnega laboratorija.
Čeprav imajo te zbirke podatke o približno 10 odstotkih Američanov, so zaradi sorodstvenih vezi že zelo uporabne. V podjetju Parabon, ki izvaja forenzične preiskave DNK za ameriške organe pregona, ugotavljajo, da v 80 odstotkih primerov v zbirkah najdejo vsaj sorodnike v tretjem kolenu, kar je že dovolj za začetek sestavljanja debla, ki vodi do identifikacije osumljenca. Zanimivo je, da je v uradni policijski zbirki CODIS (Combined DNA index system) nesorazmerno veliko temnopoltih, v komercialnih pa belopoltih. To pove precej o predsodkih in družbenoekonomskem položaju teh skupin prebivalstva. Zbirki sicer nista primerljivi, saj so v CODIS shranjeni STR, v komercialnih zbirkah pa SNP (glej okvir).
Etični pomisleki
Ko je postalo javno znano, kako so ujeli Josepha DeAngela, je to odprlo kopico pravnih in etičnih vprašanj. Ne le tega, da nad svojim DNK nimamo več nadzora, ko nam enkrat uide, vsaj del ga tudi delimo s sorodniki, ki sploh niso dali privolitve za njegovo objavljanje. GEDMatch na svojih straneh jasno opozarja, da kdor ne želi, da se njegovi podatki uporabljajo še v kakšne druge namene, naj jih pač ne naloži.
Etičnih pomislekov je mnogo. Tožilka Anne Marie Schubert je vztrajala, da je DNK, ki ga posameznik pusti na javnem mestu, pač javno dobro in da ni nič narobe z zbiranjem teh »zapuščenih« vzorcev. To morda drži v ZDA, medtem ko je po evropski in tudi slovenski zakonodaji DNK osebni podatek iz kategorije najbolj varovanih osebnih podatkov. Policija (v resnici nihče) ne more hoditi naokoli in zbirati DNK ljudi brez sodnih odredb.
Sprva je ameriško tožilstvo vztrajalo, da so v preiskavi uporabili le genske informacije ljudi, ki so ob oddaji na stran izrecno odkljukali javno dostopnost na GEDMatch. A izkazalo se je, da so genski material najprej naložili na konkurenčno stran FamilyTreeDNA, kjer so ustvarili lažni profil, a so dobili le (gensko) zelo oddaljene zadetke. Nato so podatke naložili na MyHeritage, kjer so našli prve uporabne zadetke o sorodnikih. Policija se je šla torej poskušanje.
DNK ni eden
Vse celice (razen spolnih in rakavih) v človeškem telesu imajo enak in popoln zapis DNK. Komercialni ponudniki testov DNK ponujajo načelno tri teste: avtosomni DNK, mitohondrijski DNK in Y-DNK. Avtosomni DNK predstavlja 22 parov kromosomov, ki se dedujejo z obeh staršev na potomce, in je prisoten v jedru celic. Zaradi rekombinacije pred spočetjem je uporaben za določanje bližnjih sorodnikov. Y-DNK je oznaka za teste kromosoma Y, ki ga imajo le moški in se deduje strogo po moški liniji. Z njim lahko iščemo moške prednike daleč v preteklost, vse do Adama. Druge vrste DNK pa je mitohondrijski, ki se ne nahaja v jedru, temveč v mitohondrijih. Zaradi tega se deduje strogo po materini liniji in omogoča pogled v preteklost vse do Eve.
To je ponudnike spletnih storitev spodbudilo k natančni definiciji zasebnosti DNK v pogojih uporabe. GEDMatch od leta 2019 omogoča več stopenj varovanja: zasebno (podatki se ne primerjajo z nikomer), sodelovanje (opt-in, kar daje dostop organom pregona pri reševanju nasilnih zločinov) in zavrnitev (opt-out, kar organom pregona ne daje dostopa razen za namene identifikacije neznanih trupel). Hkrati tudi od vseh običajnih uporabnikov (organi pregona imajo svojo pot) zahtevajo, da imajo dovoljenje za vnos podatkov.
Podobne ali celo bolj liberalne politike imajo tudi drugi ponudniki. 23andMe določa, da lahko s sodno odredbo ali v dobri veri podatke pridobijo različni organi pregona. Ancestry.com dostop do podatkov omogoča le s sodno odredbo. Prav tako storitve organom pregona prepovedujejo samovoljno nalaganje lažnih profilov z DNK storilcev, da bi iskali njihove sorodnike in s tem odkrili njihovo identiteto.
GEDMatch izriše poreklo glede na DNK.
Za navadne smrtnike
Predpostavimo, da te vrstice berejo običajni ljudje in ne kriminalci, ki bi želeli prikriti svojo identiteto. Kogar zanima več o lastnem genskem zapisu, lahko uporabi AncestryDNA, 23andMe, MyHeritage FamilyTreeDNA. Storitve so primerljive, cene tudi. AncestryDNA stane 100 dolarjev, kadar imajo popuste pa 60. Osnovni paket 23andMe prav tako stane 100 dolarjev, podobno tudi MyHeritage 90 evrov (s popustom 50), medtem ko ima FamilyTreeDNA cel kup možnosti in doplačil, kjer zlahka zapravimo nekajkrat več. Vsi pošiljajo komplete za odvzem vzorca v Slovenijo.
Ponujajo podobno, razlike so v detajlih. AncestryDNA ima največjo zbirko uporabnikov (kar je relevantno za Američane, manj pa za Slovence) in najpreglednejši izpis, a hkrati ne omogoča sledenja materini in očetovi liniji (mitohondrijski DNK in kromosom Y) ter ne prikaže izračunane migracije iz Afrike. Konkurent 23andMe ima manjšo zbirko, a preglednejše spletne strani in možnost sledenja očetovi in materini liniji prednikov. FamilyTreeDNA pa ponuja največ možnosti, a je zaradi tega tudi najdražji.
Obstajajo še strani z zbirkami podatkov DNK, med katerimi je GEDMatch največja. Te ne omogočajo odvzema vzorca za testiranje, temveč nanje naložimo drugod pridobljene datoteke z rezultati analize. GEDMatch v brezplačni različici omogoča iskanje sorodnikov, preverjanje sorodstva z določeno osebo in analizo porekla. V plačljivi pa lahko analiziramo še ujemanje po posameznih segmentih DNK za iskanje najmlajšega skupnega prednika, kakovost ujemanja DNK s posameznikom in sortiranje sorodnikov v gruče glede na najmlajšega skupnega prednika. Tudi FamilyTreeDNA omogoča brezplačno nalaganje profilov DNK ponudnikov Ancestry, 23andMe in MyHeritage. Grajenje družinskega drevesa ni omejeno le na DNK, ki ga naložimo v datoteki gedcom, temveč lahko vnesemo vse podatke o sorodnikih, ki jih imamo (ali pa so jih vnesli drugi), četudi sploh nimamo njihovega DNK. V resnici za večino ljudi v deblu vzorca DNK ne bomo imeli, še zlasti ne za preminule.
Komplet za odvzem DNK za testiranje. Slika: 23andMe
Ob tem poudarjamo, na kar opozarjajo vsi ponudniki teh storitev in zbirk. Testiranje DNK je le eden izmed podatkov, ki jih uporabljamo pri iskanju družinskega debla, in še zdaleč ne vsemogočen. Uporaba teh testov za določanje širšega porekla (nacionalnost) in morebitnih zdravstvenih podatkov pa je na meji med umetnostjo in znanostjo. To navsezadnje dokazujejo tudi mestoma zelo različni rezultati, ki jih za istega posameznika dajo različne storitve. Korelacije obstajajo, trdne vzročne povezave pa precej manj. A kdor želi videti, kaj vse se da izluščiti ali »izluščiti« iz DNK, lahko obišče še številne druge strani, kot so Genomelink, Promethease, MyTrueAncestry, My Living DNA, SelfDecode, Nebula Genomics, XCode Life, GenoPalate, Vitagene, DNAFit …
Pregled orodij in spletnih strani za računalniško vodenje družinskega debla pa je že tema za kakšno naslednjo številko.
Ali so starši v sorodu?