keskiviikko 3. kesäkuuta 2020

Välitila

Kun istun alas pohtimaan ja/tai kirjoittamaan asioita, en yleensä tiedä johtopäätöksiä etukäteen. Pääsääntöisesti minulla on jonkinlainen epämääräinen tunne siitä, että tiedän jo mitä aoin sanoa tai, tutkimuksen kohdalla, miten aion määritellä jonkin ilmiön tai mallin. En kuitenkaan näe yksityiskohtia mielessäni, vaan ainoastaan "tunnen" yleisellä tasolla intuitiivisesti että asia tulee avautumaan.

Vasta kun prosessi alkaa, luon ajatuksilleni loogisen rakenteen. Yhteydet ja päätelmät tuntuvat ikään kuin löytyvän, pikemminkin kuin että loisin ne. Kokemukseni on, että pikemminkin tarkastelen jo ajattelemaani epäselvää asiaa, ja jos kirjoitan siitä, niin kuvailen sitä ikään kuin maisemaa. Se on olemassa, mutta se saa varsinaisen muodon vasta tässä kuvailuprosessissa.

Tästä johtuu myös se, että usein ajattelen ääneen. Ei niin, että verbalisoisin selkeitä ajatuksiani vaan kuvailen niitä ääneen sitä mukaa kun ne tulevat ja kuuntelen mitä puhun, jotta ymmärtäisin sitä, minkä koen jo tietäväni. 

Tänään kuvittelin kirjoittavani infektiomallista jonka parissa olen työskennellyt, joten ehkä kerron siitä nyt. Aivan ensiksi on todettava, että on puhdasta sattumaa, että tutkimuksemme tapahtuu samaan aikaan kun maailmalla edelleen velloo koronavirus. Aloitimme tämän tutkimuksen jo viime vuoden puolella ennen kuin olin kuullut sanallakaan koronaepidemiasta.

Mallissa on keskiössä verkosto, johon ihmiset kuuluvat. Oletetaan että tiedämme varmasti joukon ihmisiä, joilla on tartunta. Kutsutaan tätä "sisäpiiriksi".  Jokaisella tartunnan saaneella on yhteyksiä muihin ihmisiin. Tartunnan saaneella on tietty tuntematon todennäköisyys p, jolla hän tartuttaa sellaisen naapurin joka ei vielä ole saanut tartuntaa. Tavoitteena on siis laskea tässä verkostossa jokaiselle yksilölle todennäköisyys, että tällä on tartunta, kun sisäpiiri on tiedossa.

Mallin operationalisointi on kuitenkin epäsuora. Oletetaan että tartunta voi olla oireeton tai oireellinen. Lisäksi meillä on sellainen ongelma (tässä tapauksessa) että myös henkilö jolla ei ole tartuntaa, voi olla oireinen. Meillä ei ole testiä eikä mitään muutakaan suoraa keinoa havaita millään merkittävällä todennäköisyydellä tartuntaa, ainoastaan oire. On kuitenkin olemassa myös eräänlainen "käänteinen oire", joka toimii evidenssinä sille että yksilöllä ei ole tartuntaa.

Merkitään yksilön x todennäköisyyttä olla saanut tartunta P(x). Tämä on tuntematon, ja riippuu siis tuntemattomasta tartunnan siirtymistodennäköisyydestä p, sekä (tunnetusta) verkoston rakenteesta. Lisäksi yksilöllä on todennäköisyys oirehtia joko positiivisella (eli taudin todennäköisyyttä lisäävällä) tai negatiivisella (taudin poissulkevalla) tavalla. Me emme tiedä kuinka usein potilaat oirehtivat, mutta tässä kohtaa teemme yhden hyppäyksen: Emme tunne ehdotonta oireellisuuden todennäköisyyttä, vaan ehdollista: Miten potilas oirehtii jos ylipäätään oirehtii.

Merkitään u(x):lla todennäköisyyttä oirehtia positiivesti ja q:lla tuntematonta todennäköisyyttä oirehtia positiivisesti potilaalla on sairaus. Oletetaan lisäksi että tartunnasta vapaa yksilö oirehtii (jos oirehtii) yhtä suurella todennäköisyydellä positiivisesti ja negatiivisesti. Tällöin pätee:

u(x,p,q) = q*P(x,p) + 0.5*(1-P(x,p))

Tässä meillä on nyt kaksi tuntematonta, p ja q. Meillä on tunnettu verkosto ja lisäksi meillä on koko joukko eri aikoina tunnettuja sisäpiirejä ja oireiden (sekä positiivisten että negatiivisten) ilmentymiä.   Merkitään Pos(x) niiden epidemioiden joukkoa joiden aikana x on oirehtinut positiivisesti ja Sym(x) niiden epidemioiden joukkoa joiden aikana x on oirehtinut ylipäätään jotenkin. Tällöin

û(x) = Pos(x) / Sym(x) 

Nyt meillä on valmiina malli ja sen operationalisointi.   Kun laskemme summan  (u(x,p,q) - û(x))2 kaikkien x:ien yli, saamme neliövirhesumman, jota voidaan merkitä Err(p,q). Nyt, optimointialgoritmin avulla etsimme sellaiset p:n ja q:n arvot, jotka minimoivat virhefunktion. 

Olemme näin luoneet ns maximum likelihood-estimaatin parametreille p ja q.  Tässä on vielä ratkaisematta se, että en tarkkaan osaa muodostaa varsinaista likelihood-funktiota; Tiedämme tästä että p ja q muodostavat nimenomaan sen likelihood estimaattorin, mutta jotta voisimme arvioida näiden variansseja, meidän tulisi kyetä laskemaan likelihood-funktion toisen kertaluvun osittaisderivaatat. 

Olen koodannut viimeiset pari kuukautta simulaattoria, joka laskee estimaattia P(x,p):lle. Siksi en ole kirjoittanut tännekään mitään; tämä vie kaiken älyllisen kaistani tällä hetkellä. Luulen että sitä kaistaa on nykyään paljon vähemmän kuin sitä oli vuosina 2003-2010; Tuolloin jaksoin kirjoittaa useamman kerran viikossa, siitä huolimatta että ensin viimeistelin väitöskirjaani, sitten hoidin lapsiani, tein palkittua kansainvälistä tutkimusta ja muutenkin olin vaan täysin kuha kaikessa mihin ryhdyin. 

Nyt olen vanha mies joka on taas kerran vaihtanut alaa. En ole päässyt kuntosalille kuukausiin, niveliä kolottaa, olen laihtunut 8 kiloa, ja silti jaksan hädin tuskin juosta 13 kilometriä yhtäjaksoisesti.

Ei kommentteja: