tiistai 21. elokuuta 2018

Syyt ja seuraukset.

Mielenkiintoinen kirja, jota olen hiljakseen lukenut kesän aikana on "The Book of Why". Kirja ei rehellisesti sanoen ole kovin hyvä, koska se hypettää ja selittää vaikeasti asiaa, joka on lopulta aika yksinkertainen. Alla kirjoitan aiheesta mutten ota sitä suoraan kirjasta, vaan se on kirjan inspiroimaa, ja lopussa kommentoin kirjaa suoremmin. 

Me kaikki "tiedämme", että korrelaatiosta ei voi päätellä kausaalisuutta. Jäätelön syönti kasvaa kesällä samaa tahtia hukkumiskuolemien kanssa, mutta ymmärrämme kaikki, ettei jäätelön syömisen kieltäminen vähennä hukkumiskuolemia. Kukko laulaa aina hieman ennen auringonnousua, mutta aurinko nousee varsin hyvin vaikka kukko ei laulaisikaan.

Muistetaan vanha kunnon bayesilainen päättely. En nyt ala tässä sitä kampaamaan sen enempää, siinä keskiössä on ehdollisen todennäköisyyden käsite. Jos meillä on tapahtuma A, jonka todennäköisyydestä olemme kiinnostuneita, ja olemme tehneet havainnon B, niin merkitään P(A | B):llä ehdollista todennäköisyytta, eli todennäköisyyttä että A tapahtuu kun tiedämme että B on tapahtunut. Esimerkiksi, jos tiedämme (tämä on esimerkki, en tiedä onko oikeasti näin, huom), että 75% autokolareista jompi kumpi osapuoli on ajanut ylinopeutta, niin nähdessämme kolarin (B), arvelemme että todennäköisyys on noin 75% että toinen tai molemmat ovat ajaneet ylinopeutta (A).

Tämä ei kerro tietenkään sitä, kuinka todennäköistä on että ylinopeutta ajava joutuu kolariin. Tätä todennäköisyyttä merkittäisiin P(B | A).  Näillä on kuitenkin yhteys, ja se tunnetaan Bayesin kaavan nimellä, eli P(B | A) = P(A | B)*P(B)/P(A).  Tämän tietääksemme meidän pitää siis tietää myös kuinka yleistä ylinopeus on, ja kuinka yleisiä kolarit ovat.  Ja jos ylinopeus on hyvin yleistä, mutta kolarit hyvin harvinaisia, niin tämä todennäköisyys voi olla paljonkin pienempi kuin P(A|B).

Bayesilainen päättely ei kuitenkaan itsessään vangitse varsinaisesti mitään tietoa kausaalisuudesta. Voimme aivan hyvin arvioida ym. todennäköisyyksiä ilman minkäänlaista käsitystä mikä seuraa mistäkin, eikä toisaalta tällaista todennäköisyyksien tunteminen itsessään auta meitä mitenkään päättelemään mikä on syy ja mikä seuraus.

Esimerkiksi Tampereella vuosittain arvuutellaan päivämäärää, jolloin Näsijärvi jäätyy, ja toisaaltaa päivämäärää, jolloin Näsijärvestä lähtee jäät. Kevään mittaan voimme olla kokolailla varmoja, että jos meillä on lämpömittari sopivassa paikassa Näsijärven rannalla, niin sopivina päivinä mitatut lämpötilat paljastavat meille paljonkin siitä, milloin jäät ovat lähdössä. Emme kuitenkaan voi nopeuttaa jäiden lähtöä esimerkiksi pitämällä tulitikkua tällaisen lämpömittarin alla. Ymmärrämme intuitiivisesti, että lämpömittarin lukema ei vaikuta jäiden sulamiseen, vaan lämpömittarin lukemaan ja jäiden sulamiseen vaikuttaa yhteinen tekijä, ilman lämpötila.

Merkitään tätä lämpömittariin (tai johonkin muuhun tapahtumaan B) vaikuttamista uudella operaattorilla, do(B). Tämä tarkoittaa, että jonkin (eksplisiittisen tai implisiittisen) mallimme ulkopuolelta tulevan tekijän avulla pakotamme B:n tapahtumaan.  P(A | B) on eri asia kuin P(A | do(B)), koska edellisessä me havaitsemme B:n tapahtuvan, ja jälkimmäisessä me aiheutamme B:n tapahtumisen.

Miten me voimme karakterisoida kausaalisuutta? Jos P(A | do(B) ) > P(A | do(!B)), niin tämä tarkoittaa että kun pistämme B:n tapahtumaan "väkisin", niin A:n todennäköisyys kasvaa. Tällöin B:n tapahtumisella on jokin kausaalinen suhde A:han. Se ei kuitenkaan tietenkään tarkoita että B jotenkin suoraan aiheuttaa A:n. Välissä voi olla montakin mekanismia.

En nyt tässä lähde kampaamaan kaikki erilaisia kausaalisia suhteita joita erilaisilla muuttujilla voi olla; Pearlin keskeinen argumentti on, että vaikka emme sinänsä voi päätellä pelkän datan perusteella kausaalisuutta, voimme päätellä, onko kausaalisuutta suhteessa tiettyihin oletuksiin. Lisäksi oletukset joita täytyy tehdä, eivät ole kovin vahvoja, eivätkä ne ole kovin "epätieteellisiä", eikä niitä tarvitse vetää hatusta.

Tämä tapahtuu ns. kausaalisten verkkojen avulla. Siinä relevantit muuttujat otetaan mukaan ja niistä muodostetaan graafi. Kaikkien teoriassa mahdollisten suorien kausaalisten suhteiden kohdalla piiretään nuoli. Otetaan tässä nyt kaksi esimerkkiä, tupakointi-syöpä ja hiilidioksidipäästöt-maapallon keskilämpötila, joiden kausaalista suhdetta haluamme selvittää.

Jos esitämme että jokin tupakoinnista riippumaton syy on sekä tupakoinnin että keuhkosyövän syy, niin voimme piirtää verkon jossa tämä (tuntematon) syy aiheuttaa molempia, ja tupakointi vain potentiaalisesti aiheuttaa syöpää. Me emme kuitenkaan voi tästä vielä päätellä vielä paljokaan, vaan tarvitsemme joko jonkin muuttujan joka taatusti liittyy tupakointiin mutta ei (suoraan) tähän ulkopuoliseen tekijään, tai sitten muuttujan joka liittyy tähän ulkopuoliseen tekijään, muttei (suoraan) tupakointiin.

Tällaisia muuttujia on muutama. Ensinnäkin, tupakoivilla ihmisillä keuhkoihin kertyy pieniä määriä tervaa. Tietenkään kaikille tupakoiville ei näitä tervajäämiä tule, mutta tällä ei ole merkitystä, kunhan korrelaatio on riittävän suuri.  Toisekseen, tiedetään että tupakointi ja turvavyön käyttö ovat tilastollisessa yhteydessä siten, että tupakoivat ihmiset käyttävät turvavöitä vähemmän kuin tupakoimattomat. Tässä korrelaatio ei ole kovin suuri, mutta se on riittävän suuri, että tilastoissa se, että henkilö ei käytä turvavyötä, on riskitekijä keuhkosyövälle jos mitään muuta ei huomioida. 

Jos meillä on kuvitteellinen mekanismi joka aiheuttaa sekä tupakointia että keuhkosyöpää, niin kysymys kuuluu a) onko mielekästä olettaa, että tämä mekanismi aiheuttaa tervan kertymistä keuhkoihin ja b) onko mielekästä että tämä mekanismi aiheuttaa sitä, että henkilö ei käytä turvavyötä. Oli mekanismi mikä hyvänsä, niin a)-kohdassa voimme postuloida esimerkiksi että syöpää aiheuttaa geeni, joka vähentää vierasaineiden poistumista keuhkoista ja siten saa tervaa kertymään keuhkoihin, ja että tämä toisaalta saa nikotiinin yms imeytymään keuhkoista herkemmin ja näin lisää todennäköisyyttä että henkilö alkaa tupakoida. b)-kohdassa on paljon vaikeampaa keksiä yhteyttä.

Ja katso: Tilastollisesti keuhkosyövän ja turvavyön käytön korrelaatio katoaa täysin, jos tehdään regressioanalyysi jossa keuhkosyöpää selitetään tupakoinnilla ja turvavyön käytöllä.  Tervajäämien kohdalla tilanne on hieman toisenlainen. Siinä voimme tehdä muutamia erilaisia "temppuja", joilla voimme tutkia riippumatonta suhdetta näiden välillä; En mene tässä kaavasulkeisiin, mutta Pearl:in do-kalkyylin avulla pystymme näyttämään, että jos oletus on ettei ulkopuolinen tekijä suoraan vaikuta tervan määrään keuhkoissa (vaan ainoastaan tupakoinnin välityksellä), niin tupakointi aivan yksiselitteisesti aiheuttaa keuhkosyöpää.

Tästä saamme siis myös falsifikaatiokriteerin. Jos todella löydämme esimerkiksi yllä postuloidun syöpää ja nikotiininhimoa aiheuttavan geenin, niin voimme todellakin vielä löytää keinon kumota johtopäätös. Niin kauan kun tällaista geeniä tms mekanismia ei löydy, paras arvauksemme on että tupakointi todella aiheuttaa syöpää.

Maapallon keskilämpötilaa tutkiessa taas otamme relevantiksi muuttujaksi hiilidioksidipäästöt -- tämä on ainoa asia johon voimme edes teoriassa soveltaa do- operaattoria. Tämän lisäksi otamme esimerkiksi vulkaanisen toiminnan ja erilaiset biologiset prosessit jotka myös tuottavat hiilidioksidia. Näistä kaikista tulee vetää nuoli ilmakehän hiilidioksidipitoisuuteen, joka on yksi relevantti muuttuja. Tämän lisäksi otetaan muuttujiksi auringon aktiivisuus, muunlaiset hiukkaset ilmakehässä,  maan pinnan albedo, jne. Näiden välille piirretään kaari jos on mitään syytä olettaa, että muuttuja vaikuttaa toiseen. Esimerkiksi ei ole mielekästä vetää viivaa hiilidioksidipäästöistä auringon aktiivisuuteen. 

Nyt voimme tutkia aikasarjoista näiden muuttujien välisiä suhteita. Pearlin do-kalkyylin avulla voimme laskea esimerkiksi hiilidioksidin kausaalisen suhteen lämpötilaan, kun tunnemme potentiaaliset muut syyt. En ala tässä nyt kampaamaan sitä, miten näin voimme todistaa hiilidioksidipäästöjen todella lämmittävän maapalloa, sillä do-kalkyyli on varsin työläs viedä läpi. Lopputulos on kuitenkin hyvin samanlainen kuin syövän ja tupakoinnin kohdalla: Olettaen että tunnemme relevantit juurisyyt, meidän ei tarvitse tuntea todellakaan kaikkia välittäviä mekanismeja voidaksemme päätellä kausaalisen yhteyden. Se, että esimerkiksi meret sitovat enemmän tai vähemmän lämpöä tai merivirrat jakavat lämmön eri tavoin maapallolla kuin mallit ennustavat, on epäolennaista; olennaista on se, onko meillä kaikki mahdolliset kausaaliset tekijät tiedossa. Näistä me yksinkertaisesti tiedämme että jos mahdollisia tekijöitä ovat hiilidioksidipitoisuus, erilaiset hiukkasjäämät, vesihöyry ja pilvisyys, ja auringon aktiivisuus, niin on täysin varmaa, että hiilidioksidipäästöt lämmittävät maapalloa.

Tietenkin, on mahdollista, kuten yllä, että on jokin tuntematon luonnonvoima joka lämmittää maapalloa. Esimerkiksi maapallon ytimestä vapautuu jostain syystä lämpöä joka pääsee jostain maankuoressa olevasta reiästä ilmakehään. Tai ehkä maapallo on ontto ja etelänavalla olevasta luukusta päästetään aika-ajoin lämmintä ilmaa maapallon sisuksista ilmakehään. Tai ehkä kuu lämmittää enemmän kuin aiemmin osasimme arvioida. Jne.

Monelle -- myös minulle -- Pearlin argumentaatio ja esitystapa tuntuvat ylenpalttiselta hypetykseltä. Tämä ei tarkoita etteivätkö kausaalisten verkkojen käyttö ja do-kalkyyli olisi hyödyllisiä innovaatioita. Aikanaan kun opiskelin ekonometriaa, osa näistä menetelmistä opetettiin, osaa taas ei. Esimerkiksi Pearlin "Back-door"-kriteeri oli minulle uusi. Esimerkiksi ns instrumentti-muuttujien käytölle löytyy perustelu aika hyvin Pearlin do-kalkyylistä, joskin Pearl antaa hieman eri kriteerit instrumenttimuuttujien käytölle.

Perinteisesti instrumenttimuuttujia käytetään kun meillä on kausaalinen suhde A:sta B:hen, mutta selittävässä muuttujassa A:ssa on mittausvirhettä, joka voi korreloida tuntemattomalla tavalla B:n kanssa, ja jolle ei mallissa ole selittäjiä. Tällöin "instrumentoidaan" etsimällä muuttuja(t) X siten, että A:n sijaan käytämme X:n avulla estimoitua Â:ta. Tässä oletus on, että siinä määrin kuin  ja A eroavat toisistaan, tämä heijastelee mittausvirhettä, ja Â:n ja B:n välinen suhde paljastaa "todellisen" vaikutuksen. Tämän perusteluna on, että jos todella kontrolloisimme A:n, niin havaintodatassa läsnä oleva kohina joka voi vaikutta B:hen ei tulisi enää kontrolloinnin jälkeen näkymään do(A):ssa; Â:n katsotaan vastaavan lähemmin do(A):ta.  Pearl esittää asian hieman toisin, mutta ero on minusta pitkälti filosofinen. En ole katsonut varsinaista matematiikkaa läpi, sillä Book of Why ei sisällä matemaattista esitystä tässä kohtaa sillä tasolla että voisin verrata.

Kaikenkaikkiaan tilastollinen kausaalinen päättely on kiehtova laji. Pearlin keskeinen "argumentti" on, että vanha nyrkkisääntö "correlation does not imply causality" on otettu liiaksi aksiomaksi ja se on tulkittu puritaanisesti  niin, ettei havaintoaineistosta voisi päätellä mitään kausaalisuudesta, korkeintaan kumota yksittäisiä hypoteeseja muttei koskaan validoida mitään. Olen tästä samaa mieltä. Havaintoaineistosta voidaan tehdä johtopääksiä suhteessa kausaalisiin oletuksiin. Kausaalisia oletuksia puolestaan voidaan tehdä varsin paljon aivan arkisen tietämyksen ja ymmärryksen varassa, ja joka tapauksessa, kun ei voida olla varmoja, on (epistemologisesti) turvallista olettaa kausaalisuus joka sitten voidaan (joskus) osoittaa vääräksi havaintoaineiston perusteella. Toisalta Pearl minusta sotkee pakkaa liiaksi esittämällä monimutkaisen "kausaalisuuden portaat"- argumentin.

Pearl esittelee kolme "kausaalisuuden porrasta", joista ensimmäinen on puhtaat havainnot. Tämä on taso jolle perinteinen tilastollinen analyysi jää, sillä korrelaatiot, ehdolliset todennäköisyydet, yms ovat kaikki matemaattisesti symmetrisiä siinä mielessä, ettei ole mitään keinoa pelkän tilastomatematiikan keinoin sanoa että mikä on kausaalinen suhde ja mikä ei. Toisella tasolla Pearl esittää interventiot eli kontrolloidut koejärjestelyt. Siinä havainnon lisäksi voidaan tehdä koe,  jossa muuttujia manipuloidaan. Tämä on taso jossa do-operaattoreita sovelletaan yksittäisiin suhteisiin, kuten esimerkiksi kun tehdään kaksoissokkokoe jonkin lääkkeen tehon tutkimiseksi. Toinen taso kykenee jo vastaamaan kysymyksiin kuten "mitä (todennäköisesti) tapahtuu jos teemme asian X".  Kausaalisuuden kolmas porras on ns kontrafaktuaalien taso. Siinä vastataan kysymyksiin kuten "X tapahtui, mutta mitä jos se ei olisi tapahtunut?". Tämä taso on se, joka minusta jäi vähän hämäräksi, sillä ensiksikään, en näe miksi eteenpäin suuntautuva hypoteesi ja menneisyyteen suuntautuva kontrafaktuaali olisivat mitenkään eri asemassa analyysin suhteen; Kausaalisessa verkossa kyse on vain suunnasta johon laskenta etenee, eikä siten mitenkään syvällisestä filosofisesta erosta.

Ymmärrän näiden kahden jälkimmäisen tason eron lähinnä psykologisena; Taso 2 viittaa yksittäisiin suhteisiin, se on eräänlainen feed-forward tarkastelu yhden kontrolloidun muuttujan kausaalisuuden suhteen (mitä tapahtuu jos painan tästä), kun taas taso 3 mahdollistaa laajan suunnittelun, jossa tutkitaan useita haluttuja ulostuloja, ja ratkaistaan kysymyksiä kuten "mitä kaikkia pitää painaa tai vetää jotta saamme tämän ylös ja tuon alas".

Kaikenkaikkiaan ihan viihdyttävää lukemista. En suosittele vakavaksi kirjaksi ihmisille jotka haluavat soveltaa asioita teknisesti omiin analyyseihin, mutta suosittelen kaikille niille, jotka kuvittelevat ettei havaintoaineistosta voi tehdä mitään johtopäätöksiä.

7 kommenttia:

Teemu Rovio kirjoitti...

Aihe ainakin on äärimmäisen mielenkiintoinen. Ei meille koulussa opetettu kausaalisuudesta muuta kuin sääntö yksi: korrelaatiosta ei päätellä kausallisuutta. Sen lisäksi olen aiemmin tuntenut vain Hillin kriteerit, jotka ovat lähinnä riittävä ehtoja. Voi olla, että muutamasta uudesta työkalusta ei synny hyvää populaarikirjaa ja siitä jää outo maku suuhun.

Tiedemies kirjoitti...

Kyllä. Tässä minusta keskeistä on se, että vaikka todellakin on niin, ettei korrelaatiosta voi päätellä kausaalisuutta, niin havaintoaineistosta voidaan kuitenkin falsifikoida joitain kausaalisia malleja, ja tämä on se pihvi, loppujen lopuksi.

Eli, vaikka ei voida ottaa havaintodataa ja luoda siitä kausaalista mallia, voidaan luoda kausaalinen malli ja katsoa onko havaintodata sen kanssa ristiriidassa.

Tarkemmin sanoen, voidaan tietenkin luoda kausaalisia malleja havaintodatasta, mutta niitä voidaan luoda useampia ja niistä ei voi päätellä mitään yksikäsitteistä esimerkiksi muuttujista joilla voi olla kausaalisia suhteita havaintomuuttujiin. Data pelkästään ei esimerkiksi voi vastata siihen, että aiheuttaako jäätelön kulutus hukkumiskuolemia tai peräti hukkumiskuolemat jäätelön kulutusta, mutta jos muuttujia on muita (esimerkiksi lämpötila), niin tietyt kausaalisuhteet voidaan ainakin sulkea pois.

Antti kirjoitti...

Kiitoisa esitys.

"olennaista on se, onko meillä kaikki mahdolliset kausaaliset tekijät tiedossa".

Tämä tuntuisi jättävän teorialle, asiantuntemukselle tai miksi sitä sitten haluaakaan kutsua tutkimuksessa isomman merkityksen kuin ajattelutapa, jossa kausaalisuuden selvittämisen mahdollisuuteen suhtaudutaan vakavasti vain, jos on mahdollista tehdä tason 2 tai 3 tutkimuksia. Otan esimerkiksi Wilsonin ja Pickettin kirjan Spirit level, jota kohtaan on tunnetusti esitetty kritiikkiä tyyliin "kausaalisuudesta ei voi päätellä korrelaatioa". Olisiko tässä kuvatun ajattelutavan mukaan mielekästä tarkastella muita selitysmalleja siten, että kun muut oleelliset mekanismit on käyty lävitse, Spirit levelin teesin voisi katsoa hylätyksi tai ainakin todeta, että mikään muu seikka ei näytä selittävän löydöstä?

Mikko kirjoitti...

Käytin gradussani Granger-kausaalisuutta, joka perustuu aikasarjoihin. B on G-kausaalinen A:sta, jos A:n avulla voidaan ennustaa tulevaa B:tä.

Tiedemies kirjoitti...

Tuo karakterisointi on itse asiassa väärä, kirjoitin siinä kohtaa hieman huolimattomasti. Kausaalisten verkkojen käytössä ei ole yleisesti välttämätöntä että tiedämme kaikki mahdolliset kausaaliset tekijät. Jos tutkimme suoria syy-yhteyksiä, eli meillä ei ole välittäviä tekijöitä, niin näin on, eli jos meillä on kolme kausaalisuhdetta A->B, C->A, C->B, niin jos C on näistä tuntematon, emme voi falsifioida C:n vaikutusta.

Sensijaan, jos meillä on tiedossa edes jokin välittävä muuttuja, johon (tuntematon) C ei "voi" vaikuttaa, eli jos ketjut ovat A->X->B, C->A, sekä C->B, ja X on havaittavissa, niin voimme "erottaa" C:n ja A:n vaikutukset toisistaan siitäkin huolimatta, että C:stä ei ole mittausdataa.

Mutta asia on suunnilleen niin kuin Antti yllä sanoo. Teorialla on väistämättä suuri rooli. En tiedä onko sille virhepäätelmälle nimeä, mutta sanotaan näin että "korrelaatiosta ei voi päätellä kausaalisuutta" on totta vain sillä tasolla kun tarkastelemme dataa ilman teoriaa. Datasta ei voi (yksinään) luoda teoriaa, mutta dataa voi verrata teoriaan.

Pearlin pointti minun nähdäkseni on, että tason 2 tutkimus voidaan tehdä ikään kuin "modulo teoria", jos teoria on riittävän kattava. Toisaalta tason 2 tutkimus ilman taustateoriaa vaatii kontrolloituja kokeita, koska ilman teoriaa emme voi tehdä oletuksia potentiaalisista kausaalisista tekijöistä. Tason 3 tutkimusta taas ei voi tehdä lainkaan ilman teoriaa, koska vain teoria voi vastata kysymykseen "mitä olisi tapahtunut jos ei-X olisi tapahtunut X:n sijaan", data ei voi koskaan vastata tällaiseen kysymykseen, koska jos ei-X olisi tapahtunut, se olisi ollut osa dataa.

Tiedemies kirjoitti...

Mikko, en ole perehtynyt G-kausaalisuuteen, mutta se vähä mitä olen aikasarjojen kanssa teoriaa tutkinut, niin vaikka aikasarjadata pystyy osan kausaalisuuskysymyksistä ratkaisemaan suoraan paremmin kuin pelkkä poikkileikkausdata, se ei silti mahdollista kausaalista päättelyä (juurikaan) sen paremmin.

Eli, aikasarjan avulla voidaan todeta toki vääräksi kausaalisuus A->B, jos korrelaatio on sellainen että muutokset B:ssä aina edeltävät muutoksia A:ssa. Tästä ei kuitenkaan ilman erillistä kausaalista mallia voida päätellä mitään siitä, onko olemassa jokin C joka aiheuttaa molemmat. Jo mainitsemani esimerkki lämpömittarista (A) ja jäiden sulamisesta (B) osoittaa tämän. Toki, jokainen ymmärtää tässä sen taustateorian, että lämpömittarin lukema mittaa lämpötilaa joka puolestaan aiheuttaa molempia.

Taloustieteessä voidaan vastaava yhteys ajatella vaikkapa työllisyyden ja inflaation välillä. (Yksinkertaistaen nyt hieman) Philipsin käyrä eli inflaatio --> työllisyys näytti puhtaasti havaintona solidilta teorialta, mutta kun inflaatiota aiheutettiin, työllisyys ei parantunutkaan.

Mikko kirjoitti...

Tiedemies, toki näin.

Tutkinkin sitä, miten G-kausaalisuuksista rakentuva verkko (tässä pörssikurssien muutokset) muuttuu ajan funktiona tai kun tarkastelufrekvenssi muuttuu.

Aiemmissa tutkimuksissa oli viitteitä, että verkko pysyisi samana, mutta osoitin että se on vähemmän stabiili kuin mistä aiemmat tutkimukset antoivat viitteitä.