T13-d3-m135: Berksonin paradoksi, eli miksi kauniit ihmiset eivät ole tyhmiä

Wikipediasta löytyy melko kattava selitys ns Berksonin paradoksista. Kyseinen ilmiö liittyy todennäköisyyksiin ja siihen miten ehdolliset todennäköisyydet käyttäytyvät. Lukija voi lukea wikipedian artikkelin ensin, esitän tässä (kuvitteellisen) esimerkin siitä, miten ilmiö toimii.

Kuvitellaan että meillä on populaatio ihmisiä, ja näillä ihmisillä on kaksi toisistaan riippumatonta ominaisuutta, kauneus ja älykkyys. Ilmiön kannalta on täysin yhdentekevää, mitä nämä ominaisuudet oikeasti ovat, tärkeää on tämä alussa tehtävä oletus, että nämä ovat riippumattomia. Huomautan tässä, että kirjoituksen loppupuolella perustelen että tämä oletus ei ole sitova; Ilmiön jota käsittelen, saa esille, vaikka näillä ominaisuuksilla olisi positiivinen korrelaatio.

Kuvitellaan sitten henkilö X joka arvostaa kauneutta ja älykkyyttä toisissa ihmisissä. Hän luokittelee ihmiset sen mukaan, ovatko nämä huomionarvoisia. Tässäkin käsitteen nimi on epäolennainen; jos joku tykkää kytköksestä reaalielämään, niin tätä voi ajatella haluamallaan tavalla. Arvostus ja arvio kauneudesta ja älykkyydestä ovat subjektiivisia, mutta oletamme että tämä esimerkkimme henkilö X arvioi ensin ihmiset älykkyyden ja kauneuden perusteella asteikolla 1-10. Oletamme että henkilö X käyttää olennaisesti sellaista asteikkoa, että noin 10% ihmisistä saa kunkin arvosanan kummassakin arvioinnissa. X laskee pisteet yhteen jokaisen arvioidun kohdalla, ja jokainen arvioitu saa siis pistemäärän 2-20.

Nyt, oletimme että kauneus ja älykkyys ovat riippumattomia, eli jos jonkun älykkyys on 10, niin tämä ei mitenkään vaikuta tämän kauneuteen. Jos otamme 1000 ihmistä joiden älykkyys on 10 täysin satunnaisesti, niin näiden joukossa on (suunnilleen) 100 ihmistä joiden kauneus on 1, 100 joiden kauneus on 2, ja niin edelleen. Huomatkaa, että riippumattomuus tarkoittaa tätä. Tähän astinen on vain ja ainoastaan ilmeisen matemaattisen välttämättömyyden lausumista, emmekä ole lainkaan ottaneet kantaa näiden ominaisuuksien mihinkään muuhun luonteeseen.

Oletetaan sitten, että X pitää huomionarvoisena henkilöä, jonka yhteenlaskettu pistemäärä on vähintään 15. Näitä on asteikon luonteen vuoksi noin 21% väestöstä. Jos nyt tarkastelemme vain huomionarvoisia ihmisiä, mitä tapahtuu riippumattomuudelle? Ensinnäkin, tiedämme, että jos joukossa on joku jonka älykkyys on 5, niin tämän kauneuden on väistämättä oltava 10, sillä muutoin hän ei olisi tässä joukossa. Vastaavasti jos älykkyys on 6, niin kauneus on joko 10 tai 9. Sama symmetrisesti toisin päin.

Tätä taustaa vasten, tarkastellaan joukkoa kokonaisuutena ensin tämän yhteispistemäärän kautta. Koko populaatiosta 6% saa keskimäärin pistemäärän 15, kun taas pistemäärän 16 saa keskimäärin 5%, jns, ja pistemäärän 20 saa 1% koko väestöstä. Mutta huomionarvoisista ihmisistä 6/21 eli noin 28,6% on saanut pistemäärän 15, kun taas 23,8% on saanut pistemäärän 16; tämä osapopulaatio muodostaa puolet kaikista huomionarvoisista yksilöistä.

Jos laskemme älykkyyden ja kauneuden korrelaation rajoittuen tähän joukkoon, huomaamme, että älykkyydellä ja kauneudella on aivan massiivinen negatiivinen korrelaatio. Tässä tapauksessa riippumattomat muuttujat saavat joukkoon rajoituttaessa negatiivisen korrelaation, noin -0.45. (Laskin tämän numeerisesti, en jaksanut analyyttistä ratkaisua).

Ilmiö muuttuu vielä pahemmaksi, jos valintakriteeri on esimerkiksi, että huomionarvoisan pitää saada pistemäärä 10 jommasta kummasta; tällöin puolet porukasta on toisen ominaisuuden perusteella kymppejä ja toisen ominaisuuden perusteella keskivertoja. Esimerkiksi USA:ssa on melko tavallista että yliopistoihin pääsee opiskelemaan jos on poikkeuksellisen lahjakas joko akateemisesti tai sitten urheilullisesti. Tällöin urheilijat vaikuttavat väkisinkin "tyhmiltä", vaikka he olisivat itseasiassa jopa keskimääräistä fiksumpia; ilmiö johtuu siitä että ne jotka eivät ole urheilijoita, ova tässä rajoitetussa populaatiossa vielä selvästi fiksumpia.

Palataan nyt oletukseen riippumattomuudesta. Oletetaan nyt, että sen sijaan että älykkyys ja kauneus olisivat riippumattomia, niillä on jopa positiivinen yhteys niin, että jos ihmisen älykkyys on keskimääräistä suurempi (eli 6 tai enemmän), hänen kauneutensa saa yhden pisteen "bonusta". Tällöin korrelaatio kauneuden ja älykkyden välillä on koko populaatiossa positiivinen, mutta huomionarvoisessa populaatiossa edelleen selvästi negatiivinen (noin -0.28).

Itse asiassa, jos huomionarvoisessa populaatiossa näyttäisi vallitsevan riippumattomuus, niin kauneuden ja älykkyyden korrelaation pitäisi yleisessä populaatiossa olla äärimmäisen korkea, käytännössä niin että rumat ihmiset ovat lähes poikkeuksetta tyhmiä ja toisin päin.

Saman ilmiön eräänlainen käänteisilmiö on ns restriction of range, joka hävittää korrelaation selittävän ja selitettävän muuttujan välillä. Esimerkkinä vaikkapa VO2max, eli maksimaalinen hapenottokyky. Koko populaation tasolla sen ennustusarvo on varsin hyvä. Esimerkiksi VO2maxin ja Cooperin testin tulosten korrelaatio on hyvin korkea. Kuitenkin, jos otamme olympialaisten 10 000 metrin lähtöviivalta miehet ja mittaamme heidän VO2max:insa, niin emme saa mitään kovin hyvää ennustetta sille kuka voittaa. Syy on yksinkertainen: Kaikki kyseiset miehet ovat jo hyvin nopeita, heillä on jo varsin korkea VO2max, ja erot heidän suorituskyvyissään johtuvat muista tekijöistä.

Vastaavasti, jos otamme populaatiotasolla nuoria ihmisiä ja teemme heille älykkyystestejä, niin parhaiten testeissä pärjäävät pärjäävät keskimäärin paremmin suunnilleen kaikessa mitä he tekevät. Kuitenkin jos otamme esimerkiksi kourallisen maailman parhaita matemaatikkoja -- mittarina voi olla melkein mikä tahansa, kunhan se ei ole se, että he ovat Fieldsin mitalisteja -- ja mittaamme heidän älykkyytensä, niin emme pysty tämän perusteella ennustamaan (ainakaan kovin luotettavasti) sitä ovatko he saaneet tai tulevatko he saamaan uransa aikana Fieldsin mitalia.

Berksonin "paradoksi" -- eihän se mikään paradoksi edes ole, vaan ainoastaan epäintuitiivinen tilastomatemaattinen tulos -- on yksi syy siihen että ihmisten mielipiteet ovat paskoja. Suurin osa niistä asioista jotka me muodostamme mielipiteiksemme havaintojen perusteella on tällaisia. Eikä Berksonin paradoksi ole ainoa ollenkaan; tilastollisia epäintuitiivisuuksia on paljon, epälineaarisuudet johtavat ihmismieltä toistuvasti harhaan.

Silti, oksennan aina pikkuisen suuhuni kun joku poliitikko puhuu siitä miten pitää käyttää ja tukea "tieteellistä tietoa". Suuri osa siitä "tiedosta" jonka varassa poliitikot operoivat nimittäin suodatetaan niin, että se lähtökohtaisesti tukee poliitikon omaa, ennalta päätettyä agendaa. Ja vaikkeis se niin tekisikään, niin se tulkitaan niin tilanteeseen sopivasti. Ja sitten taas toisaalta, tämä tosiasia saa jotkut ääliöt kuvittelemaan että tutkijayhteisön tuottama tieto on jotenkin pelkkä mielipideasia ja voidaan sivuuttaa jos se ei sovi ääliön omaan mielikuvitusmaailmaan.

Tällaisessa ympäristössä on hyvin vaikeaa yrittää esittää perusteltuja näkemyksiä.

T13-d3-m135

maanantai 19. kesäkuuta 2017

Berksonin paradoksi, eli miksi kauniit ihmiset eivät ole tyhmiä

Ei kommentteja: