keskiviikko 29. marraskuuta 2017

Todesta sen näköisyydestä.

Opetan tällä periodilla todennäköisyyslaskentaa. Tämä on vähän joillekin vaikeasti hahmotettava matematiikan haara. Ensiksikin täytyy erottaa toisistaan muutama asia. Tilastotiede tai tilastomatematiikka ja todennäköisyyslaskenta tai todennäköisyysteoria. Näillä on toki kytkös, mutta ne eivät ole sama asiaa. Todennäköisyysteoria on täysin koherentti matemaattinen teoria, jonka kytkös reaalimaailmaan (joka toki voidaan tehdä) on epäolennainen itse teorian kannalta. Todennäköisyysteoria on välttämätöntä mm. informaatioteorialle, mutta toki myös tilastotieteelle.

Tilastotiede puolestaan on matemaattisia menetelmiä käyttävä "työkalutiede", joka tutkii nimenomaan reaalimaailman ilmiöitä mm. todennäköisyysteorian tarjoamin keinoin. En puhu tilastotieteestä tässä. Olen sitäkin jonkin verran opiskellut ja tietoisena Dunning-Kruger-efektistä, en halua kommentoida asiaa muutoin kuin että kuten yleensäkin, kytkökset reaalimaailmaan ovat ongelmallisia ja ihmisten halu saada enemmän sanottua kuin on epistemologisesti perusteltua, on varsin suuri ja se näkyy tavassa jolla tilastotiedettä käytetään.

Todennäköisyyslaskenta voidaan kokonaisuudessaan johtaa erittäin vähäisestä määrästä aksiomia. Oletetaan että meillä on perusjoukko Omega, ja sille sigma-algebra F. Kuten nokkelimmat lukijani tietävät sigma-algebra on kokoelma perusjoukon osajoukkoja siten, että se sisältää tyhjän joukon ja on suljettu komplementin ja (numeroituvien) leikkausten ja unionien suhteen. Ns. Kolmogorovin aksiomat sanovat että meillä on todennäköisyysmitta P, joka on määritelty kaikille F:n joukoille, ja jolle pätee:
  1.  Kaikille F:n joukoille E, P(E) on määritelty ja ei-negatiivinen reaaliluku.
  2. P(Omega) = 1
  3. Jos A on pistevieraiden joukkojen A_i yhdiste, niin P(A) on summa P(A_i):stä. 
Näistä aksiomista lähtien voidaan todistaa monia asioita. Esimerkiksi se, että jos  on A:n komplementti, niin P(A) = 1 - P(Â), sillä A ja  ovat pistevieraita ja niiden yhdiste on Omega. Käytän tässä yhdisteestä merkkiä + ja leikkauksesta merkkiä *, jolloin saamme että P(A+B) = P(A) + P(B) - P(A*B).

Sanomme sigma-algebran F alkioita tapahtumiksi. Tapahtumien todennäköisyyksistä voidaan johtaa uusia käsitteitä, esimerkiksi P(A | B) = P(A*B)/P(B), joka on niin kutsuttu ehdollinen todennäköisyys. Niin kauan kun pysytään todennäköisyyslaskennan puolella, kaikki toimii kiltisti eikä tarvitse huolehtia mistään reaalimaailman ilmiöistä kuten siitä, mitä todennäköisyys oikein tarkoittaa. 

Todennäköisyyslaskenta olisi kuitenkin tylsää, jos meillä ei olisi sille mitään sovelluksia. Se soveltuukin varsin hyvin sellaisten ilmiöiden ominaisuuksien tutkimiseen joissa kaikkea tietoa ei ole paljastettu, vaan jossa tunnemme vain joitain mahdollisia lopputuloksia ja vain osan mekanismista jolla lopputulos syntyy. Esimerkikisi nopanheitto on melko tyypillinen ilmiö jota mallinnetaan todennäköisyyslaskennan avulla. Kuusisivuisen nopan kohdalla "Omega" on joukko {1,2,3,4,5,6}, ja F on kaikkien Omegan osajoukkojen kokoelma. Olettaen että noppa todella on hyvin lähelle kuution muotoinen, ja että emme voi tietää nopanheiton olosuhteista mitään sellaista, minkä vuoksi uskoisimme nopan päätyvän tiettyyn asentoon ennemmin kuin johonkin toiseen, mallissa oletetaan että todennäköisyysmittta P antaa jokaiselle yhden alkion joukolle todennäkisyyden 1/6.

Yleensä kytkös reaalimaailmaan tehdään niin, että määritellään satunnaismuuttuja. Satunnaismuuttuja, vaikkapa x, ei ole luku sinänsä, vaan se voidaan ajatella jonkinlaisena "kurkistusluukkuna todellisuuteen". Se tuottaa jonkin Omegan alkion kun sen arvo "katsotaan". Tämä "katsominen" määritellään usein satunnaiskokeeksi, ja satunnaiskokeen kuvaus on olennaisilta osin todennäköisyysteorian mallin (joka siis sisältää Omegan ja todennäköisyysmitan P) operationalisointi. Esimerkiksi satunnaismuuttuja x noppaesimerkissämme on se luku, joka lukee nopan päällimmäisellä sivulla välittömästi nopanheiton jälkeen; jos haluamme uuden x:n arvon, täytyy noppaa heittää uudestaan. Jos meillä on tapahtuma A, niin se realisoituu annetussa kokeessa, jos x:n kokeessa saama arvo kuuluu joukkoon A.

Tässä operationalisoinnissa tarvitaan sitten tulkinta. Tulkinnalla tarkoitetaan tässä yhteydessä sitä,  millä kriteereillä todennäköisyysmittaa pidetään oikeana tai sopivana jos mallia verrataan todellisuuteen.

Todennäköisyyden niin kutsuttu frekventistinen tulkinta on seuraava: Satunnaismuuttuja x saa koejärjestelyissä arvot x_1, x_2, .... (näitä on loputtomiin). P(A)  on tapahtuman A suhteellinen esiintymisfrekvenssi, kun koetta toistetaan loputtomiin. Esimerkiksi frekventistinen tulkinta nopanheitosta on, että P({1}) = 1/6, koska jos noppaa heitettäisiin loputtomiin, ykkösiä olisi koko ajan tarkemmin ja tarkemmin kuudesosa kaikista heitoista; pieniä heilahduksia voisi toki tulla, mutta "ajan oloon" heittoja olisi niin paljon että kuudesosa olisi aina vain parempi ja parempi likiarvo ykkösten osuudelle.  Malli jossa jokaiselle luvulle on annettu todennäköisyys 1/6 on väärä, jos eri nopanheittojen suhteelliset osuudet eivät lähesty näitä arvoja.  Frekventistisessä tulkinnassa on tapana tehdä hypoteesi (mukamas) a priori, ja sitten tehdä jokin "riittävän" suuri määrä kokeita, ja todeta hypoteesi oli väärä, koska saatu tulos oli varsin epätodennäköinen. Tässä on ongelmansa, joihin en tässä kohtaa mene sen syvemmälle.

Bayesilainen tulkinta on hieman toisenlainen. Siinä todennäköisyysmitta kuvaa meidän käsitystämme ilmiöstä ja sitä tietoa mitä meillä on.  Esimerkiksi nopanheittojen todennäköisyyksiksi asetetaan a priori 1/6, koska emme yksinkertaisesti tiedä mitään syytä tai perustelua miksi jokin toinen nopanheitto esiintyisi useammin kuin toinen. Kun koetta sitten toistetaan riittävän monta kertaa, voimme muodostaa erilaisille hypoteeseille todennäköisyyksiä. Hypoteeseille annetaan etukäteen jonkinlaiset priorit eli todennäköisyydet tai uskottavuusmitat. Esimerkiksi, bayesilainen voisi todeta, että koska 99% nopista on varsin  laadukkaita eikä niitä ole painotettu, niin kautta linjan 1/6- todennäköisyydet antavan tuloksen priori P(H) = 0.99, ja muiden yhteensä 0.01. Jos nopanheittoja tehdään 100, ja suhdeluvut näyttävät että puolet tuloksista on kutosia, niin tämä on jo erittäin epätodennäköistä.  Tämän arvioimiseen käytetään Bayesin kaavaa, joka sanoo että
P(H | E) = P(E | H) P(H) / P(E). Eli, hypoteesin todennäköisyys tietäen että meillä on evidenssi E, saadaan laskettua kun meillä on todennäköisyys jolla H:n ollessa tottaa E todella tapahtuisi, kertaa H:n priori, jaettuna evidenssin todennäköisyydellä. Olennaista on, että tästä pitäisi tulla uusi H:n priori jatkossa.

Tähänkin liittyy tiettyjä ongelmia, joista vähäisin ei suinkaan ole priorien valinta. Suurin ongelma joka Bayesilaisuuteen liittyy on kuitenkin sosiaalinen: Bayesilaiset ovat pääsääntöisesti ylimielisiä mulkeroita, jotka sivuuttavat todelliset ongelmat ja kuittaavat ne kriitikioiden "ymmärtämättömyydellä". Itse pidän itseäni 80% bayesilaisena, 15% frekventistinä ja 5% skeptikkona, mutta tämä on vain seurausta siitä, että olen päivittänyt prioreitani evidenssin perusteella. Luvut saattavat vaihtua.

Homma menee teoriapuolellakin rumaksi, kun todennäköisyyslaskentaa aletaan soveltaa kapeammin. Esimerkiksi, alamme tehdä oletuksia siitä, että todennäköisyysmitta on esitettävissä ns. tiheysfunktion avulla. Tiheysfunktio on kuvaus Omegalta ei-negatiivisille reaaliluvuille siten, että summa (tai jokin yleistys summasta) F:n joukkojen yli tuottaa todennäköisyysmitan. Esimerkiksi jos Omega on jokin reaalilukujen osajoukko, niin F on niiden Omegan osajoukkojen kokoelma jotka ovat Borel-joukkoja, ja P(A) määritellään integraalina f:stä joukon A yli.

Vaikka matemaattisesti tällaiset teoriat toteuttavat toki Kolmogorovin aksiomat, ne synnyttävät reifikaatioita, eli sellaisia kognitiivisia vinoumia jotka kiinnittävät ajattelun näihin käsitteisiin. Aivan erityisen vaarallinen tällainen reifikaatio on odotusarvo. Odotusarvo -- jota kansanomaisemmin kutsutaan myös keskiarvoksi, vaikka keskiarvo tarkoittaakin eri asiaa -- on operaattori joka voidaan määritellä sellaiselle todennäköisyysmallille jossa on tiheysfunktio ja jossa Omegan alkioille on määritelty reaali- tai kompleksilukujen kertolasku. Omega voi siis olla aivan hyvin jokin vektoriavaruus tms, kunhan reaaliluvulla kertominen on mielekäs operaatio Omegan alkiolle.
Jos x on satunnaismuuttuja, niin merkitsemme sen odotusarvoa E(x). 

Odotusarvo saadaan kun lasketaan satunnaismuuttujan "todennäköisyydellä painotettu keskiarvo", eräänlainen todennäköisyysjakauman painopiste. Kiltisti käyttäytyvillä jakaumilla odotusarvo on varsin hyödyllinen työkalu. Esimerkiksi nopanheiton odotusarvo on 3.5. Jos pelaamme noppapeliä jossa nappulat siirtyvät silmäluvun verran eteenpäin, niin voimme saada aika hyvän arvion siitä, kuinka pitkälle nappulat liikkuvat tietyssä määrässä vuoroja, kun käytämme odotusarvoa, etenkin kun kierroksia on useita.  Odostusarvo on hyödyllinen myös uhkapeleissä yms, etenkin pelin järjestäjälle, sillä kun pelejä pelataan paljon, odotusarvon pitää olla pelin järjestäjälle suosiollinen. 

Toinen suure, joka voidaan tällaisissa malleissa määritellä -- joskin hieman harvemmin -- on varianssi. Kun saamme erilaisia tuloksia, ne eivät tietenkään osu tarkalleen odotusarvon kohdalle, mikäli ilmiö todella on satunnainen (eli satunnaismuuttuja ei saa samoja arvoja joka kerta). Jos muutujan arvoille on määritelty etäisyysmitta, niin määrittelemme uuden satunnaismuuttujan z,
joka on x:n etäisyys sen odotusarvosta. Tällöin varianssi on E(z2). Jos x saa reaalilukuarvoja, on tapana määritellä V(x) = E((x - E(x))2). Varianssin neliöjuuri on nimeltään keskihajonta.

Jos ja kun satunnaismuuttujalle on määritelty varianssi ja odotusarvo, niitä on tapana merkitä kreikkalaisilla kirjaimilla joita tässä blogissa on tuskallista käyttää. Niinpä käytän odotusarvosta merkintää mu ja keskihajonnasta merkintää sigma. Jos emme tiedä todennäköisyysmallista mitään muuta kuin odotusarvon ja varianssin, emme voi sanoa erilaisista todennäköisyyksistä kovin paljoa, mutta voimme sentään todeta jotain. Niin sanottu Tschebyshevin epäyhtälö (T-epäyhtälö tästedes) sanoo, että P(|x - mu| > t) on korkeintaan (sigma/t)2. aivan erityisesti, jos t = k*sigma, niin P(|x - mu| > k*sigma) on korkeintaan 1/k:n neliö; esimerkiksi se, että jokin tapahtuma joka kokonaisuudessaan poikkeaa odotusarvosta yli 5 keskihajontaa, tapahtuu korkeintaan  4% todennäköisyydellä. Tämä kannattaa pitää mielessä.

Jakaumat joilla on odotusarvo ja varianssi ovat "yleisiä" sikäli, että jos tiedämme että ilmiön numeroarvot ovat rajoitettuja, niin mikä tahansa "kunnollinen" ilmiötä kuvaava malli on sellainen että odotusarvo ja varianssi löytyvät. Esimerkiksi ihmisten pituus ei voi alittaa 0 metriä, eikä ihminen voi olla pituudeltaan esimerkiksi yli 15 kilometriä, koska silloin hän ei pystyisi hengittämään seistessään.

Ehkä vaarallisin teoreema, joka tällaisia todennäköisyysmalleja koskee on niin sanottu keskeinen raja-arvolause. KRA sanoo, että jos meillä on ääretön jono toisistaan riippumattomia satunnaismuuttujia x_i, joiden odotusarvot ja varianssit ovat olemassa eivätkä ne käyttäydy "patologisesti", esimerkiksi, jonon odotusarvot ja varianssit ovat kaikki jotakin epsilonia suurempia ja jotakin ylärajaa K pienempiä, niin saadaan seuraavaa: olkoon y(n) = x_i:den summa n:ään asti, mu(n) = odotusarvojen summa n:ään asti  ja sigma(n) = keskihajontojen summa n:ään asti. Satunnaismuuttuja z(n) = (y(n) - mu(n))/sigma(n) lähestyy normaalijakaumaa N(0,1) kun n lähestyy ääretöntä.

KRA on vaarallinen, koska se saa ihmiset uskomaan, että kunhan n on riittävän suuri, niin normaalijakauma on riittävän hyvä. Tämä pätee toki tietyssä mielessä, mutta se pätee vain niillä muuttujien arvoilla jotka eivät ole liian kaukana alkuperäisten jakaumien häntäpäistä. Normaalijakauma on jatkuva jakauma ja se on täysin symmetrinen, ja siinä kaukana odotusarvosta olevat arvot käyvät hyvin nopeasti äärimmäisen epätodennäköisiksi.

Tästä ilmiöstä on omaan koprolaliaa ja huonoja käytöstapoja yhdistelevään tyyliinsa kirjoittanut mm. Nassim Taleb, sinänsä sisällöllisesti ansiokkaasti. Pidän miehestä ja hänen kirjoituksistaan, mutta kuten niin monet mielenkiintoiset ihmiset, hän on täysin vailla käytöstapoja, itseään täynnä ja muutenkin jonkin sortin ihmisperse. Tämä ei tietenkään tee hänen sanomisiaan mitenkään huonoiksi, vaan pikemminkin päinvastoin. Se osoittaa etteivät tällaiset asiat ole oikeasti kovin voimakkaasti kytköksissä toisiinsa. Joku vetänee johtopäätöksen että "nerot ovat vaikeita" -- tämä voi pitää paikkaansa sikäli, että todennäköisyys että joku on vaikea ihminen kasvaa, jos hän on nero.

Mutta kannattaa muistaa sanonta: Ekstraordinary claims require extraordinary evidence. Tämä sanonta voidaan palauttaa viime kädessä Bayesin kaavaan. P(A | B) = P(B|A)P(A)/P(B). Jos A on epätodennäköinen (esim, "henkilö on nero") ja B on varsin todennäköinen (henkilö on vaikea), ei suurikaan ehdollinen todennäköisyys toiseen suuntaan (nero on vaikea) tuota mitään kovin suurta evidenssiä toiseen suuntaan (vaikea ihminen on nero).


2 kommenttia:

Veijo Ryhänen kirjoitti...

Tm: "Tilastotiede puolestaan on matemaattisia menetelmiä käyttävä "työkalutiede", joka tutkii nimenomaan reaalimaailman ilmiöitä mm. todennäköisyysteorian tarjoamin keinoin. En puhu tilastotieteestä tässä. Olen sitäkin jonkin verran opiskellut ja tietoisena Dunning-Kruger-efektistä, en halua kommentoida asiaa muutoin kuin että kuten yleensäkin, kytkökset reaalimaailmaan ovat ongelmallisia ja ihmisten halu saada enemmän sanottua kuin on epistemologisesti perusteltua, on varsin suuri ..."

Koska en ole itse kiinnostunut matematiikasta ja todennäköisyyslaskennasta, tuo em. kappale "pelasti" minun kannaltani blokirjoituksesi, jonka ansiosta koin sen kokonaisuudessaan lukemisen hyödylliseksi itselleni, vaikka todellisuudessa vain yksi kappale oli kiinnostava kaltaiselleni "ei-matemaatikolle".

Google haku "Dunning-Kruger" löysi aiheesta kirjoitetun uuden kirjan:

"Steven Sloman ... is something of an expert on ignorance of one’s own ignorance. Earlier this year, he co-authored a book called “The Knowledge Illusion: Why We Never Think Alone.” The book describes a series of experiments in which people were asked to assess how much they knew about the way various systems work -- from toilets to single-payer health-care systems. People generally rated their knowledge of those systems as high -- but then, when asked to explain in detail how those systems actually worked, most couldn’t."(https://www.bloomberg.com/view/articles/2017-05-12/trump-s-dangerous-disability-it-s-the-dunning-kruger-effect)

Em. linkistä löytyy myös "itsestä yleistäminen" argumentaatiovirhe:

“Nobody knew health care was so complicated.”(Trump)

Itse koen äärimmäisen kiinnostavana tietää miten kaikenlaiset mekanismit, koneet ja laitteet toimivat, jonka vuoksi olen mm. avannut auton ilmastoinnin kompressorin ja maalämpöpumpun kompressorin. Oikean, fyysisesti olemassaolevan laitteen mekanismien näkeminen ja kädessä pitäminen saa rakenteen jäämään paremmin muistiin, kuin pelkästään google haun avulla tehdyn "räjäytyskuvan" vilkaiseminen (josta toimintaperiaate ei käy ilmi yhtä selkeästi).

Fyysisesti olemasa olevien laitteiden lisäksi minua kiinnostaa myös ei-fyysisesti olemassa olevat rakenteet, kuten esim. blokisti Ruukinmatruunan monimutkaisten ja outojen aivoitusten ja ajattelurakenteiden perinpohjainen ja itseäni tyydyttävällä tavalla ymmärtäminen.

Veijo Ryhänen kirjoitti...

Matemaattisesti lahjakkaita ihmisiä luultavasti viehättää tekstimuodossa kuvailtua "Dunning-Kruger" -ilmiötä enemmän "Dunning-Kruger" -ilmiön kuvaaminen matemaattisen funktion (kuvaajan) avulla:

https://pics.me.me/the-first-rule-of-dunning-kruger-club-is-100-0-ebla-12829120.png

Mielestäni confidence maksimin ei pitäisi olla teräväkärkinen huippu, vaan pyörtäväkärkinen huippu, joten siinä mielessä tuo kuvaaja ei kuvaa todellisuutta parhaalla mahdollisella tavalla.

Ja "tietämättömyyden laakson" ei pitäisi olla "harpilla piirretty" ympyrän kehä, vaan siinä pitäisi ottaa huomioon (jo aikaisemmin linkittämäni) tieteellisten tutkimusten tuottamisessa havaittu "experttiyden eksponentiaalinen nousu". Kun tietoa aletaan kasata aikaisemman tiedon ja osaamisen päälle, sen seurauksena vertaisarvioitujen tieteellisten tutkimusten laatu määrän lisääntyessä nousee "eksponentiaalisesti" (eikä suoraviivaisesti, tai ympyrän kaaren muotoa noudattaen).

Ja vaaka-akselilla kuuluisi olla ehdottomasti aika, joka on menestyksekkään opiskelun ollessa kyseessä eufenismi tietämiselle (siis "experttiyden edellytys" on runsas ajankäyttö "opiskeluun", ts. "kokeiluihin"):

"Instead of the 10,000-hour rule, we need what I call the 10,000-experiment rule."(https://medium.com/the-mission/forget-about-the-10-000-hour-rule-7b7a39343523)

Sinänsä Dunning-Kruger klubin jäsenenä oleminen on henkisesti kiva ja miellyttävä kokemus, sillä on äärimmäisen mukavaa ajatella, että "tajuaa kaikesta kaiken". "Kaikesta" poisluetaan tietysti ne elämän osa-alueet, joissa tajuaa oman tietämättömyytensä (esim. minun tapauksessani matematiikka yms. "kovat tieteet"). Tuskinpa kukaan ihminen kokee olevansa "klubilainen" kaikilla eri elämän osa-alueilla.

Sokrates ei aikoinaan ollut "filosofian alan Dunning-Kruger klubin" jäsen, koska hän ymmärsi sen ajan filosofian perustuvan 100% puhtaasti reifikaatiovirheisiin:

"Viisain on se, joka tietää, että ei tiedä." - Sokrates

Toisin muotoiltuna:

"Viisain on (filosofian alalla) se, joka ei pidä kielikuvia todellisuutena"

Samalla logiikalla, mutta käänteisenä:

"Epäviisain (filosofian alalla) on se, joka pitää kielikuvia todellisuutena"

Hyvä esimerkki jälkimmäisestä on tietysti blokisti Ruukinmatruuna (kuin myös paavi), joiden mielestä "Pahuus on fyysisesti olemassa olevaa todellisuutta" -väite on 100% täyttä totta!

Reality check: Kärsimys on fyysisesti olemassa oleva, koska sitä voidaan tieteen avulla mitata. Pahuus sen sijaan on 100% puhtaasti kielikuva, jota ei voida fyysisesti mitata, eikä sen vuoksi "pahuuden fyysistä olemassaoloa" voida myöskään koskaan oikeaksi todistaa (https://en.wikipedia.org/wiki/Falsifiability).