tiistai 8. lokakuuta 2013

Numerot.

Kuten tiedämme, monet tilatomatemaattiset käsitteet ovat luonteeltaan sangen erilaisia äärellisten ja äärettömien alkeistapahtumien joukkojen kanssa. Esimerkiksi nopanheitossa on äärellinen joukko mahdollisia tapahtumia, yleensä kuusi. Oletus tasajakaumasta, tai edes lokaali approksimaatio tasajakaumasta, johtaa helposti ongelmiin. Klassinen esimerkki on niinsanottu kirjekuoriparadoksi.

Kirjekuoriparadoksissa pelataan peliä. Annan kaksi kirjekuorta, joista toisessa on jokin määrä rahaa, ja toisessa tarkalleen kaksinkertainen määrä rahaa. Saat valita haluamasi kirjekuoren ja avata sen. Avaamisen jälkeen voit koettaa onneasi vaihtamalla kirjekuorta. Jos esimerkiksi kuoressa on satanen, tiedät että toisessa kuoressa on 50 tai 200 euroa. Olettamalla nämä molemmat yhtä todennäköisiksi, saadaan vaihtamisen odotusarvoksi 0.5*50 + 0.5*200 = 125 euroa, joten vaihtaminen kannattaa. Tämä tulos on riippumaton siitä, mitä kirjekuoren sisällä on.

"Paradoksin" ratkaisu on tietenkin se, että oletamme implisiittisesti jakauman olevan tasainen, mitä se ei voi olla. Erittäin suurten lukujen on yksinkertaisesti pakko olla aina vain epätodennäköisempiä jostain rajasta eteenpäin. Täsmällisemmin sanottuna, jokaiselle mahdolliselle luonnollisten lukujen jakaumalle pätee, että miten hyvänsä pienelle nollaa suuremmalle epsilonille  on olemassa n siten että P(X > n) on pienempi kuin epsilon. Tuntematta jakaumaa emme kuitenkaan tiedä miten suuri tämä n on.

Otetaan seuraavanlainen kysymys, jossa on parametrinä jakauma: Olkoon f(X) tiheysfunktio (= todennäköisyys kaikkine normaaleine oletuksineen) luonnollisille luvuille. Mikä on todennäköisyys sille, että satunnaisessa luvussa jossakin kohtaa kaksi samaa numeroa peräkkäin? (Oletetaan että käytämme 10-järjestelmää).

On selvää, että valitsemalla sopiva jakauma, tämä todennäköisyys voidaan tehdä nollaksi: annetaan nollaa suurempi todennäköisyys vain niille luvuille joissa ei ole samaa numeroa peräkkäin. Toisaalta se voidaan tehdä ykköseksi valitsemalla jakauma, jossa nollaa suurempi todennäköisyys on luvuilla joissa on tämä ominaisuus. Tällaiset patologiset jakaumat eivät nyt kiinnosta meitä, vaan olemme kiinnostuneita jollakin tapaa "luonnollisista" jakaumista.

Esimerkki jakauman ominaisuudesta joka voisi olla mielekästä vaatia, olisi jonkinlainen konkaavisuus. Esimerkiksi niin, että ensimmäinen tiheysfunktion differenssi on monotonisesti vähenevä.

Tutkitaan kuitenkin itse ilmiötä, eli "kaksi samaa numeroa perätysten", esimerkiksi seuraavalla tavalla: Oletetaan että k:n mittaisista luvuista jokainen on yhtä todennäköinen, ja tiedämme että olemme saaneet k:n mittaisen luvun. Tässä tapauksessa ehdollinen todennäköisyys saadaan kun tarkastellaan, sen komplementtia. Ensimmäinen numero voi olla mitä tahansa, mutta toinen on sama kuin ensimmäinen todennäköisyydellä 1/10,  eli eri todennäköisyydellä 9/10. Seuraava eroaa tästä todennäköisyydellä 9/10, jne, joten k:n mittaisessa luvussa todennäköisyys on (9/10)k-1. Kun k kasvaa, niin tämä todennäköisyys lähestyy nollaa, siis todennäköisyys että luvussa on kaksi peräkkäistä samaa numeroa, lähestyy ykköstä.

Olisiko siis mahdollista antaa jakaumaa, jossa todennäköisyys tälle ominaisuudelle olisi 1? Vastaus on tietysti että ei ole. Kuten aiemmin totesimme, jokaista epsilonia kohden on olemassa n siten, että n:ää suuremmat luvut ovat vähemmän todennäköisiä kuin epsilon. Todennäköisyys sille, että kahta perättäistä lukua ei löydy on rajattu alhaalta: Olkoon k = log n, missä logaritmi on kymmenkantainen. Kun epsilon on fiksattu, niin todennäköisyys että saamme n:ää pienemmän luvun on 1-epsilon, ja näiden joukossa todennäköisyys on vähintään (9/10)k-1 sille, että luvussa ei ole kahta samaa numeroa peräkkäin. Todennäköisyys on siis vähintään (1-epsilon)*(9/10)k-1 ettö saamme annetulla jakaumalla luvun jolla ei tätä ominaisuutta ole.

Tämä luku voidaan tietenkin tehdä mielivaltaisen pieneksi jälkikäteen, vaihtamalla jakaumaa, mutta jokaisella kiinnitetyllä jakaumalla tämä luku on väistämättä nollaa suurempi. 

Tämä ei ole varsinaisesti todistus, mutta voidaan sellaiseksi muuttaa. Harjoitustehtäväksi jätetään se, missä kohtaa käytin konkaavisuus-oletusta.

6 kommenttia:

Tomi kirjoitti...

En kyllä hotsinut mikä tuossa kirjekuoriparadoksissa oli paradoksi.

Tiedemies kirjoitti...

Kirjekuoriparadoksihan on se, että oli kirjekuoressa mikä summa hyvänsä, niin vaihtamisen odotusarvo on 25% suurempi kuin sen kirjekuoren pitäminen.

Tämä on paradoksi, koska jos valitset kirjeen täysin sattumalta, myös symmetrisesti se toinen kirje on täysin satunnainen; odotusarvo ei voi olla eri sen mukaan oletko avannut toisen vai et; joko valitsit sen kuoren jossa on enemmän rahaa tai sitten et valinnut, todennäköisyys on sama.

Otetaan tämä toisin: Meillä on kaksi pelaajaa. Kumpikin valitsee kirjekuorensa vaikkapa kolikkoa heittämällä. Toinen vaihtaa aina ja toinen ei vaihda koskaan. On selvää, että pelaajien voittojen odotusarvojen pitää olla sama (jos et usko, sovitaan että heillä on samat kirjekuoret mutta toisin päin), vaikka tämä "analyysi" väittää että vaihtajan voitot ovat 25% suuremmat.

Tomi kirjoitti...

Lueskelin wikipediaa ja näköjään odotusarvon lasku on virheellinen.

Tomi kirjoitti...

Jaa, vastasit samaan aikaa, kun kirjoitin oman viestini.

kattoratsastaja kirjoitti...

Tämä artikkeli oli wanhaa kunnon Tiedemiestä kokkariaanisessa hengessä. Elähdyttävää.

opottone kirjoitti...

Myös tarvittava matemaattinen koneisto vaihtelee sen mukaan, puhutaanko numeroituvista vai epänumeroituvista äärettömyyksistä. Kun ollaan numeroituvissa joukoissa, ei oikeastaan tarvitse puhua tiheysfunktioista vaan voidaan puhua yksinkertaisemmin alkeistapahtumien todennäköisyyksistä.

Eikös tuosta konkaavisuusoletuksesta tule ristiriita? Olkoon x luku jolla f(x) maksimoituu; jos maksimi ei ole yksikäsitteinen, valitaan suurin mahdollinen x. Maksimi on olemassa ja saavutetaan vain äärellisen monessa kohdassa, sillä kaikkien arvojen f(x) summa on äärellinen. Nyt k = f(x+1) - f(x) < 0, ja edelleen konkaavisuuden perusteella f(x+n) <= f(x) + n k, mistä tulee riittävän suurella n:n arvolla negatiivinen, mikä ei tiheysfunktiolle ole sallittua.