maanantai 6. syyskuuta 2010

Epäkorrekti tutkimus.

Toisinaan seuraamani bloggaaja Jaska oli keräillyt dataa etnisyydestä, maiden rankingista Newsweekin taannoisessa maiden vertailussa, kielellisestä diversiteetistä, siirtolaisten osuudesta väestössä, muslimien osuudesta väestössä jne. Sain häneltä datan, ja olen nyt työstämässä ja täydentämässä sitä.

Tarkoituksenani on siis selvittää, miten eri muuttujat selittävät pistemäärää Newsweekin "hyvä paikka elää"- vertailussa. Tällaisissa tilanteissa on usein hyvä ottaa mukaan virheellisiä tulkintoja aiheuttavia korrelaatioita "imuroivia" muuttujia mukaan. Esimerkiksi pelkkä mustaihoisten osuus väestössä voi olla vain sattumaa, eikä tosiasiassa merkitä mitään maan "hyvyydelle", jos tosiasiassa onkin jokin toinen, tuntematon tekijä, joka korreloi tämän etnisen koostumuksen kanssa. Yksi tällainen "imurimuuttuja", jota aion käyttää, on etäisyys päiväntasaajasta. Jos olen oikeassa arveluissani, se imuroi merkittävän osan etnisen komposition selittävästä vaikutuksesta, ja jäljelle jää enemmän todellista vaikutusta.

Jotta vertailusta tulee mielekäs, täytyy dataa täydentää. Aion käyttää niiden maiden kohdalla, joilla data löytyy verkosta, populaation perimän eurooppalaisuus- ja afrikkalaisuusasteita selittävinä muuttujina, uskonnon, siirtolaisuuden, kielellisen diversiteetin ja leveysasteen itseisarvon lisäksi. Leveysasteen määrittäminen on ongelma sellaisten maiden kuin Chile tai jopa Suomi tai Meksiko kohdalla, jotka ovat pitkänomaisia. On selvää, että pääkaupungin leveysaste ei ole hyvä, mutta se saa silti kelvata proxyksi.

Otan vastaan ehdotuksia tässä vaiheessa siitä, mitä muuttujia pitäisi ottaa mukaan. Ja kaikkein parasta, jos pystytte sellaisen datan minulle toimittamaan lisättäväksi.

Syy sille, miksi teen tämän vertailun on, että toivon tämän poistavan tiettyjä ennakkoluuloja, mutta riittävän vahva ennakkoluulo tietysti on mahdotonta kumota kovalla todistusaineistolla. Julkaisen luvut viikon lopulla, kun saan regressio-ohjelmani puukotettua laskemaan myös p-arvot kertoimille.

3 kommenttia:

Matti kirjoitti...

"On selvää, että pääkaupungin leveysaste ei ole hyvä, mutta se saa silti kelvata proxyksi."

Suomen kohdalla se lienee ihan hyvä, koska väestö on keskittynyt. Jostain Chilestä en sitten tiedä.

Unknown kirjoitti...

wikipediasta ainakin löytyi kuva jossa väestöntiheyksiä (population density) oli jollakin tarkkuudella näytetty. Jos kerran epäkorrektille linjalle on jo menty niin ehkä siitä voisi tuon pääkaupunki proxin hyvyyttä arvioida.

i_beat_anorexia kirjoitti...

Mielenkiintoista dataa.

En täysin ymmärrä imuroivien muuttujien käytön järkevyyttä. Eikö tilastotieteiden perusteissa opeteta, että multikollineaarisuus on pahasta? Se voi aiheuttaa tulosten harhaanjohtavuutta ja tulkinta vaikeutuu.