tiistai 12. maaliskuuta 2013

Vertaisarvioinnista.

Minulla on tälläkin hetkellä arvioitavana kolme paperia. Aiemmin tänä vuonna arvioin jo kuusi muuta paperia, ja loppuvuodesta viime vuonna arvioin useamman.

Omalla alallani julkaisukulttuuri on hieman erilainen kuin se on esimerkiksi fysiikan tai lääketieteen kaltaisilla perinteisemmillä aloilla. Näissä on selkeä hierarkia erilaisia aikakauslehtiä joissa tärkeimmät tulokset julkaistaan. Aikakauslehtien "hyvyyttä" mitataan ns. impactilla, joka tarkoittaa sitä, kuinka monta viittausta lehdessä ilmestyvä artikkeli keskimäärin saa, kun mitataan jotain sopivalla tavalla rajattua lehtien joukkoa. Huipulla on sellaisia lehtiä kuin Nature, joissa näkyvyys on niin suuri, että ilmestymistä seuraavien parin vuoden aikana artikkeli Naturessa kerää keskimäärin yli 50 viittausta muilta tutkijoilta. Impacti noudattaa potenssijakaumaa, eli se laskee nopeasti, keskitason lehdissä impactit ovat jo alle 5 ja "bulkkitason" lehdissä vähemmän näkyvillä aloilla ne ovat usein alle 1.

Esimerkiksi oman alani yksi tavanomaisimmista lehdistä on Theoretical computer science (TCS) ja sen impacti on aikajänteestä riippuen 0.7 ja 1 välillä. Siis bulkkilehti jolla ei kummoistakaan näkyvyyttä saavuteta.

Useimmilla aloilla konferenssien tarkoitus on esitellä käynnissä olevia tutkimusprojekteja ja julkaista sellaisia tutkimuksia joista halutaan kertoa muilla ja jakaa tietoa, metodologiaa jne, kannustaa yhteistyötä ja verkostoitua, itse tutkimus jota esitellään on siis eräänlainen tarttumapinta jota vasten tutkijat päätyvät keskustelamaan aiheista ja ehkä löytämään jotain hedelmällistä jaettavaa. Ideat ovat usein vielä hiomattomia ja karheita, lopullisia tuloksia ei ole vielä välttämättä saatu.

 Omalla alallani konferenssit ovat muodostuneet pääasialliseksi julkaisukanavaksi, koska jopa teoreettisen tietojenkäsittelyn sisällä ala on hieman marginaalinen, ja osin oikeastaan itsenäinenkin. Tämä on valitettavasti johtanut siihen, että konferensseissa ei enää esitellä uusia vielä karkeita tuloksia. Koska konferenssit ovat pääasiallinen julkaisukanava, kilpailu on kova, ja vaatimukset julkaisuille ovat usein kovat, kovemmat jopa kuin lehtiartikkeleissa. Koska ala on soveltava, usein vaaditaan, ei ainoastaan että tulokset - esimerkiksi teoreettiset tulokset - ovat kunnossa ja että niiden sovellettavuus on  osoitettu teoriassa, myös että tuloksia on jo saatu. Tämäkään ei usein riitä, vaan usein vaaditaan lisäksi että saadut tulokset paitsi ovat merkittäviä suhteessa siihen mitä on kehitetty, niiltä vaaditaan usein myös parannuksia suhteessa kilpaileviin menetelmiin, silloinkin kun tällainen vaatimus ei ole edes teoriassa mitenkään perusteltu tai tällainen vertaileva tutkimus vaatisi aivan erilaisen metodologian.

Kyse on siitä, että laadun kriteerit ovat vääristyneet. Sensijaan että painotettaisiin korkealaatuista tutkimusta ja solidia, hyvin perusteltua metodologiaa, huomio kiinnitetään mittariin joka on huomattavan kohinainen. Esimerkiksi CAV arvioissa kiinnitettiin vain vähän huomiota teorian toimivuuteen ja yleisluontoisuuteen, sensijaan suuren huomion sai kritiikki, jonka mukaan prototyyppi ei ollut kilpailukykyinen olemassaolevan vuosia kehitellyn kaupallisen tuotteen kanssa. En ole tästä sinänsä katkera tai pahoillani tässä nimenomaisessa tapauksessa, koska CAV on pyrkinyt profiloitumaan tällaisen arviointikriteeristön käytössä. Sensijaan pidän huonona sitä kehitystä, että muutkin foorumit ovat alkaneet käyttää tällaisia kriteerejä, koska CAV on niin arvostettu. Esimerkkinä juuri se paperi, joka hyväksyttiin suoraan TCS:ään. Melkein sama paperi (mutatis mutandis, teoreettinen ydintulos oli aivan sama ja painotukset myös suunnilleen)  hylättiin rinnakkaisuuden teorian konferenssista koska olimme osoittaneet että puhtaasti teoreettisista syistä eräs menetelmä on aina ja kaikissa tilanteissa parempi kuin toinen; arvioijat halusivat myös empiiristä näyttöä, mikä oli täysin järjetön vaatimus. TCS:n arvioijat itseasiassa rutisivat kyllä samasta asiasta, mutta hyväksyivät sen silti.

Vertaisarviointi on se vaihe, jossa arvioija lukee paperin ja pyrkii sen perusteella päättelemään onko tutkimus luotettava vai ei. Yleensä paperin sisältö itsessään riittää - tietty määrä luottamusta esimerkiksi vaaditaan siihen, että paperissa esitettyjä lukuja ei ole tahallaan väärennetty. Arvioija ei voi tehdä empiiristä osuutta uudelleen, eikä tämä ole tarkoituskaan, vaan tarkoitus on selvittää onko paperissa riittävästi "lihaa luiden päällä", eli onko se metodologisesti validi, onko siinä esitetty teoria johdonmukainen, soveltuuko se tarjotulle julkaisufoorumille ja onko tulos niin merkittävä että sen julkaiseminen on mielekästä.

Systeemi ei ole täydellinen, koska arvioijatkin ovat ihmisiä ja tekevät virheitä. Ongelmaksi ei muodostu se, jos joku joskus on huolimaton tai epäpätevä, jos arvioijat ovat keskimäärin suhteellisen huolellisia eivätkä vääristele. Sensijaan systemaattiset virheet ovat mahdollisia. Arvioijilla saattaa olla esimerkiksi ennakkokäsitys joka on virheellinen, ja tämän ennakkokäsityksen ollessa kovin yleinen, se ei pääse "itsestään" korjaantumaan. Koska julkaiseminen on ainoa tie asiantuntijaksi ja sitä kautta arvioijaksi, niin "väärän" tai siis virhekäsityksen vuoksi hylätyn tutkimuksen tekijä voi marginalisoitua ja tämä estää tai ainakin hidastaa tieteellisten käsitysten itseään korjaavuutta.

Kääntöpuolena on sitten se, että alalla kuin alalla esiintyy toisinaan häirikköjä. Häiriköllä en tarkoita toisinajattelijaa joka tekee laadukasta mutta väärinymmärrettyä tutkimusta, vaan yksilöä jolla oikeasti on väärä käsitys jostakin asiasta, mutta jota hän itsepäisesti yrittää puskea läpi uskoen olevansa vain väärinymmärretty nero. Tähän kategoriaan menevät usein erilaiset hömppäteoriat ja niille yleensä yhteistä on se, että empiria tai logiikka on jollakin tapaa pielessä. Jokin askel päättelyssä on epäselvä, huonosti määritelty, tai vain väärin, tai sitten esitetään lukuja jotka on keksitty itse.

Häiriköiden ongelma on siinä, että vaikka jokaista väärinymmärrettyä neroa kohden on ehkä tuhat aivan oikein ymmärrettyä häirikköä, niin se tuhannes ensimmäinen voi sitten kuitenkin olla se nero, tai olla olematta. Olennaista on se, että me emme voi aina ja kaikissa tilanteissa olla aivan varmoja. Siksi pelkkä ennakkoluulo tuloksen suhteen ei saisi olla perustelu hylkäämiselle. Valitettavasti odotuksia vastaan menevät tulokset usein johtavat siihen, että huolellisuus muuten herpaantuu ja hylkäysperusteet etsitään sitten tavalla tai toisella.

Objektiivinen kriteeri tulosten suhteen -- vaatimus suurempaan tehoon tms konkreettinen parannus -- on kyllä immuuni tälle, mutta kuten yllä totesin, aiheuttaa muunlaisia ongelmia, kuten esimerkiksi käsitysten gravitoitumisen ja jumittumisen tiettyyn lokaaliin optimiin.

P.S. Tämänkin kirjoituksen kirjoitin, koska viivyttelen arvion tekemistä.


2 kommenttia:

Voltaire kirjoitti...

Oho. Postaus vertaisarvioinnista jota Kumis ei ole vielä kommentoinnut "ilmastonmuutos on huijausta" teemalla.

Vakavasti ottaen, kuulisin mielelläni sun kommentin toisessa ketjussa esittämästäni vastaavanlaisesta laatuvääristymästä, jota kutsun paremman puutteessa nimellä "läpimurtotehtailu". Omien havaintojeni mukaan tämä on valitettavan voimakas ilmiö etenkin Nature ja Science - tyyppisissä huippulehdissä.

Tuohon häirikkö - asiaan littyen: olen törmännyt tiedemaailmassa muutamaan tapaukseen (vakiokommentaattoreille disclaimer: yhtä lukuunottamatta nämä eivät ole liittyneet ilmastotutkimukseen mitenkään). Kaikissa näissä tapauksissa k.o. tyyppien tutkimus on alunperin ollut ihan järkevää ja laadukastakin, mutta sitten on jääty jumiin jonkun oman lempihypoteesin pariin, ja ikään kuin vähitellen ajauduttu häriköksi. Ilmeisesti on olemassa jonkinlainen dynamiikka joka saattaa ajaa hyvin päteviäkin tutkijoita häiriköiksi.

Olen myös ollut havaitsevinani että suoranaisen hylkäämisen sijaan häiriköitä kohdellaan sen sijaan huomioimatta jättämisellä, eli tunnettujen häiriköiden manuskripteille on vaikea löytää editoreita tai arvioitsijoita, ja ne jäävät poikkeuksellisen pitkiksi ajoiksi roikkumaan. Tämä on tietysti vielä huonompi toimintamenettely sen kannalta että saataisiin tunnistettua se yksi häirikkö tuhannesta joka onkin oikeassa. (Vinkki ilmastoänkyröille: sen sijaan että väitätte skeptikoiden artikkelien joutuvan hylätyksi heikoin perustein, niin alkakaa mussuttaa tästä asiasta. Siihen voisi olla ainakin himpun verran paremmat perusteetkin.)

Jaska Brown kirjoitti...

Eivät ne arvioijat kovin tarkkaan kaikkea käy läpi. Tuossa kymmenisen vuotta sitten oma paperi oli jo hyväksytty, kun huomasin yhdessä laskentataulukon kaavassa virheen, joka muutti erästä osatulosta merkittävästi. Lehti oli menossa painoon, mutta ehdin korjata lukuarvon ja pari siihen liittyvää johtopäätöstä koskevaa virkettä.