keskiviikko 12. kesäkuuta 2019

Piilomalli

Hidden Markov Model, joskus suomennettuna "Piilo-Markovin malli" tai "Markovin piilomalli" on stokastinen/tilastollinen malli, jossa mallinnettavalla ilmiöllä on sisäinen tila, jota ei voi suoraan havaita, vaan siitä voidaan tehdä vain epäsuoria havaintoja. Kerron siitä tässä hieman, silä tarvitsen HMM:ää tulevassa työssäni.

Aloitetaan perinteisemmästä Markovin mallista, tai Markovin ketjusta. Se on tilakone, jolla on havaittavissa oleva tila. ja tietty siirtymätodennäköisyys tilasta toiseen. Rajoitumme tässä diskreettiaikaisiin malleihin; Jatkuva-aikainen malli on luonteeltaan hieman toisenlainen analyysin kannalta.

Markovin ketjussa on joukko tiloja, esim S. Jokaista S:n tilaa s kohden on olemassa todennäköisyysjakauma S:n yli. Tämä jakauma kertoo millä todennäköisyydellä ketju on missäkin tilassa seuraavalla aika-askeleella. Markovin ketjua voidaan käyttää monenlaisiin mallinnoksiin. Jos laitamme tiloihin jotkin tietyt kirjaimet (observaabelit) niin Markovin ketjun voidaan ajatella tuottavan tietyn merkkijonon tietyllä todennäköisyydellä.  Tällaista menetelmää voidaan käyttää vaikkapa ennakoivan tekstinsyötön apuna, jolloin jo kirjoitettu merkkijono vastaa tiettyä tilaa, josta on tietty todennäköisyys siirtyä muihin tiloihin joissa esiintyy kirjaimia  joilla sana jatkuu. (Esimerkki on hieman kökkö, mutta käynee nyt tässä).

Markovin piilomalli poikkeaa Markovin ketjusta siten, että siinä tilaan ei liity suoraan mikään tietty observaabeli, vaan tilaan liittyy edelleen jakauma observaabelien yli. Lisäksi tilojen välillä on edelleen siirtymätodennäköisyyksiä. Piilomallissa siis havainto ei anna varmaa tietoa siitä, missä tilassa malli on, vaan ainoastaan kasan ehdollisia todennäköisyyksiä.

Kuvitellaan esimerkiksi seuraavanlainen yksinkertainen malli. Meillä on esimies, jolla on kaksi tilaa: Hän on joko hyvällä tai huonolla tuulella. Emme voi tehdä suoraan havaintoja tämän mielentilasta. Tiedämme kuitenkin, että jos hän on huonolla tuulella, hän antaa meille suuremmalla todennäköisyydellä ns paskanakkeja kuin jos hän on hyvällä tuulella. Lisäksi pomo kertoo vitsejä suuremmalla todennäköisyydellä jos hän on hyvällä tuulella. Pomolla on pieni todennäköisyys vaihtaa mielentilaansa päivän aikana. Jos pomo kertoo ennen lounasta useamman vitsin eikä anna yhtään paskanakkia, niin hän on todennäköisemmin ollut aamupäivällä hyvällä tuulella. Lounaan jälkeen pomo puolestaan ei ole kertonut yhtään vitsiä mutta antanut pari paskanakkia, joten päättelemme että hän on iltapäivällä huonolla tuulella.


2 kommenttia:

Tommi kirjoitti...

Mallista yritetään varmaan yleensä selvittää taustamuuttujat (esimerkiksi käänteisongelmahenkeen olettamalla niille jokin malli ja arvioimalla siirtymätodennäköisyydet käytössä olevien havaintojen/mittausten perusteella) tai ennustaa käytöstä.

Tiedemies kirjoitti...

Kyllä. HMM tarvitsee jollakin tapaa aina kaksi erillistä arviointitapaa.

Esimerkiksi puheentunnistuksessa foneemien todennäköisyys seurata toisiaan tunnetaan, kun analysoidaan jo tunnistettua puhetta. Lisäksi voidaan arvioida että millä todennäköisyydellä tietty havaittu ääniaalto vastaa tiettyä foneemia. Näin voidaan yksittäisten sanojen tunnistamiseksi luoda HMM. Lisäksi näistä voidaan sitten muodostaa vielä lisää evidenssiä kun tiedetään millä todennäköisyydellä tietty sana seuraa toista sanaa.