tiistai 17. helmikuuta 2026

Haukan kynnet

 Poisson-prosessi on stokastinen prosessi, joka voidaan ajatella laskuriksi, joka laskee, montako tapatumaa tapahtuu aikayksikössä. Esimerkkejä ilmiöistä joita on mielekästä mallintaa Poisson-prosessina ovat esimerkiksi geiger-mittarin napsutukset kun säteilyintensiteetti on suunnilleen vakio, liikenneonnettomuudet annetulla tienpätkällä, puheluiden määrä asiakaspalvelussa tms. 

 Karvalakkimalli Poisson-prosessista sisältää yhden vakioparametrin , joka kertoo kuinka monta tapahtumaa keskimäärin annetussa aikayksikössä tapahtuu. Prosessi on suosittu siksi, että jos se skaalautuu aikayksikköä muuttamalla, jos yhden yksikön sijaan tarkastellaan t-mittaista aikaa, on tällön prosessi jakautunut parametrillä tλ.  Tällainen homogeeninen prosessi ei ole usein kovin käyttökelpoinen, mutta sen tilastolliset ominaisuudet tunnetaan hyvin, ja sen käsitteleminen matemaattisesti on hyvin yksinkertaista. Sillä on myös sellianen ominaisuus, että tapahtumien välit ovat jakautuneet siten, että odotusarvoinen aika seuraavaan tapahtumaan on riippumaton siitä, milloin aikaa aletaan mitata. 

Joskus on järkevää tarkastella prosessia siten, että parametri riippuu ajasta, 
λ(t). Tällöin tapahtumien määrä aikaävälillä [u, v] saadaan integroimalla λ(t) tämän välin yli. Jos oletamme että parametri on vakio, niin tämä toki käyttäytyy samalla tavoin kuin homogeeninen Poisson prosessi. 

Yksi yksinkertainen epähomogeenisyyden lähde on niin sanottu itsevirittyminen, jolla viitataan siihen, että kun laskuri "napsahtaa", niin tällainen napsahdus hetkellisesti lisää todennäköisyyttä sille, että uusi napsahdus tapahtuu heti perään. Tällöin puhutaan niin sanotusta Hawkes-prosessista. H-prosessissa on alla P-prosessi, mutta jokaisella tapahtumalla on vaikutus intensiteettiin. Tällöin tyypillisesti intensiteetti on muotoa  λ(t) = µ(t) + Σ(φ(t - t_i)) missä t_i < t ovat tapahtumat jotka ovat tapahtuneet ennen ajanhetkeä t. funktio φ(t) on "jälkeläisprosessien" rate-funtio, tyypillisesti se on eksponenttifunktio.  Meidän on tyypillisesti oletettava, että funktion φ(t) integraali nollasta äärettömään on alle 1, sillä jos se on enemmän kuin yksi, niin yksikin tapahtuma johtaa hallitsemattomaan ketjureaktioon, jossa tapahtumien määrä kasvaa rajatta. 

Joskus H-prosessi tai sen yleistykset esitetään differentiaaliyhtälön avulla, jossa d
λ/dt ilmaistaan µ(t):n ja niin sanotun ydinfunktion (kernel) avulla. Jos oletamme esimerkiksi, että µ(t) on vakio, ja jokainen tapahtuma synnyttää välittömän hyppäyksen todennäköisyydessä, jonka vaikutus sitten kaikkoaa eksponentiaalisesti, eli sillä on niin sanotusti puoliintumisaika, voimme ilmaista dλ/dt = k(µ - λ(t)) + Θ(t), missä Θ(t) on summa ennen ajanhetkeä t tapahtuneiden tapahtumien ytimien yli, ja nämä ovat muotoa ßδ(t-t_i), missä ß on hypyn suuruus ja δ on niin sanottu Diracin delta, yleistetty funktio, joka on "ääreton" pisteessä nolla, ja nolla muutoin, mutta jonka integraali on tasan 1. Tällöin ratkaisuna on funktio, joka tapahtumahetkellä hyppää parametrin ß verran ylöspäin, ja joka palaa takaisin kohti arvoa µ eksponentiaalisesti. 

Tällaisessa tapauksessa parametrien arvot määräävät sen, onko järjestelmä stabiili vai ei, käytännössä suhdeluku 
ß/k määrittää tämän. Mitä suurempi tämä arvo on, sitä enemmän tapahtumat "ryvästyvät" yhden tapahtuman ympärille, eli jos µ on pieni, tapahtumia tapahtuu harvakseltaan, mutta kun yksi tapahtuma tapahtuu, niin todennäköisesti sen läheisyydessä tapahtuu sitten usein enemmän kuin yksi. 

Liikenneonnettomuudet ruuhka-aikaan liukkaalla kelillä, on yksi esimerkki H-prosessista. Yksittäisen onnettomuuden todennäköisyys voi olla pieni, mutta kun sellainen sattuu, tapahtuu usein useita, esimerkiksi ketjukolari. Tällaisessa tilanteessa on toki makuasia, nähdäänkö ketjukolari yhtenä vai useampana onnettomuutena; en ota kantaa tähän sinänsä, mutta jos se nähdään useamman tapahtuman sarjana, H-prosessi kuvaa melko hyvin sitä, mitä tapahtuu. 

Jos laajennamme nyt mallia niin, että meillä on useita toisiinsa verkostoituneita prosesseja, jotka käyttäytyvät kukin itsessään kuten H-prosessi, mutta siten, että nyt myös toisiinsa kytketyneet prosessit voivat tuottaa toistensa rate-parametriin muutoksia. Tällainen usemman muuttujan H-prosessi voidaan mallintaa siten että 
λ(t) on vektori, jonka jokainen indeksi vastaa yhtä H-prosessia ja ydinfunktio voidaan ilmaista matriisimuodossa A, jolloin  ß-parametrit ovat A-matriisin diagonaalilla, ja muut matriisin alkiot kuvastavat sitä, miten muut muuttujat vaikuttavat toisiinsa; k ja µ ovat tällöin myös vektoreita, joskin k on usein mielekästä ilmaista diagonaalimatriisin K avulla. 

Lineaarialgebra tulee tällöin apuun; Jos merkitsemme matriisilla S matriisin K inverssiä (sen diagonaalilla on siis alkiot 1/k), ja merkitään yhtälön ratkaisua 
 λ(t) = µ(t)+h(t), missä h(t) on siis poikkeama pohja-prosessin tapahtumaparametrista. Tällöin h'(t) = -Kh(t) + AdN(t), missä dN(t) on tapahtumien "marginaalivektori", eli se, kuinka paljon tapahtumia tapahtuu hyvin lyhyellä aikavälillä.  Tällöin "ylimääräisten" tapahtumien rate on h(t); funktion h(t) ratkaisuna on exp(-K(t-t_i))AdN(s), ja saamme stabiiliuden laskemalla integraalin exp(-Kt)A, joka tunnetusti on S*A, menemättä nyt matriisieksponenttien teoriaan sen kummemmin.

Matriisi S*A kertoo meille, että jos tapahtumia tapahtuu vektorin x mukaisesti, niin näiden jälkeläistapahtumat saadaan laskemalla SAx. Jos "optimoimme" x:n niin, että saamme mahdollisimman paljon jälkeläistapahtumia,  etsimme vektorin x siten, että ||SAx|| on mahdollisimman suuri. Vedän hieman tässä suoriksi mutkat, mutta voidaan osoittaa että kerrannaistapahtumien määrä maksimoituu sellaisella vektorilla jolla SAx = b*x jollekin b; tällaista skaalaria b nimitetään ominaisarvoksi ja vektoria x ominaisvektoriksi. Joudun edelleen vetämään hieman mutkia suoriksi tässä. Ominaisarvo b on yleissä tapauksessa kompleksiluku, jos kohta, jos A on symmetrinen, se on reaalinen. Järjestelmä on stabiili jos b < 1, tai yleisemmin, jos sen reaaliosa on < 1.  

Jos näin on, niin matriisi (I- SA) on invertoituva, merkitään sen inverssiä Z, ja keskimääräinen tapahtumien rate-vektori on tällöin muotoa 
λ = Zµ.  Tapahtumien määrä siis riippuu lineaarisesti tapahtumien perustasosta, mutta vain, jos järjestelmä on stabiili. 

Me voimme tarkastella yhtä yksittäistä tapahtumasarjaa, olettaen että baseline rate on 0 (hetkellisesti). Joukko tapahtumia (vähintään yksi, mutta mahdollisesti useampia lyhyessä ajassa) seurauksena syntyy jonkinlainen jälkeläistapahtumien ketju. Nimitämme tällaista tapahtumaketjua kaskadiksi. Se on kuin aaltoliike, joka etenee prosessista toiseen. Tällaisen shokin kokonaisvakutus on myös x + (Z - I)x, eli käytännössä Zx, ja järjestelmä palaa kohti tilaa 
Zµ tahdissa exp(-Kt).

Tässä tarkastelussa on tyypillisesti oletettu, että kaikki kertoimet ovat positiivisia, mutta tämä ei ole tarkalleen ottaen välttämätöntä. Esimerkiksi kerroinmatriisin A diagonaalialkiot voivat aivan hyvin olla negatiivisia. Jos palaamme yhden muuttujan H-prosessiin, negatiivinen 
ß-parametri saa järjestelmän käyttäytymään säännöllisemmin, vähemmän satunnaisesti. Kaikissa tapauksissa baseline rate µ kertoo, miten kauan tapahtumaa pitää odottaa (P(T > t) = exp(-µt)) kun järjestelmä on palannut "normaaliksi" ts. kun edellisestä tapahtumasta on riittävän kauan; se onko "normaali" enemmän vai vähemmän tapahtumia, riippuu ß-parametrin arvosta. Positiivinen parametri tarkoittaa että tapahtumia tapahtuu tiheästi jos edellisestä tapahtumasta on lyhyt aika, mutta mitä pidempi aika on kulut, sitä tarkemmin ollaan perustasolla. Negatiivinen parametri taas saa aikaan sen, että kun tapahtuma tapahtuu, seuraavan tapahtuman todennäköisyys on hetkellisesti pienempi. Ääritapauksessa parametri on niin suuri, että tapahtuman todennäköisyys on negatiivinen. 

Reversioparametri k kertoo kuinka nopeasti "normaaliin" palataan. Jos se on pieni, todennäköisyys hilautuu hitaasti kohti normaalia. Jos se on suuri, todennäköisyys palaa nopeasti perustasolle.  Tapahtumien "säännönmukaisuutta" voidaan mitata niin sanotulla FANO-kertoimella. Yleisesti prosessin FANO määritellään saapumisaikojen hajonnan ja odotusarvon suhteella; Jos FANO on pieni, niin vaihtelu tapahtumien saapumisväleissä on pientä verrattuna välin suuruuteen, jos taas FANO on suuri, on keskimääräinen saapumisaika pienehkö mutta hajonta voi olla suurta. P-prosessia karakterisoi se, että sen FANO = 1. H-prosessin positiivinen kerroin tuottaa suuremman ja pienempi kerroin pienemmän FANO-kertoimen.  Käytännössä se, millä on merkitystä on 
ß/k, sillä pitkän aikavälin FANO-kerroin on tällöin 1/(1-ß/k)^2, ja jos siis kyseinen kerroin on yli 1, järjestelmä ei ole stabiili, vaan termi räjähtää samalla, kun tapahtumien välinen aika lähestyy nollaa. 

Jos merkitään matriisilla L = diag(
Zµ), niin järjestelmän Fano-vektori saadaan approksimaationa inv(L)*diag(ZLZ^T) missä Z^T on matriisin Z transpoosi.  Tämä on mielenkiintoinen analyysi, sillä jos emme ota tässä pelkkiä diagonaaleja, vaan tarkastelemme matriisia F = inv(L)*ZLZ^T, voimme sanoa järjestelmästä tiettyjä asioita. 

F_ii on niin sanotun purskeisuuden mittari. Se kertoo meille, missä määrin prosessin i tapahtumat tuppaavat tapahtumaan purskeissa, eli tapahtumaryppäissä jotka ovat ajallisesti lähempänä toisiaan kuin tyypillisesti voisi kuvitella. Esimerkiksi liikenneonnettomuudet ovat purskeisia. F_ij on puolestaan "ristipurskeisuuden" mittari, eli paljonko prosessin j varianssi reagoi prosessin i varianssiin. Jos tämä luku on positiivinen, se tarkoittaa, että prosessin i ollessa poikkeuksellisen aktiivinen, prosessi j tuppaa olemaan myös aktiivisempi. Jos tämä luku on negatiivinen, niin prosessin i hiljainen hetki osuu prosessin j purskeen kohdalle useammin. Täysin riippumattomille prosesseille tämä luku on nolla, ja sikäli se muistuttaa korrelaatiota. 

Meiltä lähtee kohta arviointiin paperi, jossa me pystymme estimoimaan kerroinmatriisit A ja K -- ja siten matriisit Z ja F -- annetuista havainnoista silloinkin, kun kertoimet ovat negatiivisia. Ongelmaksi muodostuvat prosessit joille baseline parametri 
µ on negatiivinen. Kun λ < 0, ei tapahtumia ole, eikä tällaista ajanhetkeä voi erottaa tilanteesta jossa λ = 0. Tämä on estimoinnille hankalaa.  Ongelma negatiivisen λ:n  (joka ei ole siis parametri vaan latentti prosessin rate) kanssa on ratkaistu jo aiemmin, silloin kun ß < 0. Mutta mitä µ < 0 edes tarkoittaisi fysikaalisesti tai "ontologisesti"?

Vastaus on lopulta yksinkertainen. Jos ajattelemme verkostoituneiden prosessien toimintaa, yksittäinen prosessi jolle 
µ < 0, toimii kynnysarvon periaatteella. Se ei voi aktivoitua ennen kuin sen toimintaan on vaikutettu riittävän paljon. Ei siis niin, että aktivoituakseen se tarvitsee herätteen toiselta prosessilta, vaan niin, että kumulatiivisen herätteen täytyy olla riittävän suuri tietyssä aikayksikössä, jotta prosessi edes voi teoriassa herätä henkiin ja tuottaa havaintoja. Pystyin osoittamaan että sopivalla parametrien valinnalla monen muuttujan H-prosessi tuottaa niin sanotun independent cascade- mallin kanssa ekvivalentin toiminnnan, ja toisella parametrien valinnalla se tuottaa niin sanotun linear threshold- mallin kanssa ekvivalentin toiminnan. Nämä molemmat mallit ovat ns. rajatapauksia, joissa tiettyjen parametrien täytyy lähestyä ääretöntä, kun tarkastelun aikaikkunaa kasvatetaan, mutta niistä saa myös luonnollisesti sellaisen instantiaation, että jos voimme olettaa että eksogeeniset shokit järjestelmään saapuvat riittävän harvoin niin, että järjestelmä on ehtinyt palaamaan riittävän lähelle Zµ- tilaa, niin mallit pätevät.