perjantai 16. helmikuuta 2018

Intuitiosta

Olen opettanut matematiikkaa tai matemaattis-loogisia aiheita nyt 20 vuotta. Mukaan lukeutuu hyvin laaja kirjo tällaisia aloja, kuten tilastomatematiikkaa, lineaarialgebraa, algebraa, optimointiteoriaa, differentiaaliyhtälöitä, matemaattista logiikkaa, tietojenkäsittelyteoriaa, algoritmiikkaa, ohjelmointikielten teoriaa, formaalien kielten teoriaa, graafiteoriaa, todennäköisyyslaskentaa ja ties mitä.

Yksi ongelma joka matematiikan opiskelussa ja myöskin opettamisessa on, on intuition opettaminen. Intuitiota on monenlaista, mutta karkeasti jaan ne nyt algebralliseen ja geometriseen intuitioon. Ero ei ole selkeä, eikä missään nimessä tarkka, eikä näiden sanojen arkimerkitys tavoita itse ilmiötä. Tässä kirjoituksessa koetan hiukan luonnostella näitä intuition muotoja ja sitä miten oman kokemukseni perusteella asia näyttäytyy. Huomautan että intuitio on kuitenkin aina väistämättä ihmisen pään sisäinen asia, jota on viime kädessä mahdotonta tavoittaa täysin sanallisesti; Wittgensteinia mukaillen, sitä ei voi ilmaista, vaan se ilmenee.

Geometrinen intuitio on näistä ehkä tutumpi ihmisille. Se viittaa avaruudellisiin mielensisältöihin ja tuntemuksiin, kuten muotoihin, etäisyyksiin, suuntiin jne. Esimerkiksi maastonmuodot voidaan ymmärtää geometrisen intuition kautta, "suuntavaisto" nojaa geometriseen intuitioon. Kuvanveisto tms vaatii geometristä intuitiota, samoin piirtäminen; palaan tähän vielä tuonnempana. Algebrallinen intuitio puolestaan on lähempänä sitä mitä nimitämme loogiseksi tai kielelliseksi ajatteluksi. Se viittaa kokemuksiin erilaisten symbolien välisistä suhteista. Erilaiset kielioppisäännöt, laskusäännöt jne, opitaan sisäistämällä ne nimenomaan algebrallisen intuition osaksi.

Karkeasti erottelun voi ymmärtää niin, että geometrinen intuitio on partikulaaristen ja konkreettisten esimerkkien intuitiota, kun taas algebrallinen intuitio on universaalien ja abstraktien esimerkkien intuitiota. Mikään ajattelutapa ei ole täydellinen; toinen ei ole "parempi" kuin toinen, vaan nämä ovat matematiikan rakennusosaset joita ilman matematiikkaa ei voi "ymmärtää".  

Otetaan esimerkki optimointiteoriasta. Ajatellaan että meillä on jokin avaruus X, jossa meillä on pisteitä. Lukija pääsee helpoimmalla, jos tässä ajattelee 2-ulotteista reaalilukuavaruutta, tutummin, xy-tasoa, jossa jokainen piste esitetään parina (x,y). Tässä siis geometrinen intuitio on esimerkiksi taso, jokin pinta. Vaikeammaksi menee, jos täytyy ajatella 3-ulotteista avaruutta, mutta halutessaan voi näinkin tehdä.

Tässä avaruudessa X, meillä on funktio f(x), joka saa reaalilukuarvoja. Esimerkissämme, jossa meillä on taso, voimme ajatella että funktio kertoo pinnan korkeuden kussakin pisteessä. Kolmiulotteisessa tapauksessa voimme ajatella vaikkapa lämpötilaa huoneen jokaisessa pisteessä. Tässä kohtaa toki funktio f(x) voisi saada itse myös useampiulotteisen arvon. Esimerkiksi se voisi olla tuulen nopeus ja suunta; tällöin puhuisimme esimerkiksi vektorikentästä. Sivuutamme tämän, koska nyt etsimme funktion f pienintä arvoa. Tasoesimerkissä, etsimme "syvintä kohtaa" tasossa.

Tarvitsemme tässä nyt apukäsitteitä, jotka esitämme algebrallisesti. Topologia on matematiikan osa-alue, joka käsittelee mm. avoimien joukkojen teoriaa. Topologiassa avoin joukko on juuriabstraktio, eli se määritellään puhtaasti algebrallisesti; Avaruuden X topologia T on kokoelma joukkoja, joita nimitetään avoimiksi joukoiksi; Topologialta vaaditaan seuraavat ominaisuudet:
  1. Tyhjä joukko on avoin (eli kuuluu T:hen)
  2. Koko avaruus on avoin (eli kuuluu T:hen)
  3. Avointen joukkojen mikä tahansa yhdiste (unioni) on avoin
  4. Avointen joukkojen äärellinen leikkaus on avoin. 
Tämä määrittelee avoimet joukot täysin aksiomaattisesti ja on siten algebrallinen abstraktio. Se ei esimerkiksi yksikäsitteisesti määrittele topologiaa, vaan samalla avaruudella voi olla monta eri topologiaa. Jotta keskustelumme olisi mielekäs, tarvitsemme jonkin partikulaarisen topologian. Jos avaruudessa X on mielekästä puhua etäisyyksistä (eli metriikasta), niin metriikan indusoima topologia määritellään esimerkiksi avointen pallojen avulla: Se on minimaalinen topologia, jolle pätee että jokaiselle X:n pisteelle x ja jokaiselle nollaa suuremmalle epsilonille, joukko {z | d(z,x) < epsilon} on avoin.

Geometrinen intuitio (metriikan indusoimalle) avoimelle joukolle on, että sillä ei ole selkää rajaa. Tarkemmin sanoen, sillä voi kyllä olla reuna, mutta itse reuna ei kuulu joukkoon; mielivaltainen joukon piste, vaikka olisi kuinka lähellä reunaa, ei koskaan ole tarkalleen reunalla, vaan sen ympärillä on aina jokin (vaikkakin mahdollisesti hyvin pieni) ympäristö jossa on vain ja ainoastaan joukon pisteitä. Metriikka on geometrinen käsite ja topologia algebrallinen, mutta kun kiinnitämme metriikan indusoiman topologian, niin nämä kaksi käsitettä kohtaavat.

Funktio f : X --> Y on jatkuva jos jokaisen avoimen joukon alkukuva on avoin.  Tämä on abstrakti määritelmä, joka kiinnittää jatkuvuuden topologiaan. Jatkuvuuteen liittyvät ominaisuudet voidaan kuitenkin palauttaa metriseen avaruuteen, jolloin voimme käyttää geometristä intuitiota. Jos otamme pisteen x avaruudesta X ja pisteen y = f(x) avaruudesta Y, jatkuvuus pisteessä x tarkoittaa, että kun tutkimme pisteen y avointa ympäristöä, voimme aina löytää jonkin x:n avoimen ympäristön avaruudessa X, joka kuvautuu kokonaisuudessaan tähän ympäristöön. Tämä on perinteisesti ilmaistu "epsilon-delta"- määritelmän avulla, eli jokaista positiivista epsilonia kohden on olemassa delta siten, että kun x' deltaa lähempänä pistettä x, niin f(x') on epsilonia lähempänä pistettä f(x).

Nämä algebralliset määritelmät voidaan sitten intuitiivisesti ymmärtää niin, että jos f  kerran on jatkuva pisteessä x, niin kun katsomme "hyvin läheltä" pistettä x, esimerkiksi pisteessä x', ja pistettä f(x), niin kun siirrymme lähemmäs x:ää pisteestä x', niin f(x'):sta siirrymme lähemmäs pistettä f(x).

Funktion derivoiutuvuus puolestaan voidaan ajatella samaan tapaan sekä algebrallisena että geometrisenä asiana. Algebrallisesti yleistys derivoituvuudesta on, että jos funktio f on derivoituva pisteessä x, niin kun teemme "pieniä muutoksia" funktion arvossa, voimme approksimoida sitä lineaarikuvauksella. Merkitään tätä pientä muutosta kirjaimella h.
Tällöin f(x + h) = f(x) + f'(x)[h] + ||h||r(x,h). Tässä siis f(x+h) on funktion arvo "lähellä" pistettä x, f(x) on funktion arvo pisteessä x. f'(x)[ ] puolestaan on lineaarikuvaus X-->Y. Lineaarikuvaus on kuvaus, joka käyttäytyy "kiltisti", esimerkiksi niin että f'(x)[h + j] = f'(x)[h] + f'(x)[j]. Tässä siis h ja j ovat muuttujia; x on jokin kiinnitetty piste, ja eri pisteissä tietysti saamme eri kuvauksen. Termi r(x,h) puolestaan on virhetermi, joka lähestyy nollaa, kun h lähestyy nollaa. Huomaa, että kokonaisvirhe riippuu myös h:n normista, eli kokonaisvirhe on vielä tätäkin pienempi.

Tämä algebrallinen karakterisointi voi olla hankala ymmärtää, ja korkeampidimensioisissa tapauksissa se on myös hankalaa hahmottaa geometrisesti. Toisaalta perinteinen lukiotason intuitioselitys yhdessä dimensiossa on varsin kehno geometrisen intuition kannalta.

Kaksiulotteisessa esimerkissämme tämä on ehkä helpompaa. Derivoituvuus voidaan  ymmärtää seuraavalla tavalla: Kun katsomme funktion f(x) arvoa pisteessä x, ja lähdemme siirtymään tasossa johonkin suuntaan, esimerkiksi suuntaan h, niin funktion arvo lähtee muuttumaan. Funktion derivaattana tässä toimii toinen "suuntaa" antava vektori, f'(x) -- jota näissä tapauksissa usein nimitämme gradientiksi. Se osoittaa suuntaan, jossa funktion f arvo kasvaa kaikkein eniten. Esimerkissämme jossa f(x,y) tulkittiin "korkeudeksi" tason pisteessä (x,y), voimme käyttää geometristä intuitiota. Gradientti pisteessa (x,y) osoittaa suuntaan jossa "mäki" on "jyrkin". Kääntäen, jos meillä olisi esimerkiksi tasainen painovoima tässä tasossa, niin pisteeseen (x,y) asetettu pallo lähtisi vierimään tarkalleen päinvastaiseen suuntaan kuin mihin gradientti osoittaa.

Toinen fysikaalinen tulkinta tässä tilanteessa voisi olla esimerkiksi, että kun siirrämme jotakin painavaa esinettä pisteen (x,y) ympäristössä, gradientti osoittaa suunnan johon päin pitää tehdä työtä; jos liikumme kohtisuoraan gradienttiin nähden, niin pysymme suunnilleen samalla korkeudella. Tässä puhumme tietenkin "äärimmäisen pienistä" muutoksista, sillä pinta kaareutuu kun siirrymme pisteestä hieman.

Joudumme tekemään kuitenkin joitain oletuksia, jotta derivoituvuus on voimassa. Näistä tärkein on se, että virhetermi r(x,h) lähestyy nollaa kun h lähestyy nollaa. Mitä se tarkoittaa geometrisesti? Kun approksimoimme funktiota pisteen x ympäristössä lineaarikuvauksella, niin (tasoesimerkissämme) ajattelemme että funktio on pisteen x pienessä ympäristössä lähes täysin litteä. Mitä lähempää katsomme pistettä x, sitä litteämmältä maasto siinä kohtaa näyttää. (Litteä, merkityksessä ei-kaareutuva; toki se voi olla "vinossa") Mitä lähempää tarkastelemme, sitä pienemmäksi r(x,h) muuttuu, ja sitä tarkemmin pikkiriikkiset muutokset vastaavat f(x+h):n arvoa.

Intuitio jostakin määritelmästä ei ole kunnolla mahdollinen, ellemme ymmärrä, miltä näyttää tilanne, jossa määritelmä ei päde. Esimerkiksi, jos virhetermi ei lähesty nollaa, vaan on vaikkapa vakio. Kuvitellaan tilannetta, jossa f koostuu lokaalisti kahdesta täysin levymäisen tasaisesta pätkästä, mutta jossa on kulma juuri x:n kohdalla. Kun liikumme vähän sivuun x:stä, f on täysin tasainen (ja siten toki myös derivoituva), mutta pisteessä x on kulma. Jos yritämme sovitella tasoa pisteeseen x, niin taso "keikkuu" pisteen x ympäristössä, mutta ei kosketa f:n määrittämää pintaa  vaikka hiukan sitä kääntelemmekin. Ja jos katsomme pistettä x läheltä, niin siinä se kulma on, vaikka katsoisimme kuinka läheltä tahansa.

Jos etsimme funktion f pienintä arvoa, niin tiedämme että jos f on derivoituva, ja pisteessä x derivaatta poikkeaa nollasta -- vektorien tapauksessa siis gradientti osoittaa johonkin suuntaan -- niin tiedämme että kulkemalla vastakkaiseen suuntaan "hieman", funktion arvo väkisinkin pienenee. Jos kuljemme riittävän pitkälle, se alkaa mahdollisesti taas kasvaa (ja virhe on jo varsin suuri), mutta jonkin matkaa kulkemalla voimme ainakin löytää pienemmän arvon. Tässä pisteessä voimme sitten tarkastella uudelleen; jos gradientti on nyt nolla, ei funktio ainakaan millään ilmeisellä tavalla voi pienentyä. Vaihtoehtoisesti, voi olla ettei funktio äkkiä olekaan derivoituva, mikä puolestaan tarkoittaa, ettemme suoranaisesti tiedä mitä sille tapahtuu  jos liikumme kyseisen pisteen ympäristössä.

En mene tähän teoriaan sen enempää, koska se ei ole olennaista. Olennaista on, että geometrinen intuitio ja algebrallinen intuitio kertovat saman asian: Löytääksemme pienimmän arvon, täytyy katsoa paikkaa jossa gradientti on nolla, tai jossa sitä ei ole olemassa.

Optimoitavan funktion lisäksi meillä on joitakin rajoitteita sille, mihin alueeseen rajoitamme tehtävän. Esimerkiksi, voimme hyväksyä vain pisteet, jotka ovat 1-säteisen ympyrän sisällä. Tällöin meillä olisi rajoite x^2 + y^2 < 1. (tai yhtäsuuri, jos haluamme että alue on suljettu). Nyt näemme, että me ilmaisemme intuition (ympyrä) algebrallisesti (kaava).  Oletamme että rajoite on muotoa g(x) <= 0.  Tällaisessa tilanteessa emme voi kulkea gradienttia vastaan pidemmälle kuin tilanteeseen jossa g(x) = 0. Tässä kohtaa tulee siis reuna vastaan.

Nyt jos tarkastelemme tällaista reunaa, niin se esimerkissämme on ympyrän kehä. Kun tulemme ympyrän kehälle, g(x,y) = x^2 + y^2 - 1 = 0.  Jos funktion gradientti osoittaa ympyrän sisällepäin jonnekin, niin funktio tässä pisteessä pienenisi jos menisimme ympyrän  ulkopuolelle. Mutta me etsimme nimenomaan funktion pienintä arvoa ympyrän sisältä tai korkeintaan reunalta.  On mahdollista, että funktio saavuttaa pienimmän arvonsa ympyrän sisällä jossakin, esimerkiksi pisteessä (x*,y*).  Tällöin rajoitteella sinänsä ei ole merkitystä, koska kun liikumme hieman tämän pisteen ympäristössä rajoite pätee, ja toisaalta funktion itsensä arvo kasvaa jos lähestymme reunoja.

Mutta entä jos ilman rajoitetta pienin arvo onkin jossakin hieman ympyrän ulkopuolella? Tällöin usein pienin arvo löytyy reunalta. Mutta mistä sieltä?  Tässäkin voimme tarkastella gradienttia; se osoittaa jonnekin ympyrän sisällepäin, mutta entä jos liikumme reunaa pitkin hieman; emme ulos emmekä sisälle, vaan pitkin reunaa? Tällöin funktion g(x) arvo pysyy samana -- olemmehan reunalla. Jos funktio g(x) on derivoituva -- olettakaamme nyt niin -- sen arvo pysyy samana kun liikumme kohtisuoraan sen gradienttiin nähden. Eli, g(x+h) =g(x) + g'(x)[h] + ||h||r(x,h); mutta koska tämän pitäisi olla likipitäen g(x), ja koska r(x,h) on likipitäen nolla, niin pitäisi päteä g'(x)[h] = 0.

Toisaalta funktion f arvon pitäisi pienentyä, eli f(x+h) = f(x) + f'(x)[h] + ||h||r(x,h) pitäisi olla pienempi kuin f(x); jälleen jos oletamme että virhetermi on likipitäen nolla, pitäisi päteä f'(x)[h] < 0.  Voimme ottaa tällaisia askeleita reunaa pitkin, kunnes lopulta f'(x)[h] = 0 pätee myös.

Täytyisi siis löytyä piste x siten, että jollekin (hyvin pienelle) nollasta poikkeavalle vektorille h pätee f'(x)[h] = g'(x)[h] = 0. Tasossa tämä tarkoittaisi, että löytyy vektori siten, että sekä f:n että g:n gradientti on tätä vektoria vastaan kohtisuorassa. Mutta tätä taas ei voi tapahtua, elleivät f ja g itse asiassa osoitta samaan (tai vastakkaiseen suuntaan). Tällaisessa pisteessä siis pätee että f'(x) = a*g'(x) jollekin a.

Johdimme tässä, käyttäen geometrista ja algebrallista intuitiota erityistapauksen niin kutsutuista Karush-Kuhn-Tucker- ehdoista. Itselleni noiden ehtojen hahmottaminen oli aikanaan hieman vaikeaa, enkä ymmärtänyt niitä ennen kuin diplomityötä tehdessäni jouduin ohjelmoimaan erään algoritmin joka etsii KKT-pisteitä. Ymmärrykseni oli tuolloin kuitenkin puhtaasti algebrallista. Tämä johtui puolestaan siitä että ymmärryksen tarve kumpusi siitä, että minun piti kirjoittaa ohjelma joka laskee -- algebrallisesti, tekstuaalisesti jne -- noita pisteitä, enkä käyttänyt geometrista intuitiota lainkaan.

Vanhemmalla iällä olen alkanut arvostaa geometristä intuitiota enemmän.


 

2 kommenttia:

Tommi kirjoitti...

Itse vaatisin topologialta myös, että koko avaruus X kuuluu topologiaan T.

Tiedemies kirjoitti...

Totta, se unohtui.