T13-d3-m135: matematiikka

Näytetään tekstit, joissa on tunniste matematiikka. Näytä kaikki tekstit

keskiviikko 28. marraskuuta 2018

Sisätulo

Matematiikkaa voi nimitää tai olla nimittämättä "tieteeksi". En ole lopulta kovin kiinnostunut siitä, nimitämmekö sitä vai emme. Ennenkaikkea näen itse matematiikan ajattelun teknologiana.

Laitoksemme -- joskin yliopistomme ei niitä enää kutsu laitoksiksi, mutta käytän tätä termiä silti koska se kuvastaa yksikköä parhaiten -- sai hiljattain muutaman uuden työntekijän, jotka ovat kanssani vastaavassa asemassa, siis yliopistonlehtoreita. Kumpikin on hyvin osaava ja välittömästi huomasin kahvihuoneen keskustelujen ottavan positiivisen suunnan, ennen kaikkea ajatuksia ja ideoita herättävään suuntaan. Tämä ei tietenkään ole tarkoitus olla huomautus pitkäaikaisempien kollegoiden tylsyydestä, mutta uudet näkökulmat ovat aina virkistäviä. Matematiikassa voi nimittäin painottaa niin kovin erilaisia näkökohtia, ja nämä uudet henkilöt olivat tutkineet asioita jotka olivat itselleni joko uusia tai tuttuja eri näkökulmista.

Erään filosofis-painotteisemman keskustelun lomassa oivalsin jälleen jotain siitä, miten yleisluontoisia työkaluja matematiikassa on onnistuttukaan luomaan. Esimerkkinä tästä otan tässä sisätulon.

Sisätuloavaruus on jokin vektoriavaruus jossa on vektoreiden lisäksi määritelty operaatio nimeltä sisätulo. Jos ette muista mikä vektoriavaruus on, niin kerrataan se ensin: Vektoriavaruus on joukko V, jossa on määritelty joukko erilaisia operaatioita, ja jolle on niinkutsuttu kerroinkunta. Kerroinkunnan alkioita kutsutaan skalaareiksi. Yleensä skalaarit ovat esimerkiksi reaali- tai kompleksilukuja, mutta teorian hienous piilee siinä, ettei ole yhtään mitään väliä, mitä skalaarit ovat, kunhan ne muodostavat kunnan, eli niissä on yhteen-, kerto-, jako-, ja vähennyslasku ja näille neutraalialkiot -- tutummin niitä merkitään 0:lla ja 1:llä, mutta näiden ei tarvitse välttämättä olla reaalilukujen nolla ja yksi.

Vektoriavaruuden alkioita -- vektoreita -- voi laskea yhteen, jolloin tuloksena on uusia vektoreita, ja niitä voi vähentää. Avaruudesta löytyy myös nollavektori, joka on tämän yhteenlaskun neutraalialkio. Vektoreita voi myös kertoa skalaareilla, ja nämä kertolaskut käyttäytyvät kuten odottaa saattaa, nolla-skalaarilla kertominen tuottaa nollavektorin, ja skalaarilla kertominen on distributiivinen vektorien summan yli, eli jos a ja b ovat skalaareja ja x ja y vektoreita, niin a(x + y) = ax + ay ja (a + b)x = ax + bx.

Sisätulo on vektoriavaruuden operaatio, joka "kertoo" kaksi vektoria yhteen ja sitä merkitään esim (x,y), ja tulos on jokin skalaari. Sisätulo on lineaarinen operaattori ensimmäisen tulon tekijän suhteen, eli (x + y, z) = (x,z) + (y,z), ja (ax,y) = a(x,y). Lisäksi (x,x) = 0 jos ja vain jos x on nollavektori. Jos kerroinkunta sisältää alikuntanaan reaaliluvut tai vastaavan järjestetyn kunnan (esimerkiksi rationaaliluvut), niin (x,x) on aina ei-negatiinen. Lisäksi jos kerroinkunnassa on määritelty ns konjugaatti-operaatio, niin sisätulon pitää olla konjugaattisymmetrinen, eli (x,y) = Conj((y,x)). Käytännössä tämä tapahtuu kun kerroinkunta on kompleksinen. Jos kerroinkunta on esimerkiksi reaaliluvut, niin voidaan yleistyksenä ajatella, että reaaliluvun konjugaatti on luku itse.

Näillä määritelmillä sisätulo indusoi aina normin. Tämä voidaan todistaa osoittamalla että (x,x):n neliöjuuri toteuttaa normin aksioomat. Normi on kansanomaisesti ymmärrettävissä "pituudeksi" tai "suuruudeksi". Sisätulo myös indusoi ortogonaalisuuden käsitteen vektoriavaruuteen, eli voimme sanoa että x ja y ovat ortogonaalisia jos kumpikaan ei ole nolla, ja (x,y) = 0.

Olennaista sisätulossa on se, että mikä hyvänsä operaatio joka toteuttaa sen aksioomat on sisätulo, ja kaikki teoria joka sisätulosta on, pätee. Esimerkiksi jos meillä on mielivaltainen mitta-avaruus X, niin sellaiset funktiot X:ltä reaaliluvuille jotka ovat neliöllisesti integroituvia X:n yli, muodostavat sisätuloavaruuden. Sisätulo (f,g) on tällöin integraali funktioiden tulosta avaruuden X yli. Tämä sisätulo on ns. L2-sisätulo (L tulee nimestä "Lebesgue" ja 2 viittaa neliön integroituvuuteen). Esimerkiksi jos X on jokin äärellinen reaalilukuväli, vaikkapa [-1,1] tms, niin rajoitetut, paloittain jatkuvat funktiot tällä välillä muodostavat L2-avaruuden.

Sisätuloavaruuksien teoria on varsin yksinkertaista, ja voimme sanoa monia asioita sisätuloavaruudesta ja sen kantavektoreista. Kun tietyt topologiset ehdot toteutuvat, voimme käyttää sisätuloa siihen, että löydämme ortogonaalisen joukon vektoreita niin, että jokainen avaruuden vektori voidaan ilmaista tämän joukon vektorien lineaarikombinaationa. Tuttu karteesinen koordinaatisto esimerkiksi perustuu siihen, että voimme jokaisen tasoon piirretyn "nuolen" ilmaista vaaka- ja pystysuunnan avulla. Voimme myös vaihtaa näitä suuntia (esim, kääntämällä paperia) ja löytää miten sama "nuoli" esitetään eri suuntien avulla, esimerkiksi "luode"/"lounas"- suunnassa.

Ja, mainitsemani rajoitettujen, paloittain jatkuvien funktioiden joukko voidaan esittää kompleksisten eksponenttifunktioiden avulla; en mene tässä yksityiskohtiin, sillä niihin menisi liiaksi aikaa ja tilaa. Olennaista on, että voimme osoittaa että tietynlainen sisätulon soveltaminen aivan samalla teoreettisella sapluunalla kuin tason kantavektoreiden vaihtamisessa, on mahdollista myös L2-avaruudessa, ja että kun "kantavektorit" -- siis tietty funktioperhe -- on sopivasti valittu, niin funktio esitetään sen eri pisteissä saamien arvojen sijaan esimerkiksi siinä esiintyvien "taajuuksien" avulla. Tämä tapahtuu ns. Fourier-muunnoksessa.

Se mikä tässä on olennaista, ei ole se miten tällainen muunnos lasketaan tietyssä partikulaarisessa tapauksessa. Olennaista on se, että tässä "teknologiassa" on tavattoman yksinkertaiset rakennusosaset, eli käytännössä sisätulon aksioomat. Kun löydämme keinon esittää sisätulo-operaattori, meidän täytyy vain osoittaa että se toteuttaa nämä aksioomat ja kaikki se, mitä voimme sanoa tutkimastamme ilmiöstä sisätulon avulla pätee.

Tämä abstrahoinnin idea on sama kuin missä hyvänsä teknologiassa. Ei ole mitään merkitystä sillä, onko auton moottorissa pikkiriikkisiä ukkeleita jotka vääntävät kiertokankea jos saavat juoda bensiiniä, vai onko kyseessä bensiinikäyttöinen polttomoottori. Jos auto kulkee kaasua painamalla ja rattia kääntämällä, sillä pääsee perille.

Näin taannoin taas kerran keskustelun siitä, miten alakoulussa opettajat opettavat että 7*3 on eri asia kuin 3*7 ja rankaisevat lapsia kun nämä laskevat "väärin". Kertolaskun abstraktio on juuri siinä, että se on vaihdannainen. On hyvin vahingollista ajattelulle opettaa että epäolennainen asia on "tärkeä oppia". Abstrahointi on muutenkin vaikeaa suurimmalle osalle ihmisistä. Se, että ihmisen luontainen vaisto abstraktioon pyritään tukahduttamaan, on minusta jonkinlainen rikos ihmisyyttä vastaan. Näen toistuvasti ilmiön jo opiskelijoissa: Hyvin lahjakkaita ja fiksuja ihmisiä, joille on ohjelmoitu päähän aivan turhia esteitä ymmärrykselle, pakkomielteenomainen tarve "ymmärtää" eli purkaa abstraktio pienimpiin yksityiskohtiin, sellaisiinkin joilla ei ole mitään väliä.

Toki tämä tarve purkaa on ymmärrettävä. Lapsi haluaa tietää mistä eri asiat rakentuvat. Kuka meistä ei olisi lapsena purkanut heti tilaisuuden saatuaan kaikki elektroniset ja mekaaniset laitteet nähdäkseen miten ne toimivat sisältä? Mutta lapsi tekee tämän itse, vaistomaisesti. Ei häntä siihen suuntaan tarvitse työntää. Ja aivan erityisesti, ketään ei pitäisi rangaista oikein tehdystä ja käytetystä abstraktiosta.

Tiedän että jotkut ovat tästä "eri mieltä". Mutta tämä ei ole mielipideasia. Ihminen joko oppii tai ei opi ajattelemaan abstraktisti.

tiistai 24. huhtikuuta 2018

Vignetti: Mitä matematiikka ja ymmärrys "ovat"?

Matematiikka on eräänlainen LEGO-palikoiden kaltainen rakennelma, jonka avulla voi rakentaa koneita. Koneet toimivat pelin sääntöjen mukaisesti ja lopputulos on sääntöjen mukainen.

Oma näkemykseni on, että matematiikkaa opetetaan ja opiskellaan "väärin", koska sitä yritetään "ymmärtää". Katselin joskus kun isäni korjasi moottoripyörän vaihdelaatikkoa. Tajusin jokin aika sitten, että oma tapani hahmottaa matematiikkaa on kokolailla samanlainen kuin isäni tapa hahmottaa koneiden toimintaa.

Ymmärryksen tavoittelu on aidon ymmärryksen kannalta samalla tavalla haitallista kuin onnellisuuden tavoittelu on onnen kannalta haitallista.

perjantai 16. helmikuuta 2018

Intuitiosta

Olen opettanut matematiikkaa tai matemaattis-loogisia aiheita nyt 20 vuotta. Mukaan lukeutuu hyvin laaja kirjo tällaisia aloja, kuten tilastomatematiikkaa, lineaarialgebraa, algebraa, optimointiteoriaa, differentiaaliyhtälöitä, matemaattista logiikkaa, tietojenkäsittelyteoriaa, algoritmiikkaa, ohjelmointikielten teoriaa, formaalien kielten teoriaa, graafiteoriaa, todennäköisyyslaskentaa ja ties mitä.

Yksi ongelma joka matematiikan opiskelussa ja myöskin opettamisessa on, on intuition opettaminen. Intuitiota on monenlaista, mutta karkeasti jaan ne nyt algebralliseen ja geometriseen intuitioon. Ero ei ole selkeä, eikä missään nimessä tarkka, eikä näiden sanojen arkimerkitys tavoita itse ilmiötä. Tässä kirjoituksessa koetan hiukan luonnostella näitä intuition muotoja ja sitä miten oman kokemukseni perusteella asia näyttäytyy. Huomautan että intuitio on kuitenkin aina väistämättä ihmisen pään sisäinen asia, jota on viime kädessä mahdotonta tavoittaa täysin sanallisesti; Wittgensteinia mukaillen, sitä ei voi ilmaista, vaan se ilmenee.

Geometrinen intuitio on näistä ehkä tutumpi ihmisille. Se viittaa avaruudellisiin mielensisältöihin ja tuntemuksiin, kuten muotoihin, etäisyyksiin, suuntiin jne. Esimerkiksi maastonmuodot voidaan ymmärtää geometrisen intuition kautta, "suuntavaisto" nojaa geometriseen intuitioon. Kuvanveisto tms vaatii geometristä intuitiota, samoin piirtäminen; palaan tähän vielä tuonnempana. Algebrallinen intuitio puolestaan on lähempänä sitä mitä nimitämme loogiseksi tai kielelliseksi ajatteluksi. Se viittaa kokemuksiin erilaisten symbolien välisistä suhteista. Erilaiset kielioppisäännöt, laskusäännöt jne, opitaan sisäistämällä ne nimenomaan algebrallisen intuition osaksi.

Karkeasti erottelun voi ymmärtää niin, että geometrinen intuitio on partikulaaristen ja konkreettisten esimerkkien intuitiota, kun taas algebrallinen intuitio on universaalien ja abstraktien esimerkkien intuitiota. Mikään ajattelutapa ei ole täydellinen; toinen ei ole "parempi" kuin toinen, vaan nämä ovat matematiikan rakennusosaset joita ilman matematiikkaa ei voi "ymmärtää".

Otetaan esimerkki optimointiteoriasta. Ajatellaan että meillä on jokin avaruus X, jossa meillä on pisteitä. Lukija pääsee helpoimmalla, jos tässä ajattelee 2-ulotteista reaalilukuavaruutta, tutummin, xy-tasoa, jossa jokainen piste esitetään parina (x,y). Tässä siis geometrinen intuitio on esimerkiksi taso, jokin pinta. Vaikeammaksi menee, jos täytyy ajatella 3-ulotteista avaruutta, mutta halutessaan voi näinkin tehdä.

Tässä avaruudessa X, meillä on funktio f(x), joka saa reaalilukuarvoja. Esimerkissämme, jossa meillä on taso, voimme ajatella että funktio kertoo pinnan korkeuden kussakin pisteessä. Kolmiulotteisessa tapauksessa voimme ajatella vaikkapa lämpötilaa huoneen jokaisessa pisteessä. Tässä kohtaa toki funktio f(x) voisi saada itse myös useampiulotteisen arvon. Esimerkiksi se voisi olla tuulen nopeus ja suunta; tällöin puhuisimme esimerkiksi vektorikentästä. Sivuutamme tämän, koska nyt etsimme funktion f pienintä arvoa. Tasoesimerkissä, etsimme "syvintä kohtaa" tasossa.

Tarvitsemme tässä nyt apukäsitteitä, jotka esitämme algebrallisesti. Topologia on matematiikan osa-alue, joka käsittelee mm. avoimien joukkojen teoriaa. Topologiassa avoin joukko on juuriabstraktio, eli se määritellään puhtaasti algebrallisesti; Avaruuden X topologia T on kokoelma joukkoja, joita nimitetään avoimiksi joukoiksi; Topologialta vaaditaan seuraavat ominaisuudet:

Tyhjä joukko on avoin (eli kuuluu T:hen)
Koko avaruus on avoin (eli kuuluu T:hen)
Avointen joukkojen mikä tahansa yhdiste (unioni) on avoin
Avointen joukkojen äärellinen leikkaus on avoin.

Tämä määrittelee avoimet joukot täysin aksiomaattisesti ja on siten algebrallinen abstraktio. Se ei esimerkiksi yksikäsitteisesti määrittele topologiaa, vaan samalla avaruudella voi olla monta eri topologiaa. Jotta keskustelumme olisi mielekäs, tarvitsemme jonkin partikulaarisen topologian. Jos avaruudessa X on mielekästä puhua etäisyyksistä (eli metriikasta), niin metriikan indusoima topologia määritellään esimerkiksi avointen pallojen avulla: Se on minimaalinen topologia, jolle pätee että jokaiselle X:n pisteelle x ja jokaiselle nollaa suuremmalle epsilonille, joukko {z | d(z,x) < epsilon} on avoin.

Geometrinen intuitio (metriikan indusoimalle) avoimelle joukolle on, että sillä ei ole selkää rajaa. Tarkemmin sanoen, sillä voi kyllä olla reuna, mutta itse reuna ei kuulu joukkoon; mielivaltainen joukon piste, vaikka olisi kuinka lähellä reunaa, ei koskaan ole tarkalleen reunalla, vaan sen ympärillä on aina jokin (vaikkakin mahdollisesti hyvin pieni) ympäristö jossa on vain ja ainoastaan joukon pisteitä. Metriikka on geometrinen käsite ja topologia algebrallinen, mutta kun kiinnitämme metriikan indusoiman topologian, niin nämä kaksi käsitettä kohtaavat.

Funktio f : X --> Y on jatkuva jos jokaisen avoimen joukon alkukuva on avoin. Tämä on abstrakti määritelmä, joka kiinnittää jatkuvuuden topologiaan. Jatkuvuuteen liittyvät ominaisuudet voidaan kuitenkin palauttaa metriseen avaruuteen, jolloin voimme käyttää geometristä intuitiota. Jos otamme pisteen x avaruudesta X ja pisteen y = f(x) avaruudesta Y, jatkuvuus pisteessä x tarkoittaa, että kun tutkimme pisteen y avointa ympäristöä, voimme aina löytää jonkin x:n avoimen ympäristön avaruudessa X, joka kuvautuu kokonaisuudessaan tähän ympäristöön. Tämä on perinteisesti ilmaistu "epsilon-delta"- määritelmän avulla, eli jokaista positiivista epsilonia kohden on olemassa delta siten, että kun x' deltaa lähempänä pistettä x, niin f(x') on epsilonia lähempänä pistettä f(x).

Nämä algebralliset määritelmät voidaan sitten intuitiivisesti ymmärtää niin, että jos f kerran on jatkuva pisteessä x, niin kun katsomme "hyvin läheltä" pistettä x, esimerkiksi pisteessä x', ja pistettä f(x), niin kun siirrymme lähemmäs x:ää pisteestä x', niin f(x'):sta siirrymme lähemmäs pistettä f(x).

Funktion derivoiutuvuus puolestaan voidaan ajatella samaan tapaan sekä algebrallisena että geometrisenä asiana. Algebrallisesti yleistys derivoituvuudesta on, että jos funktio f on derivoituva pisteessä x, niin kun teemme "pieniä muutoksia" funktion arvossa, voimme approksimoida sitä lineaarikuvauksella. Merkitään tätä pientä muutosta kirjaimella h.
Tällöin f(x + h) = f(x) + f'(x)[h] + ||h||r(x,h). Tässä siis f(x+h) on funktion arvo "lähellä" pistettä x, f(x) on funktion arvo pisteessä x. f'(x)[ ] puolestaan on lineaarikuvaus X-->Y. Lineaarikuvaus on kuvaus, joka käyttäytyy "kiltisti", esimerkiksi niin että f'(x)[h + j] = f'(x)[h] + f'(x)[j]. Tässä siis h ja j ovat muuttujia; x on jokin kiinnitetty piste, ja eri pisteissä tietysti saamme eri kuvauksen. Termi r(x,h) puolestaan on virhetermi, joka lähestyy nollaa, kun h lähestyy nollaa. Huomaa, että kokonaisvirhe riippuu myös h:n normista, eli kokonaisvirhe on vielä tätäkin pienempi.

Tämä algebrallinen karakterisointi voi olla hankala ymmärtää, ja korkeampidimensioisissa tapauksissa se on myös hankalaa hahmottaa geometrisesti. Toisaalta perinteinen lukiotason intuitioselitys yhdessä dimensiossa on varsin kehno geometrisen intuition kannalta.

Kaksiulotteisessa esimerkissämme tämä on ehkä helpompaa. Derivoituvuus voidaan ymmärtää seuraavalla tavalla: Kun katsomme funktion f(x) arvoa pisteessä x, ja lähdemme siirtymään tasossa johonkin suuntaan, esimerkiksi suuntaan h, niin funktion arvo lähtee muuttumaan. Funktion derivaattana tässä toimii toinen "suuntaa" antava vektori, f'(x) -- jota näissä tapauksissa usein nimitämme gradientiksi. Se osoittaa suuntaan, jossa funktion f arvo kasvaa kaikkein eniten. Esimerkissämme jossa f(x,y) tulkittiin "korkeudeksi" tason pisteessä (x,y), voimme käyttää geometristä intuitiota. Gradientti pisteessa (x,y) osoittaa suuntaan jossa "mäki" on "jyrkin". Kääntäen, jos meillä olisi esimerkiksi tasainen painovoima tässä tasossa, niin pisteeseen (x,y) asetettu pallo lähtisi vierimään tarkalleen päinvastaiseen suuntaan kuin mihin gradientti osoittaa.

Toinen fysikaalinen tulkinta tässä tilanteessa voisi olla esimerkiksi, että kun siirrämme jotakin painavaa esinettä pisteen (x,y) ympäristössä, gradientti osoittaa suunnan johon päin pitää tehdä työtä; jos liikumme kohtisuoraan gradienttiin nähden, niin pysymme suunnilleen samalla korkeudella. Tässä puhumme tietenkin "äärimmäisen pienistä" muutoksista, sillä pinta kaareutuu kun siirrymme pisteestä hieman.

Joudumme tekemään kuitenkin joitain oletuksia, jotta derivoituvuus on voimassa. Näistä tärkein on se, että virhetermi r(x,h) lähestyy nollaa kun h lähestyy nollaa. Mitä se tarkoittaa geometrisesti? Kun approksimoimme funktiota pisteen x ympäristössä lineaarikuvauksella, niin (tasoesimerkissämme) ajattelemme että funktio on pisteen x pienessä ympäristössä lähes täysin litteä. Mitä lähempää katsomme pistettä x, sitä litteämmältä maasto siinä kohtaa näyttää. (Litteä, merkityksessä ei-kaareutuva; toki se voi olla "vinossa") Mitä lähempää tarkastelemme, sitä pienemmäksi r(x,h) muuttuu, ja sitä tarkemmin pikkiriikkiset muutokset vastaavat f(x+h):n arvoa.

Intuitio jostakin määritelmästä ei ole kunnolla mahdollinen, ellemme ymmärrä, miltä näyttää tilanne, jossa määritelmä ei päde. Esimerkiksi, jos virhetermi ei lähesty nollaa, vaan on vaikkapa vakio. Kuvitellaan tilannetta, jossa f koostuu lokaalisti kahdesta täysin levymäisen tasaisesta pätkästä, mutta jossa on kulma juuri x:n kohdalla. Kun liikumme vähän sivuun x:stä, f on täysin tasainen (ja siten toki myös derivoituva), mutta pisteessä x on kulma. Jos yritämme sovitella tasoa pisteeseen x, niin taso "keikkuu" pisteen x ympäristössä, mutta ei kosketa f:n määrittämää pintaa vaikka hiukan sitä kääntelemmekin. Ja jos katsomme pistettä x läheltä, niin siinä se kulma on, vaikka katsoisimme kuinka läheltä tahansa.

Jos etsimme funktion f pienintä arvoa, niin tiedämme että jos f on derivoituva, ja pisteessä x derivaatta poikkeaa nollasta -- vektorien tapauksessa siis gradientti osoittaa johonkin suuntaan -- niin tiedämme että kulkemalla vastakkaiseen suuntaan "hieman", funktion arvo väkisinkin pienenee. Jos kuljemme riittävän pitkälle, se alkaa mahdollisesti taas kasvaa (ja virhe on jo varsin suuri), mutta jonkin matkaa kulkemalla voimme ainakin löytää pienemmän arvon. Tässä pisteessä voimme sitten tarkastella uudelleen; jos gradientti on nyt nolla, ei funktio ainakaan millään ilmeisellä tavalla voi pienentyä. Vaihtoehtoisesti, voi olla ettei funktio äkkiä olekaan derivoituva, mikä puolestaan tarkoittaa, ettemme suoranaisesti tiedä mitä sille tapahtuu jos liikumme kyseisen pisteen ympäristössä.

En mene tähän teoriaan sen enempää, koska se ei ole olennaista. Olennaista on, että geometrinen intuitio ja algebrallinen intuitio kertovat saman asian: Löytääksemme pienimmän arvon, täytyy katsoa paikkaa jossa gradientti on nolla, tai jossa sitä ei ole olemassa.

Optimoitavan funktion lisäksi meillä on joitakin rajoitteita sille, mihin alueeseen rajoitamme tehtävän. Esimerkiksi, voimme hyväksyä vain pisteet, jotka ovat 1-säteisen ympyrän sisällä. Tällöin meillä olisi rajoite x^2 + y^2 < 1. (tai yhtäsuuri, jos haluamme että alue on suljettu). Nyt näemme, että me ilmaisemme intuition (ympyrä) algebrallisesti (kaava). Oletamme että rajoite on muotoa g(x) <= 0. Tällaisessa tilanteessa emme voi kulkea gradienttia vastaan pidemmälle kuin tilanteeseen jossa g(x) = 0. Tässä kohtaa tulee siis reuna vastaan.

Nyt jos tarkastelemme tällaista reunaa, niin se esimerkissämme on ympyrän kehä. Kun tulemme ympyrän kehälle, g(x,y) = x^2 + y^2 - 1 = 0. Jos funktion gradientti osoittaa ympyrän sisällepäin jonnekin, niin funktio tässä pisteessä pienenisi jos menisimme ympyrän ulkopuolelle. Mutta me etsimme nimenomaan funktion pienintä arvoa ympyrän sisältä tai korkeintaan reunalta. On mahdollista, että funktio saavuttaa pienimmän arvonsa ympyrän sisällä jossakin, esimerkiksi pisteessä (x*,y*). Tällöin rajoitteella sinänsä ei ole merkitystä, koska kun liikumme hieman tämän pisteen ympäristössä rajoite pätee, ja toisaalta funktion itsensä arvo kasvaa jos lähestymme reunoja.

Mutta entä jos ilman rajoitetta pienin arvo onkin jossakin hieman ympyrän ulkopuolella? Tällöin usein pienin arvo löytyy reunalta. Mutta mistä sieltä? Tässäkin voimme tarkastella gradienttia; se osoittaa jonnekin ympyrän sisällepäin, mutta entä jos liikumme reunaa pitkin hieman; emme ulos emmekä sisälle, vaan pitkin reunaa? Tällöin funktion g(x) arvo pysyy samana -- olemmehan reunalla. Jos funktio g(x) on derivoituva -- olettakaamme nyt niin -- sen arvo pysyy samana kun liikumme kohtisuoraan sen gradienttiin nähden. Eli, g(x+h) =g(x) + g'(x)[h] + ||h||r(x,h); mutta koska tämän pitäisi olla likipitäen g(x), ja koska r(x,h) on likipitäen nolla, niin pitäisi päteä g'(x)[h] = 0.

Toisaalta funktion f arvon pitäisi pienentyä, eli f(x+h) = f(x) + f'(x)[h] + ||h||r(x,h) pitäisi olla pienempi kuin f(x); jälleen jos oletamme että virhetermi on likipitäen nolla, pitäisi päteä f'(x)[h] < 0. Voimme ottaa tällaisia askeleita reunaa pitkin, kunnes lopulta f'(x)[h] = 0 pätee myös.

Täytyisi siis löytyä piste x siten, että jollekin (hyvin pienelle) nollasta poikkeavalle vektorille h pätee f'(x)[h] = g'(x)[h] = 0. Tasossa tämä tarkoittaisi, että löytyy vektori siten, että sekä f:n että g:n gradientti on tätä vektoria vastaan kohtisuorassa. Mutta tätä taas ei voi tapahtua, elleivät f ja g itse asiassa osoitta samaan (tai vastakkaiseen suuntaan). Tällaisessa pisteessä siis pätee että f'(x) = a*g'(x) jollekin a.

Johdimme tässä, käyttäen geometrista ja algebrallista intuitiota erityistapauksen niin kutsutuista Karush-Kuhn-Tucker- ehdoista. Itselleni noiden ehtojen hahmottaminen oli aikanaan hieman vaikeaa, enkä ymmärtänyt niitä ennen kuin diplomityötä tehdessäni jouduin ohjelmoimaan erään algoritmin joka etsii KKT-pisteitä. Ymmärrykseni oli tuolloin kuitenkin puhtaasti algebrallista. Tämä johtui puolestaan siitä että ymmärryksen tarve kumpusi siitä, että minun piti kirjoittaa ohjelma joka laskee -- algebrallisesti, tekstuaalisesti jne -- noita pisteitä, enkä käyttänyt geometrista intuitiota lainkaan.

Vanhemmalla iällä olen alkanut arvostaa geometristä intuitiota enemmän.

tiistai 6. helmikuuta 2018

3x5 revisited

En kirjoita treenaamisesta tässä, vaikka 3x5 helposti siihen viittaisikin, ollen Starting Strength- ohjelman perusrakennuspalikka.

Sen sijaan törmäsin jälleen kerran keskusteluun, jossa esitettiin että kertolasku 3*5 on käsitteellisesti nimenomaan sama kuin 5 + 5 + 5, ja että 3+3+3+3+3 on eri asia "käsitteellisesti". Tässä on hyvä esimerkki ilmiöstä distinction without difference, eli erottelusta ilman aitoa eroa.

Kuten joskus aiemmin asiasta kirjoitin, tässä sekaannuksen taustalla on jotenkin vinoutunut käsitys siitä, että kertolasku ei "välttämättä ole vaihdannainen", ja siten 3*5 ja 5*3 on käsiteltävä erillisinä operaatioina. Tämä on totta, mutta sen soveltaminen kysymykseen mitä 3*5 "tarkoittaa" on non sequitur.

Jotta asia voidaan kirkastaa, lähdetään perusominaisuudesta, joka kertolaskulla on pakko olla jotta se voidaan ylipäätään esittää muodossa 3*5 = 5 + 5 + 5. Emme ota kantaa siihen, onko "*" oikeasti kertolasku ja onko "+" oikeasti vähennyslasku. Emme lähde tässä yhtään mistään muusta kuin siitä, että tällainen identiteetti on olemassa. Meillä on jokin tulkinta symbolille 3, ja tässä tapauksessa sen merkitys on "kolme kappaletta". Kirjoitamme siis tämän nyt niin että 3*5 = (kolme kappaletta)*5. On kuitenkin oltava niin, että "kolme kappaletta" voidaan jotenkin palauttaa yhteenlaskuun; tässä siis täytyy sopia että se on (1 + 1 + 1)*5. Nyt, "+" voi olla mitä hyvänsä, samoin "1", niiden ei tarvitse olla "oikeasti" luvut yksi ja näiden yhteenlasku.

Täytyy päteä että (1+1+1)*5 = 1*5 + 1*5 + 1*5, ja lisäksi sellainen tulkinta, että 1*5 on sama asia kuin 5, koska muuten identiteetti 3*5 = 5 + 5 + 5 ei voi päteä. Jälleen huomautan, että "1" on vain merkintätapa sille asialle, joka yhdistettynä "5":een operaatiolla "*" on sama kuin "5".

Nyt, voimme toki pysäyttää analyysimme tähän ja todeta että 5 ja 3 ovat tyystin eri tyyppisiä asioita, ja ainoa asia joka niitä sitoo on mystinen "1" joita symbolissa "3" on kolme kappaletta. Esimerkiksi 3*omena = omena + omena + omena. Tässä kohtaa ero on olemassa, ja hyväksymme sen. Starting Strength- ohjelmassa 3x5 viittaa siihen että tehdään kolme viiden toiston sarjaa. Tämä todella on käsitteellisesti eri asia kuin viisi kolmen toiston sarjaa. Me emme kuitenkaan tällöin katso että laskemme viittä kolmen toiston sarjaa "yhteen" saadaksemme jonkin tuloksen. Aivan kuten me emme laske kolmea omenaa yhteen saadaksemme jonkinlaisen MegaOmenan.

Jos emme kuitenkaan tyydy siihen, vaan oikeasti ajattelemme että kysessä olevat operaatiot ovat operaatioita jossakin algebrallisessa struktuurissa, ja että "3" ja "5" viittaavat erilaisiin, mutta samantyyppisiin alkioihin, emme voi tyytyä tähän analyysiin. Meidän ei tarvitse todellakaan olettaa että 3*5 = 5*3 -- tämähän nyt ei missään nimessä päde yleisemmin. Meidän täytyy kuitenkin olettaa, että mikä hyvänsä struktuuri tässä on kyseessä, sillä on operaatiot "+" ja "*" joilla on jokin suhde joka ilmenee identiteetissä 3*5 = 5 + 5 + 5.

Jotta esimerkki kirkastuisi, otetaan tyystin toisenlainen struktuuri. Otetaan lukujen paikalle merkkijonot, "+" paikalle tulkinta, jossa a + b tarkoittaa merkkijonojoukkoa {a, b} ja a*b tarkoittaa merkkijonoa "ab", eli "+" on "rinnakkaisuus" ja "*" on "peräkkäisyys". Missään nimessä siis ei päde että a*b = b*a.

Jos meillä "3" tulkitaan nyt vaikkapa siten että se tarkoittaa samaa kuin "a+b+c", ja "5" tarkoittaa samaa kuin "d + e", niin 3*5 = (a+b+c)*(d+e). Alkuperäistä tulkintaa noudattaen tämä on a*(d+e) + b*(d+e) + c*(d+e). Edelleen purkaen, tämä on sama kuin a*d + a*e + b*d + b*e + c*d + c*e.

Operaatiolta "+" meidän on mielekästä olettaa vaihdannaisuus, jotta tällainen hajotelma voidaan ylipäätään tehdä. Voimme siis kirjoittaa tämän uudelleen niin, että se on (a+b+c)*d + (a+b+c)*e. Huomatkaa, että jos olisimme edellä olevan tulkinnan sijaan kirjoittaneet että 3 = 1+1+1, ja 5 = 1+1+1+1+1, niin tämä sama päättely olisi johtanut siihen, että 3*5 = 3+3+3+3+3.

Nyt; en varsinaisesti väitä, että 3x5 ei voisi olla tulkittavissa niin että on eroa sillä, onko se 5+5+5 vai 3+3+3+3+3. Väitän, että argumentaatio jossa esitetään tämän olevan käsitteellisesti kaksi eri tulkintaa, vaatii perustelukseen erotteluita joilla ei ole mitään tekemistä sen kanssa mitä kertolasku "tarkoittaa", vaan sen kanssa, mitä yhteenlasku tarkoittaa. Jos ylipäätään esitämme, että kertolasku voidaan distributiivisesti esittää yhteenlaskun avulla, niin eroa ei ole mikäli yhteenlasku on vaihdannainen.

Kun yritin selittää tätä ihmiselle, joka väitti että erottelun tekeminen on "perusteltua", hän höpisi ensin että "mutta pitäähän lapsille opettaa ettei kertolasku aina ole vaihdannainen". Kun perustelin että ei tässä ole kyse kertolaskun vaan yhteenlaskun vaihdannaisuudesta, hän esitti että argumenttini on liian vaikea koululaisille.

Tässä kohtaa en voinut kuin ottaa ns. tonnin seteli- ilmeen.