Modellering og kurvetilpasning (Kapittel 4.3-4.6)

© H-P Ulven13.11.14

Under arbeid...


Innledning:

Kapitlene handler om kurvetilpasning til måledata og vurdering/drøfting av funksjonene/kurvene som digitale verktøy lager på grunnlag av tabeller med måledata. (x- og y-verdier.)

Det er mye lese- og orienteringsstoff her som ikke blir testet til eksamen, så dette notatet tar sikte på å presentere i oversiktlig kortform det som er de essensielle kunnskapsmålene i kapittel 4.3 til 4.6.

Matematisk modellering:

Med matematiske modeller mener vi funksjoner som passer med måledata fra det vi ønsker å beskrive.

Hensikten med å lage en funksjon som passer med måledata er vanligvis:

Av og til er det åpenbart hva slags funksjon man skal ha, andre ganger må man prøve forskjellige funksjoner og vurdere hvilken funksjon/modell som passer best.

Eksempler på vanlig forekommende modeller:

Lineære modeller: (Se side 177-187.)

Eksempelvis sammenheng mellom kalori-inntak og vektøking, der det er en reell kausal sammenheng mellom årsak og virkning.

Vi kan også få sammenhenger mellom to variabler uten at det er noen reell kausal sammenheng, så man skal være forsiktig med å trekke bastante konklusjoner selv i tilfeller der plotting av to variabler viser en helt lineær trend med høy korrelasjonskoeffisient. (Mer om korrelasjonskoeffisent lenger ned.)

Vanlig feil i alle mulige debatter er å sammenligne to variabler og bruke god korrelasjon til å påstå at det er en årsakssammenheng. Ofte er sammenhengene lenket gjennom helt andre variabler. Det er faktisk tallmessig sammenheng mellom antall storker og barnefødsler i europeiske land, men ingen tror i fullt alvor at det er noen årsakssammenheng.

Det er også korrelasjon mellom antall timer brukt på dataspill og voldelig adferd, men dette beviser ingen årsakssammeheng, det er fullt mulig å tenke seg en annen ukjent årsakssammeheng mellom voldelig adferd og en ukjent faktor. Hvis denne ukjente faktoren i tillegg til å forårsake voldelig adferd også gir tilbøyeligheter til å kaste bort mye tid på dataspill, så får vi en tallmessig korrelasjon som ikke forklarer noen verdens ting.
(Mange mener det er en reell sammenheng her, men det skyldes helt andre kunnskaper og argumenter enn en ren korrelasjonsundersøkelse på dataspill og voldelig adferd.)

Korrelasjonen mellom røyking og forekomst av lungekreft er også meget sterk og ledet i sin tid til hypotesen om at røyking faktisk er den viktigste årsaken til lungekreft. Denne observasjonen er likevel alene ikke nok til å bevise en årsakssammenheng. Årsakssammenhengen ble vist med dyreforsøk, ikke med korrelasjon, selv om korrelasjonsundersøkelsen var et meget viktig pilotarbeid som satte forskerne på det rette sporet og den rette hypotesen!

Ulineære modeller: (Se side 188-190.)

Oscillerende/svingende modeller:

f(t) = e-0.2t sin(3x-1)

Figuren viser en dempet svingning som kan være en beskrivelse av en dårlig støtdemper i et kjøretøy, pendelbevegelse mm.
(Se eksempel 5 side 176.)

Ubegrenset vekst, ofte eksponentiell:

f(t)=a e kt

Kan eksempelvis være populasjonsvekst uten begrensninger.

Vekst med begrensning:

f(t) = B/(1 + a e-kt )

Kan eksempelvis være populasjonsvekst med begrensninger. (Såkalt logistisk funksjon.)

Modeller som går mot en grenseverdi i det lange løp:

Hastighet i fallskjermhopp, radioaktivitet, avkjølingskurve i termos mm.
(Varianter av eksponentialfunksjoner og logistiske funksjoner.)

Polynomfunksjoner:

Andregradsfunksjoner forekommer ofte, eksempelvis veilengde når farten øker med konstant akselerasjon.

Polynomfunksjoner av høyere grad kan brukes når man ikke aner hva som er den riktige funksjonstypen, men trenger et funksjonsuttrykk som tilpasser funksjonen i et intervall. I slike tilfeller er selvfølgelig ekstrapolering meningsløst.

Kurvetilpasning med GeoGebra:

Lærebøkene bruker ordet regresjon, men strengt tatt er dette et statistisk begrep som omfatter mer enn selve kurvetilpasningen, så det riktige ordet er kurvetilpasning, ikke regresjon.

Kurvetilpasning er mye regnearbeid og litt komplisert matematisk, så vi overlater dette til digitale verktøy!

Kurvetilpasning med lommeregnere er beskrevet på side 182-183 og side 188.

I alle eksemplene i tabellen forutsettes det at vi har lagt inn x- og y-verdiene i regnearket i GeoGebra og overført disse til en liste med punkter som heter L:

Funksjonstype: Kommando: Resultat: Mål for hvor
god tilpasningen er:
Kommentarer:
Lineær RegPoly[ L, 1 ] a x + b Korrelasjonskoeffisient[ L ]
SumKvadratAvvik[ L, f ]
Korrelasjonskoeffisient, r, bør være nær ±1,
brukes bare på lineære funksjoner.
SumKvadratAvvik bær være minst mulig.
Polynomer av grad n RegPoly[ L, n ] For eksempel:
ax2+bx+c
RKvadrat[ L, f ]
SumKvadratAvvik[ L, f]
RKvadrat, r2, bør være nær +1
(Tilsvarer kvadratet av korr.koeffisienten, men brukes på ikke-lineære funksjoner)
SumKvadratAvvik bør være minst mulig.
Eksponentiell RegEksp2[ L ] a ebx -" - To stykker fordi ikke alle GGB-brukere
  RegEksp[ L ] a bx - " - skjønner hva e er for noe...
Potens RegPot[ L ] a xb -" -  
Logaritmisk RegLog[ L ] a + b lnx -" -  
Sinus RegSin[ L ] a sin(bx +c) +d -" -  
Logistisk RegLogist[ L ] B/(1+a e-cx) -" -  
To mer generelle og meget
kraftige kommandoer:
       
Lineær kombinasjon av
eksisterende funksjoner
Reg[ L, {f, g, h, ... } ] a f(x) + b g(x) + c h(x) + ...   Hvis vi har definert f(x) = 1, g(x) = x og h(x) = ex kan vi få laget: a + b x + c ex
Nesten hva som helst :-) Reg[ L, f ] f(x) med optimale parametere   Eksempel:
Vi definerer f(x) = eax sin(b x +c), der parameterne a, b og c er glidere!
Resultatet blir da en ny funksjon der a, b og c er optimaliserte konstanter istedenfor parametere/glidere.
Temperaturfall: f(x)=a + b e-cx; der a er omgivelsestemperatur.
(RegEksp2[...] gir bare b e-cx !)

Vurdering av modeller/kurvetilpasninger:

Metoden som brukes for å optimalisere kurvetilpasninger er den såkalte minste kvadraters metode. (Se side 181!)
Det er gode matematiske grunner til at man bruker denne metoden, men det er komplisert å forklare, så vi gjør ikke det, men nøyer oss med å si at dette gir oss mulighet til å vurdere svarene med GeoGebra-kommandoen SumKvadratavvik[ L, f ].

For å vurdere hva slags funksjoner og kurvetilpasninger vi bør bruke, er de viktigste metodene disse:

Et hjertesukk til slutt:

Mange lommeregnere og dataprogrammer har kommandoer som regner ut korrelasjonskoeffisienter for andre kurvetilpasninger enn lineære kurver. Dette er egentlig tøv, da korrelasjonskoeffisienten er et statistisk begrep, som bare er definert for lineære funksjoner. (Strengt tatt bare definert for datamaterialet, er det samvariasjon eller ikke.)

Derfor er det korrekte å bruke RKvadrat (RSquare) på andre, ikke-lineære typer kurvetilpasning.

Og gjerne også på lineære funksjoner, da:

Anvendt på lineære funksjoner gir RKvadrat samme verdi som korrelasjonskoeffisienten r kvadrert, derav navnet!