determinatiecoëfficiënt


	© h.hofstede (h.hofstede@hogeland.nl)

Determinatiecoëfficiënt.

Een bijkomend probleem bij het interpreteren van de correlatiecoëfficiënt is de vraag of een twee keer zo grote r ook een twee keer zo goede correlatie betekent. Dat is niet zo!

Om dat te bekijken gaan we twee variaties bekijken:

Variatie 1: Schommeling rond het gemiddelde
Als er helemaal geen verband zou bestaan tussen x en y dan zouden alle y-waarden zomaar wat lukraak schommelen rond hun gemiddelde.

Dit getal geeft dus aan hoeveel de punten in y-richting schommelen rond hun gemiddelde.

Variatie 2: Residuen.
Mét het regressiemodel is de som van de variatie van alle punten t.o.v. de regressielijn natuurlijk gelijk aan de som van de residuen. Dat zal een kleiner getal zijn dan die totale variatie rond het gemiddelde hierboven, omdat we immers het kwadraat van al die residuen hebben geminimaliseerd toen we regressielijn opstelden.

Het verschil tussen deze beide variaties is het deel van de totale variatie dat door het regressiemodel wordt verklaard. Kijk maar naar dit kleine getallenvoorbeeldje met een puntenwolk van vier punten.
De regressielijn hiervan was de lijn y = 0,2x + 2,5 en het centrale punt is (2.5, 3)

x_i	y_i	totale variatie²	residu²
		totale variatie²	residu²
1	3	0	0,09
2	2	1	0,81
3	4	1	0,81
4	3	0	0,09
Σ		2	1,8

Van de totale variatie van 2 wordt 0,2 door het regressiemodel verlaagd, en 1,8 blijft over (nog steeds ook in het regressiemodel een afwijking). We definiëren nu de determinatiecoëfficiënt R² als het deel van de totale variatie dat door het regressiemodel wordt verminderd:

In ons getallenvoorbeeld is R² = ^0,2/₂ = 0,10. Dat is niet bijster goed; slechts 10% van de variaties van de y-waarden wordt weggewerkt door het regressiemodel. In formule zou R² er dan natuurlijk zó uitzien:

En het mooie van deze R² is dat hij voor élk model geldt, niet alleen het lineaire! Bij de afleiding is nergens gebruikt dat de regressielijn lineair moet zijn.
Die R² heet trouwens niet voor niets R²......
De letter R is weer gebruikt omdat bij lineaire regressie R² gelijk is aan onze ouwe bekende r² (die R² heet ook wel de lineaire determinatiecoëfficiënt). Het bewijs daarvan staat hiernaast.

Met deze R² kun je bijvoorbeeld ook onderzoeken welk model nou het best past bij een puntenwolk.

Andere regressiemodellen.

Als je om de één of andere reden vermoedt dat een rechte lijn niet het best bij jouw puntenwolk past, dan kun je met de GR ook andere regressiemodellen toepassen.
Je vindt ze allemaal onder STAT - CALC -
Hiernaast zie je de hele lijst.
We zullen de belangrijksten bespreken, maar dat doen we in twee groepen.

Groep 1.
4: LinReg (ax + b)
9: LnReg (a + b • lnx)
0: ExpReg (a • b^x)
A: PwrReg (a • x^b)

Groep 2.
5: QuadReg (ax² + bx + c)
6: CubicReg (ax³ + bx² + cx + d)
7: QuartReg (ax⁴ + bx³ + cx² + dx + e)
B: Logistic(^c/_{(1 + a • e}bx₎)
C: SinReg (a • sin(bx + c) + d)

Tussen haakjes staat steeds wat voort soort formule je GR bij deze lijsten verzint.
Zie je de overeenkomsten en de verschillen tussen deze twee groepen?

Het zit hem erin, dat in groep 1 in al die formules TWEE constanten a en b staan, en bij de formules uit groep 2 méér constanten. De formules uit groep 1 zijn in wezen lineaire regressie formules.

Als je lijst L1 voor x hebt en lijst L2 voor y, en je wilt de formule y = a + b • lnx opstellen, dan kun je die lijst met x-waarden vervangen door een nieuwe lijst L3 met daarin X = lnx. Immers dan geldt y = a + b • X en kun je gewoon lineaire regressie tussen L3 en L2 toepassen.

Zo kun je y = a • b^x schrijven als lny = lna + xlnb, dus als je neemt Y = lny dan staat daar Y = A + x • B en kun je weer met lineaire regressie A (lna) en B (lnb) berekenen.
Tenslotte bij y = a • x^b staat er lny = lna + blnx dus dan neem je de nieuwe lijsten Y = lny en X = lnx en dan staat er
Y = A + b • X. Lineaire regressie levert je A (lna) en b.

In al deze gevallen vind je dus een lineaire correlatiecoëfficiënt r en een lineaire determinatiecoëfficiënt R² .

Bij groep 2 is dat anders. Daar staan meer constanten in de formules. De regressie is niet meer lineair, en je kunt het niet meer hebben over de correlatiecoëfficiënt r. Alleen de determinatiecoëfficiënt R² bestaat nog wel, en geeft aan hoe goed het model past bij de puntenwolk.

Welk model kiezen we?

Tja, dat is lastig.
Wiskundigen vinden een eenvoudiger model in principe ook mooier, dus zullen al gauw kiezen voor een model uit groep 1.
Hoe meer constanten in de formule, hoe "lelijker" het model.
Maar ja, we willen ook graag een R² die zo dicht mogelijk bij 1 ligt. Meestal "proberen" we een paar modellen, en alleen als modellen met meer constanten een spectaculaire verbetering van R² geven zullen we daarvoor kiezen.

voorbeeld.

Neem de volgende tabel met punten en de bijbehorende puntenwolk ernaast.

x	1	1.5	2	2	2	2.5	3	3.5	4	4	4.5	5	5.5	6	6.5	7	7.5	7.5	8	9	9	9.5	9.5	10	10
y	1	2	2	3	3.5	4	4.5	5	4	5	5	4.5	4	3.5	3	3	2	2.5	3	2.5	5	4	6	5	8.5

Hieronder staan zeven modellen die we hebben geprobeerd:

Als we voor het simpelste model zouden kiezen (eentje uit de bovenste rij: groep 1) dan zouden we kiezen voor PwrReg met r² = 0,26. In de onderste rij geeft echter CubicReg een spectaculaire verbetering naar R² = 0,74.
QuarticReg is nóg ietsje beter, maar niet erg veel, en het is wél een hele constante extra.

De keuze valt daarom waarschijnlijk op CubicReg:
y = 0,07x³ - 1,24x² + 6,11x - 4,62

Hiernaast zie je hoe geweldig goed die past bij de puntenwolk!

OPGAVEN

Zoek uit welk model het best past bij de volgende tabel.

x	1	1	2	2	3	3	4	5	6	6	7	9	9	10	11	12	12
y	2	4	4	5	4	5	6	8	6	8	9	7	8	8	7	6	5

Hiernaast zie je een puntenwolk(je).

Probeer aan de hand van de vorm van deze puntenwolk te raden welk model het best bij deze wolk zou passen.

Controleer met je GR je antwoord op vraag a).

Karel heeft de volgende tabel gevonden:

p	0,0	0,2	0,8	2,1	2,9	4,4	6,0	7,0	7,7	9,3	10,4
q	0,0	0,7	2,0	4,5	5,9	8,2	10,5	11,9	12,8	14,9	16,3

Hij vermoedt door de vorm van de puntenwolk, en ook omdat het punt (0, 0) in de tabel staat, dat hier sprake is van een machtsfunctie.
Laat zien dat PwrReg met p als onafhankelijke variabele en q als afhankelijke variabele hetzelfde verband oplevert als het verband dat je krijgt met q als onafhankelijke variabele en p als afhankelijke variabele

Als je een voorwerp uit de koelkast haalt en in de woonkamer neerlegt dan zal de temperatuur daarvan langzaam toenemen en naderen naar de kamertemperatuur.
Daarvoor geldt de formule T(t) = T_k - a · e^kt
Daarin is T_k de kamertemperatuur, en t de tijd in minuten met t = 0 op het tijdstip dat het voorwerp uit de koelkast wordt gehaald.

Leg uit dat deze formule ook te schrijven is als T(t) = T_k - a · b^t

De snelheid van opwarming hangt af van de grootte van het verschil tussen de temperatuur van het voorwerp en de omgevingstemperatuur. Als dat verschil kleiner wordt gaat het opwarmen steeds trager.

Leg uit wat daaruit volgt voor de grootte van b.

Voor een omgevingstemperatuur van 18ºC geldt T(t) = 18 - a • b^t
Een onderzoeker meet de volgende tabel voor T en t:

t	0	1	2	3	4	5	6	7	8	9	10
T	5,5	8,5	11,2	12,7	13,8	15,1	15,8	16,1	16,8	17,1	17,2

Met het eerste en laatste punt uit deze tabel kan de onderzoeker a en b bepalen.
Hij doet dat en vindt afgerond a = 5,5 en b ≈ 0,7597

Laat zien hoe hij aan die waarden komt.

Bereken de som van het kwadraat van de residuen bij deze formule voor T(t)

Als je de formule verandert in T(t) - 20 = a • b^t kun je uit een tabel van 18 - T en t ook via regressie de constanten a en b vinden.

Voer die regressieanalyse uit, en geef een vergelijking voor T(t).

Bereken hoeveel procent de som van het kwadraat van de residuen door deze tweede methode is gedaald vergeleken met de eerste methode.

De bioloog Meeh vond voor de huidoppervlakte (H) van verschillende diersoorten de volgende formule

H = c · G^a

(met H in dm² en het gewicht G in kg)
c is een constante die afhangt van de betreffende diersoort.
Concrete metingen van H en G bij een aantal mensen leverde de volgende resultaten :

G	57	68	76	76	82	91	97	111	124
H	166	181	201	203	211	223	236	265	281

Bepaal de beste waarden voor c en a aan de hand van deze meetwaarden. Ga na dat de TI deze waarden berekent met een logaritmische transformatie van de data en lineaire regressie.