voorspellingen


Voorspellingen.	© h.hofstede (h.hofstede@hogeland.nl)

Als we aan de hand van een puntenwolk een regressielijn van x op y hebben opgesteld, dan kunnen we die lijn natuurlijk gebruiken om van nieuwe x-waarden de bijbehorende y te voorspellen. (We zagen al eerder dat het regressie-effect er daarbij voor zorgt dat extremen waarden een voorspelling opleveren die "meer naar het gemiddelde" toe ligt.).
De vraag is nu eigenlijk:

Hoe betrouwbaar zijn die voorspellingen?

Het zal je hopelijk intussen duidelijk zijn dat bij hoge (positieve of negatieve) correlatie, de voorspellingen betrouwbaar zijn, en bij lage correlatie onbetrouwbaar. Bij hoge correlatie liggen de gemeten punten bijna op een rechte lijn, en zal de voorspelling daar waarschijnlijk ook weinig van afwijken.

Maar hoe goed is nou zo'n voorspelling?
Hóe hangt de nauwkeurigheid van r af?
Welke afwijkingen van de voorspelling zijn te verwachten?

Allemaal vragen waarvan het antwoord in de residuen d_i terug is te vinden.
Dat waren die blauwe afwijkinkjes in de figuur hiernaast. Als die groot zijn, is de voorspelling onnauwkeurig, als ze klein zijn nauwkeurig.
Daarom wordt als maat voor de betrouwbaarheid van de voorspelling de standaardafwijking van deze residuen genomen. Die geeft immers goed de spreiding van de residuen aan.

fout in voorspelling = standaardafwijking van de residuen.

Die schattingsfout noemen we σ_d(de standaardafwijking van de residuen).
Die is gelukkig erg makkelijk te berekenen:
d = y - (ax + b) = y - ax - b dus d + ax + b = y
Om de standaarddeviatie te berekenen moet je de kwadraten van de afzonderlijke standaarddeviaties optellen:
σ_d² + σ_ax² + σ_b² = σ_y²
Maar omdat a en b constanten zijn is σ_ax = a× σ_x en is σ_b = 0
Dus σ_d² + a² × σ_x² = σ_y² ofwel σ_d² = σ_y² - a² × σ_x²
Als je dat combineert met de eerder gevonden vergelijking a = r × ^σ^y/_σ_x dan geeft dat:

en daaruit volgt dan eenvoudig:

Kortom de gevonden voorspelde waarde is normaal verdeeld met als gemiddelde de y-waarde op de regressielijn, en als standaarddeviatie σ_d. (dit alles nog onder de stilzwijgende aannames dat de residuen "willekeurig" ofwel "normaal verdeeld" zijn, hieronder gaan we daar dieper op in....).
Als dat zo is, dan kunnen we met de normale verdeling wel weer uitrekenen hoe groot de kans is dat de werkelijke waarde tussen bepaalde grenzen zal liggen.

voorbeeld.
Een puntenwolk heeft x_gem = 12 met σ_x = 4.0 en y_gem = 20 met σ_y = 6.2 en r = 0,8
Hoe groot is de kans dat een nieuw punt in deze wolk met x = 14 een y heeft die groter is dan 24?

a = r × ^σ^y/_σ_x = 0.8 × ^6.2/_4.0 = 1,24 en de regressielijn gaat door (12, 20)
dus 20 = 1,24 × 12 + b ⇒ b = 5,12.
De regressielijn is y = 1,24x + 5,12
De voorspelling voor x = 14 is dan y = 1,24 × 14 + 5,12 = 22,48
Voor de standaarddeviatie geldt σ_d = 6,2 √(1 - 0,8²) = 3,72
De kans op meer dan 24 is dan normalcdf(24, ∞ , 22.48, 3.72) = 0,3414

OPGAVEN

Neem in de volgende opgave aan dat toetscijfers continu zijn (dus dat in principe elke waarde mogelijk is).

In de eerste toetsweek van de examenklassen blijkt er een duidelijke positieve correlatie te bestaan tussen de behaalde wiskunde-B cijfers en de wiskunde-D cijfers.
De wiskunde-B cijfers zijn normaal verdeeld met een gemiddelde van 5,2 en een standaarddeviatie van 1,4.
De wiskunde-D cijfers zijn normaal verdeeld met een gemiddelde van 6,7 en een standaarddeviatie van 2.1.

Helaas is de wiskunde-D toets van Klazien kwijtgeraakt!!!
Op de wiskunde-B toets had ze een 6.0.
Haar wiskunde leraar stelt voor om haar, volgens de regressietheorie (met de wiskunde B toets als oorzaak), ongezien een 7,8 te geven.

Daaruit berekent Klazien snel dat de correlatiecoëfficiënt ongeveer gelijk is geweest aan 0,92.

Toon dat aan.

Hoe groot is ongeveer de kans dat Klazien op de wiskunde D toets een onvoldoende had?

0,0025

Men vermoedt dat er een verband is tussen het geboortegewicht (G in gram) van een baby en de draagtijd (D in dagen). Een langere draagtijd lijkt een groter geboortegewicht tot gevolg te hebben. Metingen leverden onderstaande tabel.

D	221	224	240	247	250	250	256	267	271
G	1900	2650	2875	2400	2140	2990	3000	3100	3500

Geef een vergelijking van de regressielijn.

D = 21,4G - 2555

Neem aan dat de residuen normaal verdeeld zijn.
Stel dat bij mijzelf de draagtijd gelijk was aan 260 dagen. Hoe groot is dan de kans dat mijn geboortegewicht minder dan 2800 gram was? Geef je antwoord in twee decimalen nauwkeurig.

0,27

Een groot aantal jaren heeft een fruitkweker het gemiddelde gewicht van zijn appels en het gemiddelde aantal uren zonneschijn per dag bijgehouden.
Het gewicht van de appels was normaal verdeeld, met een gemiddelde van 172 g en een standaarddeviatie van 12 g. Het aantal uren zon was ook normaal verdeeld, met een gemiddelde van 4,3 uur en een standaarddeviatie van 1,1 uur.

Het blijkt dat er een correlatiecoëfficiënt van 0,86 is. Neem de uren zon als oorzaak en het gewicht als gevolg,

Hoeveel procent van de appels in een jaar met gemiddeld 4,8 uren zon zullen een gewicht tussen de 170 en 175 g hebben?

25,4%

Bereken voor de onderstaande tabel de standaarddeviatie van de residuen, σ_d, op twee manieren.

Reken alle residuen uit, zet die in een lijst van je GR en bereken daarna van die lijst de standaarddeviatie.

σ_d = 1,34

Bereken de correlatiecoëfficiënt r en vervolgens met de formule hierboven de standaarddeviatie van de residuen.

x	20	21	22	23	25	26	28	28	30	31	33	33	36	38
y	18	16	18	15	16	14	13	16	14	12	10	14	12	8

r = -0,874, σ_y = 2,752
σ_d = 1,34

Bij een groot aantal proefpersonen is de bloeddruk gemeten en het cafeïnegebruik. Men vermoedde namelijk dat een hoge bloeddruk vaak het gevolg is van een hoog cafeïnegebruik. Het cafeïnegebruik (in mg per dag) was normaal verdeeld met een gemiddelde van 400 en een standaarddeviatie van 150.
De bloeddrukwaarden (bovendruk in mm Hg) waren ook normaal verdeeld met een gemiddelde van 122 en een standaarddeviatie van 14.

Voor iemand die 500 mg cafeïne per dag gebruikt voorspelde men naar aanleiding van dit onderzoek een bloeddruk van 130 mg Hg.

Hoe groot was de correlatiecoëfficiënt van dit onderzoek?

r = 0,857

Hoe groot is de kans dat deze persoon een bloeddruk van meer dan 140 zal hebben?

8,3%

Hoe groot zal de kans op een bloeddruk van meer dan 140 zijn voor iemand die 600 mg cafeïne gebruikt?

29%

Scedasticiteit.

Ik heb, om eerlijk te zijn, bij de afleiding van de formule voor σ_d stiekem iets verzwegen......
Het zit hem in die regel waar ik voor de berekening van s, de kwadraten optelde: σ_d² + σ_ax² + σ_b² = σ_y²
Maar dat geldt alleen als de variabelen onafhankelijk van elkaar zijn!!!!!
Dus dat gaat ervan uit dat σ_d voor elke x hetzelfde is.

Het gaat er eigenlijk van uit dat de y-waarden bij een bepaalde x elke keer normaal verdeeld zijn met dezelfde standaarddeviatie.

Zoiets als in de figuur hiernaast.....

Die mini-klokvormpjes geven de verdeling van alle y-waarden bij een bepaalde x aan. Scedasticiteit betekent "verspreiding" en we noemen een puntenwolk homoscedastisch als de spreiding in de y-waarden overal gelijk is (dan hebben alle klokvormpjes hiernaast dezelfde standaarddeviatie). Als dat niet het geval is, heet zo'n puntenwolk heteroscedastisch, en in dat geval mag je de formule voor σ_d hierboven NIET gebruiken!

Het komt regelmatig voor dat de residuen steeds groter worden als x groter worden. Of juist steeds kleiner. Je ziet dat effect het duidelijkst aan de residuplot. Als de residuen naar één kant toe steeds groter worden dan is er iets verdachts aan de hand...
Hieronder zie je zo'n puntenwolk met bijbehorende residuplot. Aan beiden is eigenlijk wel te zien dat deze puntenwolk heteroscedastisch is.

Het waaiert naar rechts toe uit, dus dat betekent dat σ_d groter wordt als x groter wordt. Hier zul je zeker de bovenstaande formule voor σ_d niet mogen gebruiken, en kun je daarom weinig zeggen over de betrouwbaarheid van de voorspelling.

Normaal verdeeld?

Als de residuen inderdaad "willekeurig" zijn, dan zullen ze normaal verdeeld moeten zijn (met uiteraard gemiddelde μ = 0). Als dat niet zo is, dan kun je hun standaarddeviatie σ_d wel uitrekenen, maar daar kun je vervolgens niets mee.
Neem bijvoorbeeld de puntenwolk hieronder.

Linksboven zie je de puntenwolk met de regressielijn y = 0,35x + 3,33 en correlatiecoëfficiënt r = 0,4. Linksonder staat de bijbehorende residuplot. Maar als je die residuen op normaal waarschijnlijkheidspapier tekent, dan komt daar helemaal geen rechte lijn uit. De residuen zijn dus absoluut niet normaal verdeeld! Residuen zo rond de 0 komen haast niet voor, en tussen de 1 en 2,5 en tussen de -1 en -2,5 juist erg vaak. Het lijkt erop dat we hier te maken hebben met twee aparte populaties

Als je bijvoorbeeld van de beide "deelpuntenwolken" hiernaast de correlatiecoëfficiënten uitrekent vind je r = 0,87 voor de bovenste wolk en voor de onderste r = 0,96.