voorspellingen


	© h.hofstede (h.hofstede@hogeland.nl)

Voorspellingen.

Als we aan de hand van een puntenwolk een regressielijn van x op y hebben opgesteld, dan kunnen we die lijn natuurlijk gebruiken om van nieuwe x-waarden de bijbehorende y te voorspellen. (We zagen al eerder dat het regressie-effect er daarbij voor zorgt dat extremen waarden een voorspelling opleveren die "meer naar het gemiddelde" toe ligt.).
De vraag is nu eigenlijk:

Hoe betrouwbaar zijn die voorspellingen?

Het zal je hopelijk intussen duidelijk zijn dat bij hoge (positieve of negatieve) correlatie, de voorspellingen betrouwbaar zijn, en bij lage correlatie onbetrouwbaar. Bij hoge correlatie liggen de gemeten punten bijna op een rechte lijn, en zal de voorspelling daar waarschijnlijk ook weinig van afwijken.

Maar hoe goed is nou zo'n voorspelling?
Hóe hangt de nauwkeurigheid van r af?
Welke afwijkingen van de voorspelling zijn te verwachten?

Allemaal vragen waarvan het antwoord in de residuen d_i terug is te vinden.
Dat waren die blauwe afwijkinkjes in de figuur hiernaast. Als die groot zijn, is de voorspelling onnauwkeurig, als ze klein zijn nauwkeurig.
Daarom wordt als maat voor de betrouwbaarheid van de voorspelling de standaardafwijking van deze residuen genomen. Die geeft immers goed de spreiding van de residuen aan.

fout in voorspelling = standaardafwijking van de residuen.

Die schattingsfout noemen we σ_d(de standaardafwijking van de residuen).
Die is gelukkig erg makkelijk te berekenen:
d = y - (ax + b) = y - ax - b dus d + ax + b = y
Om de standaarddeviatie te berekenen moet je de kwadraten van de afzonderlijke standaarddeviaties optellen:
σ_d² + σ_ax² + σ_b² = σ_y²
Maar omdat a en b constanten zijn is σ_ax = a× σ_x en is σ_b = 0
Dus σ_d² + a² × σ_x² = σ_y² ofwel σ_d² = σ_y² - a² × σ_x²
Als je dat combineert met de eerder gevonden vergelijking a = r × ^σ^y/_σ_x dan geeft dat:

en daaruit volgt dan eenvoudig:

Kortom de gevonden voorspelde waarde is normaal verdeeld met als gemiddelde de y-waarde op de regressielijn, en als standaarddeviatie σ_d. (dit alles nog onder de stilzwijgende aannames dat de residuen "willekeurig" ofwel "normaal verdeeld" zijn, hieronder gaan we daar dieper op in....).
Als dat zo is, dan kunnen we met de normale verdeling wel weer uitrekenen hoe groot de kans is dat de werkelijke waarde tussen bepaalde grenzen zal liggen.

voorbeeld.

Een puntenwolk heeft x_gem = 12 met σ_x = 4.0 en y_gem = 20 met σ_y = 6.2 en r = 0,8
Hoe groot is de kans dat een nieuw punt in deze wolk met x = 14 een y heeft die groter is dan 24?

a = r × ^σ^y/_σ_x = 0.8 × ^6.2/_4.0 = 1,24 en de regressielijn gaat door (12, 20)
dus 20 = 1,24 × 12 + b ⇒ b = 5,12.
De regressielijn is y = 1,24x + 5,12
De voorspelling voor x = 14 is dan y = 1,24 × 14 + 5,12 = 22,48
Voor de standaarddeviatie geldt σ_d = 6,2 √(1 - 0,8²) = 3,72
De kans op meer dan 24 is dan normalcdf(24, ∞ , 22.48, 3.72) = 0,3414

Scedasticiteit.

Ik heb, om eerlijk te zijn, bij de afleiding van de formule voor σ_d stiekem iets verzwegen......
Het zit hem in die regel waar ik voor de berekening van s, de kwadraten optelde: σ_d² + σ_ax² + σ_b² = σ_y²
Maar dat geldt alleen als de variabelen onafhankelijk van elkaar zijn!!!!!
Dus dat gaat ervan uit dat σ_d voor elke x hetzelfde is.

Het gaat er eigenlijk van uit dat de y-waarden bij een bepaalde x elke keer normaal verdeeld zijn met dezelfde standaarddeviatie.

Zoiets als in de figuur hiernaast.....

Die mini-klokvormpjes geven de verdeling van alle y-waarden bij een bepaalde x aan. Scedasticiteit betekent "verspreiding" en we noemen een puntenwolk homoscedastisch als de spreiding in de y-waarden overal gelijk is (dan hebben alle klokvormpjes hiernaast dezelfde standaarddeviatie). Als dat niet het geval is, heet zo'n puntenwolk heteroscedastisch, en in dat geval mag je de formule voor σ_d hierboven NIET gebruiken!

Het komt regelmatig voor dat de residuen steeds groter worden als x groter worden. Of juist steeds kleiner. Je ziet dat effect het duidelijkst aan de residuplot. Als de residuen naar één kant toe steeds groter worden dan is er iets verdachts aan de hand...
Hieronder zie je zo'n puntenwolk met bijbehorende residuplot. Aan beiden is eigenlijk wel te zien dat deze puntenwolk heteroscedastisch is.

Het waaiert naar rechts toe uit, dus dat betekent dat σ_d groter wordt als x groter wordt. Hier zul je zeker de bovenstaande formule voor σ_d niet mogen gebruiken, en kun je daarom weinig zeggen over de betrouwbaarheid van de voorspelling.

Normaal verdeeld?

Als de residuen inderdaad "willekeurig" zijn, dan zullen ze normaal verdeeld moeten zijn (met uiteraard gemiddelde μ = 0). Als dat niet zo is, dan kun je hun standaarddeviatie σ_d wel uitrekenen, maar daar kun je vervolgens niets mee.
Neem bijvoorbeeld de puntenwolk hieronder.

Linksboven zie je de puntenwolk met de regressielijn y = 0,35x + 3,33 en correlatiecoëfficiënt r = 0,4. Linksonder staat de bijbehorende residuplot. Maar als je die residuen op normaal waarschijnlijkheidspapier tekent, dan komt daar helemaal geen rechte lijn uit. De residuen zijn dus absoluut niet normaal verdeeld! Residuen zo rond de 0 komen haast niet voor, en tussen de 1 en 2,5 en tussen de -1 en -2,5 juist erg vaak. Het lijkt erop dat we hier te maken hebben met twee aparte populaties

Als je bijvoorbeeld van de beide "deelpuntenwolken" hiernaast de correlatiecoëfficiënten uitrekent vind je r = 0,87 voor de bovenste wolk en voor de onderste r = 0,96.

OPGAVEN

Bij de sprintkampioenschappen voor lange baan schaatsen wordt er twee keer een 500 meter gereden. Elke schaatser mag een keer in de binnenbaan eindigen en een keer in de buitenbaan.
Er blijkt een grote correlatie te bestaan tussen de tijd van de eerste 500 m van een schaatser en de tijd van de tweede 500 m van diezelfde schaatser.

De eerste 500 meter is de gemiddelde tijd 35,6 seconden met een standaardafwijking van 0,8 seconden
De tweede 500 meter is de gemiddelde tijd 36,0 seconden met een standaardafwijking van 0,9 seconden.

Een schaatser heeft de eerste 500 meter een tijd van 35,0 gereden.
Hij berekent dat hij volgens de regressietheorie dan op de tweede 500 meter een tijd van 35,5 had moeten rijden

Daaruit berekent hij dat de correlatiecoëfficiënt ongeveer gelijk is geweest aan 0,74.

Toon dat aan.

Hoe groot is de kans dat hij op de tweede 500 meter sneller dan 35,4 reed?

Men vermoedt dat er een verband is tussen het suikergehalte (S in %) dat de druiven van een wijngaard in een bepaald jaar hebben en het totaal aantal zonuren (Z) in dat jaar.
Het aantal zonuren ziet men als oorzaak, en het suikergehalte als gevolg.
Metingen leverden onderstaande tabel.

aantal zonuren (Z)	2250	2460	2600	2820	3010	3080	3120	3150	3240	3310
suikergehalte (S, in %)	12,4	14,2	13,5	14,8	14,6	15,3	16,9	15,9	17,1	17,3

Geef een vergelijking van de regressielijn.

Neem aan dat de residuen normaal verdeeld zijn.
Als er in een jaar 3000 zonuren zijn, hoe groot is dan de kans dat het suikergehalte hoger is dan 15%?
Geef je antwoord in twee decimalen nauwkeurig.

Van een groot aantal auto's heeft men het gewicht gemeten en het benzineverbruik.
Het gewicht was normaal verdeeld met een gemiddelde van 1800 kg en een standaardafwijking van 400 kg.
Het benzineverbruik was ook normaal verdeeld met een gemiddelde van 7,5 liter per 100 km en een standaardafwijking van 2,2 liter per 100 km.

Het blijkt dat er een correlatiecoëfficiënt van 0,78 is. Neem het gewicht als oorzaak en het benzineverbruik als gevolg,

Hoe groot is de kans dat een auto van 2000 kg een benzineverbruik tussen de 8 en 10 liter per 100 km zal hebben?

Bereken voor de onderstaande tabel de standaarddeviatie van de residuen, σ_d, op twee manieren.

Reken alle residuen uit, zet die in een lijst van je GR en bereken daarna van die lijst de standaarddeviatie.

Bereken de correlatiecoëfficiënt r en vervolgens met de formule hierboven de standaarddeviatie van de residuen.

x	8	9	9	11	13	14	14	16	18	19	20	22	25	26
y	120	110	112	108	97	96	80	85	80	76	76	72	61	66

Bij een groot aantal rokers is de longcapaciteit (longinhoud in liter) gemeten en het nicotinegebruik (aantal sigaretten per dag). Men vermoedde namelijk dat een lage longinhoud vaak het gevolg is van een hoog nicotinegebruik. Het nicotinegebruik (in sigaretten per dag) was normaal verdeeld met een gemiddelde van 10,4 en een standaarddeviatie van 4,2.
De longinhoud was ook normaal verdeeld met een gemiddelde van 6,2 liter en een standaarddeviatie van 2,1 liter.

Voor iemand die 15 sigaretten per dag rookt voorspelde men naar aanleiding van dit onderzoek een longinhoud van 4,8 liter.

Hoe groot was de correlatiecoëfficiënt van dit onderzoek?

Hoe groot is de kans dat deze persoon een longinhoud van minder dan 4 liter zal hebben?

Hoe groot is de kans op een longinhoud van meer dan 7 liter voor iemand die gemiddeld 10,6 sigaretten per dag rookt?