© h.hofstede (h.hofstede@hogeland.nl)

Voorspellingen.
 
Als we aan de hand van een puntenwolk een regressielijn van x op y hebben opgesteld, dan kunnen we die lijn natuurlijk gebruiken om van nieuwe x-waarden de bijbehorende y te voorspellen. (We zagen al eerder dat het regressie-effect er daarbij voor zorgt dat extremen waarden een voorspelling opleveren die "meer naar het gemiddelde" toe ligt.).
De vraag is nu eigenlijk:
 
Hoe betrouwbaar zijn die voorspellingen?

 

Het zal je hopelijk intussen duidelijk zijn dat bij hoge (positieve of negatieve) correlatie, de voorspellingen betrouwbaar zijn, en bij lage correlatie onbetrouwbaar. Bij hoge correlatie liggen de gemeten punten bijna op een rechte lijn, en zal de voorspelling daar waarschijnlijk ook weinig van afwijken.

Maar hoe goed is nou zo'n voorspelling?
Hóe hangt de nauwkeurigheid van r af?
Welke afwijkingen van de voorspelling zijn te verwachten?

Allemaal vragen waarvan het antwoord in de residuen di terug is te vinden.
Dat waren die blauwe afwijkinkjes in de figuur hiernaast. Als die groot zijn, is de voorspelling onnauwkeurig, als ze klein zijn nauwkeurig.
Daarom wordt als maat voor de betrouwbaarheid van de voorspelling de standaardafwijking van deze residuen genomen. Die geeft immers goed de spreiding van de residuen aan.

   

fout in voorspelling  =  standaardafwijking van de residuen.

   
Die schattingsfout noemen we σd (de standaardafwijking van de residuen).
Die is gelukkig erg makkelijk te berekenen:
d = y - (ax + b) = y - ax - dus  d + ax + b = y
Om de standaarddeviatie te berekenen moet je de kwadraten van de afzonderlijke standaarddeviaties optellen:
σd2 + σax2  + σb2 = σy2 
Maar omdat a en b constanten zijn is  σax = a× σx  en is  σb = 0
Dus  σd2 + a2 × σx2 = σy2    ofwel   σd2 =  σy2  -  a2 × σx2
Als je dat combineert met de eerder gevonden vergelijking  a = r × σy/σx  dan geeft dat:
en daaruit volgt dan eenvoudig:  

   
Kortom de gevonden voorspelde waarde is normaal verdeeld met als gemiddelde de y-waarde op de regressielijn, en als standaarddeviatie σd. (dit alles nog onder de stilzwijgende aannames dat de residuen "willekeurig"  ofwel "normaal verdeeld" zijn, hieronder gaan we daar dieper op in....).
Als dat zo is, dan kunnen we met de normale verdeling wel weer uitrekenen hoe groot de kans is dat de werkelijke waarde tussen bepaalde grenzen zal liggen.
 
voorbeeld.

Een puntenwolk heeft  xgem = 12  met σx = 4.0  en  ygem = 20 met  σy = 6.2  en r = 0,8
Hoe groot is de kans dat een nieuw punt in deze wolk met x = 14  een  y heeft die groter is dan 24?

a = r × σy/σx = 0.8 × 6.2/4.0 = 1,24   en de regressielijn gaat door  (12, 20) 
dus  20 = 1,24
× 12 + b    b = 5,12.
De regressielijn is  y
= 1,24x + 5,12
De voorspelling voor x = 14 is dan  y = 1,24 × 14 + 5,12 = 22,48
Voor de standaarddeviatie geldt  σd =  6,2 (1 - 0,82) = 3,72
De kans op meer dan 24 is dan  normalcdf(24, ∞ , 22.48, 3.72) =  0,3414
   
Scedasticiteit.  
   
Ik heb, om eerlijk te zijn, bij de afleiding van de formule voor σd stiekem iets verzwegen......
Het zit hem in die regel waar ik voor de berekening van s, de kwadraten optelde:  σd2 + σax2  + σb2 = σy2 
Maar dat geldt alleen als de variabelen onafhankelijk van elkaar zijn!!!!!
Dus dat gaat ervan uit dat σd voor elke x hetzelfde is.

Het gaat er eigenlijk van uit dat de y-waarden bij een bepaalde x elke keer normaal verdeeld zijn met dezelfde standaarddeviatie.

Zoiets als in de figuur hiernaast.....

Die mini-klokvormpjes geven de verdeling van alle y-waarden bij een bepaalde x aan. Scedasticiteit betekent "verspreiding"  en we noemen een puntenwolk homoscedastisch  als de spreiding in de y-waarden overal gelijk is (dan hebben alle klokvormpjes hiernaast dezelfde standaarddeviatie). Als dat niet het geval is, heet zo'n puntenwolk heteroscedastisch, en in dat geval mag je de formule voor σd hierboven NIET gebruiken!
   
Het komt regelmatig voor dat de residuen steeds groter worden als x groter worden. Of  juist steeds kleiner. Je ziet dat effect het duidelijkst aan de residuplot. Als de residuen naar één kant toe steeds groter worden dan is er iets verdachts aan de hand...
Hieronder zie je zo'n puntenwolk met bijbehorende residuplot. Aan beiden is eigenlijk wel te zien dat deze puntenwolk heteroscedastisch is.
   

   
Het waaiert naar rechts toe uit, dus dat betekent dat σd  groter wordt als x groter wordt. Hier zul je zeker de bovenstaande formule voor σd niet mogen gebruiken, en kun je daarom weinig zeggen over de betrouwbaarheid van de voorspelling.
   
 Normaal verdeeld?
   
Als de residuen inderdaad "willekeurig" zijn, dan zullen ze normaal verdeeld moeten zijn (met uiteraard gemiddelde μ = 0).  Als dat niet zo is, dan kun je hun standaarddeviatie σd wel uitrekenen, maar daar kun je vervolgens niets mee.
Neem bijvoorbeeld de puntenwolk hieronder.
   

   
Linksboven zie je de puntenwolk met de regressielijn y = 0,35x + 3,33 en correlatiecoëfficiënt r = 0,4. Linksonder staat de bijbehorende residuplot. Maar als je die residuen op normaal waarschijnlijkheidspapier tekent, dan komt daar helemaal geen rechte lijn uit. De residuen zijn dus absoluut niet normaal verdeeld! Residuen zo rond de 0 komen haast niet voor, en tussen de 1 en 2,5 en tussen de -1 en -2,5 juist erg vaak. Het lijkt erop dat we hier te maken hebben met twee aparte populaties
 

Als je bijvoorbeeld van de beide "deelpuntenwolken" hiernaast de correlatiecoëfficiënten uitrekent vind je r = 0,87 voor de bovenste wolk en voor de onderste r = 0,96.





 

   
 
 
  OPGAVEN
   
1. Bij de sprintkampioenschappen voor lange baan schaatsen wordt er twee keer een 500 meter gereden. Elke schaatser mag een keer in de binnenbaan eindigen en een keer in de buitenbaan.
Er blijkt een grote correlatie te bestaan tussen de tijd van de eerste 500 m van een schaatser en de tijd van de tweede 500 m van diezelfde schaatser.

De eerste 500 meter is de gemiddelde tijd  35,6 seconden met een standaardafwijking van  0,8 seconden
De tweede 500 meter is de gemiddelde tijd  36,0 seconden met een standaardafwijking van 0,9 seconden.

Een schaatser heeft de eerste 500 meter een tijd van 35,0 gereden.
Hij berekent dat hij volgens de regressietheorie dan op de tweede 500 meter een tijd van  35,5 had moeten rijden

Daaruit berekent hij dat de correlatiecoëfficiënt ongeveer gelijk is geweest aan 0,74.
       
  a. Toon dat aan.
     
  b. Hoe groot is de kans dat hij op de tweede 500 meter sneller dan  35,4 reed?
       
2.

Men vermoedt dat er een verband is tussen het suikergehalte (S in %)  dat de druiven van een wijngaard in een bepaald jaar hebben en het totaal aantal zonuren (Z) in dat jaar.
Het aantal zonuren ziet men als oorzaak, en het suikergehalte als gevolg.
Metingen leverden onderstaande tabel.

       
 
aantal zonuren (Z) 2250 2460 2600 2820 3010 3080 3120 3150 3240 3310
suikergehalte (S, in %) 12,4 14,2 13,5 14,8 14,6 15,3 16,9 15,9 17,1 17,3
       
  a. Geef een vergelijking van de regressielijn.
       
  b. Neem aan dat de residuen normaal verdeeld zijn.
Als er in een jaar 3000 zonuren zijn, hoe groot is dan de kans dat het suikergehalte hoger is dan 15%?
Geef je antwoord in twee decimalen nauwkeurig.
       
3. Van een groot aantal auto's heeft men het gewicht gemeten en het benzineverbruik.
Het gewicht was normaal verdeeld met een gemiddelde van  1800 kg en een standaardafwijking van  400 kg.
Het benzineverbruik was ook normaal verdeeld met een gemiddelde van 7,5 liter per 100 km en een standaardafwijking van 2,2 liter per 100 km.

Het blijkt dat er een correlatiecoëfficiënt van 0,78 is. Neem het gewicht als oorzaak en het benzineverbruik als gevolg,

Hoe groot is de kans dat een auto van  2000 kg een benzineverbruik tussen de 8 en 10 liter per 100 km zal hebben?
       
       
4. Bereken voor de onderstaande tabel de standaarddeviatie van de residuen, σd, op twee manieren.
       
  a. Reken alle residuen uit, zet die in een lijst van je GR en bereken daarna van die lijst de standaarddeviatie.
     
  b. Bereken de correlatiecoëfficiënt r en vervolgens met de formule hierboven de standaarddeviatie van de residuen.
       
 
x 8 9 9 11 13 14 14 16 18 19 20 22 25 26
y 120 110 112 108 97 96 80 85 80 76 76 72 61 66
       
5. Bij een groot aantal rokers is de longcapaciteit (longinhoud in liter) gemeten en het nicotinegebruik (aantal sigaretten per dag). Men vermoedde namelijk dat een lage longinhoud vaak het gevolg is van een hoog nicotinegebruik. Het nicotinegebruik (in sigaretten per dag) was normaal verdeeld met een gemiddelde van 10,4 en een standaarddeviatie van 4,2.
De longinhoud was ook normaal verdeeld met een gemiddelde van 6,2 liter en een standaarddeviatie van 2,1 liter.

Voor iemand die 15 sigaretten per dag rookt voorspelde men naar aanleiding van dit onderzoek een longinhoud van 4,8 liter.
       
  a. Hoe groot was de correlatiecoëfficiënt van dit onderzoek?
     
  b. Hoe groot is de kans dat deze persoon een longinhoud van minder dan 4 liter zal hebben?
       
  c. Hoe groot is de kans op een longinhoud van meer dan 7 liter voor iemand die gemiddeld 10,6 sigaretten per dag rookt?
   
 

© h.hofstede (h.hofstede@hogeland.nl)