© h.hofstede (h.hofstede@hogeland.nl)

Covariantie.
       
In deze les gaan we een manier bekijken om te bepalen hoeveel twee variabelen "aan elkaar verbonden zijn". Wat daar precies mee wordt bedoeld wordt later wel duidelijk. Laten we beginnen met een eenvoudige kansverdeling van twee variabelen, zoals hier linksonder.
       

       
Omdat we kijken naar de ligging van de variabelen ten opzichte van elkaar, doet de plaats van deze hele "puntenwolk" in ons assenstelsel er niet toe.  In de rechterfiguur hebben we de oorsprong op het punt (xG, yG) gekozen. We bekijken dan van elk punt de afwijkingen  (x - xG)  en (y - yG) ten opzichte van dat "centrale punt" (dat is (5, 4) in deze figuur).

Laten we het product  (x - xG) • (y - yG)  eens gaan bekijken....

In de groene gebieden hiernaast is dat product positief (rechtsboven plus • plus, linksonder min • min), en in de rode gebieden hiernaast negatief.
Als je nou voor elk punt in de figuur dat product berekent en dan al die producten bij elkaar optelt krijg je een aardig idee van hoe de punten ten opzichte van elkaar verdeeld liggen.
Immers als dat totale product positief wordt zullen de punten vooral van linksonder naar rechtsboven liggen, (veel positieve bijdragen), en als het negatief wordt zullen de punten vooral van linksboven naar rechtsonder liggen (veel negatieve bijdragen)

Als het product ongeveer nul wordt, zullen er in de rode gebieden ongeveer evenveel punten liggen als in de groene. Dat is zo als de punten "zomaar" willekeurig verspreid liggen. 

       
Dit totale product noemen we de covariantie, en we korten het af met Cov(x, y) of ook wel  σXY  (we zullen later zien dat het nogal lijkt op een standaarddeviatie, vandaar...). 
Als je niet alle losse stippen in de figuur bekijkt, maar alleen bij elke mogelijke uitkomst 
       
Als je alle "stippen" uit de figuur meetelt, dan moet je voor de gemiddelde waarde van  (x - xG)(y - yG) nog delen door het aantal punten (n). In bovenstaand geval zijn er  10 stippen, dus n = 10.
Dat zou geven: 
Cov(x, y) =  {(-2 • -2) + (-1 • -1) + (-1 • -1) + 0 + 0 + (1 • 1) + (1 • 1) + (2 • 2) +  (-1 • 1) + (1 • -1)}/10  =  10/10 = 1
Als je  alleen sommeert over alle (x, y) van de uitkomstenmogelijkheden, dan moet je als wegingsfactor nog wel al die (x - xG)(y - yG) vermenigvuldigen met de kans pxy  (in bovenstaand voorbeeld zijn er 7 mogelijke uitkomsten met kansen  1/10, 1/10, 1/10, 1/10, 2/10, 2/10, 2/10)
Dat zou geven:
Cov(x, y) =  (-2 • -2) 1/10 + (-1 • -1)2/10 + 02/10 + (1 • 1)2/10 + (2 • 2)1/10 + (-1 • 1)1/10 + (1 • -1) 1/10 =  1
       
Daar komt (uiteraard) het zelfde uit.
Er zijn dus twee mogelijke definities voor de covariantie, afhankelijk of je met kanstabellen of met puntenwolken bezig bent.
       
bij kansverdelingen:  

   
bij puntenwolken:

       
De bovenste som gaat over alle mogelijke uitkomsten, de onderste over alle punten.
Laten we die bovenste som eens uitwerken:
       
Σ(x - xG)(y - yG) • pxy 
Σ(xypxy  - xGypxy - xyGpxy + xGyG pxy )
Σxy pxy - ΣxGy pxy  - ΣxyG pxy + ΣxGyG pxy 

Maar die xG en yG zijn constanten dus die mag je ook wel voor die somtekens zetten:
Σxy pxy   -   xG Σy pxy   -   yG Σx • pxy  +   xGyG Σpxy 
       
De eerste term is niets anders dan de verwachtingswaarde van xy
Het somteken van de tweede term is gewoon yG  dus de tweede term is gelijk aan  xGyG
Het somteken van de derde term is gewoon xG  dus de tweede term is gelijk aan  xGyG 
Het somteken van de laatste term is 1, dus de laatste term is gelijk aan xGyG

Conclusie:  
Cov(x, y) = E(xy) - xGyG
       
       
Maar eerder (in deze les) hadden we voor de variantie  σ2  al de volgende formule afgeleid:    σ2 = E(x2) - xG2
Je ziet dat de variantie gewoon een speciaal geval van de covariantie is  (namelijk als je neemt x = y),  Je zou de covariantie daarom kunnen zien als een soort "gemeenschappelijke variantie" van x en y.
Logische naam dus....
       
Stelling:  Als x en y onafhankelijk zijn,  dan is  σxy = 0
  Bewijs:
Voor twee onafhankelijk stochasten x en y  geldt:  p(x, y) = p(x) • p(y)
 

Maar omdat alle x  gemiddeld even ver van xG afliggen  (dûh: dat is nou juist de definitie van een gemiddelde!) zal die eerste som nul zijn. En op dezelfde manier die tweede som óók. Daar staat dus  0 • 0 = 0
       
Correlatiecoëfficiënt r.
       
Er zit nog één klein nadeeltje aan deze covariantie.

Stel bijvoorbeeld dat je een puntenwolk hebt (of een kansverdeling van twee variabelen) met op de x-as het gewicht (in kg) van een aantal basisschoolkinderen, en op de y-as hun lengte (in cm). Dan heb je een puntenwolk en daarvan zou je de covariantie kunnen uitrekenen om te bekijken in hoeverre die twee dingen (gewicht en lengte) elkaar versterken of met elkaar samenhangen.
(Ik verwacht trouwens een positieve covariantie, want het lijkt mij dat langere kinderen gemiddeld ook zwaarder zijn, maar dit terzijde).

OK, stel dat we een waarde voor de covariantie hebben gevonden......
Maar als we de lengte van de kinderen in meters in plaats van in centimeters hadden genomen, dan waren alle y-waarden 100 keer zo klein geworden, dus alle (y - yG) ook, dus de covariantie ook!  Of als we inches hadden genomen in plaats van centimeters waren ze allemaal 2,54 keer zo klein geworden, dus de covariantie ook. En precies het zelfde geldt bij een andere eenheid voor de gewichten!

Zo'n covariantie die nogal afhangt van welke (willekeurige) schaal we hebben genomen is een onbetrouwbaar getal. Zo'n getal zegt niet zoveel. Het zou beter zijn om de covariantie te delen door de "eenheid" van de x-schaal en de "eenheid" van de y-schaal. Dat zou een soort "relatieve covariantie" geven die onafhankelijk is van de gekozen schaal.
Hebben we zo'n handige "eenheid" van de schaal?
Jazeker!  Neem gewoon de standaarddeviatie!!  Dat is immers precies het getal dat aangeeft hoe ver de gemeten waarden uit elkaar liggen.

Als we de covariantie delen door σx en door σy dan krijgen we een schaalonafhankelijke covariantie en die heet de correlatiecoëfficiënt (r):
       

       
Wil je daar meer over weten, dan moet je de  lessenserie "correlatie en regressie" op deze site maar bekijken  (lessen R8)

Het voorbeeld aan het begin heeft  (met de GR)   σx = 2,3664  en  σy = 1,1832  en  σxy = 1
dus dat zou geven  r =  1/(1,1832 • 2,3664) ≈ 0,36
       
uitgebreid slotvoorbeeld.
       
Iemand gooit met drie dobbelstenen en telt twee dingen:  Z = het aantal zessen  en  D = het aantal getallen boven de 3.
Laten we de theorieën uit deze les daarop gaan toepassen.

De tweedimensionale kansverdeling met bijbehorende tabel zie je hieronder.
       

       
De grootte van de rode stippen is in overeenstemming met de kans genaakt. De getallen in de tabel zijn het aantal keer uit de 216, dus voor de kansen moet je alles nog door 216 delen. Helemaal rechts en helemaal onder staan uiteraard gewoon de binomiale verdelingen op aantal zessen/aantal boven 3  (n = 3,  p = resp.  1/6 en 1/2)

DG = (27 • 0 + 81 • 1 + 81 • 2 + 27 • 3)/216 =  11/2   (maar dat had je via  n p = 3 • 1/2  ook gevonden uiteraard).
ZG = (125 • 0 + 75 • 1 + 15 • 2 + 1 • 3)/216 = 1/2   (en  dat had je via  n p = 3 • 1/6  ook gevonden uiteraard).

Hieronder zie je nogmaals het diagram met nu bij elke stip de bijdrage aan de covariantie (blauw). Let op de stippellijnen die het vlak in vier stukken verdelen en die aangeven waar de bijdrage aan de covariantie positief/negatief is. Het centrale punt is die blauwe stip  (11/2, 1/2).
       

       
Dat geeft uit de tabel:
Cov(Z,D) =  {0,75 • 27 + 0,25 • 54  + -0,25 • 36 + -0,75 • 8 + -0,25 • 27 + 0,25 • 36 + 0,75 • 12 + 0,75 • 9 + 2,25 • 6 + 3,75 • 1}/216  = 0,2153

Zoals verwacht een positief getal, immers als het aantal zessen groter wordt, zal ook gemiddeld het aantal getallen boven de 3 groter worden. 

Voor de standaarddeviaties geldt:   σZ = 0,6455  en  σD = 0,8660
Om eerlijk te zijn heb ik die met mijn GR berekend, maar je kunt natuurlijk ook de formule uit de binomiale verdeling gebruiken  (deze les): σ = √(np(1 - p))
Dat geeft σZ = √(3 • 1/65/6)  en  σD = √(3 • 1/21/2) en daar komt ongetwijfeld hetzelfde uit (ik durf het niet te controleren).

Voor de correlatiecoëfficiënt geldt tenslotte:    r = (0,2153)/(0,8660 • 0,6455) ≈ 0,38
       
  OPGAVEN
       
1. Twee stochasten x en y hebben de volgende gezamenlijke verdeling:
       
 
  x
1 2 3
y 1 0,40 0,20 0,20
2 0,10 0,05 0,05
       
  a. Bereken  σxy  en  r
       
  b. Zijn x en y afhankelijk of onafhankelijk?
       
2. Iemand gooit met 4 dobbelstenen en telt het aantal even getallen (E) en ook het aantal  vieren (V)
Maak hiervan een kansverdeling en bereken de covariantie en de correlatiecoëfficiënt.
       
     

© h.hofstede (h.hofstede@hogeland.nl)