© h.hofstede (h.hofstede@hogeland.nl)

Drie gemiddelden vergelijken.
       
We bekijken de productie van drie machines die hetzelfde product produceren, maar waarvan de productiehoeveelheden wat schommelen (door allerlei onbekende redenen). Van elke machine wordt vijf keer een steekproef genomen en dat geeft de volgende tabel met resultaten.
       
machine steekproef gemiddelde
A
B
C
48.4   49.7   48.7   48.5   47.7 
56.1   56.3   56.9   57.6   55.1
52.1   51.1   51.3   52.1   51.4
48.6
56.4
51.6
       
Het overall-gemiddelde van alle steekproeven is  52.2
De vraag is nu natuurlijk:   zijn deze verschillen te wijten aan toevallige schommelingen of zijn de machines echt verschillend? Ofwel:  komen die drie verschillende gemiddeldes door toevallige schommelingen of ligt er een verschillende μ aan ten grondslag?
Laten we voorlopig een nulhypothese opstellen:    H0:  er is geen verschil:   μA = μB = μC 
Als we de standaarddeviatie bekijken van de drie gemiddelde waardes uit de laatste kolom, dan vinden we σ = 3,93

Maar ja, die waarden van μ en σ zeggen niet alles, want de volgende tabel geeft precies dezelfde waarden:
       
machine steekproef gemiddelde
A
B
C
54.6   45.7   56.7   37.7   48.3 
53.4   57.5   54.3   52.3   64.5
56.8   44.8   50.7   56.5   49.6
48.60
56.40
51.68
       
Ga zelf maar na dat ook nu geldt  μ = 52,2  en  σ = 3,93.
Toch zijn de tabellen nogal verschillend, en dat zie je waarschijnlijk het best door een plaatje te maken:
       

       
De metingen uit de eerste tabel liggen duidelijk in drie "groepjes" per machine bij elkaar. De metingen in de tweede tabel zijn veel meer random verdeeld over de hele populatie. Het lijkt erop dat er dit aan de hand is:
       

       
De eerste tabel lijkt afkomstig van drie verschillende machines  met elk hun eigen μ.  In het tweede geval lijkt het er meer op dat er één grote populatie is waarbij die verschillende kleuren willekeurige schommelingen zijn. In het eerste geval zou ik daarom concluderen dat de μ's verschillend zijn (dus H0 verwerpen).

Onze  nulhypothese was dat er géén onderliggende verschillende waarden van μ zijn: H0:   μ1 = μ2 = μ3

Als drie metingen nemen we de gemiddelden van de machines:  48.6,  56.4, 51.6  uit de tabel. Die hebben gemiddelde waarde 52,2.
De variantie van deze drie machine-gemiddelden is:
σ2 =   1/(3 - 1) • {48.6 - 52.2)2 + (56.4 - 52.2)2 + (51.6 - 52.2)2 } = 15,48

Laten we ook de drie varianties van de meetwaarden per machine berekenen (uit de eerste tabel):
σA2 = 1/(5 - 1) • {(48,4 - 48,60)2 + (49,7 - 48,60)2 + (48,7 - 48,60)2 + (48,5 - 48,60)2 + (47,7 - 48,60)2} = 0,52
σB2 = 1/(5 - 1) • {(56,1 - 56,40)2 + (56,3 - 56,40)2 + (56,9 - 56,40)2 + (57,6 - 56,40)2 + (55,1 - 56,40)2} = 0,87
σC2 = 1/(5 - 1) • {(56,7 - 51,68)2 + (51,5 - 51,68)2 + (51,5 - 51,68)2 + (52,1 - 51,68)2 + (51,5 - 51,68)2} = 0,22

Het gemiddelde van die drie varianties is  0,5367  (afgerond)
We hebben nu twee gemiddelde varianties:  de 15,48  en de  0,5367.
•   15,48  =  variantie van de drie gemiddeldes. Weet je wat?  Vanaf nu noem ik hem  VG
•   0,5367  = gemiddelde van de drie varianties. Weet je wat?  Vanaf nu noem ik hem  GV

Als je die eerste nou erg groot vindt vergeleken met de tweede dan zul je waarschijnlijk te maken hebben met het plaatje van de drie klokvormen van die eerste tabel.  Als je ze ongeveer gelijk vindt zal je waarschijnlijk te maken hebben met het plaatje van die ene klokvorm van de tweede tabel.
We berekenen daarom de "variantie-verhouding F": 
       

       
Als H0 klopt, dan heb je dus eigenlijk één grote populatie met variantie V waar je willekeurig drie steekproeven uit neemt.
Dan zal gelden  F = 1,  immers: 
• VG = V/n  (weet je nog wel van vroeger:  σG = σ/n)  dus  nVG = V
• het gemiddelde van die drie varianties (GV) zal ook ongeveer gelijk  zijn aan V; ze zijn alle drie immers ongeveer V?

Maar als H0 NIET waar is, dan geven de verschillende waarden van μ aanleiding tot extra spreiding en zal  VG groot zijn vergeleken met GV. In die gevallen wordt F groter dan 1.

Dus wordt onze F-toets:
 

H0:   er is geen verschil:  F = 1
H1:   er is wel verschil:     F > 1


En daarmee is het weer precies zo'n toets geworden als we al gewend waren.  Als we weten hoe F verdeeld is  (wat de kansen op de verschillende F-waarden zijn) dan kunnen we weer een overschrijdingskans berekenen, een significantieniveau gebruiken en daarmee beslissen of H0 verworpen of aangenomen wordt. Het hele bekende riedeltje.
Kortom:  Hoe is F verdeeld?

De F-verdeling(en).

De F-verdeling is voor elke vrijheidsgraad verschillend. Sterker nog:  de verdeling hangt zowel af van het aantal vrijheidsgraden van de teller van F  als van het aantal vrijheidsgraden van de noemer. En om het nog erger te maken hangt de kritieke F-waarde  (de waarde waarbij H0 net wel/niet wordt verworpen) uiteraard ook nog eens af van het gekozen significantieniveau α.
Hier heb je een tabel voor  α = 0,05, maar eigenlijk is dit typisch werk voor een computerprogramma.

       
α = 0,05
 

vrijheidsgraden van de noemer van F

vrijheidsgraden
van de teller van F
1 2 3 4 5 6 8 10 20 40
1
2
3
4
5
161
18,5
10,1
7,71
6,61
200
19,0
9,55
6,94
5,79
216
19,2
9,28
6,59
5,41
225
19,2
9,12
6,39
5,19
230
19,3
9,10
6,26
5,05
234
19,3
8,94
6,16
4,95
239
19,4
8,85
6,04
4,82
242
19,4
8,79
5,96
4,74
248
19,4
8,66
5,90
4,56
251
19,5
8,59
5,72
4,46
254
19,5
8,53
5,63
4,36
6
7
8
9
10
5,99
5,59
5,32
5,12
4,96
5,14
4,74
4,46
4,26
4,10
4,76
4,35
4,07
3,86
3,71
4,53
4,12
3,84
3,63
3,48
4,39
3,97
3,69
3,48
3,33
4,28
3,87
3,58
3,37
3,22
4,15
3,73
3,44
3,23
3,07
4,06
3,64
3,35
3,14
2,98
3,87
3,44
3,15
2,94
2,77
3,77
3,34
3,04
2,83
2,66
3,67
3,23
2,93
2,71
2,54
12
14
16
18
20
4,75
4,60
4,49
4,41
4,35
3,89
3,74
3,63
3,55
3,49
3,49
3,34
3,24
3,16
3,10
3,26
3,11
3,01
2,93
2,87
3,11
2,96
2,85
2,77
2,71
3,00
2,85
2,74
2,66
2,60
2,85
2,70
2,59
2,51
2,45
2,75
2,60
2,49
2,41
2,35
2,54
2,39
2,28
2,19
2,12
2,43
2,27
2,15
2,06
1,99
2,30
2,13
2,01
1,92
1,84
30
40
60
120
4,17
4,08
4,00
3,92
3,84
3,32
3,23
3,15
3,07
3,00
2,92
2,84
2,76
2,68
2,60
2,69
2,61
2,53
2,45
2,37
2,53
2,45
2,37
2,29
2,21
2,42
2,34
2,25
2,17
2,10
2,27
2,18
2,10
2,02
1,94
2,16
2,08
1,99
1,91
1,83
1,93
1,84
1,75
1,66
1,57
1,79
1,69
1,59
1,50
1,39
1,62
1,51
1,39
1,25
1,00
       
In de twee tabellen uit ons voorbeeld waren er 3 - 1 = 2 vrijheidsgraden in de noemer en 12 in de teller (immers elk van de drie metingen heeft  5 - 1 = 4 vrijheidsgraden). Dat geeft in de tabel een kritieke waarde  F = 3,89.

De eerste tabel leverde  VG = 15,48  en  GV = 0,5367    dus  F =  3 • 15,43/0,5367 = 86,2  en dat is veel groter dan 3,89 dus kunnen we concluderen dat er wel een verschil is tussen de machines.
De tweede tabel levert  VG = 15,48  en  GV = 35,75  (reken zelf maar na dat σA2 = 57,23,  σB2 = 24,26 en σC2 = 25,76).
Dus in het tweede geval is  F = 3 • 15,43/35,75 = 1,29 en dat is kleiner dan 3,89 dus concluderen we dat er geen verschil is tussen de machines.

Alles staat nog eens  samengevat in het volgende ANOVA-schema (ANalysis OVAriance)
       

       
De 15,43 wordt ook wel de verklaarde variantie genoemd, want de verklaring daarvan is het verschil in machines.
De 0,5367 is de onverklaarde variantie:  die komt door random fluctuaties in de metingen.

Neem bijvoorbeeld de vierde meetwaarde van de tweede machine; die is 57,6.
•  Dat scheelt  57,6 - 52,2 = 5,4 van het gemiddelde van alle 15 meetwaarden.
•  De verklaarde afwijking is  56,4 - 52,2 = 4,2   (de afwijking van machine B t.o.v. het overall-gemiddelde)
•  De onverklaarde afwijking is  57,6 - 56,4 = 1,2  (de afwijking van deze meetwaarde t.o.v. het machine-gemiddelde)
Samen geldt  5,4 = 4,2 + 1,2.
Ik hoop dat je dat logisch vindt, want hier staat natuurlijk niets anders dan:
Maar daaruit volgt dat, als je alle kwadratische afwijkingen in de tabel optelt,  net zoiets geldt:
Het bewijs daarvan staat hiernaast.
Hier staat dus 
(totale kwadratische afwijking) =  (verklaarde kwadratische afwijking)  +  (onverklaarde kwadratisch afwijking)
Meteen maar even checken met onze tabel?  (totale gemiddelde was 52,2)
       
machine steekproef gemiddelde
A
B
C
48.4   49.7   48.7   48.5   47.7 
56.1   56.3   56.9   57.6   55.1
52.1   51.1   51.3   52.1   51.4
48.6
56.4
51.6
       

•

Totale kwadratische afwijking:
(48.4 - 52.2)2 + (49.7 - 52.2)2
+ ... + (56,1 - 52.2)2 + 56.3 - 52.2)2 + ... + (52.1 - 52.2)2 + (51.1 - 52.2)2 + ...
66,88  + 91,68 + 2,68 = 161,24

•

Verklaarde kwadratische afwijking:
5 • {(48,6 - 52.2)2 + (56.4 - 52.2)2 + (51.6 - 52.2)2 } = 154,8

•

Onverklaarde kwadratische afwijking:
(48.4 - 48.6)2 + (49.7 - 48.6)2 + ... + (56.1 - 56.4)2 + (56.3 - 56.4)2 + ... + (52.1 - 51.6)2 + (51.1 - 51.6)2 + ...
= 2,08 + 3,48 + 0,88 =  6,44
Check:   161,24 = 154,8 + 6,44  klopt inderdaad.
Je zou het ANOVA-schema dan ook zó kunnen opstellen:
       
  kwadratische
afwijkingen
vrijheidsgraden variantie F-waarde
verklaard
onverklaard
154,8
6,44
2
12
154,8/2 = 77,4
6,44/12 = 0,5367
77,4/0,5367 =  86,2
totaal 161,24 14    
       
       
       

© h.hofstede (h.hofstede@hogeland.nl)