h.hofstede (h.hofstede@hogeland.nl)

Een verdeling testen.
       
Als je de χ2-verdeling kunt gebruiken om de kwaliteit van een fit te testen (zie de vorige les), dan kun je er dus ook mee kijken hoe goed een serie meetgegevens aan een bepaalde verdeling voldoet. Dat is immers ook een soort van "fit-testen".

Neem bijvoorbeeld het aantal meisjes in een gezin van 5 kinderen. Als bij elke geboorte de kans op een meisje hetzelfde is, dan verwachten we dat deze verdeling binomiaal is, met n = 5 en p = de kans op een meisje. Stel dat we de volgende nulhypothese willen toetsen:
       

H0:  de verdeling van meisjes is binomiaal.

       
Laten we nemen  α = 0,05.

Een uitgebreid onderzoek onder 632 gezinnen van 5 kinderen leverde de volgende tabel op:
       
aantal meisjes frequentie
0 9
1 90
2 150
3 242
4 114
5 27
       
We willen nu graag deze gemeten frequenties vergelijken met de verwachte frequenties. Maar het probleem is:  die verwachte frequenties kunnen we niet berekenen want we weten niet wat p (kans op een meisje) is. Zomaar  p = 0,5 stellen is niet goed, want we testen de hypothese "de verdeling is binomiaal" en niet de hypothese "de verdeling is binomiaal met p = 0,5"
Daarom maken we uit onze metingen eerst een schatting van p 
Er waren  0 9 + 1 90 + 2 150 + 3 242 + 4 114 + 5 27 = 1707 meisjes bij  5 632 = 3160 geboorten. Dat is een kans van  1707/3160 = 0,54
We schatten daarom   p = 0,54 en kunnen nu wel de verwachte frequenties berekenen:
       
aantal meisjes frequentie (O) verwachte frequentie (E) (O - E)2/E
0 9 13,01 1,24
1 90 76,40 2,42
2 150 179,38 4,81
3 242 210,58 4,69
4 114 123,60 0,75
5 27 29,02 0,14
       
Dat geeft  χ2 = 14,05  (de som van de laatste kolom).
In de vorige les was het aantal vrijheidsgraden steeds n minder dan het aantal metingen. Maar omdat we hier de p = 0,54 eerst uit de gegevens zlf hebben bepaald moet het aantal vrijheidsgraden nu ng n minder worden. Dus niet 6  - 1 = 5  maar  6 - 1 - 1 = 4. Als je de eerste 5 frequenties zou weten en ook dat p = 0,54 zou je de laatste frequentie (27) immers gewoon daaruit kunnen berekenen.
In het algemeen geldt:
       

aantal vrijheidsgraden = (aantal metingen) - 1 - (aantal geschatte parameters)

       
Met 4 vrijheidsgraden vinden we bij α = 0,05 een  grenswaarde van  χ2 = 9,49  (tabel van de vorige les)
Onze gevonden χ2 is groter, dus we moeten H0 verwerpen. De verdeling is niet binomiaal.
       
Merk nog op dat het wl nodig is om die p eerst uit de metingen te schatten . Als je gewoon botweg vooraf stelt  p = 0,5 dan weet je niet hoeveel van de χ2 afkomstig is van het feit dat de verdeling niet binomiaal is, en hoeveel van het feit dat de verdeling niet rond p = 0,5 gecentreerd is.
Merk ook nog op dat je bij het testen van een normale verdeling twee parameters moet schatten, namelijk μ en σ. Daarom zal het aantal vrijheidsgraden met twee afnemen.
       
  OPGAVEN
       
1. Ik heb precies een jaar lang elke dag mijn gewicht bijgehouden en merkte dat dat nogal schommelt.
Dit waren mijn gegevens:
       
 
gewicht in grammen frequentie
7900-7950 5
7950-8000 12
8000-8050 43
8050-8100 76
8100-8150 92
8150-8200 75
8200-8250 47
8250-8300 8
8300-8350 7
       
  Onderzoek of mijn gewicht een normale verdeling volgt. Neem  α = 0,05.
       
2. Een examinator van het CBR (Centraal Bureau Rijvaardigheid) neemt elke dag 8 examens af.
Voor het aantal geslaagden daarbij geldt de volgende frequentietabel:
       
 
aantal geslaagden frequentie
0 0
1 7
2 14
3 20
4 13
5 8
6 2
7 1
8 0
       
  Onderzoek of dit een binomiale verdeling is. Neem  α = 0,01.
       
     
       

h.hofstede (h.hofstede@hogeland.nl)