De Continuïteitscorrectie.

© h.hofstede (h.hofstede@hogeland.nl)

Op een golfbaan worden vaak verkeerd geslagen golfballen door de spelers niet teruggevonden. Na sluitingstijd van de baan gaan kinderen uit de buurt nog vaak golfballen zoeken in de struiken en bosjes om die dan  later voor een paar dubbeltjes per stuk te verkopen aan golfers. Voor het aantal gevonden golfballen per dag geldt de volgende tabel:
aantal ballen 18 19 20 21 22 23 24 25 26 27 28 29
frequentie 1 2 3 5 8 11 14 18 21 24 25 24
aantal ballen 30 31 32 33 34 35 36 37 38 39 40 41
frequentie 22 19 16 12 9 6 4 2 1 1 0 0
Dit aantal golfballen blijkt een bijna perfecte normale verdeling te volgen. Een grafiek op normaal-waarschijnlijkheidspapier geeft een kaarsrechte lijn! Als ik het aantal ballen in L1 van mijn GR zet, en de frequentie in L2, en dan via STAT-CALC-1VarStats(L1, L2) het gemiddelde en de standaarddeviatie bereken vind ik μ = 28,2 en σ = 3,94.
Hiernaast zie je hoe griezelig goed dat past bij de tabel. In de figuur hiernaast staat het histogram van de tabel in één figuur met de grafiek van Y1 = normalpdf(X, 28.2, 3.94).
Laten we het met een berekening gaan testen. We bekijken de kans dat er op een dag meer dan 32 ballen worden gevonden.

De normale verdeling levert op:
normalcdf(32, 1000, 28.2, 3.94) = 0,167
Ofwel 16,7%.

In de tabel zien we dat er 35 van de 248 dagen meer dan 30 ballen waren gevonden. Dat zou een percentage van 70/248 • 100% = 14,1% moeten opleveren!

Dat scheelt nogal veel met elkaar!!!!!

Wat is hier aan de hand?
Alhoewel de twee figuren heel goed met elkaar overeenkomen vinden we met onze berekeningen toch een groot verschil. Hoe kan dat? Dat kan nooit komen door die kleine stukjes histogram die boven de klokvorm uitsteken of er juist onder blijven. Die zijn veel te klein om een verschil van meer dan 2,5% te geven. Bovendien heffen die kleine afwijkinkjes boven en onder de klokvorm elkaar ook nog eens grotendeels op.
Waar dat verschil dan wél vandaan komt zie je als je de oppervlaktes die je berekent met het histogram en met de klokvorm wat nauwkeuriger met elkaar vergelijkt:

Kijk goed naar het verschil tussen de twee blauwe oppervlaktes in de figuren hierboven. Zie je het grote verschil?
Het zit hem erin dat de meetwaarden op de x-as in het histogram bij de middens van de staven staan. Dus in de linkerfiguur loopt de blauwe oppervlakte vanaf staaf 33 maar rechts toe. Maar in de rechterfiguur letten we niet op staven en nemen we gewoon de oppervlakte vanaf x = 32 naar rechts toe. Dat scheelt een halve staaf, kijk maar:

Dat komt dus doordat we een discrete verdeling (het aantal golfballen moet een geheel getal zijn) hier benaderen met een continue verdeling (de normale verdeling).
Om een betere overeenkomst te krijgen moeten we  een correctie uitvoeren: ook in de rechterfiguur moeten we die gele staaf niet meetellen. Dat kan als we als linkergrens niet 32 nemen, maar 32,5.
Dat geeft oppervlakte  normalcdf(32.5, 1000, 28.2, 3.94) = 13,8% en dat lijkt veel beter op de 14,1% van het histogram. Dat scheelt nog niet eens één golfbal (want die is 0,4%).

Deze correctie (van die halve staaf verschil) komt elke keer voor als je een discrete verdeling probeert te benaderen door de normale verdeling. Het heet de continuïteitscorrectie
Let dus goed op:
   

Elke keer als je iets met de normale verdeling berekent,
maar je wéét dat de verdeling eigenlijk discreet is,
dan moet je de continuïteitscorrectie toepassen.

   
Het scheelt elke keer een halve staaf. Je moet dus voor de grenzen van de normale verdeling 0,5 meer of minder nemen. Maak maar gewoon zo'n tekening als hierboven, dan zie je het vanzelf.
   
  OPGAVEN
   
1. De politie van Groningen houdt regelmatig drankcontroles bij automobilisten. Het blijkt dat het aantal bekeuringen dat men op een avond uitdeelt bij benadering normaal verdeeld is met een gemiddelde van  46 en een standaarddeviatie van 8.
Bereken zo nauwkeurig mogelijk de kans dat er op een avond minstens 56 bekeuringen worden uitgedeeld.
       

0,12

         
2. Geraldine bezorgt folders als bijbaantje. Ze krijgt van het distributiebedrijf de folders kant en klaar in pakketten , verpakt  in plastic. Het aantal folders in een pakket varieert van week tot week. Dat aantal is bij benadering normaal verdeeld met een gemiddelde van 15 en een standaarddeviatie van 5.
Hoe groot is de kans dat Geraldine in een bepaalde week pakketen van minder dan 12 folders moet bezorgen?
       

0,24

         
3. Joke en Karien spelen elke Zaterdagmiddag in de kroeg een spelletje biljart. Ze spelen dan steeds 50 beurten, en tellen het aantal punten dat ze scoren. Een beurt gaat net zolang door totdat je een keer géén punt scoort. Dus in theorie kun je in één beurt wel oneindig veel punten scoren.
Het aantal punten dat Joke scoort in 50 beurten is normaal verdeeld met een gemiddelde van 78 en een standaarddeviatie van 12. Voor Karien is het gemiddelde 75 en de standaarddeviatie 8.
         
  a. Hoe groot is de kans dat Joke op een zaterdagmiddag meer dan 85 punten scoort?
   

0,266

  b. Hoe groot is de kans dat het aantal punten dat Karien op zaterdagmiddag scoort meer is dan 65 maar minder dan 80?
   

0,608

c. Hoe groot is de kans dat Karien van Joke wint?
       

0,404

         
4. examenvraagstuk VWO Wiskunde A, 1993.

In deze opgave gaan we uit van een jaar van 365 dagen. In zo'n jaar telt januari 31, februari 28, maart 31, en april 30 dagen. In deze opgave worden de dagen van het jaar genummerd vanaf 1 januari. 1 februari heeft dan nummer 32.

Voor de bemesting van een grasland gebruikt men stikstofkunstmest. Uit onderzoek is gebleken dat de eerste bemesting in het voorjaar het hoogste rendement geeft als men direct na het bereiken van een temperatuursom (T-som) van 200ºC strooit.
De T-som is de som van de gemiddelde etmaaltemperaturen vanaf 1 januari. De gemiddelde etmaaltemperatuur per dag wordt telkens de volgende ochtend berekend en bij de vorige T-som opgeteld. Zodra de T-som meer dan 200 is, worden de boeren hiervan via de radio op de hoogte gebracht. De dag waarop dit gebeurt noemen we de melddag.
Uit gegevens over lange tijd blijkt dat het nummer van de melddag bij benadering normaal verdeeld is met een gemiddelde van 105 en een standaarddeviatie van 10. 

         
  a. Bereken de kans dat de melddag een dag in april is.
         
  De mest moet beslist droog bewaard worden. Boeren en tussenhandelaren nemen deze daarom niet in voorraad. Zodra de melddag is aangebroken, wordt de mest bij kunstmestfabriek KF besteld. KF moet daar rekening mee houden. Bij het opstellen van een voorlopig jaarschema in december wenst KF dat het risico van een onvoldoende voorraad stikstofkunstmest op de melddag kleiner is dan 1%.
         
  b. Bereken de uiterste datum die KF in het voorlopig jaarschema kan opnemen voor het op peil zijn van de voorraad kunstmest.
         
5. examenvraagstuk HAVO Wiskunde B, 2005 (gewijzigd).

Demografen houden zich onder andere bezig met de samenstelling, opbouw en groei van de bevolking. De groei van de bevolking is onder andere afhankelijk van het aantal geboorten. Neem aan dat het aantal geboorten per dag in Nederland bij benadering normaal verdeeld is met een gemiddelde van 550 en een standaardafwijking van 35.

         
  a. Bereken op hoeveel dagen van één jaar er in Nederland naar verwachting 500 of meer geboorten zullen zijn.
         
  Hieronder is de grafiek van een normale verdeling getekend met gemiddelde μ en standaardafwijking σ.
         
 

         
  b. Bij een continue normale verdeling is de kans dat een meting tussen  μ - σ en μ + 2σ ligt ongeveer 82%.
Leg dat uit.
         
  c. Bereken de kans dat op een willekeurige dag het aantal geboorten tussen μ - σ en μ + 2σ ligt.
         
         
De binomiale verdeling.
   
Dit is het bekendste voorbeeld van een discrete verdeling, immers hier gaat het steeds om de kans op een aantal successen en dat aantal moet uiteraard een geheel getal zijn. Weet je de eigenschappen en notatie nog?
   
• met terugleggen: kans elke keer gelijk
• elke keer twee mogelijkheden.
• volgorde is niet van belang.

n = aantal experimenten.
p = kans op succes per experiment.
k = gevraagde aantal successen.
   
Als het aantal experimenten groter wordt, dan gaat de binomiale verdeling steeds meer lijken op de normale verdeling (dat is een gevolg van de centrale limietstelling), dus kun je hem daarmee benaderen. Daarvoor moet je wél het gemiddelde en de standaarddeviatie weten en verder moet je, omdat je te maken hebt met een discrete verdeling, niet vergeten de continuïteitscorrectie toe te passen.
   
Gemiddelde en standaarddeviatie van de binomiale verdeling.
   
Het gemiddelde, daar zul je denk ik niet al teveel moeite mee hebben. Als bijvoorbeeld de kans op succes gelijk is aan 1/5 en je verricht 400 experimenten, hoeveel successen verwacht je dan? Nou, dat lijkt mij gelijk aan 1/5 deel  van 400 dus 80 successen. In 1/5 deel van de gevallen zul je immers succes hebben? En er zijn 400 "gevallen", nietwaar?

Met p en n in plaats van 1/5 en 400 geeft dat  μ = n p

De standaarddeviatie s is wat lastiger te bepalen. Als je graag wilt weten hoe dat gaat, lees dan het bewijs hieronder.
In ieder geval gelden de volgende twee formules:
   
Voorbeeld.

Gooi 40 keer met een dobbelsteen. Benader met de normale verdeling de kans dat je meer dan 8 zessen gooit en vergelijk deze kans met de exacte (binomiale) kans.
n = 40, p = 1/6 (succes = zes gooien).
μ = 40 • 1/6 = 62/3 en σ = √(40 • 1/65/6) = 2,357.
continuïteitscorrectie: meer dan 8 is vanaf 8,5.  Dus  normalcdf(8.5, 40, 62/3, 2,357) = 0,2183.
Binomiaal:  P(X >8) = 1 - P(X 8) = 1 - binomcdf(40, 1/6, 8) = 0,2127.
Dat klopt dus aardig!
   
6. We gooien 100 muntstukken en tellen het aantal keer “kop”. Dat aantal blijkt bij benadering normaal verdeeld met een gemiddelde van 50.
         
  a. Leg uit waarom de standaarddeviatie gelijk zal zijn aan 5.
     
  b. Bereken met deze normale benadering de kans dat bij zo’n experiment het aantal keer kop kleiner is dan 40, en kijk hoeveel deze benadering afwijkt van het exacte antwoord.
       

0,0003

   
7. Op een pakje thee staat dat er 100 gram inzit. Natuurlijk zullen niet alle pakjes thee 100 gram wegen. Het gewicht van de pakjes blijkt normaal verdeeld met een gemiddelde van 102 gram en een standaardafwijking van 2,2 gram. Het blijkt dat ongeveer 18% van de zakjes toch nog minder dan 100 gram bevat.
         
  a. Bereken dit percentage nauwkeuriger: geef twee decimalen.
       

18,17%

  Neem aan dat inderdaad 18% een gewicht van minder dan 100 gram heeft. Als je dan een steekproef van 300 zakjes neemt dan is er een kans dat er in deze steekproef minstens 60 zakjes zijn die minder dan 100 gram wegen. 
Bereken deze kans op twee manieren:
         
  b. Met de binomiale verdeling
   

0,2028

  c. Als benadering met de normale verdeling
       

0,2043

   
8. Iemand gooit een zuiver muntstuk een even aantal keer en wil berekenen hoe groot de kans is dat  precies de helft van de keren "kop" verschijnt.
         
  a. Bereken deze kans als hij 20 keer gooit exact. Geef je antwoord in 4 decimalen nauwkeurig.
   

0,1762

  b. Bereken deze kans als hij 20 keer gooit met een normale benadering. Geef je antwoord in 4 decimalen nauwkeurig.
       

0,1769

  Het verschil tussen de antwoorden op vraag a) en b) is niet zo groot. Het blijkt dat, als het aantal keer gooien (n) groter wordt, dat dan het verschil tussen de antwoorden steeds kleiner wordt.
         
  c. Leg uit waarom dat zo is
     
d. Bepaal met je GR vanaf welke n de normale benadering minder dan 0,0001 verschilt met de exacte berekening.
       

n = 78

         
9. Van alles worden tegenwoordig statistieken bijgehouden. 
Op het WK voetbal 2002 werd bijvoorbeeld bijgehouden hoeveel overtredingen er in een wedstrijd waren. De meeste overtredingen waren er in de wedstrijd  Japan - Rusland, de minste bij  Nigeria - Engeland:  "slechts" 19.  Het blijkt dat het aantal overtredingen per wedstrijd bij benadering normaal verdeeld is met een gemiddelde van 40 en een standaarddeviatie van 12.
         
  a. Hoeveel procent van de wedstrijden zal dan 62 of meer overtredingen hebben?
         
  Op 25 juni was de 1/8 finale tussen Nederland en Portugal qua aantal overtredingen een sportief dieptepunt. Er werden zóveel overtredingen gemaakt dat de kans op minstens dat aantal overtredingen vooraf gelijk was aan (afgerond) slechts  0,1%.
         
  b. Hoeveel overtredingen waren dat?    
         
  Rugby is een veel hardere maar ook veel eerlijker sport. Het aantal overtredingen bij rugby is veel kleiner dan bij voetbal. Het blijkt dat het aantal overtredingen in een rugbywedstrijd  alleen afhangt van de temperatuur! Hoe warmer, des te meer overtredingen. Experts hebben het volgende model opgesteld:
         
 

O = 3,4T - 38,4

         
  Deze formule is gebaseerd op een aantal metingen met een gemiddelde temperatuur van 19,8°C en een standaarddeviatie van  3,2°C.
         
  c. Als de formule hierboven precies klopt, welk van onderstaande klokvormen hoort dan bij het aantal overtredingen? Geef een duidelijke uitleg.
         
 

         
10. Je kunt een binomiaal experiment benaderen door een normale verdeling met een gemiddelde van 84 en een standaarddeviatie van 8
Hoe groot is dan de kans op 84 successen?
       

0,0498

11. Het aantal regendagen in een maand is in een bepaald gebied normaal verdeeld met een gemiddelde van 15.
Ga in deze opgave uit van een jaar met 12 maanden van 30 dagen.
Het blijkt dat de kans op minstens 19 regendagen in een maand gelijk is aan de kans op precies 11 of 12 regendagen.
Hoe groot is dan de kans dat een jaar precies 3 maanden heeft met 15 regendagen? Geef je antwoord in twee decimalen nauwkeurig.
         
         

© h.hofstede (h.hofstede@hogeland.nl)