h.hofstede (h.hofstede@hogeland.nl)

Frequentietabellen vergelijken
       
Laten we net als in de vorige les gewoon eens twee frequentieverdelingen nemen en die proberen met elkaar te vergelijken.
Hieronder staan de tijden die twee scholen van 120 leerlingen hebben gelopen op de 100 meter, ingedeeld in klassen.
       
tijd frequentie
klas A
frequentie
klas B
10.5-11.0
11.0-11.5
11.5-12.0
12.0-12.5
12.5-13.0
13.0-13.5
13.5-14.0
14.0-14.5
14.5-15.0
15.0-15.5
15.5-16.0
1
5
8
13
17
18
21
14
10
8
5
0
0
2
8
26
29
34
10
7
3
1
       
De vraag is:  hoeveel verschillen deze frequentieverdelingen?
Als je alleen het gemiddelde uitrekent dan vind je voor klas A  13,43  en voor klas B k.  Dat zegt dus niets.
Toch zijn er natuurlijk wel verschillen. We zullen dus andere manieren moeten vinden om die boven water te halen.

Cumulatieve Frequentiepolygoon.

Als je van deze twee verdelingen in n figuur een cumulatieve frequentiepolygoon maakt (deze les) dan krijg je zoiets:
       

       
Je ziet dat er ondanks hetzelfde gemiddelde wel degelijk verschillen zijn, want die beide figuren lopen op een aantal plaatsen aardig uit elkaar.
We spreken daarom af dat we als maat voor het verschil de maximale verticale afstand tussen beide grafieken nemen. Dat is dus het grootste verschil in cumulatieve frequenties dat voorkomt, dus het langste blauwe lijntje hieronder:
       

       
't Is natuurlijk handiger om dat af te lezen uit een tabel en niet uit een figuur. Het grootste verschil is 14,2% en is bij de klasse 12.0-12.5. Dit maximale verschil in cumulatieve percentage wordt ook wel afgekort max.Vcp genoemd. 

Is die 14,2 nou groot of klein?
We spreken het volgende als vuistregels af:
       

       
In ons voorbeeld zouden we dus moeten spreken van een klein verschil.

De Effectgrootte.

Je zou natuurlijk lekker lui kunnen zijn en gewoon het gemiddelde kunnen nemen om te kijken of er verschil tussen twee frequentieverdelingen is. Dat zou je in bovenstaand voorbeeld trouwens een verschil van NUL opleveren! MAar zo'n gemiddelde geeft, ook al is het niet nul, toch nog vaak een vertekend beeld.

Neem twee vrienden die beiden een trekvakantie hebben gehouden, en met elkaar vergelijken hoeveel afstand ze per dag aflegden. Stel dat ze beiden hun gemiddelde afgelegde afstand per dag uitrekenen en komen op een verschil van 8 km per dag. Vinden we dat dan veel of niet?
Nou, dat hangt er volgens mij nogal vanaf hoe groot die afstanden nou werkelijk waren. Als de vrienden beiden een wandelvakantie hielden zouden hun afstanden z kunnen zijn:

       
vriend A 8 6 5 10 9 8 8 4 7 11
vriend B 13 18 19 18 10 20 14 14 11 19
       
Vriend A legde gemiddeld 7,6 km af en vriend B  15,6 km dus inderdaad een verschil van 8 km. Maar je ziet dat vriend B veel meer aflegde. Zelfs elke dag meer en behoorlijk ook! De grootste afstand van A is de kleinste van B!!!
Maar als de vrienden met de auto erop uit trokken zouden dit hun afstanden kunnen zijn:
       
vriend A 135 176 288 120 89 156 203 152 103 195
vriend B 146 198 203 135 120 98 139 245 187 226
       
Vriend A legde nu gemiddeld 161,7 km af en vriend B 169,7 km. Weer een verschil van 8 km. Maar als je deze tabel bekijkt is er helemaal niet zoveel verschil tussen de getallen. Dat komt natuurlijk omdat de getallen veel groter zijn, dus die 8 verschil maakt niet zoveel uit.
Omdat de standaarddeviatie een maat is voor de spreiding in de getallen en dus meestal ook voor de grootte ervan, is het misschien een idee om het gevonden verschil te delen door de gemiddelde standaarddeviatie. Dat geeft een soort "relatief verschil". Dat noemen de we "Effectgrootte E"
       

       
(daarbij zorgen we dat er een positief getal uitkomt door μA groter dan μB te kiezen).
De beide gevallen van de vrienden hierboven zouden dan het volgende opleveren:
       
de loopvrienden:
μA = 7,6  en  σA = 2,06
μB = 15,6 en  σB = 3,44
 

       
de autovrienden:
μA = 161,7  en  σA = 55,03
μB = 169,7 en  σB = 46,23
 

       
Zoals je ziet in het tweede geval inderdaad een veel kleinere effectgrootte dan in het eerste geval.

Of het verschil gering, middelmatig of groot genoemd wordt zie je daarna als volgt:
       

       
Boxplots Vergelijken

Om twee verdelingen te vergelijken zou je ook kunnen kijken naar hun boxplots, immers daar staan niet alleen de gemiddelden (medianen) in te vinden, maar ook de spreiding (kwartielen). Hoe je dat kunt doen heb ik al in deze les omschreven.
Kijk dr maar, ik heb niet zo'n zin alles ng een keer op te schrijven 
       
Laten we nog wl even kijken hoe zo'n boxplot-vergelijking voor onze loop- en autovrienden hierboven zou aflopen:
       
de loopvrienden:
       
 

       
  A is de onderste B is de bovenste. Je ziet dat de boxen wl overlappen, maar dat de medianen beiden naast de andere boxplot liggen. We zouden het verschil in dit geval middelmatig noemen.
       
de autovrienden:
       
 

       
  Weer is A de onderste en B de bovenste. Je ziet nu dat beide medianen binnen de andere boxplot vallen. We zouden het verschil in dit geval klein noemen.
       
       
  OPGAVEN.
       
1. Examenopgave Havo, Wiskunde A,  2018.
       
 

Bij een bloedonderzoek worden het hemoglobinegehalte en de hoeveelheid rode bloedcellen gemeten. In de uitslag van het onderzoek staan van beide de gemeten waarden. Om deze uitslag te kunnen beoordelen, worden de gemeten waarden vergeleken met de bijbehorende referentiewaarden. Dit zijn de waarden zoals ze gevonden worden bij 95% van de gezonde mensen. In deze opgave bekijken we de referentiewaarden van volwassenen.

Het hemoglobinegehalte wordt uitgedrukt in millimol per liter (mmol/L) (een mol is een eenheid voor het aantal deeltjes) en de hoeveelheid rode bloedcellen in biljoenen per liter (1 biljoen = 1012). We gaan ervan uit dat het hemoglobinegehalte en de hoeveelheid rode bloedcellen van gezonde mannen normaal verdeeld zijn. Dit geldt ook voor het hemoglobinegehalte en de hoeveelheid rode bloedcellen van gezonde vrouwen.

In de tabel staan de referentiewaarden van het hemoglobinegehalte en van de hoeveelheid rode bloedcellen. Deze referentiewaarden liggen symmetrisch om het gemiddelde. Zo kun je in de tabel bijvoorbeeld aflezen dat 95% van de gezonde mannen een hemoglobinegehalte heeft tussen 8,6 mmol/L en 11,0 mmol/L.

       
 
  geslacht

referentiewaarden

hemoglobine man 8,6 - 11,0
  vrouw 7,6 - 10,0
rode bloedcellen man 4,4 - 5,8
  vrouw 4,0 - 5,3
       
  a. Bereken de standaardafwijking van de hoeveelheid rode bloedcellen van gezonde vrouwen. Geef je antwoord in biljoenen per liter en rond af op n decimaal.
     

0,325

  De standaardafwijking van het hemoglobinegehalte van zowel gezonde mannen als gezonde vrouwen is 0,6 mmol/L.
       
  b. Bereken met behulp van het formuleblad of het verschil tussen het hemoglobinegehalte van gezonde mannen en gezonde vrouwen gering, middelmatig of groot is.
       
2. Examenopgave Havo. Wiskunde A, 2018.
       
  Een lunchrestaurants probeert zijn klanten bewust te maken van de hoeveelheid kcal die ze bestellen. Dit restaurant presenteert daarom de calorie-informatie duidelijk zichtbaar bij het bestelpunt. Onderzoekers hebben aan de klanten van dit restaurant gevraagd of deze informatie effect had op hun bestelling. Die informatie hebben zij per klant gekoppeld aan zijn of haar kassabonnetje. De resultaten staan in de volgende tabel.
       
 
  aantal
kassabonnetjes
aantal kcal percentage
dat meer
dan 1000
kcal
bestelt
gemiddelde standaardafwijking
calorie-
informatie
wel
gelezen
568 713 301 17,5
calorie-
informatie
niet
gelezen
1237 766 584 23,0
       
  Op grond van de resultaten in deze tabel bespreken de onderzoekers de volgende stelling: Er bestaat een groot verschil in het aantal kcal per bestelling tussen klanten die de calorie-informatie wel hebben gelezen en klanten die de calorie-informatie niet hebben gelezen.

Onderzoek of deze stelling door de gegevens in deze tabel wordt ondersteund.
       
3. Examenopgave Havo, Wiskunde A, 2018.
       
  De Jamuna is een van de grootste rivieren van Bangladesh. In het regenseizoen kan de rivier wel bijna 12 km breed zijn. Op een bepaalde plaats van de Jamuna wordt gemeten hoeveel water (in m3) daar per seconde langs stroomt. Dit noemt men de waterdoorvoer. Deze varieert behoorlijk: in het regenseizoen kan de waterdoorvoer wel 100 000 m3 per seconde zijn, terwijl de waterdoorvoer in de droge tijd slechts 3000 m3 per seconde is.

Er is berekend hoe groot de waterdoorvoer in de maand januari van 1972 gemiddeld was. Dit werd ook gedaan voor alle andere januarimaanden in de periode 1973 tot en met 2007. Deze 36 waarden zijn samengevat met een boxplot. Deze boxplot staat in de figuur hieronder.
In diezelfde figuur staat ook een boxplot die hoort bij alle februarimaanden in de periode 1972 tot en met 2007. En net zo voor alle andere maanden in het jaar.
       
 

       
  Karin doet met behulp van het formuleblad de volgende uitspraak: Het verschil in gemiddelde waterdoorvoer tussen de julimaanden en de augustusmaanden in de periode 1972 tot en met 2007 is gering.
       
  a. Is deze uitspraak juist, onjuist, of is dat niet uit de figuur hierboven  af te leiden? Licht je antwoord toe.
       
  Bob doet ook een uitspraak: In april 1983 was de gemiddelde waterdoorvoer groter dan in februari 1983.
       
  b. Is deze uitspraak juist, onjuist, of is dat niet uit de figuur hierboven af te leiden? Licht je antwoord toe.
       
4. Examenopgave Havo, Wiskunde A, 2017
       
 

In een bedrijf wordt er gewerkt in drie ploegendiensten.
Tijdens elke dienst komen er storingen voor. Het productieproces wordt dan een aantal minuten stilgelegd totdat de storing verholpen is. Telkens wordt bijgehouden hoe lang de storing duurt. Na afloop van de dienst wordt de totale tijd van alle storingen genoteerd. Deze tijd noemt men de uitvaltijd. De directie wil dat de uitvaltijd zo klein mogelijk is.

Om te onderzoeken hoe groot de uitvaltijd is, heeft men van 16 werkweken van elk van de drie verschillende ploegendiensten de gemiddelde uitvaltijd en de standaardafwijking berekend. Zie de volgende tabel.

       
 
uitvaltijd per dag- of nachtdienst in minuten
  gemiddelde standaardafwijking
dagdienst A 36,75 1,10
dagdienst B 37,29 1,04
nachtdienst 29,39 1,53
       
 

Men vermoedt dat de lagere uitvaltijden tijdens de nachtdiensten te maken hebben met het feit dat de energietoevoer gedurende de nacht constanter is dan overdag. Daarom wordt de energietoevoer overdag verbeterd.

Na verloop van tijd blijkt dat de gemiddelde uitvaltijd van de A-diensten en B-diensten gelijk geworden is aan de gemiddelde uitvaltijd van de nachtdiensten. De standaardafwijkingen van de A-diensten en B-diensten zijn niet veranderd.

Bereken voor dagdienst B of het verschil in uitvaltijd tussen de oude en de nieuwe situatie groot, middelmatig of gering is.

       
5. Examenopgave Havo, Wiskunde A, 2016

Jaarlijks wordt voor een onderzoek aan een groot aantal personen gevraagd hun lengte te schatten. We noemen deze lengte de geschatte lengte. Daarnaast wordt de lengte nauwkeurig door een onderzoeker gemeten. We noemen deze lengte de werkelijke lengte.
De geschatte lengte en de werkelijke lengte worden vervolgens met elkaar vergeleken. Het blijkt dat mensen in het algemeen hun lengte te hoog schatten.

In het onderzoek van een bepaald jaar schatten de vrouwen hun lengte gemiddeld 0,9 cm hoger dan hun werkelijke lengte. De standaardafwijking van de werkelijke lengte was 6,0 cm. De standaardafwijking van de geschatte lengte was 6,2 cm.

Bepaal of het verschil tussen de werkelijke lengte en de geschatte lengte gering, middelmatig of groot is.

     
       
     
       
       

h.hofstede (h.hofstede@hogeland.nl)