h.hofstede (h.hofstede@hogeland.nl)

Gegevens ordenen.
Het maken van een histogram of staafdiagram hebben we in de vorige les behandeld en lijkt nu een makkie.
Toch kunnen er nog een paar complicaties optreden. Neem de volgende tabel met de gewichtsgegevens van 60 kinderen uit groep 8 van een aantal basisscholen:
gewichten kinderen groep 8.
40,2 39,5 34,2 45,3 46,8 40,4 38,4 35,2 37,1 40,3
44,4 45,6 50,2 39,4 39,2 37,6 33,3 33,5 50,0 41,7
30,9 47,1 54,2 53,6 42,1 35,3 35,6 39,9 47,2 35,4
34,7 50,8 37,8 51,4 36,1 50,1 35,8 34,6 30,7 48,9
46,6 37,7 45,0 49,8 30,5 45,9 44,1 48,7 44,0 50,7
46,3 34,3 31,6 46,2 48,6 46,9 46,5 38,7 56,7 43,3
Dat geeft het volgende histogram:

Dit histogram heeft twee nadelen.
Ten eerste is het nogal veel werk om te tekenen.
Ten tweede zijn er zoveel mogelijke staafjes dat elke niet meer dan een dun streepje is geworden, en met zoveel verschillende streepjes valt er niet heel makkelijk iets af te lezen uit dit histogram. Het zijn er zo vl.....

Het is minder werk, n overzichtelijker om de gemeten gewichten in groepen bij elkaar te nemen. Dat heet een klassenindeling maken, en dat gaat z:
Klassenindeling.
Als we de gewichten hierboven  in groepen bij elkaar nemen, dan zou dat de tabel hiernaast kunnen opleveren. En daarvan maak je natuurlijk makkelijk het volgende histogram:
 

 
gewicht aantal
30-35 10
35-40 16
40-45 9
45-50 16
50-55 8
55-60 1
Dat is veel duidelijker dan die "streepjesrommel"  bovenaan.
Er zijn natuurlijk bij deze gegevens veel mr klassenindelingen mogelijk. Het hangt er maar vanaf hoe je de groepen kiest. De drie histogrammen hieronder zouden allemaal van deze gegevens gemaakt kunnen worden. De eerste is die hierboven.
 

 
Daarbij is de schaalverdeling op de y-as z gekozen dat de totale oppervlakte van het histogram steeds gelijk is. Dat hebben we nou eenmaal graag....

Hoeveel klassen?

De grote vraag is nu natuurlijk:  welke indeling is het best? Ofwel: "Hoe breed moet je de klassen kiezen?". En daarmee samen hangt natuurlijk de vraag: "Hoeveel klassen moet je maken?"
Tja, teveel klassen heeft voordelen, maar ook nadelen, net als te weinig klassen.

In het algemeen neemt het aantal klassen toe als het aantal metingen toeneemt. Het tabelletje hiernaast is een aardige leidraad om het aantal klassen te bepalen (en daarmee natuurlijk ook de klassenbreedte).
Voor het geval hierboven zou dat 6-10 staven opleveren dus het groene of rode histogram. de blauwe dat zijn er echt veel te weinig!!
metingen klassen
<50
50-100
100-250
>250
5-7
6-10
7-12
10-20
Klassengrenzen.
   
Het is natuurlijk nodig om duidelijk aan te geven welke meetwaarden wl en welke niet in een bepaalde klassen vallen. In het voorbeeld hierboven waren de klassen  30-35 en 35-40 en 40-45  enz.
Maar daarbij rijst meteen de vraag:  in welke klassen hoort het getal 35,0 ? Zit dat bij 30-35  of bij 35-40 ??
Dat zul je bij je klassenindeling duidelijk moeten aangeven, en dat kan op twee manieren:

manier 1.   Gebruik de intervalnotatie
Dus  [30,35 betekent dat 30 er nog bij hoort en 35 niet; die zit in de volgende klasse.

manier  2.   Met -<
30 - < 35  betekent  "30 tot kleiner dan 35" dus hoort 30 er wl bij, en 35 niet. Het is dus precies hetzelfde als
[30,35〉
   
Discreet en Continu, afkappen of afronden  
Als onze meetgegevens discreet zijn, dat wil zeggen dat er alleen gehele waarden mogelijk zijn, dan is al dat "gedoe" hierboven niet nodig. Stel bijvoorbeeld dat je een histogram maakt voor het aantal goede antwoorden dat een klas op een multiple-choice proefwerk Engels heeft gegeven. Dan zou de klassenindeling er best uit kunnen zien als:

0-4     5-9     10-14     15-19   enz.

Van elke meetwaarde is direct duidelijk in welke klasse hij hoort.

Maar als de meetgegevens continu zijn, dat wil zeggen dat alle tussenliggende waarden in principe ook mogelijk zijn, dan is dat allemaal wat moeilijker. In het bovenstaande voorbeeld zou je dan niet weten in welke klassen de meetwaarde 9,6 zou horen....is dat bij 5-9.....  of bij 10-14....??? Je zult dat duidelijker moeten aangeven.

Neem het volgende voorbeeld van de diamantsorteerder:
   
  Voorbeeld:  de diamantsorteerder.
         
  Ruwe diamanten worden altijd eerst gesorteerd op gewicht. Een diamantsorteerder heeft vier bakken voor zich staan met daarop als volgt etiketten met de gewichten (in gram):
         
 
  Hij moet een groot aantal diamanten stuk voor stuk wegen en dan elk in n van de bakken hierboven doen. Maar de opschriften op de bakken zijn wat onduidelijk.....
Zo is het bijvoorbeeld niet duidelijk in welke bak een diamant van 6,8 gram moet. Moet je zeggen: "Het is nog geen zeven, dus in de bak van 5-6" of moet je zeggen "afgerond wl 7, dus in de bak van 7-8" ???
  Als de sorteerder de gewichten netjes gaat afronden naar het dichtstbijzijnde gehele gewicht, dan valt een gewicht van 6,8 gram  dus in de bak van 7-8.

Maar als hij wat lui is, en het laatste cijfer afplakt (of een weegschaal zonder cijfer achter de komma heeft) dan zal hij 6,8 gram in de bak van  5-6 doen.  Dat heet afkappen.
 
         
 

Welk van de twee procedures de man gebruikt bepaalt wl de precieze indeling van de klassen.
Bij afronden zijn de klassen gelijk aan  0,5 -< 2,5  en  2,5 -< 4,5  en  4,5 -< 6,5  en  6,5 -< 8,5.
Bij afkappen is dat  1 -< 3  en  3 -< 5  en  5 -< 7  en  7 -< 9

Welk van beiden gebruikt wordt is helemaal onduidelijk, kortom:

         
 
In zulke gevallen zal de gevolgde methode duidelijk gegeven moeten worden!
         
Om te onthouden:

Er is eigenlijk n duidelijk geval waarin altijd wordt afgekapt en niet afgerond, en dat is bij leeftijden! Als iemand bij een enqute zijn leeftijd moet invullen, dan vul je in het algemeen pas een bepaalde leeftijd in als je die werkelijk hebt bereikt.
Iemand die zijn twintigste verjaardag heeft gevierd vult in dat hij 21 is, net zolang totdat hij zijn 21ste verjaardag viert.
Iemand die 15,9 jaar oud is mag nog geen alcohol kopen, al is hij afgerond al best 16 jaar!! Probeer het mnaar bij de supermarkt.....
 
Bij leeftijden:  afkappen.
 
         

   

histogram

   

frequentiedichtheid.

         
1. Maak van de volgende tabellen een klassenindeling en teken een histogram.
         
  a. Hier staan de gewichten van een groot aantal  zilvermeeuwen ( in grammen):
         
   
1110 1068 1005 957 902 1076 1024 780 760 755
893 733 1079 1224 1066 976 962 870 895 1120
948 1053 1131 975 940 908 910 1205 930 1040
775 967 1035 1059 1068 849 938 843 1200 1038
1241 1147 966 1228 1127 1002 1204 999 967 1001
983 875 1109 859 938 1131 842 1102 828 986
         
  b. Hier staan de gemiddelde temperaturen van de dagen in juni in een bepaald jaar (in C):
         
   
20,0 13,5 12,8 16,4 17,2 18,0 15,4 19,1 21,3 22,4
25,6 25,2 14,7 16,3 16,3 17,8 20,2 23,4 22,1 19,6
14,2 20,4 20,5 21,1 23,6 22,8 25,1 19,5 18,3 19,6
         
2. In het histogram hieronder staan alle proefwerkcijfers van een heel kwartaal van een klas.
Maak een nieuw histogram waarbij het aantal klassen tot een beter aantal wordt teruggebracht.
         
 

         
3. Een buurtwerker heeft het volgende histogram gemaakt, waarin het aantal diefstallen in de wijk over de laatste maanden staat gegeven:
         
 

         
  Hij wil een praatje gaan houden op de buurtavond om te waarschuwen voor het toenemende aantal diefstallen de laatste maanden. Alhoewel het in het begin van het jaar nog erger was, neemt de diefstal langzaamaan weer toe! Kijk maar naar die laatste drie staven van het histogram!!
         
  Maak een nieuw histogram met klassenbreedte twee maanden en laat zien dat daaruit zou volgen dat de diefstal eigenlijk continu aan het afnemen is.
         
         
4. Hiernaast staat een histogram getekend, met daaronder drie andere histogrammen. Welk van die drie zouden kunnen horen bij de gegevens van het bovenste histogram?
         
 

         

h.hofstede (h.hofstede@hogeland.nl)