toets van Wilcoxon


De toets van Wilcoxon. - ook wel de Mann-Whitney-toets-	© h.hofstede (h.hofstede@hogeland.nl)

Je zou het misschien niet zeggen, want ik vind hem er eerlijk gezegd niet al te snugger uitzien, maar Frank Wilcoxon hiernaast bedacht een toets om twee series metingen met elkaar te vergelijken.
We zagen dat vergelijken van twee series metingen ook al bij de tekentoets, maar daar ging steeds het om paarsgewijze metingen. Bij deze toets is dat niet meer zo. Sterker nog: beide groepen die met elkaar vergeleken worden hoeven niet eens even groot te zijn!

Sorry Frank, ik neem mijn opmerking van hierboven terug...

(Wilcoxon ontwikkelde de toets oorspronkelijk in 1945 voor twee even grote groepen, en de statistici Mann en Whitney maakten later een uitbreiding voor groepen van ongelijke grootte).

In de toets van Wilcoxon worden twee series getallen met elkaar vergeleken, waarbij de vraag is: welke serie levert de grootste waarden?

Wilcoxon bedacht iets slims voor een groep van n getallen en een groep van m getallen.
Frank is een grage prater dus ik laat hem graag zelf aan 't woord:

Eigenlijk zegt hij dus:
Stel dat er geen verschil is: H₀
Dan is de verwachtingswaarde voor de som van de rangnummers van de groep van n gelijk aan 0,5n(n + m + 1).
Als de meting daar te ver naast zit, dan is er wél verschil.

Voorbeeld.
Stel ik heb twee series getallen. Serie 1: 2-6-8-10-12 en Serie 2: 3-4-5-9-11-16-17-20
Zet de series op volgorde van kleine naar groot en geef ze een rangnummer:

getal	2	3	4	5	6	8	9	10	11	12	16	17	20
rang	1	2	3	4	5	6	7	8	9	10	11	12	13

de totale rang van de kleinste groep (de blauwe) is 1 + 5 + 6 + 8 + 10 = 30
De verwachte totale score van die groep zou moeten zijn 0,5n(n + m + 1) = 0,5 • 5 • (5 + 8+ 1) = 35
De grote vraag is nu: verschilt die 30 genoeg van de verwachte 35 om dit als een significant verschil te zien?
Als je intussen iets van de vorige lessen over toetsen hebt begrepen, dan zul je vast wel snappen dat het gaat om de vraag: Hoe groot is de kans op een minstens even grote afwijking? Juist! De overschrijdingskans!!

In het geval van de toets van Wilcoxon onderscheiden we nu twee gevallen.

GEVAL 1: Kleine steekproeven.

We noemen een steekproef klein als één van beide (of beide) groepen klein is

kleine steekproef: n ≤ 4 of m ≤ 9

Voor kleine steekproeven kun je die overschrijdingskans eigenlijk alleen maar berekenen door alle mogelijkheden uit te schrijven.

Voorbeeldberekening.
Stel; dat de kleinste groep uit twee getallen KK bestaat en de grootste groep uit 5 getallen GGGGG.
Dan staan in de tabel hiernaast alle 21 (7 nCr 2) mogelijke volgorden, met daarbij de score voor de kleinste groep.
Dat geeft de volgende kansen voor de scores van de kleinste groep:

score S	3	4	5	6	7	8	9	10	11	12	13
aantal keer	1	1	2	2	3	3	3	2	2	1	1
kans	0,047	0,047	0,095	0,095	0,143	0,143	0,143	0,095	0,095	0,047	0,047
cumulatief	0,047	0,095	0,190	0,286	0,429	0,571	0,714	0,910	0,905	0,952	1,000

Als we te maken hebben met α = 0,05 dan zie je dat alleen de scores van 3 en 13 significant zijn (kans 0,047).
Dus bij n = 2 en m = 5 is er met α = 0,05 alleen bij een score van 3 of 13 voor de kleinste groep te concluderen dat H₀ verworpen mag worden.

Nou kun je je voorstellen dat voor grotere waarden van n en m het nogal veel werk wordt om deze tabel te maken en de kans op alle scores te bepalen.
Gelukkig is dat voor je gedaan.
Het resultaat staat in de volgende tabel.

TABEL

volgorde	score n-groep
KKGGGGG	3
KGKGGGG	4
KGGKGGG	5
KGGGKGG	6
KGGGGKG	7
KGGGGGK	8
GKKGGGG	5
GKGKGGG	6
GKGGKGG	7
GKGGGKG	8
GKGGGGK	9
GGKKGGG	7
GGKGKGG	8
GGKGGKG	9
GGKGGGK	10
GGGKKGG	9
GGGKGKG	10
GGGKGGK	11
GGGGKKG	11
GGGGKGK	12
GGGGGKK	13

N.B. Bedenk goed dat in deze tabel de grenswaarden staan waarbij H₀ nog nét WEL verworpen mag worden.

GEVAL 2: Grotere steekproeven.

Grote steekproeven zijn alle steekproeven die niet kleine zijn:

grote steekproef : n ≥ 5 én m ≥ 10

Bij grotere steekproeven is het uitvoeren van de toets minder werk, omdat de som van alle scores in dat geval benaderd kan worden door een normale verdeling.
• De verwachtingswaarde m daarvan kennen we natuurlijk al: μ = 0,5n(n + m + 1).
• De standaarddeviatie is niet zomaar te verzinnen. De formule daarvan is σ = √(¹/₆• μ • m)

Als je deze formules eenmaal weet is het verder een makkie: net zoals bij de z-toets bereken je de overschrijdingskans van de score van de kleinste groep.

Denk daarbij wel aan de continuïteitscorrectie!
Je benadert immers hier scores met een normale verdeling terwijl je wéét dat het alleen gehele getallen kunnen zijn.

Voorbeeld.
Twee groepen bestaan uit de volgende waarden:
Groep 1: 4 - 6 - 7 - 15 - 18 - 25
Groep 2: 1 - 3 - 5 - 12 - 16 - 19 - 24 - 26 - 30 - 32
Is er verschil of niet? Neem a = 0,10

Het geeft de volgende scores:

waarde	1	3	4	5	6	7	12	15	16	18	19	24	25	26	30	32
score	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16

De totale score van de blauwe groep is 3 + 5 + 6 + 8 + 10 + 13 = 45
μ = 0,5n(n + m + 1) = 0,5 • 6 • (6 + 10 + 1) = 51
σ = √(¹/₆• m • m) = √(¹/₆• 51 • 10) = 9,2195
De meting is 45.
Dus de overschrijdingskans is normalcdf(0, 45.5, 51, 9.2195) = 0,275
Dat is veel groter dan α (0,10), dus de conclusie is: H₀ aannemen: er is géén significant verschil.

Daar zijn ze weer: de punten van aandacht!

1. Verdelingsvrij
Net als een tekentoets is ook deze toets verdelingsvrij. Dat betekent dat het niet uitmaakt hoe de getallen precies verdeeld zijn. Er hoeft niet te worden voldaan aan bijvoorbeeld een normale verdeling of zoiets. De eigenlijke verdeling doet er niet toe; we maken er immers zélf gewoon een nieuwe verdeling van.

2. Als de getallen gelijk zijn?
Waarschijnlijk had je deze oplossing zelf wel verzonnen: dan verdeel je de scorepunten. Als bijvoorbeeld twee getallen samen op de plaatsen 4 en 5 staan, dan krijgt elk als score 4,5.
En als er vijf getallen samen op de plaatsen 5, 6, 7, 8 en 9 staan krijgt elk dus score 7.

3. Zijn er verder nog voorwaarden?
Het is niet zo héél belangrijk, maar de toets gaat er wel van uit dat de verdelingen van beide getallenseries gelijk zijn. Nou is dat eigenlijk altijd wel zo omdat je nou eenmaal gelijke dingen met elkaar vergelijkt.

OPGAVEN

Het vermoeden bestaat dat studenten in Groningen meer bier drinken dan studenten in Amsterdam.
Men onderzocht van een aantal studenten hoeveel glazen bier zij gemiddeld in een week consumeerden.
Dat gaf de volgende resultaten.

De bierconsumptie van de Amsterdamse studenten was:
36, 14, 55, 32, 58, 28, 20, 32, 32, 8, 37, 38, 42, 47, 18, 25

De bierconsumptie van de Groninger studenten was:
16, 65, 31, 63, 35, 41, 60, 51, 44, 34, 64, 26

Is er naar aanleiding van deze gegevens reden om aan te nemen dat Groninger studenten inderdaad meer bier drinken dan Amsterdamse? Neem α = 0,05.

Een onderzoeker wil weten of bij het leren lopen van kinderen jongens of meisjes eerder los kunnen lopen.
Zes onderzocht meisjes liepen voor het eerst los toen ze 350 – 390 – 435 – 440 – 448 – 455 dagen oud waren.
Acht onderzochte jongens liepen voor het eerst los toen ze 360 – 388 – 400 – 410 – 430 – 442 – 450 – 462 dagen oud waren.

Welke conclusie kun je bij een significantieniveau van 5% trekken uit deze gegevens?

De CITO scores van kinderen van groep 8 van een klein schooltje waren als volgt onder de meisjes en de jongens verdeeld:
Meisjes: 540 – 538 – 536 – 549 - 520
Jongens: 510 – 523 – 523 – 535 - 537
Onderzoek of deze cijfers aanleiding geven te zeggen dat de meisjes beter scoorden dan de jongens. Neem een significantieniveau van 5%.

Er wordt wel eens beweerd dat het inkomen van mensen die in een stad wonen groter is dan dat van mensen die op het platteland wonen. Men wil deze bewering toetsen met een α = 0,05.
Een willekeurige steekproef leverde de volgende tabel:

Inkomen	50200	45000	63500	75000	90000	84600	64000	98000	67000
Stad/Platteland	P	S	S	S	S	S	P	S	P

Inkomen	40900	60000	73400	87200	88000	93000	94500	81000	70400
Stad/Platteland	P	P	S	S	S	P	S	P	S

Een statisticus voert deze gegevens in, en meet voor de hele groep een gemiddelde van 73650 en een standaarddeviatie van 16858.
De plattelandsmensen hebben een gemiddeld inkomen van 65157.
De statisticus toetst nu H₀: μ = 73650, σ =16858 tegen H₁: μ < 73650
Hij meet een gemiddelde van 65157 en zegt:
normalcdf(0,65157,73650,16858) = 0,307 dus H₀ moet worden aangenomen.

Leg uit welke fout(en) de statisticus heeft gemaakt.

Voer een correcte toets uit om vast te stellen of er aanleiding is de veronderstellen dat het inkomen in de stad groter is dan dat op het platteland. Neem α = 0,10

De omroep BNN organiseert elk jaar de Nationale IQ test.
Daarbij zijn er ook vijf vakken, elk met een speciaal soort publiek die meedoen. In 2011 had men bijvoorbeeld de "Oh-Oh-Cherso-fans" en de "Larpers" (dat zijn de Live-Action-Role-Players).

Het gemeten IQ voor een aantal mensen uit deze twee categorieën was als volgt:

Larpers: 95 - 100 - 103 - 116 - 123 - 128 - 130

Oh-Oh-Cherso fans: 86 - 99 - 101 - 102 - 112 - 124

Mag je uit deze gegevens concluderen dat Larpers een hoger IQ hebben dan Oh-Oh-Cherso fans?
Neem een significantieniveau van 5%.

Een groep van 16 mensen doet een half jaar lang mee aan een gewichtsverlies-programma.
Na afloop vraagt men zich af of het resultaat van dat programma voor vrouwen en voor mannen wel gelijk is.
Het gewichtsverlies dat de deelnemers hadden was namelijk als volgt:

Vrouwen: 14, 14, 25, 20, 19, 16, 17, 20, 13
Mannen: 14, 23, 12, 10, 17, 10, 19

Wat kan men concluderen met α = 0,05?

Mix opgave.

Van een groep volwassenen en van een groep kinderen is het ruimtelijk inzicht gemeten, en dat gaf voor iedereen een score van 0 tm 100.

Dit waren de resultaten, geordend van laag naar hoog:
Voor de volwassenen de scores: 23, 35, 36, 45, 58, 62, 64, 79, 87, 90.
Voor de kinderen de scores: 15, 19, 26, 35, 38, 59, 60, 63, 82, 88.

Bepaal of je aan de hand van deze gegevens met significantieniveau 5% mag concluderen dat volwassenen een beter ruimtelijk inzicht hebben dan kinderen

In werkelijkheid betrof het hier ouders met hun kinderen. De scores van een ouder met het bijbehorende kind waren als volgt:

ouder	58	35	36	45	23	62	87	79	64	90
kind	38	26	15	19	63	60	82	88	59	35

Onderzoek opnieuw vraag a).

Bepaal hoe groot de correlatiecoëfficiënt is tussen het ruimtelijk inzicht van een ouder en dat van zijn of haar kind. Bepaal ook welk ouder-kind koppel net grootste residu oplevert en hoeveel de correlatiecoëfficiënt verbetert als dat koppel als meetfout wordt gezien.