problemen bij toetsen

© h.hofstede (h.hofstede@hogeland.nl)

Om over na te denken...

Er zijn een paar problemen met onze klassieke manier van hypothesen toetsen die we gebruikten, en die hebben allemaal op één of andere manier te maken met het verwerpen/aannemen van H₀ en de keuze van α.

Stel dat een jamfabriek aardbeienjam produceert met een vitamine-C gehalte van μ = 60 mg per 100 g en een standaarddeviatie daarvan van σ = 15 mg. De fabrikant introduceert een nieuw conserveringsmiddel in het productieproces en hoopt dat daarmee dat het vitamine-C gehalte van de jam groter is geworden. We maken daarom een eenzijdige test met H₁: μ > 60.
Een kwaliteitstest onder 100 van de nieuwe jampotten levert een gemiddelde van 62,1 mg , ook met een standaarddeviatie van σ = 15. Dat geeft voor 100 potten dus σ = ¹⁵/_√100 = 1,5 en een overschrijdingskans van
normalcdf(62.1, ∞ , 63, 1.5) = 0,081.

Het Significantieniveau.

Dus met een significantieniveau van α = 0,05 zouden we H₀ (het gemiddelde is 60 mg) aannemen.
Maar ja... met een α = 0,10 zouden we H₀ verwerpen!
Dus kun je kiezen (door een geschikte α te nemen) of je aan de hand van deze steekproef H₀ wilt aannemen of verwerpen?

Deze beide conclusies volgen uit dezelfde steekproef:

Eenzijdig of Tweezijdig.

Bovendien hangt het resultaat ook nogal af van onze verwachtingen vooraf!
Stel dat een andere onderzoeker de invloed van het conserveringsmiddel ook test, maar geen idee heeft of het meer of minder vitamine-C oplevert. In dat geval toets je H₀: μ = 60 tegen H₁: μ ≠ 60 en is de toets tweezijdig.
Aan de hand van precies dezelfde steekproef hierboven zou je dan met α = 0,10 ineens H₀ weer aannemen (0,08 > 0,05).

De Steekproefgrootte.

Bovendien: stel dat we een veeeeeeeel grotere steekproef van 1000000 potten hadden genomen. Dan zou een gemiddelde van 60,05 al een overschrijdingskans van normalcdf(16.05, ∞ , 60, 0.015) = 0,0004 geven (reken maar na). Ofwel: als we maar een hele grote steekproef nemen zullen we bijna altijd H₀ verwerpen. Alhoewel 0,05 extra mg eigenlijk op de 60 mg praktisch niet van belang is, geeft het wel een statistisch significant verschil. Als ik de verkoper van het nieuwe conserveringsmiddel was, zou ik een zo klein mogelijke steekproef laten nemen, dan zal ik veel eerder (met dezelfde α = 0,05!!) mogen concluderen dat mijn middel helpt.

Bij de klassieke manier van toetsen en hypothesen aannemen/verwerpen is het daarom erg belangrijk de volgende stappen aan te houden:

H₀ en H₁ worden vastgesteld.
Waarbij de H₁-bewering dus al afhangt van onze verwachtingen (één- of tweezijdig).

Het significantieniveau en de steekproefgrootte worden vastgesteld.

Voorlopig nemen we aan dat H₀ waar is, en we gaan onderzoeken of we met ons onderzoek H₀ kunnen verwerpen.

De steekproef wordt genomen.

Het is dus erg belangrijk dat stap 4 pas NA de stappen 1, 2 en 3 komt. Overigens vinden veel statistici het veel beter om gewoon de overschrijdingskans (Engels: "prob-value") van je steekproef te noemen en het aan de lezer zelf over te laten wat men ervan vindt, in plaats van alvast een α en een verwachting vooraf op te leggen. Die statistici geven dan ook niet een "aannemen/verwerpen" conclusie van een onderzoek, maar alleen een overschrijdingskans.