De regel van Bayes.

© h.hofstede (h.hofstede@hogeland.nl)

     


voorwaardelijke kans

Ik hoop dat je je nog kunt herinneren hoe we een voorwaardelijke kans berekenden.
Dat ging meestal via het maken van een kruistabel zoals hieronder, waarin twee eigenschappen, A en B, zijn uitgezet. 
       

       
Met  P(B\A) werd nu bedoeld de "kans op B gegeven A".  Dat wil zeggen:  de kans dat B voorkomt als al gegeven is dat A voorkomt. Dat betekent voor de kruistabel dat alleen het omcirkelde blauwe deel hieronder nog mogelijk is.
       

       
Om P(B\A) uit te rekenen moest je bepalen hoeveelste deel dat vraagteken van P(A) was.  Dus  ?/P(A)
Maar daar op de plaats van dat vraagteken staat de kans op A én B!!! (De oorspronkelijke kans)
Als je  (A én B)  noteert als  A Ç B, dan geeft dat de volgende formule:
       

       
Deze regel heet de "regel van Bayes".
In deze laatste speciale vorm komt de regel van Bayes vaak voor. Het mooie ervan is, dat alle kansen worden gegeven als gewone kansen of voorwaardelijke kansen. Soms is de kans P(A\B) niet eenvoudig te bepalen, maar de kans P(B\A) wel. Dan kun je met deze formule toch ook die eerste kans berekenen.

Voorbeeldje 1.
Stel dat we de kans dat een patiënt, die een bepaalde kliniek bezoekt, kanker heeft willen bepalen, als we weten dat het een roker is.
Noem A = patiënt heeft kanker  en B = patiënt is een roker. Dan is P(A\B) niet eenvoudig te bepalen.
Maar die andere kansen uit de formule wel:
P(A): kijk gewoon hoeveel mensen die de kliniek hebben bezocht kanker hadden. Stel bijvoorbeeld 5%
P(B):  kijk hoeveel mensen die de kliniek bezochten rokers waren.  Stel bijvoorbeeld 40%
P(B\A): kijk hoeveel van de mensen die kanker hadden ook roker waren. Stel bijvoorbeeld 80%
Dan is P(A\B) = P(patiënt heeft kanker\ het is een roker) gelijk aan (0,05 • 0,80)/0,40 = 0,1
Het feit dat de patiënt een roker is heeft de kans op kanker dus verdubbeld (van 5% naar 10%)

Voorbeeldje 2.
Stel dat iemand je vertelt dat hij in de trein met een medepassagier heeft zitten praten.
Neem aan dat er evenveel mannen als vrouwen in de trein zitten, dan zul je de kans dat hij met een vrouw heeft gesproken schatten op 0,5.
Maar stel nu dat hij je vertelt dat zijn gesprekpartner lang haar had, en je weet dat van de vrouwen 68% lang haar heeft en van de mannen 30%. Dan is de kans dat hij met een vrouw sprak groter geworden.

Maar hoeveel groter?

Noem V = vrouw en M = man, en L = lang haar en K = kort haar.  Dan geeft de regel van Bayes in de laatste vorm:  
       
Bayesiaanse Geloofwaardigheid.
       
Je kunt de kans op een gebeurtenis ook opvatten als de geloofwaardigheid van die gebeurtenis.
Als iemand tegen je zou zeggen:  "Degene met wie ik in de trein een gesprek heb gehad was een vrouw" dan is de geloofwaardigheid van die bewering in het begin voorlopig voor jou 50%  (we noemen dat de a priori kans).
Maar als je van een getuige hoort dat de gesprekspartner lang haar had, dan stijgt de geloofwaardigheid van de bewering naar ongeveer 69%  (dat heet de a posteriori kans).
       
dan zie je dat door de extra informatie L  de kans op V met een factor wordt vermenigvuldigd (in het voorbeeld een factor van ongeveer 1,38). Die factor noemt men de geloofwaardigheid. ("likelyhood")

Voorbeeld.
Je kunt je misschien wel voorstellen dat dit in de rechtsspraak van belang is.

Stel dat een rechter op een gegeven moment in een rechtszaak de kans dat de getuige schuldig is (P(S)) schat op 20%.
Maar dan komt er extra informatie......
Men vindt een schoenafdruk van een paar Nike-schoenen, die afkomstig moeten zijn van de moordenaar.
De verdachte heeft ook zulke schoenen.
Maar ja, als we een schatting maken:  8% van alle mensen heeft zulke schoenen.

Noem S = schuldig,  O = onschuldig, N = deze Nike in bezit.
Dan geldt voor de nieuwe kans dat de verdachte schuldig is:
       
       
Je ziet dat door deze extra informatie de kans is gestegen van 20% naar 76%
       
Hierbij aansluitend  staat een mooi artikel uit de Guardian van oktober 2011, over de Shoeprint-Murder en hoe Bayes door de rechter werd verboden:

http://www.guardian.co.uk/law/2011/oct/02/formula-justice-bayes-theorem-miscarriage
       
       
1. Je hebt twee vazen met knikkers. In de eerste zitten 10 witte en 30 zwarte knikkers, in de tweede 10 zwarte en 30 witten. Je kiest eerst willekeurig een vaas.
Daarna kies je 5 keer een knikker uit die vaas, waarbij je de knikkers tussendoor steeds teruglegt.
Het blijkt dat je 4 witte en 1 zwarte knikker trekt.
Hoe groot is de kans dat dat uit de eerste vaas was?
       
2. Stel dat je de volgende omschrijving van iemand krijgt:

"Het is een heel atletische jongeman, die in een snelle sportwagen rijdt en een knappe blonde vriendin heeft"

Als je moet kiezen of het een verpleger in een ziekenhuis is of een speler uit de eredivisie voetbal, wat zou je dan kiezen?  Waarom?
       
       

© h.hofstede (h.hofstede@hogeland.nl)