In navolging van de twee specials van Greet rond Mentos en Fruitella, bevinden wij ons nu in het territorium van de gevaarlijke en veelkleurige M&m’s. Ik ben nog lichtjes aan het afkicken van mijn examen statistiek dat deze ochtend plaats vond, dus ik gooi er nog gratis en voor niks wat inductieve analyse tegenaan.
Eerst en vooral, het testobject was een geel zakje M&M’s met pinda’s van 250g, een gewicht dat volgens Europese richtlijnen bij benadering zou moeten kloppen (aangeduid door de mooie e).
Na een zorgvuldige telling bleken er 106 statistische eenheden n (ofte chocoladebollekes met een noot vanbinnen) aanwezig te zijn binnen deze steekproef. Daar er 5 verschillende kleuren zijn, ziet u de verdeling hieronder met de benaderde procentwaarden.
Rood: 24 (~23%)
Bruin: 23 (~22%)
Blauw: 20 (~19%)
Geel: 19 (~17%)
Groen: 20 (~19%)
Om deze gegevens bruikbaar te maken voor analyse binnen een normaalverdeelde steekproevenverdeling, beschouwen we de kans om een bepaald kleur uit de zak te halen als de kans op succes p binnen een binomiaalverdeling.
P(gewenste kleur) = succes = P = gemeten procentuele verhouding = verwachtingswaarde
P(andere kleur) = mislukking = Q = 1 - P
Volgens de Centrale Limietstelling benadert de verwachtingsverdeling van een steekproevenverzameling binnen de populatie van de M&M’s een normaalverdeling N(verwachting,standaardafwijking). Daar de verwachting gekend is en de standaardafwijking te berekenen is door V((p*(1-p))/n) is de verdeling per kleur af te leiden. Voor de rode M&M’s is dit bijvoorbeeld N(0,23;0,0017).
Ik stel nu de hypothese dat er van elk kleur even veel M&M’s in een zakje zouden moeten zitten. De verwachtingswaarde in de populatie is dus voor ieder kleur 1/5 of 0,20. Nu bepaal ik aan de hand van mijn steekproef de kans dat de afwijking die ik heb gemeten ten opzichte van deze waarde, bepaald is door toeval. Hiervoor bepaal ik een gestandaardiseerde z-score voor iedere overschrijdingskans.
z=(p-p(0))/V(p(0)(1-p(0))/n)
Dit geeft voor de verschillende kleuren:
Rood: 0,77
Bruin: 0,51
Blauw: -0,26
Geel: -0,51
Groen: -0,26
Via deze z-scores valt de overschreidingskans te bepalen, i.e. de kans dat een willekeurige steekproef de waarden die ik heb gemeten bereikt of overschreid. Uit een standaardnormaalverdeling valt af te lezen dat de scores de volgende zijn:
Rood: 22,06%
Bruin: 30,5%
Blauw: 39,74%
Geel: 30,5%
Groen: 39,74%
Deze waarden hebben geen statistische significantie daar ze een te groot percentage hebben om de nulhypothese die ik opstelde te kunnen ontkrachten. Zo valt het onverbiddelijke verdikt dat in de M&M’s-fabriek gepoogd wordt om evenveel M&M’s van ieder kleur in een verpakking te steken, mits enkele kleine variaties.
Was dit boeiend? Nauwelijks, maar ik kon mijn leerstof toch eens in de praktijk brengen. 