- Formules en vergelijkingen
- Belangrijke statistische variabelen
- Model en eigenschappen
- Belangrijkste eigenschappen van de hypergeometrische distributie
- Benadering met behulp van de binominale verdeling
- Voorbeeld 2
- Opgeloste oefeningen
- Oefening 1
- Oplossing
- Oefening 2
- Oplossing
- Oefening 3
- Oplossing voor
- Oplossing c
- Referenties
De hypergeometrische verdeling is een discrete statistische functie, geschikt voor het berekenen van de kans in gerandomiseerde experimenten met twee mogelijke uitkomsten. De voorwaarde die vereist is om het toe te passen, is dat het kleine populaties zijn, waarin de opnames niet worden vervangen en de kansen niet constant zijn.
Daarom, wanneer een element van de populatie wordt gekozen om het resultaat (waar of onwaar) van een bepaald kenmerk te kennen, kan datzelfde element niet opnieuw worden gekozen.
Figuur 1. In een populatie van bouten als deze zijn er zeker defecte exemplaren. Bron: Pixabay.
Zeker, het volgende gekozen element zal dus waarschijnlijker een echt resultaat opleveren als het vorige element een negatief resultaat had. Dit betekent dat de kans varieert naarmate elementen uit de steekproef worden gehaald.
De belangrijkste toepassingen van de hypergeometrische verdeling zijn: kwaliteitscontrole in processen met weinig populatie en het berekenen van kansen bij kansspelen.
Wat betreft de wiskundige functie die de hypergeometrische verdeling definieert, deze bestaat uit drie parameters, te weten:
- Aantal populatie-elementen (N)
- Steekproefgrootte (m)
- Aantal gebeurtenissen in de gehele populatie met een gunstig (of ongunstig) resultaat van het bestudeerde kenmerk (n).
Formules en vergelijkingen
De formule voor de hypergeometrische verdeling geeft de kans P dat x gunstige gevallen van een bepaald kenmerk voorkomen. De manier om het wiskundig te schrijven, op basis van de combinatorische getallen, is:
In de vorige uitdrukking zijn N, n en m parameters en is x de variabele zelf.
- De totale bevolking is N.
-Aantal positieve resultaten van een bepaald binair kenmerk met betrekking tot de totale populatie is n.
- De hoeveelheid elementen in de steekproef is m.
In dit geval is X een willekeurige variabele die de waarde x aanneemt en geeft P (x) de kans aan dat x gunstige gevallen van het bestudeerde kenmerk voorkomen.
Belangrijke statistische variabelen
Andere statistische variabelen voor de hypergeometrische verdeling zijn:
- Gemiddelde μ = m * n / N
- Variantie σ ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1)
- Standaarddeviatie σ, de vierkantswortel van de variantie.
Model en eigenschappen
Om tot het model van de hypergeometrische verdeling te komen, gaan we uit van de kans om x gunstige gevallen te verkrijgen in een steekproef van grootte m. Deze steekproef bevat elementen die voldoen aan de onderzochte eigenschap en elementen die dat niet doen.
Bedenk dat n staat voor het aantal gunstige gevallen in de totale populatie van N-elementen. Dan wordt de kans als volgt berekend:
Door het bovenstaande uit te drukken in de vorm van combinatorische getallen, wordt het volgende kansverdelingsmodel bereikt:
Belangrijkste eigenschappen van de hypergeometrische distributie
Ze zijn als volgt:
- De steekproef moet altijd klein zijn, ook als de populatie groot is.
- De elementen van de steekproef worden een voor een geëxtraheerd, zonder ze weer in de populatie op te nemen.
- De eigenschap die moet worden bestudeerd is binair, dat wil zeggen dat er maar twee waarden aan kunnen zijn: 1 of 0, of waar of onwaar.
In elke elementextractiestap verandert de waarschijnlijkheid afhankelijk van de eerdere resultaten.
Benadering met behulp van de binominale verdeling
Een andere eigenschap van de hypergeometrische verdeling is dat deze kan worden benaderd door de binominale verdeling, Bi genaamd, zolang de populatie N groot is en minstens 10 keer groter dan het monster m. In dit geval zou het er als volgt uitzien:
De kans dat x = 3 schroeven in de steekproef defect zijn, is: P (500, 5, 60, 3) = 0,0129.
Van zijn kant is de kans dat x = 4 schroeven uit de zestig van de steekproef defect zijn: P (500, 5, 60; 4) = 0,0008.
Ten slotte is de kans dat x = 5 schroeven in dat monster defect zijn: P (500, 5, 60; 5) = 0.
Maar als u de waarschijnlijkheid wilt weten dat er in dat monster meer dan 3 defecte schroeven zijn, dan moet u de cumulatieve waarschijnlijkheid verkrijgen door toe te voegen:
Dit voorbeeld wordt geïllustreerd in figuur 2, verkregen met behulp van GeoGebra, een gratis software die veel wordt gebruikt in scholen, instituten en universiteiten.
Figuur 2. Voorbeeld van hypergeometrische distributie. Samengesteld door F. Zapata met GeoGebra.
Voorbeeld 2
Een Spaans kaartspel heeft 40 kaarten, waarvan 10 met goud en de overige 30 niet. Stel dat 7 kaarten willekeurig uit die stapel worden getrokken, die niet opnieuw in de stapel worden opgenomen.
Als X het aantal gouden munten is dat aanwezig is in de 7 getrokken kaarten, dan wordt de kans om x goud te hebben bij een trekking van 7 kaarten gegeven door de hypergeometrische verdeling P (40,10,7; x).
Laten we dit als volgt bekijken: om de kans te berekenen dat er 4 goud is in een trekking van 7 kaarten, gebruiken we de formule van de hypergeometrische verdeling met de volgende waarden:
En het resultaat is: 4,57% kans.
Maar als je de kans wilt weten om meer dan 4 kaarten te krijgen, dan moet je toevoegen:
Opgeloste oefeningen
De volgende reeks oefeningen is bedoeld om de concepten die in dit artikel zijn gepresenteerd te illustreren en te assimileren. Het is belangrijk dat de lezer ze zelf probeert op te lossen, voordat hij naar de oplossing kijkt.
Oefening 1
Een condoomfabriek heeft ontdekt dat van elke 1000 condooms die door een bepaalde machine worden geproduceerd, er 5 defect zijn. Voor kwaliteitscontrole worden 100 condooms willekeurig genomen en de partij wordt afgekeurd als er minstens één of meer defecten zijn. Antwoord:
a) Wat is de mogelijkheid dat er veel van 100 worden weggegooid?
b) Is dit criterium voor kwaliteitscontrole efficiënt?
Oplossing
In dit geval zullen zeer grote combinatorische getallen verschijnen. De berekening is moeilijk, tenzij je een geschikt softwarepakket hebt.
Maar omdat het een grote populatie is en de steekproef tien keer kleiner is dan de totale populatie, is het mogelijk om de benadering van de hypergeometrische verdeling te gebruiken door de binominale verdeling:
In de bovenstaande uitdrukking is C (100, x) een combinatorisch getal. Dan wordt de kans op meer dan één defect als volgt berekend:
Het is een uitstekende benadering, vergeleken met de waarde die wordt verkregen door de hypergeometrische verdeling toe te passen: 0,4102
Men kan zeggen dat met een waarschijnlijkheid van 40% een batch van 100 profylactica moet worden weggegooid, wat niet erg efficiënt is.
Maar omdat het iets minder veeleisend is in het kwaliteitscontroleproces en de partij van 100 alleen weggooit als er twee of meer defecten zijn, dan zou de kans op het weggooien van de partij slechts 8% bedragen.
Oefening 2
Een plastic blokmachine werkt zo dat van elke 10 stuks er één er misvormd uitkomt. In een monster van 5 stuks, hoe waarschijnlijk is het dat slechts één stuk defect is?
Oplossing
Bevolking: N = 10
Aantal n defecten voor elke N: n = 1
Steekproefomvang: m = 5
Daarom is er een kans van 50% dat in een steekproef van 5 een blok zal worden vervormd.
Oefening 3
In een bijeenkomst van jonge afgestudeerden van de middelbare school zijn er 7 dames en 6 heren. Van de meisjes studeren 4 geesteswetenschappen en 3 wetenschap. In de jongensgroep studeert 1 geesteswetenschappen en 5 wetenschap. Bereken het volgende:
a) Willekeurig drie meisjes kiezen: hoe waarschijnlijk is het dat ze allemaal geesteswetenschappen studeren?
b) Als drie deelnemers aan de vriendenbijeenkomst willekeurig worden gekozen: wat is de mogelijkheid dat drie van hen, ongeacht hun geslacht, alle drie de wetenschap of ook de geesteswetenschappen alle drie studeren?
c) Selecteer nu willekeurig twee vrienden en noem x de willekeurige variabele "aantal mensen die geesteswetenschappen studeren". Bepaal tussen de twee gekozen, de gemiddelde of verwachte waarde van x en de variantie σ ^ 2.
Oplossing voor
De waarden die nu moeten worden gebruikt, zijn:
-Bevolking: N = 14
-Hoeveelheid die letters bestudeert is: n = 6 en de
-Grootte van het monster: m = 3.
-Aantal vrienden die geesteswetenschappen studeren: x
Volgens dit betekent x = 3 dat alle drie geesteswetenschappen studeren, maar x = 0 betekent dat niemand geesteswetenschappen studeert. De kans dat alle drie hetzelfde studeren wordt gegeven door de som:
P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099
Dan hebben we een kans van 21% dat drie willekeurig gekozen deelnemers hetzelfde zullen bestuderen.
Oplossing c
Hier hebben we de volgende waarden:
N = 14 totale populatie vrienden, n = 6 totaal aantal in de populatie die geesteswetenschappen bestudeert, de steekproefomvang is m = 2.
Hoop is:
E (x) = m * (n / N) = 2 * (6/14) = 0,8572
En de variantie:
σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * ( 14-2) / (14-1) =
= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / ( 13) = 0,4521
Referenties
- Discrete kansverdelingen. Hersteld van: biplot.usal.es
- Statistiek en waarschijnlijkheid. Hypergeometrische distributie. Hersteld van: projectdescartes.org
- CDPYE-UGR. Hypergeometrische distributie. Hersteld van: ugr.es
- Geogebra. Klassieke geogebra, kansrekening. Opgehaald van geogebra.org
- Probeer eenvoudig. Problemen met hypergeometrische distributie opgelost. Hersteld van: probafacil.com
- Minitab. Hypergeometrische distributie. Hersteld van: support.minitab.com
- Universiteit van Vigo. Belangrijkste discrete distributies. Hersteld van: anapg.webs.uvigo.es
- Vitutor. Statistieken en combinatoriek. Hersteld van: vitutor.net
- Weisstein, Eric W. Hypergeometrische distributie. Hersteld van: mathworld.wolfram.com
- Wikipedia. Hypergeometrische distributie. Hersteld van: es.wikipedia.com