- Soorten vrijheidsgraden
- In een mechanisch geval
- In een reeks willekeurige waarden
- Voorbeelden
- Variantie en vrijheidsgraden
- In de Chi-kwadraatverdeling
- In de hypothesetest (met opgelost voorbeeld)
- Referenties
De vrijheidsgraden in statistieken zijn het aantal onafhankelijke componenten van een willekeurige vector. Als de vector n componenten heeft en er p lineaire vergelijkingen zijn die betrekking hebben op de componenten, dan is de vrijheidsgraad np.
Het concept van vrijheidsgraden komt ook voor in de theoretische mechanica, waar ze ongeveer gelijk zijn aan de dimensie van de ruimte waarin het deeltje beweegt, minus het aantal bindingen.
Figuur 1. Een slinger beweegt in twee dimensies, maar heeft slechts één vrijheidsgraad omdat hij gedwongen wordt te bewegen in een boog met straal L. Bron: F. Zapata.
Dit artikel bespreekt het concept van vrijheidsgraden toegepast op statistiek, maar een mechanisch voorbeeld is gemakkelijker in geometrische vorm te visualiseren.
Soorten vrijheidsgraden
Afhankelijk van de context waarin het wordt toegepast, kan de manier waarop het aantal vrijheidsgraden wordt berekend variëren, maar het achterliggende idee is altijd hetzelfde: totale afmetingen minder aantal beperkingen.
In een mechanisch geval
Laten we eens kijken naar een oscillerend deeltje dat is vastgemaakt aan een touwtje (een slinger) dat beweegt in het verticale xy-vlak (2 dimensies). Het deeltje wordt echter gedwongen te bewegen over de omtrek van de straal die gelijk is aan de lengte van het akkoord.
Omdat het deeltje alleen op die curve kan bewegen, is het aantal vrijheidsgraden 1. Dit is te zien in figuur 1.
De manier om het aantal vrijheidsgraden te berekenen is door het verschil van het aantal dimensies min het aantal beperkingen te nemen:
vrijheidsgraden: = 2 (afmetingen) - 1 (ligatuur) = 1
Een andere verklaring waarmee we tot het resultaat kunnen komen, is de volgende:
-We weten dat de positie in twee dimensies wordt weergegeven door een coördinatenpunt (x, y).
-Maar aangezien het punt moet voldoen aan de vergelijking van de omtrek (x 2 + y 2 = L 2 ) voor een gegeven waarde van de variabele x, wordt de variabele y bepaald door de genoemde vergelijking of beperking.
Op deze manier is slechts één van de variabelen onafhankelijk en heeft het systeem één (1) vrijheidsgraad.
In een reeks willekeurige waarden
Stel dat de vector om te illustreren wat het concept betekent
x = (x 1 , x 2 , …, x n )
Vertegenwoordigt de steekproef van n normaal verdeelde willekeurige waarden. In dit geval heeft de willekeurige vector x n onafhankelijke componenten en daarom wordt gezegd dat x n vrijheidsgraden heeft.
Laten we nu de vector r van de residuen construeren
r = (x 1 -
Waar
Dus de som
(x 1 -
Het is een vergelijking die een beperking (of binding) in de elementen van de vector r van de residuen vertegenwoordigt, want als n-1 componenten van de vector r bekend zijn , bepaalt de restrictievergelijking de onbekende component.
Daarom de vector r van dimensie n met de beperking:
∑ (x ik -
Het heeft (n - 1) vrijheidsgraden.
Opnieuw wordt toegepast dat de berekening van het aantal vrijheidsgraden is:
vrijheidsgraden: = n (afmetingen) - 1 (beperkingen) = n-1
Voorbeelden
Variantie en vrijheidsgraden
De variantie s 2 wordt gedefinieerd als het gemiddelde van het kwadraat van de afwijkingen (of residuen) van de steekproef van n gegevens:
s 2 = ( r • r ) / (n-1)
waarbij r de vector is van de residuen r = (x1 -
s 2 = ∑ (X ik -
In ieder geval moet worden opgemerkt dat bij het berekenen van het gemiddelde van het kwadraat van de residuen, het wordt gedeeld door (n-1) en niet door n, aangezien het aantal vrijheidsgraden van de vector r , zoals besproken in de vorige paragraaf, is ( n-1).
Als voor de berekening van de variantie zou worden gedeeld door n in plaats van (n-1), zou het resultaat een bias hebben die erg significant is voor waarden van n kleiner dan 50.
In de literatuur komt de variantieformule ook voor met de deler n in plaats van (n-1), als het gaat om de variantie van een populatie.
Maar de verzameling van de willekeurige variabele van de residuen, weergegeven door de vector r , heeft weliswaar dimensie n, maar heeft slechts (n-1) vrijheidsgraden. Als het aantal gegevens echter groot genoeg is (n> 500), convergeren beide formules naar hetzelfde resultaat.
Rekenmachines en spreadsheets bieden beide versies van de variantie en de standaarddeviatie (de vierkantswortel van de variantie).
Onze aanbeveling, met het oog op de hier gepresenteerde analyse, is om altijd de versie met (n-1) te kiezen telkens wanneer de variantie of standaarddeviatie moet worden berekend, om vertekende resultaten te voorkomen.
In de Chi-kwadraatverdeling
Sommige kansverdelingen in een continue willekeurige variabele zijn afhankelijk van een parameter genaamd vrijheidsgraad, dit is het geval van de Chi-kwadraatverdeling (χ 2 ).
De naam van deze parameter komt precies van de vrijheidsgraden van de onderliggende willekeurige vector waarop deze verdeling van toepassing is.
Stel dat we g-populaties hebben, waaruit monsters van grootte n worden genomen:
X 1 = (x1 1 , x1 2 , … ..x1 n )
X2 = (x2 1 , x2 2 , … ..x2 n )
….
X j = (xj 1 , xj 2 ,… ..xj n )
….
Xg = (xg 1 , xg 2 ,… ..xg n )
Een populatie j die gemiddelde heeft
De gestandaardiseerde of genormaliseerde variabele zj i wordt gedefinieerd als:
zj ik = (xj ik -
En de vector Zj wordt als volgt gedefinieerd:
Zj = ( zj 1 , zj 2 ,…, zj i ,…, zj n ) en volgt de gestandaardiseerde normale verdeling N (0,1).
Dus de variabele:
Q = ((z1 1 ^ 2 + z2 1 ^ 2 + …. + Zg 1 ^ 2), …., (Z1 n ^ 2 + z2 n ^ 2 + …. + Zg n ^ 2))
volgt de χ 2 (g) -verdeling genaamd de chikwadraatverdeling met vrijheidsgraad g.
In de hypothesetest (met opgelost voorbeeld)
Als u hypothesen wilt testen op basis van een bepaalde set willekeurige gegevens, moet u het aantal vrijheidsgraden g weten om de Chi-kwadraattoets toe te passen.
Figuur 2. Bestaat er een verband tussen de voorkeur van ijs SMAAK en het GESLACHT van de klant? Bron: F. Zapata.
Als voorbeeld zullen de gegevens worden geanalyseerd die worden verzameld over de voorkeuren van chocolade- of aardbeienijs bij mannen en vrouwen in een bepaalde ijssalon. De frequentie waarmee mannen en vrouwen voor aardbei of chocolade kiezen, is samengevat in figuur 2.
Eerst wordt de tabel met verwachte frequenties berekend, die wordt opgesteld door het totaal van rijen te vermenigvuldigen met het totaal van kolommen, gedeeld door het totale aantal gegevens. Het resultaat wordt weergegeven in de volgende afbeelding:
Figuur 3. Berekening van verwachte frequenties op basis van de waargenomen frequenties (waarden in blauw in figuur 2). Bron: F. Zapata.
Vervolgens wordt het Chi-kwadraat berekend (uit de gegevens) met behulp van de volgende formule:
χ 2 = ∑ (F o - F e ) 2 / F e
Waarbij F o de waargenomen frequenties zijn (Figuur 2) en F e de verwachte frequenties zijn (Figuur 3). De sommatie gaat over alle rijen en kolommen, die in ons voorbeeld vier termen opleveren.
Na het uitvoeren van de operaties krijgt u:
χ 2 = 0,2043.
Nu is het nodig om te vergelijken met het theoretische Chi-kwadraat, dat afhangt van het aantal vrijheidsgraden g.
In ons geval wordt dit aantal als volgt bepaald:
g = (# rijen - 1) (#kolommen - 1) = (2 - 1) (2 - 1) = 1 * 1 = 1.
Het blijkt dat het aantal vrijheidsgraden g in dit voorbeeld 1 is.
Als je de nulhypothese (H0: er is geen correlatie tussen SMAAK en GESLACHT) met een significantieniveau van 1% wilt controleren of verwerpen, wordt de theoretische Chi-kwadraatwaarde berekend met vrijheidsgraad g = 1.
De waarde wordt gezocht die de geaccumuleerde frequentie (1 - 0,01) = 0,99 maakt, dat wil zeggen 99%. Deze waarde (die kan worden verkregen uit de tabellen) is 6.636.
Als de theoretische Chi groter is dan de berekende, wordt de nulhypothese geverifieerd.
Met andere woorden, met de verzamelde gegevens wordt geen verband waargenomen tussen de variabelen SMAAK en GESLACHT.
Referenties
- Minitab. Wat zijn de vrijheidsgraden? Hersteld van: support.minitab.com.
- Moore, David. (2009) Toegepaste basisstatistieken. Antoni Bosch-redacteur.
- Leigh, Jennifer. Hoe vrijheidsgraden in statistische modellen te berekenen. Hersteld van: geniolandia.com
- Wikipedia. Mate van vrijheid (statistieken). Hersteld van: es.wikipedia.com
- Wikipedia. Mate van vrijheid (fysiek). Hersteld van: es.wikipedia.com