- Hoe de determinatiecoëfficiënt berekenen?
- Illustratief geval
- Interpretatie
- Voorbeelden
- - Voorbeeld 1
- Oplossing
- - Voorbeeld 2
- Oplossing
- - Voorbeeld 3
- Oplossing
- Passende vergelijking
- Conclusies
- Referenties
De determinatiecoëfficiënt is een getal tussen 0 en 1 dat de fractie van punten (X, Y) vertegenwoordigt die de regressielijn van een dataset met twee variabelen volgen.
Het staat ook bekend als 'goodness of fit' en wordt aangeduid met R 2 . Om dit te berekenen, wordt het quotiënt genomen tussen de variantie van de gegevens Ŷi geschat door het regressiemodel en de variantie van de gegevens Yi die overeenkomen met elke Xi van de gegevens.
R 2 = Sŷ / Sy
Figuur 1. Correlatiecoëfficiënt voor vier gegevensparen. Bron: F. Zapata.
Als 100% van de gegevens op de lijn van de regressiefunctie staat, is de determinatiecoëfficiënt 1.
Integendeel, als een reeks gegevens en een bepaalde aanpassingsfunctie de coëfficiënt R 2 blijkt gelijk aan 0,5, dan kan worden gezegd dat de pasvorm 50% voldoende of goed.
Ook wanneer het regressiemodel levert R 2 -waarden lager dan 0,5, geeft dit aan dat de gekozen aanpassingsfunctie geen bevredigend passen op de gegevens daarom noodzakelijk om te zoeken naar een aanpassingsfunctie.
En wanneer de covariantie en de correlatiecoëfficiënt neigt naar nul, dan is de variabelen X en Y in de gegevens-verbonden, en daarom R 2 zal ook de neiging tot nul.
Hoe de determinatiecoëfficiënt berekenen?
In de vorige paragraaf werd gezegd dat de determinatiecoëfficiënt wordt berekend door het quotiënt tussen de varianties te vinden:
-Geschat door de regressiefunctie van variabele Y
-Dat van de variabele Yi die overeenkomt met elk van de variabele Xi van de N dataparen.
Wiskundig gezegd, ziet het er als volgt uit:
R 2 = Sŷ / Sy
Uit deze formule blijkt dat de R 2 staat voor het percentage variantie verklaard door het regressiemodel. Alternatief, R 2 worden berekend met de volgende formule, volledig equivalent is aan de vorige:
R 2 = 1 - (Sε / Sy)
Waar Sε de variantie vertegenwoordigt van de residuen εi = Ŷi - Yi, terwijl Sy de variantie is van de reeks Yi-waarden van de gegevens. Om Ŷi te bepalen wordt de regressiefunctie toegepast, wat betekent dat Ŷi = f (Xi).
De variantie van de dataset Yi, met i van 1 tot N, wordt op deze manier berekend:
Sy =
En ga dan op dezelfde manier te werk voor Sŷ of Sε.
Illustratief geval
Om de details te tonen van hoe de berekening van de determinatiecoëfficiënt wordt gemaakt, nemen we de volgende set van vier gegevensparen:
(X, Y): {(1, 1); (2,3); (3, 6) en (4, 7)}.
Voor deze dataset wordt een lineaire regressie-aanpassing voorgesteld, die wordt verkregen met behulp van de kleinste-kwadratenmethode:
f (x) = 2,1 x - 1
Door deze instelfunctie toe te passen, worden de koppels verkregen:
(X, Ŷ): {(1, 1.1); (2, 3,2); (3, 5.3) en (4, 7.4)}.
Vervolgens berekenen we het rekenkundig gemiddelde voor X en Y:
Variantie Sy
Sy = / (4-1) =
= = 7.583
Variantie Sŷ
Sŷ = / (4-1) =
= = 7,35
Determinatiecoëfficiënt R 2
R 2 = Sy / Sy = 7,35 / 7,58 = 0,97
Interpretatie
De bepalingscoëfficiënt voor het illustratieve geval dat in het vorige segment werd beschouwd, bleek 0,98 te zijn. Met andere woorden, de lineaire aanpassing via de functie:
f (x) = 2.1x - 1
Het is 98% betrouwbaar in het verklaren van de gegevens waarmee het is verkregen met behulp van de kleinste-kwadratenmethode.
Naast de determinatiecoëfficiënt is er de lineaire correlatiecoëfficiënt of ook wel bekend als de Pearson-coëfficiënt. Deze coëfficiënt, aangeduid als r, wordt berekend door de volgende relatie:
r = Sxy / (Sx Sy)
Hier vertegenwoordigt de teller de covariantie tussen variabelen X en Y, terwijl de noemer het product is van de standaarddeviatie voor variabele X en de standaarddeviatie voor variabele Y.
Pearson's coëfficiënt kan waarden aannemen tussen -1 en +1. Wanneer deze coëfficiënt naar +1 neigt, is er een directe lineaire correlatie tussen X en Y. Als deze naar -1 neigt, is er een lineaire correlatie, maar wanneer X groeit, neemt Y af. Ten slotte is het dicht bij 0, er is geen verband tussen de twee variabelen.
Opgemerkt moet worden dat de determinatiecoëfficiënt alleen samenvalt met het kwadraat van de Pearson-coëfficiënt, wanneer de eerste is berekend op basis van een lineaire aanpassing, maar deze gelijkheid geldt niet voor andere niet-lineaire aanpassingen.
Voorbeelden
- Voorbeeld 1
Een groep middelbare scholieren ging op zoek naar een empirische wet voor de duur van een slinger als functie van de lengte. Om dit doel te bereiken, voeren ze een reeks metingen uit waarin ze de tijd van een slingeroscillatie voor verschillende lengtes meten en de volgende waarden verkrijgen:
Lengte (m) | Periode (n) |
---|---|
0.1 | 0,6 |
0,4 | 1,31 |
0,7 | 1,78 |
een | 1,93 |
1.3 | 2.19 |
1.6 | 2,66 |
1.9 | 2,77 |
3 | 3.62 |
Er wordt gevraagd om een spreidingsdiagram van de gegevens te maken en een lineaire aanpassing uit te voeren door middel van regressie. Toon ook de regressievergelijking en de determinatiecoëfficiënt.
Oplossing
Figuur 2. Oplossingsgrafiek voor oefening 1. Bron: F. Zapata.
Er is een vrij hoge determinatiecoëfficiënt (95%) waar te nemen, dus men zou kunnen denken dat de lineaire pasvorm optimaal is. Als de punten echter samen worden bekeken, lijken ze de neiging te hebben naar beneden te buigen. Dit detail wordt niet overwogen in het lineaire model.
- Voorbeeld 2
Maak voor dezelfde gegevens in Voorbeeld 1 een spreidingsdiagram van de gegevens. Bij deze gelegenheid wordt, in tegenstelling tot in voorbeeld 1, een regressie-aanpassing gevraagd met behulp van een potentiële functie.
Figuur 3. Oplossingsgrafiek voor oefening 2. Bron: F. Zapata.
Tonen ook de fitfunctie en de determinatiecoëfficiënt R 2 .
Oplossing
De potentiële functie heeft de vorm f (x) = Ax B , waarbij A en B constanten zijn die worden bepaald door de kleinste-kwadratenmethode.
De vorige afbeelding toont de potentiële functie en zijn parameters, evenals de determinatiecoëfficiënt met een zeer hoge waarde van 99%. Merk op dat de gegevens de kromming van de trendlijn volgen.
- Voorbeeld 3
Gebruik dezelfde gegevens uit Voorbeeld 1 en Voorbeeld 2 en voer een tweedegraads polynoompassing uit. Geef de grafiek, de pasvorm polynoom en de bijbehorende determinatiecoëfficiënt R 2 .
Oplossing
Figuur 4. Oplossingsgrafiek voor oefening 3. Bron: F. Zapata.
Met de tweedegraads polynoompassing kun je een trendlijn zien die goed past bij de kromming van de gegevens. Ook ligt de determinatiecoëfficiënt boven de lineaire aanpassing en onder de potentiële aanpassing.
Passende vergelijking
Van de drie getoonde passingen is degene met de hoogste determinatiecoëfficiënt de potentiële fit (voorbeeld 2).
De potentiële aanpassing valt samen met de fysische theorie van de slinger, die, zoals bekend, vaststelt dat de periode van een slinger evenredig is met de vierkantswortel van zijn lengte, waarbij de evenredigheidsconstante 2π / √g is, waarbij g de versnelling van de zwaartekracht is.
Dit type potentiële fit heeft niet alleen de hoogste determinatiecoëfficiënt, maar de exponent en de evenredigheidsconstante komen overeen met het fysieke model.
Conclusies
-De regressie-aanpassing bepaalt de parameters van de functie die tot doel heeft de gegevens te verklaren met behulp van de kleinste-kwadratenmethode. Deze methode bestaat uit het minimaliseren van de som van het kwadratische verschil tussen de aanpassings Y-waarde en de Yi-waarde van de gegevens voor de Xi-waarden van de gegevens. Dit bepaalt de parameters van de afstemfunctie.
-Zoals we hebben gezien, is de meest gebruikelijke aanpassingsfunctie de lijn, maar het is niet de enige, aangezien de aanpassingen ook polynoom, potentiaal, exponentieel, logaritmisch en andere kunnen zijn.
-In ieder geval is de determinatiecoëfficiënt afhankelijk van de data en het type correctie en is een indicatie van de goedheid van de toegepaste correctie.
- Ten slotte geeft de determinatiecoëfficiënt het percentage van de totale variabiliteit aan tussen de Y-waarde van de gegevens ten opzichte van de Ŷ-waarde van de aanpassing voor de gegeven X.
Referenties
- González C. Algemene statistieken. Hersteld van: tarwi.lamolina.edu.pe
- IACS. Aragonese Instituut voor Gezondheidswetenschappen. Hersteld van: ics-aragon.com
- Salazar C. en Castillo S. Basisprincipes van statistiek. (2018). Hersteld van: dspace.uce.edu.ec
- Superprof. Bepalingscoëfficiënt. Hersteld van: superprof.es
- USAC. Beschrijvende statistiekhandleiding. (2011). Hersteld van: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Bepalingscoëfficiënt. Hersteld van: es.wikipedia.com.