- Hoe de correlatiecoëfficiënt berekenen?
- Covariantie en variantie
- Illustratief geval
- Covariance Sxy
- Standaarddeviatie Sx
- Standaard deviatie Sy
- Correlatiecoëfficiënt r
- Interpretatie
- Lineaire regressie
- Voorbeeld
- Referenties
De correlatiecoëfficiënt in statistieken is een indicator die de neiging meet van twee kwantitatieve variabelen X en Y om een lineaire of evenredige relatie tussen hen te hebben.
Over het algemeen zijn de paren variabelen X en Y twee kenmerken van dezelfde populatie. X kan bijvoorbeeld de lengte van een persoon zijn en Y zijn gewicht.

Figuur 1. Correlatiecoëfficiënt voor vier dataparen (X, Y). Bron: F. Zapata.
In dit geval zou de correlatiecoëfficiënt aangeven of er al dan niet een trend is naar een evenredige relatie tussen lengte en gewicht in een bepaalde populatie.
De lineaire correlatiecoëfficiënt van Pearson wordt aangegeven met de kleine letter r en de minimum- en maximumwaarden zijn respectievelijk -1 en +1.
Een waarde r = +1 zou aangeven dat de set paren (X, Y) perfect uitgelijnd zijn en dat wanneer X groeit, Y in dezelfde verhouding zal groeien. Aan de andere kant, als het zou gebeuren dat r = -1, zou de set paren ook perfect uitgelijnd zijn, maar in dit geval wanneer X toeneemt, neemt Y af in dezelfde verhouding.

Figuur 2. Verschillende waarden van de lineaire correlatiecoëfficiënt. Bron: Wikimedia Commons.
Aan de andere kant zou een waarde r = 0 aangeven dat er geen lineaire correlatie is tussen de variabelen X en Y. Terwijl een waarde van r = +0,8 zou aangeven dat de paren (X, Y) de neiging hebben om aan één kant te clusteren en een ander van een bepaalde lijn.
De formule om de correlatiecoëfficiënt r te berekenen is als volgt:

Hoe de correlatiecoëfficiënt berekenen?
De lineaire correlatiecoëfficiënt is een statistische grootheid die is ingebouwd in wetenschappelijke rekenmachines, de meeste spreadsheets en statistische programma's.
Het is echter handig om te weten hoe de formule die deze definieert, wordt toegepast, en hiervoor zal een gedetailleerde berekening worden weergegeven, uitgevoerd op een kleine gegevensset.
En zoals in de vorige paragraaf werd gezegd, is de correlatiecoëfficiënt de covariantie Sxy gedeeld door het product van de standaarddeviatie Sx voor de variabelen X en Sy voor de variabele Y.
Covariantie en variantie
De covariantie Sxy is:
Sxy = / (N-1)
Waar de som van 1 naar de N-gegevensparen gaat (Xi, Yi).
De standaarddeviatie voor de variabele X is van zijn kant de vierkantswortel van de variantie van de dataset Xi, met i van 1 tot N:
Sx = √
Evenzo is de standaarddeviatie voor variabele Y de vierkantswortel van de variantie van de dataset Yi, met i van 1 tot N:
Sy = √
Illustratief geval
Om in detail te laten zien hoe de correlatiecoëfficiënt wordt berekend, nemen we de volgende set van vier gegevensparen
(X, Y): {(1, 1); (2,3); (3, 6) en (4, 7)}.
Eerst berekenen we het rekenkundig gemiddelde voor X en Y, als volgt:
Vervolgens worden de overige parameters berekend:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Standaarddeviatie Sx
Sx = √ = √ = 1,29
Standaard deviatie Sy
Sx = √ =
√ = 2,75
Correlatiecoëfficiënt r
r = 3,5 / (1,29 * 2,75) = 0,98
Interpretatie
In de dataset van het vorige geval wordt een sterke lineaire correlatie waargenomen tussen de variabelen X en Y, die zowel tot uiting komt in het spreidingsdiagram (weergegeven in figuur 1) als in de correlatiecoëfficiënt, wat een waarde vrij dicht bij eenheid.
In de mate dat de correlatiecoëfficiënt dichter bij 1 of -1 ligt, is het logischer om de gegevens op een lijn te passen, het resultaat van lineaire regressie.
Lineaire regressie
De lineaire regressielijn wordt verkregen uit de methode met de kleinste kwadraten. waarin de parameters van de regressielijn worden verkregen door het minimaliseren van de som van het kwadraat van het verschil tussen de geschatte Y-waarde en de Yi van de N-gegevens.
Aan de andere kant zijn de parameters a en b van de regressielijn y = a + bx, verkregen met de methode van de kleinste kwadraten:
* b = Sxy / (Sx 2 ) voor de helling
* a =
Bedenk dat Sxy de hierboven gedefinieerde covariantie is en Sx 2 de variantie of het kwadraat van de hierboven gedefinieerde standaarddeviatie.
Voorbeeld
De correlatiecoëfficiënt wordt gebruikt om te bepalen of er een lineaire correlatie is tussen twee variabelen. Het is toepasbaar wanneer de te bestuderen variabelen kwantitatief zijn en bovendien wordt aangenomen dat ze een normale typeverdeling volgen.
Hieronder wordt een illustratief voorbeeld gegeven: een maat voor de mate van obesitas is de body mass index, die wordt verkregen door het gewicht van een persoon in kilogrammen te delen door de kwadraatlengte in meters in het kwadraat.
Je wilt weten of er een sterke correlatie bestaat tussen de body mass index en de concentratie van HDL-cholesterol in het bloed, gemeten in millimol per liter. Hiervoor is onder 533 mensen een onderzoek uitgevoerd, dat is samengevat in de volgende grafiek, waarin elk punt de gegevens van één persoon weergeeft.

Figuur 3. Onderzoek naar BMI en HDL-cholesterol bij 533 patiënten. Bron: Aragonese Instituut voor Gezondheidswetenschappen (IACS).
Nauwkeurige observatie van de grafiek laat zien dat er een zekere lineaire trend (niet erg uitgesproken) is tussen de HDL-cholesterolconcentratie en de body mass index. De kwantitatieve maat voor deze trend is de correlatiecoëfficiënt, die in dit geval r = -0,276 bleek te zijn.
Referenties
- González C. Algemene statistieken. Hersteld van: tarwi.lamolina.edu.pe
- IACS. Aragonese Instituut voor Gezondheidswetenschappen. Hersteld van: ics-aragon.com
- Salazar C. en Castillo S. Basisprincipes van statistiek. (2018). Hersteld van: dspace.uce.edu.ec
- Superprof. Correlatiecoëfficiënt. Hersteld van: superprof.es
- USAC. Beschrijvende statistiekhandleiding. (2011). Hersteld van: statistics.ingenieria.usac.edu.gt
- Wikipedia. Pearson's correlatiecoëfficiënt. Hersteld van: es.wikipedia.com.
