- Voorbeelden
- Classificatie van categorische variabelen
- Nominale categorieën
- Ordinal categorisch
- Binaire categorieën
- Statistieken met categorische variabelen
- Grafische weergave van categorische variabelen
- Opgeloste oefeningen
- Oefening 1
- Voorbeeld 2
- Voorbeeld 3
- Referenties
De categorische variabele is degene die in statistieken wordt gebruikt om een niet-numeriek of kwalitatief kenmerk of eigenschap toe te wijzen aan een object, individu, entiteit, voorwaarde of procedure. Het is mogelijk om allerlei categorische variabelen te definiëren volgens elke behoefte.
Voorbeelden van categorische variabelen zijn: kleur, geslacht, bloedgroep, burgerlijke staat, soort materiaal, vorm van betaling of soort bankrekening, en ze worden dagelijks veel gebruikt.

Figuur 1: Kleur is een categorische variabele. Bron: pixabay
Het bovenstaande zijn de variabelen, maar hun mogelijke waarden zijn kwalitatief, dat wil zeggen van kwaliteit of karakteristiek en niet van een numerieke meting. De mogelijke waarden voor de variabele geslacht zijn bijvoorbeeld: mannelijk, h embra.
Als deze variabele is opgeslagen in een computerprogramma, kan deze worden gedeclareerd als een tekstvariabele en zijn de enige geaccepteerde waarden die al genoemd zijn: Male, Female.
Dezelfde variabele geslacht kan echter worden gedeclareerd en opgeslagen als een geheel getal als Man 1 wordt toegewezen en Vrouw de waarde 2 krijgt. Het is om deze reden dat categorische variabelen soms een opgesomd type worden genoemd.
Het belangrijkste kenmerk van categorische variabelen is dat het in tegenstelling tot andere variabelen, zoals continue en discrete variabelen, niet mogelijk is om ermee te rekenen. Er kunnen echter statistieken mee worden gemaakt, zoals later zal worden gezien.
Voorbeelden
Let op de volgende voorbeelden van categorische variabelen en hun mogelijke waarden:
- Group_Sanguíneo, waardenbereik: A, B, AB, O
- Civil_Status, categorische waarden: Single (A), Getrouwd (B), Weduwnaar (C), Gescheiden (D).
- Tipo_de_Material, Categorieën of waarden: 1 = Hout, 2 = Metaal, 3 = Plastic
-Form_of_Payment, Effecten of categorieën: (1) Contanten, (2) Debet, (3) Overboeking, (4) Credit
In de voorgaande voorbeelden is op een volledig willekeurige manier een nummer aan elke categorie gekoppeld.
Men zou dan kunnen denken dat deze willekeurige numerieke associatie het gelijk maakt aan een discrete kwantitatieve variabele, maar dat is niet zo, aangezien er geen rekenkundige bewerkingen kunnen worden uitgevoerd met deze getallen.
Om het idee te illustreren, in de variabele Form_of_Payment, heeft de sombewerking geen zin:
(1) Cash + (2) Debet zal nooit gelijk zijn aan (3) Overboeking
Classificatie van categorische variabelen
De rangschikking is gebaseerd op het feit of ze een impliciete hiërarchie hebben of dat het aantal mogelijke uitkomsten meer dan twee of twee is.
Een categorische variabele met slechts één mogelijke uitkomst is geen variabele, het is een categorische constante.
Nominale categorieën
Als ze niet kunnen worden vertegenwoordigd door een nummer of een bestelling kunnen plaatsen. De variabele: Type_of_Material heeft bijvoorbeeld nominale waarden (Wood, Metal, Plastic), ze hebben geen hiërarchie of volgorde, zelfs niet wanneer aan elk antwoord of elke categorie een willekeurig nummer wordt toegewezen.
Ordinal categorisch
Variabele: Academic_performance
Nominale waarden: hoog, gemiddeld, laag
Hoewel de waarden van deze variabele niet numeriek zijn, hebben ze een impliciete volgorde of hiërarchie.
Binaire categorieën
Dit zijn nominale variabelen met twee mogelijke antwoorden, bijvoorbeeld:
-Variabele: reactie
-Nominale waarden: True, False
Merk op dat de responsvariabele geen impliciete hiërarchie heeft en slechts twee mogelijke uitkomsten heeft, dus het is een binaire categorische variabele.
Sommige auteurs noemen dit type een binaire variabele en beschouwen het niet als behorend tot categorische variabelen die beperkt zijn tot variabelen met meer dan drie mogelijke categorieën.
Statistieken met categorische variabelen
Statistieken kunnen worden gedaan met categorische variabelen, ondanks dat het geen numerieke of kwantitatieve variabelen zijn. Om bijvoorbeeld de trend of meest waarschijnlijke waarde van een categorische variabele te kennen, wordt de modus gebruikt.
De modus is in dit geval het meest herhaalde resultaat of de waarde van een categorische variabele. Voor categorische variabelen is het niet mogelijk om het gemiddelde of de mediaan te berekenen.
Het gemiddelde kan niet worden berekend omdat u niet kunt rekenen met categorische variabelen. De mediaan ook niet, omdat de kwantitatieve of categorische variabelen geen volgorde of hiërarchie hebben, waardoor het niet mogelijk is om een centrale waarde te bepalen.
Grafische weergave van categorische variabelen
Gegeven een bepaalde categorische variabele kan de frequentie of het aantal keren worden gevonden waarmee een resultaat van die variabele wordt herhaald. Als dit voor elke uitkomst wordt gedaan, kan een grafiek van de frequentie ten opzichte van elke categorie of uitkomst worden gemaakt.
Hier zijn enkele voorbeelden van hoe categorische variabelen grafisch kunnen worden weergegeven.
Opgeloste oefeningen
Oefening 1
Een bedrijf heeft gegevens van 170 medewerkers bijgehouden. Een van de variabelen in deze records is: Estado_Civil. Deze variabele heeft vier categorieën of mogelijke waarden:
Vrijgezel (A), Getrouwd (B), Weduwnaar (C), Gescheiden (D).
Hoewel het een niet-numerieke variabele is, is het mogelijk om te weten hoeveel van de totale records zich in een bepaalde categorie bevinden en worden weergegeven in de vorm van een staafdiagram, zoals weergegeven in de volgende afbeelding:

Figuur 2. Weergave van de resultaten van een categorische variabele. Bron: zelf gemaakt
Voorbeeld 2
Een schoenenwinkel houdt zijn verkopen bij. Een van de variabelen die hun records beheren, is de schoenkleur voor elk model. De variabele:
Color_Shoe_Model_AW3
Het is van het categorische type en heeft vijf categorieën of mogelijke waarden. Voor elke categorie van deze variabele wordt het aantal verkopen opgeteld en het percentage daarvan bepaald. De resultaten worden weergegeven in de grafiek van de volgende afbeelding:

Figuur 3. Categorische variabele Color _Shoe. In deze variabele is de modus Wit. Bron: zelf gemaakt.
Men kan dus zeggen dat van het AW3-schoenmodel dat in de mode is, het meest verkochte model wit is, op de voet gevolgd door zwart.
Er kan ook worden gezegd dat met een kans van 70% de volgende schoen die van dit model wordt verkocht, wit of zwart zal zijn.
Deze informatie kan handig zijn voor de winkel bij het plaatsen van nieuwe bestellingen, of het kan zelfs kortingen toepassen op de minst verkochte kleuren vanwege overtollige voorraad.
Voorbeeld 3
Voor een bepaalde populatie bloeddonoren wilt u het aantal mensen vertegenwoordigen dat tot een bepaalde bloedgroep behoort. Een grafische manier om de resultaten te visualiseren is door middel van een pictogram, dat onderaan een tabel staat.
De eerste kolom vertegenwoordigt de variabele group_sanguíneo en de mogelijke resultaten of categorieën. De tweede kolom bevat de weergave in iconische of picturale vorm van het aantal mensen in elke categorie. In ons voorbeeld wordt een rode druppel gebruikt als pictogram, die elk 10 mensen voorstellen.

Figuur 4. Pictogram. Bron: zelf gemaakt
Referenties
- Khan Academy. Analyse van categorische gegevens. Hersteld van: khanacademy.org
- Universum-formules. Kwalitatieve variabele. Hersteld van: univesoformulas.com
- Minitab. Dat zijn categorische, discrete en continue variabelen. Hersteld van: support.minitab.com
- Excel-zelfstudie. Karakterisering van variabelen. Hersteld van: help.xlslat.com.
- Wikipedia. Statistische variabele. Opgehaald van wikipedia.com
- Wikipedia. Categorische variabele. Opgehaald van wikipedia.com
- Wikipedia. Categorische variabele. Opgehaald van wikipedia.com
