Disclaimer: Het peer review proces voor deze toets is nog niet afgerond; daarom is deze pagina nog in concept.

1 Toepassing

Gebruik de factoriële ANOVA bij het toetsen of de gemiddelden van groepen op basis van twee of meer onafhankelijke categorische variabelen van elkaar verschillen.1

2 Onderwijscasus

Bij de bacheloropleiding Psychologie van een universiteit is besloten om naast studenten met een vwo-opleiding studenten met een propedeuse voor de hbo-opleiding Psychologie ook toe te laten. De opleidingsdirecteur van de bachelor wil graag evalueren of deze hbo-p studenten het niveau van de opleiding aankunnen, maar is ook benieuwd of man-vrouw verschillen hierbij een rol spelen. Daarom vergelijkt zij de verschillen in het gemiddeld cijfer van het eerste studiejaar voor studenten met een hbo-p vooropleiding, vwo vooropleiding en overige vooropleidingen en of dit verschillend is voor mannen en vrouwen.

Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is. Bij factoriële ANOVA zijn er hypotheses op te stellen voor de verschillen tussen groepen van elke onafhankelijke variabele apart (hoofdeffecten) en een hypothese voor de interactie tussen twee of meerdere onafhankelijke variabelen (interactie-effect).

H0: Het gemiddelde cijfer is gelijk voor mannen en vrouwen, i.e. er is geen hoofdeffect van Geslacht op Gemiddeld_cijfer.

HA: Het gemiddelde cijfer is niet gelijk voor mannen en vrouwen, i.e. er is een hoofdeffect van Geslacht op Gemiddeld_cijfer.

H0: Het gemiddelde cijfer is gelijk voor studenten met een hbo-p, vwo en overige vooropleiding, i.e. er is geen hoofdeffect van Vooropleiding op Gemiddeld_cijfer.

HA: Het gemiddelde cijfer is niet gelijk voor studenten met een hbo-p, vwo en overige vooropleiding, i.e. er is een hoofdeffect van Vooropleiding op Gemiddeld_cijfer.

H0: Er is geen interactie-effect tussen de variabelen Geslacht en Vooropleiding op het gemiddelde cijfer.

HA: Er is een interactie-effect tussen de variabelen Geslacht en Vooropleiding op het gemiddelde cijfer.

3 Hoofdeffecten en interacties

Bij factoriële ANOVA wordt onderzocht of er verschillen zijn tussen groepen die gemaakt worden op basis van meerdere categorische onafhankelijke variabelen. Dit wordt toegelicht met een versimpelde vorm van de huidige casus met twee onafhankelijke variabelen Vooropleiding en Geslacht en een afhankelijke variabele Gemiddeld_cijfer. De onafhankelijke variabele Vooropleiding bestaat uit twee groepen (hbo-p en vwo) en de onafhankelijke variabele Geslacht bestaat ook uit twee groepen (man en vrouw). Binnen factoriële ANOVA wordt een onderscheid gemaakt tussen hoofdeffecten en interactie-effecten. Een hoofdeffect houdt in dat er een verschil is tussen de groepen van één van de onafhankelijke variabelen. In andere woorden, de onafhankelijke variabele heeft effect op de afhankelijke variabele. Voor het bedachte experiment houdt een hoofdeffect van de variabele Vooropleiding in dat er een verschil is in het gemiddelde van groep hbo-p en groep vwo. Een hoofdeffect van de variabele Geslacht houdt in dat er een verschil is in het gemiddelde van groep man en groep vrouw.2

Een grafische weergave van hoofdeffecten is te zien in Figuur 1. In de figuur is de relatie tussen de variabelen Vooropleiding en Gemiddeld_cijfer weergegeven voor mannen en vrouwen. Het hoofdeffect van de variabele Vooropleiding is te zien door het gemiddelde van groep hbo-p te vergelijken met het gemiddelde van groep vwo. Beide gemiddelden zijn weergegeven met groene driehoeken: groep hbo-p heeft een gemiddelde van 6 en groep vwo een gemiddelde van 8. Er is dus een verschil in gemiddelde tussen de groepen van onafhankelijke variabele Vooropleiding, wat betekent dat er een hoofdeffect van de variabele Vooropleiding is. Op dezelfde manier kan een mogelijk hoofdeffect van de variabele Geslacht onderzocht worden. Het gemiddelde van groep man is weergegeven met een oranje vierkant en het gemiddelde van groep vrouw met een blauw vierkant. Het gemiddelde van groep vrouw (8) ligt hoger dan het gemiddelde van groep man (6), dus er is ook een hoofdeffect van onafhankelijke variabele Geslacht. Beide onafhankelijke variabelen hebben dus een effect op de afhankelijke variabele Gemiddeld_cijfer.

Figuur 1. Illustratie van hoofdeffecten bij factoriële ANOVA voor een casus met afhankelijke variabele Gemiddeld_cijfer en onafhankelijke variabelen Vooropleiding en Geslacht. In deze grafiek zijn er hoofdeffecten voor de variabelen Vooropleiding en Geslacht, maar geen interactie-effecten.

Een interactie-effect houdt in dat het effect van de ene onafhankelijke variabele op de afhankelijke variabele afhangt van de andere onafhankelijke variabele(n). Er is als het ware een interactie tussen de onafhankelijke variabelen die het effect op de afhankelijke variabele bepaalt. In het bedachte experiment zou dit betekenen dat het effect van onafhankelijke variabele Vooropleiding op Gemiddeld_cijfer verschillend is voor de groepen man en vrouw. Een voorbeeld van dit interactie-effect is te zien in Figuur 2. In deze figuur is zichtbaar dat er bij mannen geen verschil is tussen de groepen hbo-p en vwo wat betreft het gemiddelde cijfer, maar dat er voor vrouwen wel een verschil is. Bij vrouwen heeft de groep vwo een hoger gemiddeld cijfer (9) dan de groep hbo-p (7). Het effect van de onafhankelijke variabele Vooropleiding op Gemiddeld_cijfer hangt af van de variabele Geslacht, dus er is een interactie-effect van de variabelen Vooropleiding en Geslacht op de afhankelijke variabele Gemiddeld_cijfer.

Figuur 2. Illustratie van interactie-effecten bij factoriële ANOVA voor een casus met de afhankelijke variabele Gemiddeld_cijfer en de onafhankelijke variabelen Vooropleiding en Geslacht. In deze grafiek is er een interactie-effect van de onafhankelijke variabelen Vooropleiding en Geslacht op de afhankelijke variabele Gemiddeld_cijfer.

In Figuur 1 waren er hoofdeffecten van de variabelen Vooropleiding en Geslacht gevonden, maar was het interactie-effect nog niet onderzocht. In deze figuur is er geen sprake van een interactie-effect, omdat het effect van Vooropleiding op Gemiddeld_cijfer hetzelfde is voor mannen en vrouwen en dus niet afhangt van de variabele Geslacht. Voor beide groepen (mannen en vrouwen) is het verschil tussen hbo-p en vwo twee punten. Hier is dus geen sprake van een interactie-effect. Bij grafieken is er een interactie-effect als de twee (of meerdere) lijnen niet parallel lopen. Op deze manier kan snel onderzocht worden of er een interactie-effect is en wat de invloed van het interactie-effect is.

Bij factoriële ANOVA worden bovenstaande grafieken gebruikt om de resultaten te interpreteren. De hoofdeffecten en interactie-effecten worden eerst statistisch getoetst en daarna geïnterpreteerd met onder andere deze grafieken. De aanpak is als volgt.3 Eerst wordt getoetst of er sprake is van een interactie-effect tussen de onafhankelijke variabelen. Als dit niet het geval is, kunnen de hoofdeffecten geïnterpreteerd worden. Als er wel een interactie-effect is, kunnen de hoofdeffecten niet geïnterpreteerd worden. De volgende stap is dan een simple effects analyse waarbij het effect van de ene onafhankelijke variabele op de afhankelijke variabele wordt getoetst voor alle groepen van de andere onafhankelijke variabele die deel uitmaakt van het interactie-effect. Voor Figuur 2 zou dit betekenen dat het effect van Vooropleiding op Gemiddeld_cijfer apart getoetst wordt voor mannen en vrouwen. Het interactie-effect kan op deze manier geïnterpreteerd worden, samen met de grafische weergave zoals te zien in Figuur 2.

4 Uitleg assumpties

Voor een valide toetsresultaat bij de factoriële ANOVA moet er aan een aantal assumpties voldaan worden. De steekproef moet bestaan uit onafhankelijke deelnemers4, de afhankelijke variabele moet normaal verdeeld zijn voor elke combinatie van groepen van de onafhankelijke variabelen en er moet homogeniteit van varianties zijn.5

4.1 Normaliteit

Controleer de assumptie van normaliteit voor elke groep met de volgende stappen:
1. Controleer de data visueel met een histogram, een boxplot of een Q-Q plot.
2. Toets of de data normaal verdeeld zijn met de Kolmogorov-Smirnov test of bij een kleinere steekproef (n < 50) met de Shapiro-Wilk test.6, 7

De factoriële ANOVA is redelijk robuust ten opzichte van een schending van de assumptie van normaliteit. Als er kleine afwijkingen zijn, heeft dat relatief kleine gevolgen voor de validiteit van de toets. Bij grotere afwijkingen is het transformeren van de afhankelijke variabele een optie.8 Als dit niet werkt, dan is het een optie om de factoriële ANOVA uit te voeren als multipele lineaire regressie en te bootstrappen; zie bijbehorende toetspagina.

4.2 Homogeniteit van Varianties

Toets met de Levene’s Test (for equality of variance) of de variantie van iedere groep ongeveer hetzelfde is. Bij een p-waarde kleiner dan 0,05 is de variantie van de groepen significant verschillend.9

De factoriële ANOVA is ook redelijk robuust ten opzichte van een schending van de assumptie van homogeniteit van varianties als de steekproefgroottes groot zijn en niet veel van elkaar verschillen. Als de ratio van de grootste en kleinste steekproefgrootte van alle groepen kleiner dan 10 is en de ratio van de grootste en kleinste variantie van alle groepen kleiner dan 4 is, dan kan de factoriële ANOVA gewoon uitgevoerd worden.10 Als dit niet het geval is, dan is het een optie om de factoriële ANOVA uit te voeren als multipele lineaire regressie en te bootstrappen; zie bijbehorende toetspagina.

5 Effectmaat

De p-waarde geeft aan of het verschil tussen groepen significant is. De grootte van het verschil of effect is echter ook relevant. Een effectmaat is een gestandaardiseerde maat die de grootte van een effect weergeeft, zodat effecten van verschillende onderzoeken met elkaar vergeleken kunnen worden.11 Voor de factoriële ANOVA wordt de effectmaat partial eta squared vaak gebruikt.12

De effectmaat partial eta squared (partial η2) berekent de proportie van de onverklaarde variantie (variantie die niet door de andere variabelen wordt verklaard) in de afhankelijke variabele die verklaard wordt door de onafhankelijke variabele.13 Voor de variabele Vooropleiding geeft de partial eta squared dus de proportie verklaarde variantie weer van de variantie die niet verklaard is door de variabele Geslacht en de interactie tussen de variabele Vooropleiding en Geslacht. De partial eta squared van alle termen van het model tellen dus niet per se op tot 1.14 Een indicatie om partial η2 te interpreteren is: rond 0,01 is een klein effect, rond 0,06 is een gemiddeld effect en rond 0,14 is een groot effect.15

6 Post-hoc toetsen

De eerste stap van de factoriële ANOVA is het toetsen van hoofdeffecten en interactie-effecten. De volgende stap bestaat uit het bepalen welke groepen van elkaar verschillen, zowel bij simple effects analyse als het interpreteren van hoofdeffecten, en wordt gedaan met post-hoc toetsen. De post-hoc toetsen voeren meestal een correctie voor de p-waarden uit, omdat er meerdere toetsen tegelijkertijd worden gebruikt. Meerdere toetsen tegelijkertijd uitvoeren verhoogt de kans dat een van de nulhypotheses onterecht wordt verworpen en er bij toeval een verband wordt ontdekt dat er niet is (type I fout). Gebruik bij factoriële ANOVA de Games-Howell post-hoc toets, omdat deze te gebruiken is bij ongelijke varianties. De Bonferroni correctie is een optie als het doel is om de type I fout heel laag te houden.16 Er zijn ook nog andere opties voor een correctie op de p-waarden.17 In deze toetspagina wordt de Games-Howell post-hoc toets gebruikt.

7 Uitvoering

Er is een dataset ingeladen met de gemiddelde cijfers voor eerstejaars studenten van de bachelor Psychologie genaamd Gemiddelde_cijfers_psychologie.

7.1 De data bekijken

Gebruik head() en tail() om de structuur van de data te bekijken.

## Eerste 5 observaties
head(Gemiddelde_cijfers_psychologie)
##     Studentnummer Geslacht Vooropleiding Gemiddeld_cijfer
## 404       4295929    Vrouw           vwo         6.709711
## 591       4176258    Vrouw        overig         6.516220
## 145       4109988      Man           vwo         8.237235
## 265       4291206    Vrouw           hbo         8.683460
## 311       4491923    Vrouw           vwo         7.235058
## 239       4319243    Vrouw           hbo         8.272377

## Laatste 5 observaties
tail(Gemiddelde_cijfers_psychologie)
##     Studentnummer Geslacht Vooropleiding Gemiddeld_cijfer
## 351       4464010    Vrouw           vwo         6.057061
## 126       4398658      Man           vwo         6.747220
## 32        4403010      Man           hbo         6.664795
## 1         4385074      Man           hbo         7.426608
## 124       4119651      Man           vwo         9.074872
## 207       4265800    Vrouw           hbo         7.211123

Inspecteer voor alle groepen het gemiddelde, de standaardafwijking, de mediaan en het aantal observaties om meer inzicht te krijgen. Gebruik hiervoor de functie descr en stby van het package summarytools om de beschrijvende statistieken per groep weer te geven. Voer de gewenste statistieken in met het argument stats = c("mean","sd","med","n.valid").

# Gemiddelde, standaardafwijking, mediaan en aantal observaties
library(summarytools)

with(Gemiddelde_cijfers_psychologie, 
     stby(data = Gemiddeld_cijfer, 
          list(Geslacht, Vooropleiding), 
          descr, 
          stats = c("mean", "sd", "med", "n.valid")))
## Descriptive Statistics  
## Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer  
## Group: Geslacht = Man, Vooropleiding = hbo  
## N: 50  
## 
##                 Gemiddeld_cijfer
## ------------- ------------------
##          Mean               6.39
##       Std.Dev               1.22
##        Median               6.32
##       N.Valid              50.00
## 
## Group: Geslacht = Vrouw, Vooropleiding = hbo  
## N: 100  
## 
##                 Gemiddeld_cijfer
## ------------- ------------------
##          Mean               7.33
##       Std.Dev               0.99
##        Median               7.46
##       N.Valid             100.00
## 
## Group: Geslacht = Man, Vooropleiding = vwo  
## N: 100  
## 
##                 Gemiddeld_cijfer
## ------------- ------------------
##          Mean               7.40
##       Std.Dev               0.97
##        Median               7.36
##       N.Valid             100.00
## 
## Group: Geslacht = Vrouw, Vooropleiding = vwo  
## N: 250  
## 
##                 Gemiddeld_cijfer
## ------------- ------------------
##          Mean               7.42
##       Std.Dev               0.99
##        Median               7.39
##       N.Valid             250.00
## 
## Group: Geslacht = Man, Vooropleiding = overig  
## N: 40  
## 
##                 Gemiddeld_cijfer
## ------------- ------------------
##          Mean               7.20
##       Std.Dev               0.89
##        Median               7.36
##       N.Valid              40.00
## 
## Group: Geslacht = Vrouw, Vooropleiding = overig  
## N: 80  
## 
##                 Gemiddeld_cijfer
## ------------- ------------------
##          Mean               7.42
##       Std.Dev               0.88
##        Median               7.43
##       N.Valid              80.00

Maak vervolgens een grafiek met de gemiddelden voor de verschillende groepen.

library(ggplot2)

ggplot(Gemiddelde_cijfers_psychologie, 
       aes(x = Vooropleiding, y = Gemiddeld_cijfer, group = Geslacht, colour = Geslacht)) + 
  stat_summary(fun = mean, geom = "point") +  
  stat_summary(fun = mean, geom = "line", aes(group = Geslacht)) + 
  scale_color_manual(values = c("darkorange", "deepskyblue")) 

Figuur 3. Gemiddelde van de gemiddelde cijfers per groep op basis van Vooropleiding en Geslacht voor de dataset Gemiddelde_cijfers_psychologie.

Op basis van de beschrijvende statistieken en de grafiek (Figuur 3) lijken er verschillen tussen de groepen te zijn. Vrouwen hebben voor alle vooropleidingen een hoger gemiddeld cijfer dan mannen. Voor vrouwen zijn er kleine verschillen tussen de vooropleidingen, maar voor mannen zijn deze verschillen groter. De mannelijke studenten afkomstig van het hbo-p hebben een substantieel lager gemiddelde dan mannelijke studenten afkomstig van het vwo of overige vooropleidingen. De lijnen van mannen en vrouwen lopen niet parallel dus er lijkt een interactie-effect te zijn. De factoriële ANOVA zal dit interactie-effect toetsen.

7.2 Normaliteit

De factoriële ANOVA vereist dat de verdeling van de afhankelijke variabele de normale verdeling benaderd in elke groep die gevormd wordt door de onafhankelijke variabelen. Toets deze assumptie met behulp van een histogram en de Kolmogorov-Smirnov en Shapiro-Wilk test.

7.2.1 Histogram

Visualiseer de verdeling van de gemiddelde cijfers binnen elke groep met behulp van een histogram.18 Focus bij het analyseren van een histogram op de symmetrie van de verdeling, de hoeveelheid toppen (modaliteit) en mogelijke outliers. Een normale verdeling is symmetrisch, heeft één top en geen outliers.19, 20

## Histogram met ggplot
ggplot(Gemiddelde_cijfers_psychologie,
  aes(x = Gemiddeld_cijfer)) +
  geom_histogram(aes(y = ..density..),
                 binwidth = 0.5,
                 color = "grey30",
                 fill = "#0089CF") +
  facet_wrap(~ Vooropleiding + Geslacht) +
  geom_density(alpha = .2, adjust = 1) +
  ylab("Gemiddeld cijfer")

Figuur 4. Histogrammen van de verdelingen van de gemiddelde cijfers per groep op basis van Vooropleiding en Geslacht.

De verdelingen van de zes groepen, te zien in Figuur 4, zijn redelijk symmetrisch, hebben geen outliers en zijn allen eentoppig. De verdelingen zijn dus bij benadering normaal.

7.2.2 Toetsen van normaliteit

Voer een toets uit om te controleren of de data normaal verdeeld zijn. Twee veelgebruikte toetsen zijn: de Kolmogorov-Smirnov test en de Shapiro-Wilk test.

7.2.2.1 Kolmogorov-Smirnov test

De Kolmogorov-Smirnov test toetst het verschil tussen twee verdelingen. Standaard toetst deze toets het verschil tussen een normale verdeling en de verdeling van de steekproef. De Lilliefors correctie is vereist als het gemiddelde en de standaardafwijking niet van tevoren bekend of bepaald zijn, wat meestal het geval is bij een steekproef. Als de p-waarde kleiner dan 0,05 is, is de verdeling van de data significant verschillend van de normale verdeling.21

library("nortest")

with(Gemiddelde_cijfers_psychologie, 
     by(data = Gemiddeld_cijfer, 
        list(Geslacht, Vooropleiding), 
        lillie.test))
## : Man
## : hbo
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  dd[x, ]
## D = 0.087216, p-value = 0.4469
## 
## ------------------------------------------------------------ 
## : Vrouw
## : hbo
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  dd[x, ]
## D = 0.063689, p-value = 0.4077
## 
## ------------------------------------------------------------ 
## : Man
## : vwo
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  dd[x, ]
## D = 0.055476, p-value = 0.6311
## 
## ------------------------------------------------------------ 
## : Vrouw
## : vwo
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  dd[x, ]
## D = 0.031089, p-value = 0.8051
## 
## ------------------------------------------------------------ 
## : Man
## : overig
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  dd[x, ]
## D = 0.1151, p-value = 0.2008
## 
## ------------------------------------------------------------ 
## : Vrouw
## : overig
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  dd[x, ]
## D = 0.071079, p-value = 0.4074

De p-waarde is groter dan 0,05 voor elke groep; er zijn dus geen significante verschillen gevonden tussen de verdelingen van de steekproef en de normale verdeling. De factoriële ANOVA kan uitgevoerd worden.

7.2.2.2 Shapiro-Wilk test

De Shapiro-Wilk test is een soortgelijke toets als de Kolmogorov-Smirnov test en vooral geschikt bij kleine steekproeven (n < 50). Als de p-waarde kleiner dan 0,05 is, is de verdeling van de data significant verschillend van de normale verdeling.22

library("nortest")

with(Gemiddelde_cijfers_psychologie, 
     by(data = Gemiddeld_cijfer, 
        list(Geslacht, Vooropleiding), 
        shapiro.test))
## : Man
## : hbo
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.98227, p-value = 0.6508
## 
## ------------------------------------------------------------ 
## : Vrouw
## : hbo
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.98069, p-value = 0.1504
## 
## ------------------------------------------------------------ 
## : Man
## : vwo
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.99012, p-value = 0.674
## 
## ------------------------------------------------------------ 
## : Vrouw
## : vwo
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.99341, p-value = 0.3389
## 
## ------------------------------------------------------------ 
## : Man
## : overig
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.96919, p-value = 0.3392
## 
## ------------------------------------------------------------ 
## : Vrouw
## : overig
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.98283, p-value = 0.3596

De p-waarde is groter dan 0,05 voor elke groep; er zijn dus geen significante verschillen gevonden tussen de verdelingen van de steekproef en de normale verdeling. De factoriële ANOVA kan uitgevoerd worden.

7.3 Homogeniteit van varianties

Toets met de Levene’s test de assumptie homogeniteit van varianties. Gebruik hiervoor de functie leveneTest van het package car met het argument Gemiddeld_cijfer ~ Vooropleiding*Geslacht met daarin de afhankelijke variabele Gemiddeld_cijfer en de onafhankelijke variabelen Vooropleiding*Geslacht (het vermenigvuldigingsteken zorgt ervoor dat de variabelen apart van elkaar en als interactie mee worden genomen) en het argument data = Gemiddelde_cijfers_psychologie.

library(car)
leveneTest(Gemiddeld_cijfer ~ Vooropleiding*Geslacht, 
           data = Gemiddelde_cijfers_psychologie)
## Levene's Test for Homogeneity of Variance (center = median)
##        Df F value Pr(>F)
## group   5  1.8176 0.1073
##       614
  • F(5,614) = 1,82, p-waarde = 0,11,
  • De p-waarde is groter dan 0,05, dus er is geen significant verschil gevonden tussen de groepen in variantie.23 Er is dus aan de assumptie van homogeniteit van varianties voldaan.

8 Factoriële ANOVA

Voer de factoriële ANOVA uit om de vraag te beantwoorden of er verschillen zijn tussen mannen en vrouwen en studenten met een hbo-p vooropleiding, vwo vooropleiding of overige vooropleiding wat betreft het gemiddelde cijfer in het eerste jaar van de bachelor Psychologie.

Gebruik aov() om een ANOVA-object (ANOVA_object) te creëren. Het eerste argument bestaat uit de afhankelijke variabele Gemiddeld_cijfer en de onafhankelijke variabele Geslacht, de onafhankelijke variabele Vooropleiding en de interactie tussen beide variabelen Geslacht:Vooropleiding. Het tweede argument bevat de dataset data = Gemiddelde_cijfers_psychologie. Geef de resultaten weer met de functie summary().

ANOVA_object <- aov(Gemiddeld_cijfer ~ Geslacht + Vooropleiding + Geslacht:Vooropleiding, 
                    data = Gemiddelde_cijfers_psychologie)

summary(ANOVA_object)
##                         Df Sum Sq Mean Sq F value   Pr(>F)    
## Geslacht                 1   12.7  12.734  13.115 0.000317 ***
## Vooropleiding            2   15.8   7.876   8.112 0.000333 ***
## Geslacht:Vooropleiding   2   19.6   9.816  10.110 4.79e-05 ***
## Residuals              614  596.1   0.971                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Bereken vervolgens de effectmaat partial eta squared met behulp van de functie EtaSq van het package DescTools met als argument het ANOVA-object ANOVA_object.

library(DescTools)
EtaSq(ANOVA_object)
##                            eta.sq eta.sq.part
## Geslacht               0.01809052  0.01917576
## Vooropleiding          0.02444881  0.02574198
## Geslacht:Vooropleiding 0.03047157  0.03188114
  • Er is een significant interactie-effect van Vooropleiding en Geslacht op Gemiddeld_cijfer, F (2,614) = 10,11, p < 0,0001, η2 = 0,03.
  • De p-waarde is kleiner dan 0,05, dus de nulhypothese dat er geen interactie-effect is wordt verworpen.24
  • Er is een klein tot gemiddeld effect van de interactie tussen Vooropleiding en Geslacht op Gemiddeld_cijfer.
  • Omdat er een significant interactie-effect is, hoeven de hoofdeffecten niet geïnterpreteerd te worden. De volgende stap is een simple effects analyse om te interactie verder te onderzoeken.

8.1 Simple effects analyse

Voer een simple effects analyse uit om het interactie-effect te interpreteren. Vergelijk eerst de verschillen tussen de drie vooropleidingen voor elke categorie van de variabele Geslacht (mannen en vrouwen dus). Vergelijk daarna de verschillen tussen mannen en vrouwen van elke categorie van de variabele Vooropleiding (hbo-p, vwo of overig).

8.1.1 Vooropleiding

Maak eerst een aparte dataset voor mannen en vrouwen aan en voer vervolgens de Games-Howell post hoc toets uit met behulp van de functie posthocTGH()$output van het package userfriendlyscience. Het eerste argument is de afhankelijke variabele (bijvoorbeeld Mannen_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer), het tweede argument is de onafhankelijke variabele (bijvoorbeeld Mannen_Gemiddelde_cijfers_psychologie$Vooropleiding) en het derde argument method = "games-howell" om aan te geven dat de Games-Howell post-hoc toets uitgevoerd moet worden.

library(userfriendlyscience)

# Maak een dataset met mannen en een dataset met vrouwen
Mannen_Gemiddelde_cijfers_psychologie <- Gemiddelde_cijfers_psychologie[Gemiddelde_cijfers_psychologie$Geslacht == "Man",]

Vrouwen_Gemiddelde_cijfers_psychologie <- Gemiddelde_cijfers_psychologie[Gemiddelde_cijfers_psychologie$Geslacht == "Vrouw",]

# Voer voor beide datasets de Games-Howell post-hoc toets uit
Games_Howell_Mannen <- posthocTGH(Mannen_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer,
           Mannen_Gemiddelde_cijfers_psychologie$Vooropleiding,
           method = "games-howell")$output

Games_Howell_Vrouwen <- posthocTGH(Vrouwen_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer,
           Vrouwen_Gemiddelde_cijfers_psychologie$Vooropleiding,
           method = "games-howell")$output

# Geef de resultaten weer van de Games-Howell post-hoc toets
Games_Howell_Mannen$games.howell
##                  diff      ci.lo     ci.hi        t       df            p
## vwo-hbo     1.0124961  0.5392123 1.4857800 5.108327 80.45318 6.362212e-06
## overig-hbo  0.8156294  0.2830565 1.3482023 3.651562 87.33297 1.278296e-03
## overig-vwo -0.1968667 -0.6057912 0.2120577 1.150428 77.38735 4.863154e-01
Games_Howell_Vrouwen$games.howell
##                    diff      ci.lo     ci.hi          t       df         p
## vwo-hbo     0.088165059 -0.1876067 0.3639368 0.75546509 182.2440 0.7307103
## overig-hbo  0.085101331 -0.2440192 0.4142218 0.61119208 175.9171 0.8142006
## overig-vwo -0.003063727 -0.2785313 0.2724039 0.02633184 147.7917 0.9996178

Voor mannen zijn de volgende vergelijkingen getoetst25:

  • Hbo-p versus vwo: het verschil in gemiddelde (vwo - hbo-p) is 1,01, dit is een significant verschil (p < 0,0001).
  • Hbo-p versus overig: het verschil in gemiddelde (overig - hbo-p) is 0,82, dit is een significant verschil (p < 0,01).
  • Vwo versus overig: het verschil in gemiddelde (overig - vwo) is -0,2, dit is geen significant verschil (p = 0,49).

Voor vrouwen zijn de volgende vergelijkingen getoetst26:

  • Hbo-p versus vwo: het verschil in gemiddelde (vwo - hbo-p) is 0,09, dit is geen significant verschil (p = 0,73).
  • Hbo-p versus overig: het verschil in gemiddelde (overig - hbo-p) is 0,09, dit is geen significant verschil (p = 0,81).
  • Vwo versus overig: het verschil in gemiddelde (overig - vwo) is 0, dit is geen significant verschil (p = 1,00).

8.1.2 Geslacht

Maak eerst aparte datasets voor studenten met een hbo-p, vwo en overige vooropleiding en voer vervolgens de Games-Howell post hoc toets uit met behulp van de functie posthocTGH()$output van het package userfriendlyscience. Het eerste argument is de afhankelijke variabele (bijvoorbeeld Hbo_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer), het tweede argument is de onafhankelijke variabele (bijvoorbeeld Hbo_Gemiddelde_cijfers_psychologie$Geslacht) en het derde argument method = "games-howell" om aan te geven dat de Games-Howell post-hoc toets uitgevoerd moet worden.

library(userfriendlyscience)

# Maak een dataset met studenten met een hbo-p, vwo en overige vooropleiding
Hbo_Gemiddelde_cijfers_psychologie <- Gemiddelde_cijfers_psychologie[Gemiddelde_cijfers_psychologie$Vooropleiding == "hbo",]

Vwo_Gemiddelde_cijfers_psychologie <- Gemiddelde_cijfers_psychologie[Gemiddelde_cijfers_psychologie$Vooropleiding == "vwo",]

Overig_Gemiddelde_cijfers_psychologie <- Gemiddelde_cijfers_psychologie[Gemiddelde_cijfers_psychologie$Vooropleiding == "overig",]

# Voer voor de drie datasets de Games-Howell post-hoc toets uit
Games_Howell_hbo <- posthocTGH(Hbo_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer,
           Hbo_Gemiddelde_cijfers_psychologie$Geslacht,
           method = "games-howell")$output

Games_Howell_vwo <- posthocTGH(Vwo_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer,
           Vwo_Gemiddelde_cijfers_psychologie$Geslacht,
           method = "games-howell")$output

Games_Howell_overig <- posthocTGH(Overig_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer,
           Overig_Gemiddelde_cijfers_psychologie$Geslacht,
           method = "games-howell")$output

# Geef de resultaten weer van de Games-Howell post-hoc toets
Games_Howell_hbo$games.howell
##                diff     ci.lo    ci.hi        t       df            p
## Vrouw-Man 0.9483688 0.5520755 1.344662 4.760846 81.75848 8.219592e-06
Games_Howell_vwo$games.howell
##                 diff      ci.lo    ci.hi         t       df         p
## Vrouw-Man 0.02403769 -0.2028236 0.250899 0.2090353 185.7224 0.8346498
Games_Howell_overig$games.howell
##                diff      ci.lo     ci.hi        t       df         p
## Vrouw-Man 0.2178407 -0.1247355 0.5604169 1.266223 76.98207 0.2092515
  • Hbo-p: het verschil in gemiddelde (vrouw - man) is 0,95, dit is een significant verschil (p < 0,0001).27
  • Vwo: het verschil in gemiddelde (vrouw - man) is 0,02, dit is geen significant verschil (p = 0,83).28
  • Overig: het verschil in gemiddelde (vrouw - man) is 0,22, dit is geen significant verschil (p = 0,21).29

8.2 Illustratie van post-hoc toetsing bij hoofdeffecten zonder interactie-effect

In de huidige casus worden de hoofdeffecten niet geïnterpreteerd vanwege het significante interactie-effect. Om toch te illustreren hoe het interpreteren van hoofdeffecten zonder een significant interactie-effect werkt, wordt de bijbehorende post-hoc toetsing toch geïllustreerd. Hiervoor wordt een nieuwe dataset Hoofdeffecten_Gemiddelde_cijfers_psychologie gebruikt.

ANOVA_object_hoofdeffect <- aov(Gemiddeld_cijfer ~ Geslacht + Vooropleiding + Geslacht:Vooropleiding,
                                data = Hoofdeffecten_Gemiddelde_cijfers_psychologie)

summary(ANOVA_object_hoofdeffect)
##                         Df Sum Sq Mean Sq F value   Pr(>F)    
## Geslacht                 1    6.7   6.657   7.162  0.00764 ** 
## Vooropleiding            2   22.1  11.057  11.897 8.53e-06 ***
## Geslacht:Vooropleiding   2    0.2   0.113   0.122  0.88552    
## Residuals              614  570.7   0.929                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Er is geen significant interactie-effect van Vooropleiding en Geslacht op Gemiddeld_cijfer, F (2,614) = 0,12, p = 0,89.30 De hoofdeffecten van Geslacht (p < 0,01) en Vooropleiding (p < 0,0001) zijn wel significant.31 Voer daarom de Games_howell post-hoc toets uit voor beide variabelen. Gebruik hiervoor de functie posthocTGH()$output van het package userfriendlyscience. Het eerste argument is de afhankelijke variabele Hoofdeffecten_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer, het tweede argument is de onafhankelijke variabele (bijvoorbeeld Hoofdeffecten_Gemiddelde_cijfers_psychologie$Geslacht) en het derde argument method = "games-howell" om aan te geven dat de Games-Howell post-hoc toets uitgevoerd moet worden.

library(userfriendlyscience)

# Voer de post-hoc toets uit voor de onafhankelijke variabele Vooropleiding
Games_Howell_vooropleiding <- posthocTGH(Hoofdeffecten_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer,
           Hoofdeffecten_Gemiddelde_cijfers_psychologie$Vooropleiding,
           method = "games-howell")$output

# Voer de post-hoc toets uit voor de onafhankelijke variabele Geslacht
Games_Howell_geslacht <- posthocTGH(Hoofdeffecten_Gemiddelde_cijfers_psychologie$Gemiddeld_cijfer,
           Hoofdeffecten_Gemiddelde_cijfers_psychologie$Geslacht,
           method = "games-howell")$output

# Geef de resultaten weer van de Games-Howell post-hoc toets
Games_Howell_vooropleiding$games.howell
##                   diff      ci.lo     ci.hi         t       df            p
## vwo-hbo     0.45278930  0.2281881 0.6773905 4.7502490 278.5987 9.706414e-06
## overig-hbo  0.43677678  0.1590265 0.7145271 3.7069517 258.6965 7.482050e-04
## overig-vwo -0.01601252 -0.2537944 0.2217694 0.1589543 210.2693 9.861681e-01
Games_Howell_geslacht$games.howell
##                diff      ci.lo     ci.hi       t       df          p
## Vrouw-Man 0.2247638 0.05602177 0.3935059 2.61954 357.2152 0.00918023

De verschillen voor de groepen van de onafhankelijke variabele Vooropleiding zijn32:

  • Hbo-p versus vwo: het verschil in gemiddelde (vwo - hbo-p) is 0,45, dit is een significant verschil (p < 0,0001).
  • Hbo-p versus overig: het verschil in gemiddelde (overig - hbo-p) is 0,44, dit is een significant verschil (p < 0,001).
  • Vwo versus overig: het verschil in gemiddelde (overig - vwo) is -0,02, dit is geen significant verschil (p = 0,99).

De verschillen voor de groepen van de onafhankelijke variabele Geslacht zijn33:

  • Man versus Vrouw: het verschil in gemiddelde (vrouw - man) is 0,22, dit is een significant verschil (p = 0,009).

Visualiseer de gemiddelden per groep om de resultaten ook visueel weer te geven. In de grafiek in Figuur 5 is te zien dat de lijnen redelijk parallel lopen wat overeenkomt met het feit dat er geen significant interactie-effect is. Het hoofdeffect van de variabele Geslacht is duidelijk zichtbaar: de gemiddeldes van vrouwen liggen voor alle vooropleiding hoger dan de gemiddeldes van mannen. Dit komt overeen met het significante verschil tussen beide groepen op de post-hoc toets. Het hoofdeffect van de variabele Vooropleiding is ook zichtbaar: de gemiddeldes voor de groepen vwo en overig verschillen onderling niet veel, maar liggen hoger dan het gemiddelde van de groep hbo-p. De post-hoc toetsen wijzen dat ook uit met een significant verschil tussen hbo-p en vwo, een significant verschil tussen hbo-p en overig en geen significant verschil tussen vwo en overig.

ggplot(Hoofdeffecten_Gemiddelde_cijfers_psychologie, 
       aes(x = Vooropleiding, y = Gemiddeld_cijfer, group = Geslacht, colour = Geslacht)) + 
  stat_summary(fun = mean, geom = "point") + 
  stat_summary(fun = mean, geom = "line", aes(group = Geslacht)) + 
  scale_color_manual(values = c("darkorange", "deepskyblue")) 

Figuur 5. Gemiddelde van de gemiddelde cijfers per groep op basis van Vooropleiding en Geslacht voor de dataset Hoofdeffecten_Gemiddelde_cijfers_psychologie.

9 Rapportage

De factoriële ANOVA is uitgevoerd om te toetsen of er verschillen zijn tussen mannen en vrouwen en studenten met een hbo-p vooropleiding, vwo vooropleiding of overige vooropleiding wat betreft het gemiddelde cijfer in het eerste jaar van de bachelor Psychologie. De resultaten lieten zien dat er een significant interactie-effect was tussen Vooropleiding en Geslacht op de gemiddelde cijfers van de studenten, F (2,614) = 0,12, p < 0,0001, η2 = 0,03.

Om dit effect verder te onderzoeken, is er een simple effects analyse uitgevoerd met behulp van de Games-Howell post-hoc toets. Uit deze analyse bleek dat mannen met een vwo vooropleiding een significant hoger gemiddeld cijfer hadden dan mannen met een hbo-p vooropleiding (p < 0,0001), dat mannen met een overige vooropleiding ook een significant hoger gemiddeld cijfer hadden dan mannen met een hbo-p vooropleiding (p < 0,01) en dat er geen significant verschil was tussen mannen met een vwo en overige vooropleiding. Bij vrouwen was er geen enkel significant verschil tussen de groepen met een vwo, hbo-p of overige vooropleiding. Bij studenten met een hbo-p vooropleiding hadden vrouwen significant hogere gemiddelde cijfers (p < 0,0001) dan mannen, maar waren er geen significante verschillen voor studenten met een vwo of overige vooropleiding. In Figuur 6 zijn de gemiddeldes voor alle groepen weergegeven om de resultaten te ondersteunen.

Samenvattend suggereren de resultaten dat er bij vrouwen geen verschillen zijn in gemiddeld cijfer tussen de studenten afkomstig van verschillende vooropleidingen, maar dat bij mannen studenten met een hbo-p vooropleiding minder goed presteren dan studenten met een vwo of overige vooropleiding. Daarnaast presteren vrouwen afkomstig van het hbo-p beter dan mannen afkomstig van het hbo-p, maar zijn er geen man-vrouw verschillen voor de studenten met een vwo of overige vooropleiding.

Figuur 6. Gemiddelde van de gemiddelde cijfers per groep op basis van Vooropleiding en Geslacht voor de dataset Gemiddelde_cijfers_psychologie.


  1. Laerd statistics (2018). Two-way ANOVA in SPSS Statistics. https://statistics.laerd.com/spss-tutorials/two-way-anova-using-spss-statistics.php.

  2. Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage. Pagina 507-542.

  3. Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage. Pagina 507-542.

  4. Met een deelnemer wordt het object bedoeld dat geobserveerd wordt, bijvoorbeeld een student, een inwoner van Nederland, een opleiding of een organisatie. Met een observatie wordt de waarde bedoeld die de deelnemer heeft voor een bepaalde variabele. Een deelnemer heeft dus meestal een observatie voor meerdere variabelen.

  5. Laerd statistics (2018). Two-way ANOVA in SPSS Statistics. https://statistics.laerd.com/spss-tutorials/two-way-anova-using-spss-statistics.php.

  6. Laerd statistics (2018). Testing for Normality using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/testing-for-normality-using-spss-statistics.php.

  7. Universiteit van Amsterdam (14 juli 2014). Normaliteit. UvA Wiki Methodologiewinkel.

  8. Er zijn verschillende opties om variabelen te transformeren, zoals de logaritme, wortel of inverse (1 gedeeld door de variabele) nemen van de variabele. Zie Discovering statistics using IBM SPSS statistics van Field (2013) pagina 201-210 voor meer informatie over welke transformaties wanneer gebruikt kunnen worden.

  9. Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage. Pagina 507-542.

  10. Tabachnick, B.G. & Fidell, L.S. (2013). Using multivariate statistics. Sixth Edition, Pearson. Pagina 86.

  11. Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.

  12. Tabachnick, B.G. & Fidell, L.S. (2013). Using multivariate statistics. Sixth Edition, Pearson. Pagina 54 - 55.

  13. Tabachnick, B.G. & Fidell, L.S. (2013). Using multivariate statistics. Sixth Edition, Pearson. Pagina 54 - 55.

  14. Tabachnick, B.G. & Fidell, L.S. (2013). Using multivariate statistics. Sixth Edition, Pearson. Pagina 54 - 55.

  15. Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited. Pagina 84.

  16. Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage. Pagina 458-460.

  17. Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.

  18. De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.

  19. Outliers (13 augustus 2016). UvA Wiki Methodologiewinkel.

  20. Outliers kunnen bepalend zijn voor de uitkomst van toetsen. Bekijk of de outliers valide outliers zijn en niet een meetfout of op een andere manier incorrect verkregen data. Het weghalen van outliers kan de uitkomst ook vertekenen, daarom is het belangrijk om verwijderde outliers te melden in een rapport.

  21. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  22. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  23. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  24. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  25. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  26. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  27. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  28. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  29. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  30. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  31. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  32. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.

  33. In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.