Gebruik de Kruskal Wallis toets om te toetsen of twee of meer ongepaarde groepen van elkaar verschillen op een ordinale1 variabele.2, 3 Als de variabele beter als nominaal4 beschouwd kan worden, is de chi-kwadraat toets voor onafhankelijkheid of de Fisher-Freeman-Halton exact toets (bij een laag aantal observaties) een alternatief. Bij deze toetsen wordt echter geen rekening gehouden met de ordening van de categorieën van de ordinale variabele: de variabele wordt behandeld als een nominale variabele.
Bij het interdisciplinaire vak ‘Presentatievaardigheden’ van de faculteit Economie en Bedrijfswetenschappen leren studenten om een overtuigende presentatie te geven over een product. Het vak wordt afgesloten met een individuele presentatie die beoordeeld wordt als onvoldoende, voldoende, goed of uitstekend. Het vak wordt gevolgd door studenten van de masters Economics, Finance, Entrepeneurship en Marketing. De hoofddocent wil graag onderzoeken of er verschillen zijn tussen de beoordelingen van studenten van deze vier masters. Wanneer er verschillen zijn, kan hij in gesprek gaan met studenten van een master die minder goed scoort om te onderzoeken wat de oorzaak hiervan zou kunnen zijn.
Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.
H0: Er zijn geen verschillen tussen (de gemiddelde rangnummers van) de beoordeling van het vak Presentatievaardigheden voor studenten afkomstig van de opleidingen Economics, Finance, Entrepeneurship en Marketing.
HA: Er zijn verschillen tussen (de gemiddelde rangnummers van) de beoordeling van het vak Presentatievaardigheden voor studenten afkomstig van de opleidingen Economics, Finance, Entrepeneurship en Marketing.
Het meetniveau van de afhankelijke variabele is ordinaal5 of continu.6 In deze toetspagina staat een casus met een ordinale afhankelijke variabele centraal; een casus met een continue afhankelijke variabele met bijbehorende uitwerking is te vinden in de Kruskal Wallis toets I.
Om de Kruskal Wallis toets uit te voeren met een ordinale afhankelijke variabele, moet deze variabele omgezet worden in getallen. Wanneer er vier categorieën zijn, worden ze genummerd van 1 tot en met 4 op basis van de ordening van de variabele. De categorieën onvoldoende, voldoende, goed en uitstekend worden dan omgezet in respectievelijk 1, 2, 3 en 4. Bij de chi-kwadraat toets voor onafhankelijkheid en de Fisher-Freeman_Halton exact toets wordt dit niet gedaan, maar wordt de ordinale afhankelijke variabele als nominaal7 beschouwd. De Kruskal Wallis toets maakt een rangschikking van alle observaties van alle groepen samengevoegd en telt vervolgens apart de rangnummers op voor de observaties in alle groepen. Met behulp van de groepsgroottes kan ook het gemiddelde rangnummer van de groepen berekend worden. Het verschil tussen de gemiddelde rangnummers van de groepen bepaalt de significantie van de toets.8
De Kruskal Wallis toets toetst of er een verschil is tussen de groepen op gebied van de afhankelijke variabele. De post-hoc toets wordt daarna gebruikt om te toetsen tussen welke specifieke groepen er een significant verschil is. Gebruik de Mann-Whitney U toets als post-hoc toets.
Gebruik een correctie voor de p-waarden, omdat er meerdere toetsen tegelijkertijd worden gebruikt. Meerdere toetsen tegelijkertijd uitvoeren verhoogt de kans dat een van de nulhypotheses onterecht wordt verworpen en er bij toeval een verband wordt ontdekt dat er niet is (type I fout). In deze toetspagina wordt de Bonferroni correctie gebruikt. Deze correctie past de p-waarde aan door de p-waarde te vermenigvuldigen met het aantal uitgevoerde toetsen en verlaagt hiermee de kans op een type I fout.9 Een andere uitleg hiervan is dat het significantieniveau gedeeld wordt door het aantal toetsen wat leidt tot een lager significantieniveau en dus een strengere toets. Er zijn ook andere opties voor een correctie op de p-waarden.10
De p-waarde geeft aan of het verschil tussen groepen significant is. De grootte van het verschil of effect is echter ook relevant. Een effectmaat is een gestandaardiseerde maat die de grootte van een effect weergeeft, zodat effecten van verschillende onderzoeken met elkaar vergeleken kunnen worden.11
Bij de Kruskal Wallis toets wordt eta-squared (η2) als effectmaat gebruikt.12 De effectmaat eta squared (η2) berekent de proportie van de variantie in de afhankelijke variabele die verklaard wordt door de onafhankelijke variabele. In deze casus berekent het de proportie van de variantie in de beoordelingen van presentaties die verklaard kan worden door de opleiding. Een indicatie om η2 te interpreteren is: rond 0,01 is een klein effect, rond 0,06 is een gemiddeld effect en rond 0,14 is een groot effect.13
Er is een dataset Beoordelingen_presentatievaardigheden ingeladen met daarin de beoordelingen voor het vak Presentatievaardigheden van studenten afkomstig van de opleidingen Economics, Finance, Entrepeneurship en Marketing.
Gebruik head() en tail() om de structuur van de data te bekijken.
## Eerste 6 observaties
head(Beoordelingen_presentatievaardigheden)
## Studentnummer Opleiding Beoordeling
## 56 3255963 Entrepeneurship Voldoende
## 106 3863136 Marketing Uitstekend
## 15 3131464 Economics Goed
## 10 3480166 Economics Voldoende
## 82 3274478 Entrepeneurship Uitstekend
## 94 3590278 Marketing Voldoende
## Laatste 6 observaties
tail(Beoordelingen_presentatievaardigheden)
## Studentnummer Opleiding Beoordeling
## 93 3544675 Marketing Voldoende
## 84 3704562 Entrepeneurship Uitstekend
## 64 3044034 Entrepeneurship Goed
## 61 3052443 Entrepeneurship Goed
## 68 3577225 Entrepeneurship Goed
## 41 3937494 Finance Goed
De dataset bevat gegevens van studenten van verschillende opleidingen. Gebruik unique() om te onderzoeken welke opleidingen er in de data aanwezig zijn.
## Bepaal welke opleidingen er zijn in de dataset
unique(Beoordelingen_presentatievaardigheden$Opleiding)
## [1] "Entrepeneurship" "Marketing" "Economics" "Finance"
Een kruistabel geeft het aantal observaties weer voor de combinaties van de categorieën van de variabelen Opleiding en Beoordeling. In feite laat dit zien welke beoordelingen de studenten van de verschillende opleidingen krijgen. Maak de kruistabel met de functie table() met als argumenten de variabele Beoordelingen_presentatievaardigheden$Opleiding en de variabele Beoordelingen_presentatievaardigheden$Beoordeling. Zet de beoordelingen handmatig op de juiste volgorde, omdat R de alfabetische volgorde aanhoudt.
## Maak een kruistabel
Beoordelingen_kruistabel <- table(Beoordelingen_presentatievaardigheden$Beoordeling,
Beoordelingen_presentatievaardigheden$Opleiding)
## Bepaal de volgorde van de beoordelingen
Volgorde <- c("Onvoldoende", "Voldoende", "Goed", "Uitstekend")
## Print de kruistabel
print(Beoordelingen_kruistabel[Volgorde,])
##
## Economics Entrepeneurship Finance Marketing
## Onvoldoende 2 3 4 2
## Voldoende 10 10 15 8
## Goed 6 15 2 10
## Uitstekend 2 12 4 15
## Print een tabel met proporties; het tweede argument `2` zorgt ervoor dat de
## proporties per kolom berekend worden
prop.table(Beoordelingen_kruistabel[Volgorde,], 2)
##
## Economics Entrepeneurship Finance Marketing
## Onvoldoende 0.10000000 0.07500000 0.16000000 0.05714286
## Voldoende 0.50000000 0.25000000 0.60000000 0.22857143
## Goed 0.30000000 0.37500000 0.08000000 0.28571429
## Uitstekend 0.10000000 0.30000000 0.16000000 0.42857143
De kruistabel en bijbehorende kruistabel met proporties geven informatie over de verdeling van de beoordelingen van studenten. Bij Economics en Finance krijgen de meeste studenten een voldoende als beoordeling. Bij Entrepeneurship worden de presentatievaardigheden van studenten het vaakst als goed beoordeeld en bij Marketing het meest als uitstekend.
Maak een staafdiagram om de verdeling van de beoordelingen aan het begin en eind van het vak visueel weer te geven.
## Histogram met ggplot2
library(ggplot2)
ggplot(Beoordelingen_presentatievaardigheden,
aes(Beoordeling)) +
geom_bar(color = "grey30",
fill = "#0089CF") +
scale_x_discrete(limits = c("Onvoldoende", "Voldoende", "Goed", "Uitstekend")) +
facet_wrap(~ Opleiding) +
ylab("Frequentie") +
labs(title = "Beoordeling van presentatievaardigheden per opleiding")
Het staafdiagram maakt duidelijk dat bij Economics en Finance de meeste studenten een voldoende halen voor hun presentatievaardigheden. Bij Marketing en Entrepeneurship is de beoordeling met de hoogste frequentie hoger. Bij Marketing ontvangen de meeste studenten goed als beoordeling en bij Entrepeneurship komt de beoordeling uitstekend het meest voor.
Voer de Kruskal Wallis toets uit om te onderzoeken of er verschillen zijn tussen de beoordelingen van de presentatievaardigheden van studenten van de opleidingen Economics, Finance, Entrepeneurship en Marketing. Zet eerst de categorische variabele Beoordeling om in een numerieke variabele door de categorieën onvoldoende, voldoende, goed en uitstekend om te zetten in respectievelijk 1, 2, 3 en 4. Gebruik de functie kruskal.test() met als eerste argument de afhankelijke variabele Beoordeling_numeriek en de variabele die de groep definiëert: Opleiding. Het tweede argument is het dataframe Beoordelingen_presentatievaardigheden.
# Zet de categorieën om in getallen
Beoordelingen_presentatievaardigheden$Beoordeling_numeriek[Beoordelingen_presentatievaardigheden$Beoordeling == "Onvoldoende"] <- 1
Beoordelingen_presentatievaardigheden$Beoordeling_numeriek[Beoordelingen_presentatievaardigheden$Beoordeling == "Voldoende"] <- 2
Beoordelingen_presentatievaardigheden$Beoordeling_numeriek[Beoordelingen_presentatievaardigheden$Beoordeling == "Goed"] <- 3
Beoordelingen_presentatievaardigheden$Beoordeling_numeriek[Beoordelingen_presentatievaardigheden$Beoordeling == "Uitstekend"] <- 4
# Maak de variabele numeriek
Beoordelingen_presentatievaardigheden$Beoordeling_numeriek <- as.numeric(Beoordelingen_presentatievaardigheden$Beoordeling_numeriek)
# Voer de Kruskal Wallis toets uit
kruskal.test(Beoordeling_numeriek ~ Opleiding, Beoordelingen_presentatievaardigheden)
##
## Kruskal-Wallis rank sum test
##
## data: Beoordeling_numeriek by Opleiding
## Kruskal-Wallis chi-squared = 15.431, df = 3, p-value = 0.001483
Bereken de effectmaat η2 vervolgens op basis van de χ2-waarde van de Kruskal-Wallis toets.
# Sla de teststatistiek op
KW_teststatistiek <- kruskal.test(Beoordeling_numeriek ~ Opleiding, Beoordelingen_presentatievaardigheden)$statistic
# Bereken eta squared
Eta_squared <- KW_teststatistiek / (nrow(Beoordelingen_presentatievaardigheden) - 1)
# Print de effectgrootte
paste("Eta squared is",Eta_squared)
## [1] "Eta squared is 0.129669997758233"
Gebruik de Mann-Whitney U toets als post-hoc toets om te bepalen welke groepen significant verschillen. Gebruik de functie pairwise.wilcox.test() met als eerste argument de afhankelijke variabele Beoordelingen_presentatievaardigheden$Beoordeling_numeriek en als tweede argument de definitie van de groepen Beoordelingen_presentatievaardigheden$Opleiding. Pas de Bonferroni correctie toe met p.adjust.method = "bonferroni". Naast de p-waarde worden bij de Mann-Whitney U toets de gemiddelde rangnummers en de effectmaat r gerapporteerd. Voor meer informatie, zie de toetspagina van de Mann-Whitney U toets.
pairwise.wilcox.test(Beoordelingen_presentatievaardigheden$Beoordeling_numeriek, Beoordelingen_presentatievaardigheden$Opleiding, p.adjust.method = "bonferroni")
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: Beoordelingen_presentatievaardigheden$Beoordeling_numeriek and Beoordelingen_presentatievaardigheden$Opleiding
##
## Economics Entrepeneurship Finance
## Entrepeneurship 0.2328 - -
## Finance 1.0000 0.0327 -
## Marketing 0.0539 1.0000 0.0082
##
## P value adjustment method: bonferroni
De Mann-Whitney U toets gebruikt het gemiddelde rangnummer van twee ongepaarde groepen om de significantie van de toets te bepalen. Met behulp van het gemiddelde rangnummer kan bepaald worden welke groep hogere rangnummers heeft wat een benadering is voor het verschil tussen twee groepen.16 In deze casus heeft de opleiding met een hoger rangnummer dus over het algemeen studenten met een hogere beoordeling. Bereken en rapporteer daarom het gemiddelde rangnummer. In de onderstaande code worden de gemiddelde rangnummers voor alle post-hoc toetsen berekend. De resultaten zijn te zien in Tabel 1.
# Maak een functie om het gemiddelde rangnummer te berekenen voor een vergelijking van twee groepen
Gemiddeld_rangnummer <- function(Opleiding_1, Opleiding_2){
# Bind alle observaties in een variabele
Beoordelingen <- c(Opleiding_1, Opleiding_2)
# Maak een variabele die aangeeft in welke groep de observatie zit
Groepsindicator <- c(rep(1, length(Opleiding_1)), rep(2, length(Opleiding_2)))
# Bereken de rangnummers van alle observaties
Rangschikkingen <- rank(Beoordelingen)
# Bereken het gemiddelde rangnummer voor beide opleidingen
Gemiddeld_rangnummer_Opleiding_1 <- mean(Rangschikkingen[Groepsindicator == 1])
Gemiddeld_rangnummer_Opleiding_2 <- mean(Rangschikkingen[Groepsindicator == 2])
# Retourneer beide gemiddelde rangnummers
return(list(Groep_1 = Gemiddeld_rangnummer_Opleiding_1, Groep_2 = Gemiddeld_rangnummer_Opleiding_2))
}
# Definieer variabelen die observaties bevatten voor de verschillende opleidingen
Beoordeling_Economics <- Beoordelingen_presentatievaardigheden$Beoordeling_numeriek[Beoordelingen_presentatievaardigheden$Opleiding == "Economics"]
Beoordeling_Finance <- Beoordelingen_presentatievaardigheden$Beoordeling_numeriek[Beoordelingen_presentatievaardigheden$Opleiding == "Finance"]
Beoordeling_Entrepeneurship <- Beoordelingen_presentatievaardigheden$Beoordeling_numeriek[Beoordelingen_presentatievaardigheden$Opleiding == "Entrepeneurship"]
Beoordeling_Marketing <- Beoordelingen_presentatievaardigheden$Beoordeling_numeriek[Beoordelingen_presentatievaardigheden$Opleiding == "Marketing"]
# Bereken de gemiddelde rangnummers voor elke vergelijking
Gem_EC_FI <- Gemiddeld_rangnummer(Beoordeling_Economics,
Beoordeling_Finance)
Gem_EC_EN <- Gemiddeld_rangnummer(Beoordeling_Economics,
Beoordeling_Entrepeneurship)
Gem_EC_MA <- Gemiddeld_rangnummer(Beoordeling_Economics,
Beoordeling_Marketing)
Gem_FI_EN <- Gemiddeld_rangnummer(Beoordeling_Finance,
Beoordeling_Entrepeneurship)
Gem_FI_MA <- Gemiddeld_rangnummer(Beoordeling_Finance,
Beoordeling_Marketing)
Gem_EN_MA <- Gemiddeld_rangnummer(Beoordeling_Entrepeneurship,
Beoordeling_Marketing)
| Vergelijking | p-waarde | Gemiddeld rangnummer (links) | Gemiddeld rangnummer (rechts) |
|---|---|---|---|
| EC vs. FI | 1,00 | 24,75 | 21,6 |
| EC vs. EN | 0,23 | 24,2 | 33,65 |
| EC vs. MA | 0,05 | 20,85 | 32,09 |
| FI vs. EN | 0,03 | 25,12 | 37,92 |
| FI vs. MA | 0,01 | 22,36 | 36,31 |
| EN vs. MA | 1,00 | 35,95 | 40,34 |
Tabel 1. Resultaten post-hoc toetsen voor vergelijking Economics (EC), Finance (FI), Entrepeneurship (EN) en Marketing (MA).
Er zijn twee significante verschillen bij de post-hoc toetsen te vinden. Zo is er een significant verschil (p = 0,03) tussen Finance (Gemiddeld rangnummer = 25,12, n = 25) en Entrepeneurship (Gemiddeld rangnummer = 37,92, n = 40), waarbij het gemiddeld rangnummer hoger is voor Entrepeneurship. Daarnaast is er een significant verschil (p = 0,01) tussen Finance (Gemiddeld rangnummer = 22,36, n = 25) en Marketing (Gemiddeld rangnummer = 36,31, n = 35), waarbij het gemiddeld rangnummer hoger is voor Marketing.
De Kruskal Wallis toets is uitgevoerd om te toetsen of er verschillen zijn tussen de studenten van de opleidingen Economics, Finance, Entrepeneurship en Marketing wat betreft hun beoordelingen bij het vak Presentatievaardigheden. Uit de resultaten kan afgelezen worden dat er een significant verschil is tussen de verdelingen van de beoordelingen van de presentatievaardigheden voor de verschillende vooropleidingen, H = 15,43, df = 3 ,p < 0,01, η2 = 0,13. De resultaten ondersteunen de conclusie dat er een verschil is tussen de beoordelingen van de presentatievaardigheden voor de vier opleidingen.
De Mann-Whitney U toets is uitgevoerd als post-hoc toets om te onderzoeken welke opleidingen van elkaar verschillen qua beoordelingen van de presentatievaardigheden van studenten. De Bonferroni correctie is gebruikt om de Type I fout te voorkomen die gepaard gaat met het veelvuldig toetsen. Er is een significant verschil (p = 0,03) gevonden tussen de opleidingen Finance (Gemiddeld rangnummer = 25,12, n = 25) en Entrepeneurship (Gemiddeld rangnummer = 37,92, n = 40), waarbij het gemiddeld rangnummer hoger is voor Entrepeneurship. Daarnaast is er een significant verschil (p = 0,01) tussen Finance (Gemiddeld rangnummer = 22,36, n = 25) en Marketing (Gemiddeld rangnummer = 36,31, n = 35), waarbij het gemiddeld rangnummer hoger is voor Marketing. De overige vergelijkingen tussen opleidingen leidden niet tot een significant verschil. Een overzicht van de resultaten van de post-hoc toetsen is te vinden in Tabel 1. Al met al lijkt er een verschil te zijn tussen de beoordelingen van de presentatievaardigheden van studenten afkomstig van de opleidingen Economics, Finance, Entrepeneurship en Marketing, waarbij de studenten afkomstig van de opleidingen Entrepeneurship en Marketing hogere beoordelingen lijken te behalen dan de studenten van de opleidingen Finance.
Een ordinale variabele is een categorische variabele waarbij de categorieën geordend kunnen worden. Een voorbeeld is de variabele beoordeling met de categorieën Onvoldoende, Voldoende, Goed en Uitstekend.↩
Laerd statistics (2018). Kruskal-Wallis H Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/kruskal-wallis-h-test-using-spss-statistics.php.↩
De toets rangschikt de datapunten van laag naar hoog en geeft elke datapunt een rangnummer. Vervolgens wordt per groep het gemiddelde berekend van de rangnummers. Deze gemiddelden wordt met elkaar vergeleken. Voor meer informatie lees: Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.↩
Een nominale variabele is een categorische variabele waarbij de categorieën niet geordend kunnen worden. Een voorbeeld is de variabele windstreek (noord, oost, zuid, west) en geslacht (man of vrouw).↩
Een ordinale variabele is een categorische variabele waarbij de categorieën geordend kunnen worden. Een voorbeeld is de variabele beoordeling met de categorieën Onvoldoende, Voldoende, Goed en Uitstekend.↩
Laerd statistics (2018). Kruskal-Wallis H Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/kruskal-wallis-h-test-using-spss-statistics.php.↩
Een nominale variabele is een categorische variabele waarbij de categorieën niet geordend kunnen worden. Een voorbeeld is de variabele windstreek (noord, oost, zuid, west) en geslacht (man of vrouw).↩
Laerd statistics (2018). Kruskal-Wallis H Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/kruskal-wallis-h-test-using-spss-statistics.php.↩
Universiteit van Amsterdam (7 juli 2014). Kruskal-Wallis Test. UvA Wiki Methodologiewinkel.↩
Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.↩
Van Geloven, N. (21 maart 2018). Kruskal Wallis. Wiki Statistiek Academisch Medisch Centrum.↩
De effectmaat η2 wordt voor de Kruskal-Wallis toets berekend door de χ2-waarde te delen door het totaal aantal observaties minus één, i.e. $ $.↩
Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.↩
De test-statistiek H volgt bij benadering de chi-kwadraat verdeling. Onder deze hypothese is H chi-kwadraat, vandaar dat dit in de output uitgedrukt wordt in chi-kwadraat.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met Type I en Type II fouten.↩
Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage.↩