Gebruik de ongepaarde t-toets om de gemiddelden van twee onafhankelijke groepen te vergelijken.1
Vanaf 2011 heeft de opleiding Taalwetenschap een Bindend Studieadvies (BSA) die de selectiviteit van het eerste jaar moet vergroten. De studieadviseur vraagt zich af of het gemiddelde cijfer van de opleiding Taalwetenschap op 1 februari, na invoering van het BSA, veranderd is. De data is beschikbaar voor het cohort gestart in 2010 en voor het cohort gestart in 2011.
Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.
H0: Het gemiddelde tentamencijfer dat de studenten halen aan de opleiding Taalwetenschap is niet veranderd na de invoer van het BSA, µ0 = µ1
HA: Het gemiddelde tentamencijfer dat de studenten halen aan de opleiding Taalwetenschap is veranderd na de invoer van het BSA, µ0 ≠ µ1
Voor een valide resultaat moet de data aan een aantal voorwaarden voldoen voordat de toets uitgevoerd kan worden.
De ongepaarde t-toets gaat ervan uit dat de afhankelijke variabele normaal verdeeld is voor alle groepen. Als elke groep een aantal observaties (n) heeft dat groter dan 100 is, ga er dan vanuit dat de ongepaarde t-toets robuust genoeg is om uit te voeren zonder dat de afhankelijke variabele een normale verdeling volgt.
Controleer de assumptie van normaliteit met de volgende stappen:
1. Controleer de afhankelijke variabele per groep visueel met een histogram, een boxplot en een Q-Q plot.
2. Toets of de afhankelijke variabele voor beide groepen normaal verdeeld is met de Kolmogorov-Smirnov test of bij een kleinere steekproef (n < 50) met de Shapiro-Wilk test.2, 3
De eerste stap heeft als doel een goede indruk te krijgen van de verdeling van de steekproef. In de tweede stap wordt de assumptie van normaliteit getoetst. De statistische toets laat zien of de verdeling van de observaties van een groep voldoet aan de assumptie van normaliteit. Voor beide groepen moet er voldaan zijn aan de assumptie van normaliteit.
Als blijkt dat de afhankelijke variabele niet normaal verdeeld is voor één van of allebei de groepen, transformeer4 dan de afhankelijke variabele en bepaal daarna of deze wel normaal verdeeld is of gebruik de Mann-Whitney U toets.5, 6
De ongepaarde t-toets kan met en zonder gepoolde variantie uitgevoerd worden. Bij een gepoolde variantie is de berekening van de variantie van het verschil in gemiddelden anders en wordt aangenomen dat de varianties van beide steekproeven even groot zijn. Deze aanname is te toetsen met de Levene’s test, waarbij een significant resultaat aangeeft dat er een verschil is in de varianties van beide groepen. De hedendaagse consensus is echter om altijd deze aanname niet te toetsen en de ongepaarde t-toets zonder gepoolde variantie uit te voeren.7 Een gepoolde variantie zorgt ervoor dat het onderscheidend vermogen8 van de ongepaarde t-toets iets hoger is als de varianties van beide groepen ongeveer gelijk zijn, maar geeft verkeerde resultaten als de varianties van elkaar afwijken. Daarnaast heeft Levene’s test een laag onderscheidend vermogen, wat betekent dat het lastig is om ongelijke varianties goed te toetsen. Gebruik daarom de ongepaarde t-toets zonder gepoolde variantie; deze staat ook wel bekend als Welch’s t-toets.9
Er is een dataset ingeladen met gemiddelde cijfers van eerstejaarsstudenten bij de opleiding Taalwetenschap: Cijfers_gemiddeld. De dataset bevat cijfers van 180 studenten begonnen in 2010 en cijfers van 160 studenten begonnen in 2011.
Gebruik head() en tail() om de structuur van de data te bekijken.
## Eerste 6 observaties
head(Cijfers_gemiddeld)
## Studentnummer Cohort Cijfers
## 1 302256 2010 5.548
## 2 344374 2010 6.520
## 3 302078 2010 5.297
## 4 325370 2010 8.214
## 5 362912 2010 6.695
## 6 335804 2010 5.315
## Laatste 6 observaties
tail(Cijfers_gemiddeld)
## Studentnummer Cohort Cijfers
## 335 321518 2011 6.247
## 336 317635 2011 7.185
## 337 396683 2011 7.264
## 338 393299 2011 7.132
## 339 362510 2011 5.763
## 340 335445 2011 4.814
Selecteer beide groepen en sla deze op in een vector om deze makkelijker aan te kunnen roepen.
Cijfers_2010 <- Cijfers_gemiddeld$Cijfers[Cijfers_gemiddeld$Cohort == "2010"]
Cijfers_2011 <- Cijfers_gemiddeld$Cijfers[Cijfers_gemiddeld$Cohort == "2011"]
Inspecteer de data met length(), mean()en sd() om meer inzicht te krijgen in de data.
## Aantallen, gemiddelde en standaarddeviatie 2010
length(Cijfers_2010)
## [1] 180
mean(Cijfers_2010)
## [1] 6.369189
sd(Cijfers_2010)
## [1] 1.117662
## Aantallen, gemiddelde en standaarddeviatie 2011
length(Cijfers_2011)
## [1] 160
mean(Cijfers_2011)
## [1] 6.462363
sd(Cijfers_2011)
## [1] 1.199976
Geef de verdeling van de tentamencijfers van beide groepen visueel weer met een histogram, Q-Q plot en boxplot.
Focus bij het analyseren van een histogram10 op de symmetrie van de verdeling, de hoeveelheid toppen (modaliteit) en mogelijke uitbijters. Een normale verdeling is symmetrisch, heeft één top en geen uitbijters.11, 12
## Histogram met ggplot2
library(ggplot2)
ggplot(Cijfers_gemiddeld,
aes(x = Cijfers)) +
geom_histogram(aes(y = ..density..),
binwidth = 1,
color = "grey30",
fill = "#0089CF") +
facet_wrap(~ Cohort) +
geom_density(alpha = .2, adjust = 1) +
ylab("Frequentiedichtheid") +
scale_x_continuous(
labels = as.character(seq(1, 10)),
breaks = seq(1, 10)) +
coord_fixed(ylim = c(0, 0.4),
xlim = c(1, 10),
ratio = 22) +
labs(title = "Taalwetenschap gemiddelde cijfers voor en na de BSA")
Beide histogrammen laten een verdeling zien die redelijk symmetrisch is, één top heeft en geen uitbijters. Daarom zijn beide verdelingen bij benadering normaal verdeeld.
Gebruik qqnorm() en qqline() met pch = 1om een Q-Q plot te maken, met als datapunten kleine cirkels.
qqnorm(Cijfers_2010, pch = 1,
main = "Normaal Q-Q plot van tentamencijfers 2010",
ylab = "Kwantielen in data",
xlab = "Theoretische kwantielen")
qqline(Cijfers_2010)
qqnorm(Cijfers_2011, pch = 1,
main = "Normaal Q-Q plot van tentamencijfers 2011",
ylab = "Kwantielen in data",
xlab = "Theoretische kwantielen")
qqline(Cijfers_2011)
Voor beide Q-Q plots liggen de meeste datapunten op of vlakbij de lijn. Hoewel er bij de uiteinden van de verdeling wat afwijkingen zijn, duidt deze grafiek op een goede benadering van de normaalverdeling voor beide cohorten.
De box geeft de middelste 50% van de tentamencijfers weer. De zwarte lijn binnen de box is de mediaan. In de staarten of snorreharen zitten de eerste 25% en de laatste 25%. Cirkels visualiseren mogelijke uitbijters.13 Hoe meer de boxen overlappen, hoe waarschijnlijker er geen significant verschil is tussen de groepen.
boxplot(Cijfers ~ Cohort, Cijfers_gemiddeld,
main = "Tentamencijfers Taalwetenschap voor en na de BSA")
De boxplotten geven de spreiding weer van het gemiddelde tentamencijfer voor de BSA en na de BSA. De boxplotten en de staarten lijken symmetrisch, wat een teken is van een bij benadering normale verdeling. Het cohort van 2011 heeft een aantal mogelijke uitbijters.14
Om te controleren of de afhankelijke variabele voor beide groepen normaal verdeeld is, kan de normaliteit getoetst worden. Twee veelgebruikte toetsen zijn: de Kolmogorov-Smirnov test en de Shapiro-Wilk test.
De Kolmogorov-Smirnov test toetst het verschil tussen twee verdelingen. Standaard toetst deze test het verschil tussen een normale verdeling en de verdeling van de steekproef. De Lilliefors correctie is vereist als het gemiddelde en de standaardafwijking niet van tevoren bekend of bepaald zijn, wat meestal het geval is bij een steekproef. Als de p-waarde kleiner dan 0,05 is, is de verdeling van de steekproef significant verschillend van de normale verdeling.
library(nortest)
lillie.test(Cijfers_2010)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: Cijfers_2010
## D = 0.05404, p-value = 0.2244
lillie.test(Cijfers_2011)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: Cijfers_2011
## D = 0.061106, p-value = 0.1526
Bij deze casus is van beide groepen de p-waarde groter dan 0,05, dus er zijn geen significante verschillen gevonden tussen de verdeling van de steekproef en de normale verdeling. De ongepaarde t-toets kan uitgevoerd worden.
De Shapiro-Wilk test is een soortgelijke test als de Kolmogorov-Smirnov test en vooral geschikt bij kleine steekproeven (n < 50). Als de p-waarde kleiner dan 0,05 is, is de verdeling van de steekproef significant verschillend van de normale verdeling. Er zijn twee subsets van Cijfers_gemiddeld ingeladen: Cijfers_2010_n30 en Cijfers_2011_n30. Beide subsets bevatten 30 studenten. Voor relatief kleine steekproeven als deze is de Shapiro-Wilk Test geschikt.
shapiro.test(Cijfers_2010_n30)
##
## Shapiro-Wilk normality test
##
## data: Cijfers_2010_n30
## W = 0.98796, p-value = 0.9765
shapiro.test(Cijfers_2011_n30)
##
## Shapiro-Wilk normality test
##
## data: Cijfers_2011_n30
## W = 0.97627, p-value = 0.7202
De p-waarde is groter dan 0,05 voor beide groepen, dus er zijn geen significante verschillen gevonden tussen de verdeling van de steekproef en de normale verdeling. De ongepaarde t-toets kan uitgevoerd worden.
Voer een ongepaarde t.test() uit met paired = FALSE (vanwege de ongepaarde groepen) en var.equal = FALSE (omdat de varianties niet per se aan elkaar gelijk zijn). Het eerste argument bestaat uit de afhankelijke variabele Cijfers en de groepvariabele Cohort.
t.test(Cijfers ~ Cohort, Cijfers_gemiddeld,
paired = FALSE,
alternative = "two.sided",
var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: Cijfers by Cohort
## t = -0.738, df = 326.37, p-value = 0.461
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.3415432 0.1551960
## sample estimates:
## mean in group 2010 mean in group 2011
## 6.369189 6.462363
De p-waarde geeft aan of het verschil tussen twee groepen significant is. De grootte van het verschil of effect is echter ook relevant. Een effectmaat is een gestandaardiseerde maat die de grootte van een effect weergeeft, zodat effecten van verschillende onderzoeken met elkaar vergeleken kunnen worden.16 Een veel gebruikte effectmaat is Cohen’s d. Cohen’s d geeft een gestandaardiseerd verschil weer: het verschil in gemiddelden tussen twee groepen gecorrigeerd voor de gecombineerde standaardafwijking van de twee groepen. Een indicatie om d te interpreteren is: rond 0,3 is het een klein effect, rond 0,5 is het een gemiddeld effect en rond 0,8 is het een groot effect.17
In dit voorbeeld is de p-waarde groter dan 0,05, dus is een effectmaat uitrekenen onnodig. Pas de volgende stappen toe bij een p-waarde kleiner dan 0,05.
Gebruik de functie cohensD() van het package lsr met de argumenten Cijfers ~ Cohort waarbij Cijfers de afhankelijke variabele is en Cohort de onafhankelijke variabele die de groepen aangeeft, het argument Cijfers_gemiddeld dat de dataset aangeeft en het argument method = unequal omdat er niet aangenomen wordt dat de varianties aan elkaar gelijk zijn.
library(lsr)
cohensD(Cijfers ~ Cohort, Cijfers_gemiddeld, method = "unequal")
## [1] 0.08035328
d = 0.0803533. De sterkte van het effect van het BSA op het cijfer is verwaarloosbaar.
Een ongepaarde t-toets is uitgevoerd om te toetsen of het gemiddelde tentamencijfer is veranderd na de invoer van het BSA. Het verschil tussen het gemiddelde tentamencijfer van cohort 2010 (M2010 = 6,37, SD2010 = 1,12) en het gemiddelde tentamencijfer van cohort 2011 (M2011 = 6,46, SD2011 = 1,2) is niet significant, t = -0,74, p = 0,461. Het 95% betrouwbaarheidsinterval voor het verschil tussen het gemiddelde van beide groepen loopt van -0,34 tot 0,16. Het gemiddelde tentamencijfer lijkt niet veranderd te zijn na de invoering van het BSA.
| Cohort | N | M | SD |
|---|---|---|---|
| 2010 | 180 | 6,37 | 1,12 |
| 2011 | 160 | 6,46 | 1,2 |
Tabel 1. Groepsgrootte, gemiddeld tentamencijfer en standaarddeviatie per cohort
Van Geloven, N. (25 mei 2016). T-toets Wiki Statistiek Academisch Medisch Centrum.↩
Laerd statistics. (2018). Testing for Normality using SPSS Statistics.↩
Normaliteit. (14 juli 2014). UvA Wiki Methodologiewinkel.↩
Er zijn verschillende opties om variabelen te transformeren, zoals de logaritme, wortel of inverse (1 gedeeld door de variabele) nemen van de variabele. Zie Discovering statistics using IBM SPSS statistics van Field (2013) pagina 201-210 voor meer informatie over welke transformaties wanneer gebruikt kunnen worden.↩
Van Geloven, N. (13 maart 2018). Mann-Whitney U toets Wiki Statistiek Academisch Medisch Centrum.↩
De Mann-Whitney U toets maakt een rangschikking van de data. Hierdoor is de test verdelingsvrij en is normaliteit geen assumptie. Ook zijn uitbijters minder van invloed op het eindresultaat. Toch wordt er voor deze test minder vaak gekozen, doordat bij het maken van een rankschikking de data informatie verliest. Als de data wel normaal verdeeld is, heeft de Mann-Whitney U toets minder onderscheidend vermogen dan wanneer de ongepaarde t-toets uitgevoerd zou worden.↩
Lakens, D. (26 januari 2015). Always use Welch’s t-test instead of Student’s t-test. The 20% Statistician.↩
Onderscheidend vermogen, in het Engels power genoemd, is de kans dat de nulhypothese verworpen wordt wanneer de alternatieve hypothese ‘waar’ is.↩
Lakens, D. (26 januari 2015). Always use Welch’s t-test instead of Student’s t-test. The 20% Statistician.↩
De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.↩
Outliers (13 augustus 2016). UvA Wiki Methodologiewinkel.↩
Uitbijters kunnen bepalend zijn voor de uitkomst van toetsen. Bekijk of de uitbijters valide uitbijters zijn en niet een meetfout of op een andere manier incorrect verkregen data. Het weghalen van uitbijters kan de uitkomst ook vertekenen, daarom is het belangrijk om verwijderde uitbijters te melden in een rapport.↩
Outliers (13 augustus 2016). UvA Wiki Methodologiewinkel.↩
Uitbijters kunnen bepalend zijn voor de uitkomst van toetsen. Bekijk of de uitbijters valide uitbijters zijn en niet een meetfout of op een andere manier incorrect verkregen data. Het weghalen van uitbijters kan de uitkomst ook vertekenen, daarom is het belangrijk om verwijderde uitbijters te melden in een rapport.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩
Field, A., Miles, J., & Field, Z. (2012). Discovering statistics using R. London: Sage publications.↩
Marshall, E., & Boggis, E. (2016). The statistics tutor’s quick guide to commonly used statistical tests. http://www.statstutor.ac.uk/resources/uploaded/tutorsquickguidetostatistics.pdf.↩