Gebruik de one sample t-toets om het gemiddelde van de steekproef te vergelijken met een bekend gemiddelde of norm van de totale populatie.1
De opleidingsdirecteur van de opleiding Werktuigbouwkunde wil weten of het gemiddelde eindexamencijfer voor de exacte vakken (Wiskunde, Natuurkunde en Scheikunde; WNS) van vwo studenten anders is dan het landelijk gemiddelde (6,8).2 Met deze gegevens probeert zij een inschatting te maken van het niveau van de studenten en kan zij bepalen of het curriculum van de inleidende vakken genoeg aansluit bij eerstejaars studenten met een vwo vooropleiding.
Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.
H0: Het gemiddelde eindexamencijfer voor de exacte vakken van vwo studenten die beginnen aan de Bachelor Werktuigbouwkunde is gelijk aan het landelijk gemiddelde: µ = 6,8.
HA: Het gemiddelde eindexamencijfer voor de exacte vakken van vwo studenten die beginnen aan de Bachelor Werktuigbouwkunde is anders dan het landelijk gemiddelde: µ ≠ 6,8.
Om een valide resultaat te bereiken moeten, voordat de toets kan worden uitgevoerd, de data aan een aantal voorwaarden voldoet.
De one sample t-toets gaat ervan uit dat de data van de steekproef normaal verdeeld is. Ga er bij meer dan 100 observaties vanuit dat de one sample t-toets robuust genoeg is om uit te voeren zonder dat de steekproef een normale verdeling volgt.3
Controleer de assumptie van normaliteit met de volgende stappen:
1. Controleer de data visueel met een histogram, een boxplot of een Q-Q plot.
2. Toets of de steekproef normaal verdeeld is met de Kolmogorov-Smirnov test of bij een kleinere steekproef (n < 50) met de Shapiro-Wilk test.4, 5
De eerste stap heeft als doel een goede indruk te krijgen van de verdeling van de steekproef. In de tweede stap wordt de assumptie van normaliteit getoetst. De statistische toets laat zien of de verdeling van de steekproef voldoet aan de assumptie van normaliteit.
Als blijkt dat de steekproef niet normaal verdeeld is en de steekproefgrootte te laag is voor een robuuste toets, transformeer dan de observaties en bepaal daarna of deze wel normaal verdeeld zijn.6 Een andere optie in dit geval is het gebruiken van de Wilcoxon signed rank toets.7, 8
Er is een dataset ingeladen met de gemiddelde eindexamencijfers van WNS van eerstejaars Werktuigbouwkunde: Gemiddeld_cijfer_WNS.
Gebruik head() en tail() om de structuur van de data te bekijken.
## Eerste 5 observaties
head(Gemiddeld_cijfer_WNS)
## [1] 7.400000 7.366667 7.366667 7.666667 5.933333 6.500000
## Laatste 5 observaties
tail(Gemiddeld_cijfer_WNS)
## [1] 6.333333 6.133333 8.066667 5.166667 7.700000 6.366667
Inspecteer de data met length(), mean()en sd() om meer inzicht te krijgen in de data.
## Gemiddelde en standaarddeviatie
length(Gemiddeld_cijfer_WNS)
## [1] 124
mean(Gemiddeld_cijfer_WNS)
## [1] 7.128763
sd(Gemiddeld_cijfer_WNS)
## [1] 0.7850378
Geef de verdeling van de steekproef visueel weer met een histogram, Q-Q plot en boxplot.
Focus bij het analyseren van een histogram9 op de symmetrie van de verdeling, de hoeveelheid toppen (modaliteit) en mogelijke uitbijters. Een normale verdeling is symmetrisch, heeft één top en geen uitbijters.10, 11
## Histogram met ggplot2
library(ggplot2)
ggplot(data.frame(Gemiddeld_cijfer_WNS),
aes(x = Gemiddeld_cijfer_WNS)) +
geom_histogram(aes(y = ..density..),
binwidth = 0.5,
color = "white",
fill = "#158CBA") +
geom_density(alpha = .2, adjust = 1) +
ylab("Frequentiedichtheid") +
xlab("Gemiddeld_cijfer_WNS") +
scale_x_continuous(labels = as.character(seq(5.5, 9, 0.5)),
breaks = seq(5.5, 9, 0.5)) +
labs(title = "Eindcijfers Wiskunde, Natuurkunde en Scheikunde",
subtitle = "Eerstejaarsstudenten Werktuigbouwkunde")
De histogram lijkt symmetrisch, heeft één top en geen outliers. De steekproef is dus bij benadering normaal verdeeld.
Gebruik qqnorm() en qqline() met pch = 1om een Q-Q plot te maken, met als datapunten kleine cirkels.
Als over het algemeen de meeste datapunten op de lijn liggen, kan aangenomen worden dat de data normaal verdeeld is.
## Q-Q plot
qqnorm(Gemiddeld_cijfer_WNS,
pch = 1,
main = "Normaal Q-Q plot van gemiddelde cijfers WNS",
ylab = "Kwantielen in data",
xlab = "Theoretische kwantielen")
qqline(Gemiddeld_cijfer_WNS)
In deze casus liggen de meeste punten op de lijn. Bij de uiteinden liggen de punten dichtbij de lijn. Deze Q-Q plot duidt dus op een goede benadering van de normaalverdeling.
De box geeft de middelste 50% van de tentamencijfers weer. De zwarte lijn binnen de box is de mediaan. In de staarten of snorreharen zitten de eerste 25% en de laatste 25%. Cirkels visualiseren mogelijke uitbijters.12 Hoe meer de boxen overlappen, hoe waarschijnlijker er geen significant verschil is tussen de groepen.
## Boxplot
boxplot(Gemiddeld_cijfer_WNS, xlab = "Werktuigbouwkunde", ylab = "Gemiddeld_cijfer_WNS")
De boxplot geeft de spreiding van het gemiddelde eindexamencijfer voor de exacte vakken weer van de studenten Werktuigbouwkunde. De box en staarten zien er symmetrisch uit, wat een indicatie is van een normale verdeling.13
Om te controleren of de steekproef aan de assumptie van normaliteit voldoet, kan de normaliteit getoetst worden. Twee veelgebruikte toetsen zijn: de Kolmogorov-Smirnov test en de Shapiro-Wilk test.
De Kolmogorov-Smirnov test toetst het verschil tussen twee verdelingen. Standaard toetst deze test het verschil tussen een normale verdeling en de verdeling van de steekproef. De Lilliefors correctie is vereist als het gemiddelde en de standaardafwijking niet van tevoren bekend of bepaald zijn, wat meestal het geval is bij een steekproef. Als de p-waarde kleiner dan 0,05 is, is de verdeling van de steekproef significant verschillend van een normale verdeling.
## Kolmogorov-Smirnov test
library(nortest)
lillie.test(Gemiddeld_cijfer_WNS)
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: Gemiddeld_cijfer_WNS
## D = 0.041104, p-value = 0.8745
De p-waarde is 0,87, dus er is geen significant verschil gevonden tussen de verdeling van de steekproef en de normale verdeling. De one sample-t-toets kan uitgevoerd worden.
De Shapiro-Wilk test is een soortgelijke test als de Kolmogorov-Smirnov test en vooral geschikt bij kleine steekproeven (n < 50). Als de p-waarde kleiner dan 0,05 is, is de verdeling van de steekproef significant verschillend van de normale verdeling. Er is een subset van Gemiddeld_cijfer_WNS ingeladen: Gemiddeld_cijfer_WNS_n30. De subset bevat 30 studenten. Voor een relatief kleine steekproef als deze is de Shapiro-Wilk Test geschikt.
## Shapiro-Wilk test
shapiro.test(Gemiddeld_cijfer_WNS_n30)
##
## Shapiro-Wilk normality test
##
## data: Gemiddeld_cijfer_WNS_n30
## W = 0.9289, p-value = 0.04591
De p-waarde is 0,05, dus er is geen significant verschil gevonden tussen de verdeling van de steekproef en de normale verdeling. De one sample-t-toets kan uitgevoerd worden.
Gebruik de functie t.test() om een t-toets uit te voeren. Gebruik het argument mu = 6.8 om het gemiddelde te specificeren waarmee wordt vergeleken en specifieer welke alternatieve hypothese er getoetst wordt. De verwachting is dat de studenten hoger scoren, maar omdat het relevant is om te weten of de studenten ook lager scoren dan het landelijk gemiddelde, is er voor gekozen om tweezijdig te toetsen. Gebruik hiervoor alternative = "two.sided". Gebruik de hele dataset Gemiddeld_cijfer_WNS met n = 124.
## T-test
t.test(Gemiddeld_cijfer_WNS, mu = 6.8, alternative = "two.sided")
##
## One Sample t-test
##
## data: Gemiddeld_cijfer_WNS
## t = 4.6634, df = 123, p-value = 7.97e-06
## alternative hypothesis: true mean is not equal to 6.8
## 95 percent confidence interval:
## 6.989216 7.268311
## sample estimates:
## mean of x
## 7.128763
De one sample t-toets is uitgevoerd om te toetsen of het gemiddelde eindexamencijfer voor de exacte vakken van vwo studenten die Werktuigbouwkunde zijn gaan studeren anders is dan het landelijk gemiddelde. Het gemiddelde van de steekproef (M = 7,13, SD = 0,79) is significant verschillend van het landelijk gemiddelde van 6,8, t 123 = 4,66, p < 0,0001. De resultaten suggereren dat het gemiddelde eindexamencijfer voor de exacte vakken van studenten Werktuigbouwkunde met een vwo vooropleiding hoger ligt dan het landelijk gemiddelde.
Van Geloven, N. (25 mei 2016). T-toets Wiki Statistiek Academisch Medisch Centrum.↩
Centraal Instituut voor Toetsontwikkeling (2018). Examenverslag 2018. https://www.cito.nl/onderwijs/voortgezet-onderwijs/centrale-examens-voortgezet-onderwijs/tools-en-informatie-voor-docenten/examenverslagen/examenverslag-2018↩
Lumley, T., Diehr, P., Emerson, S., & Chen, L. (2002). The importance of the normality assumption in large public health data sets. Annu Rev Public Health, 23, 151-69. doi: 10.1146/annurev.publheath.23.100901.140546 http://rctdesign.org/techreports/arphnonnormality.pdf↩
Laerd statistics (2018). Testing for Normality using SPSS Statistics.↩
Normaliteit. (14 juli 2014). UvA Wiki Methodologiewinkel.↩
Er zijn verschillende opties om variabelen te transformeren, zoals de logaritme, wortel of inverse (1 gedeeld door de variabele) nemen van de variabele. Zie Discovering statistics using IBM SPSS statistics van Field (2013) pagina 201-210 voor meer informatie over welke transformaties wanneer gebruikt kunnen worden.↩
De Wilcoxon signed rank toets maakt een rangschikking van de data. Hierdoor is de test verdelingsvrij en is normaliteit geen assumptie. Ook zijn uitbijters minder van invloed op het eindresultaat. Toch wordt er voor deze test minder vaak gekozen, doordat bij het maken van een rankschikking de data informatie verliest. Als de data wel normaal verdeeld zijn heeft de Wilcoxon signed rank toets minder onderscheidend vermogen dan wanneer de one sample t-toets uitgevoerd zou worden.↩
Prabhakaran, S. (2016-2017). Statistical Tests. http://r-statistics.co/Statistical-Tests-in-R.html↩
De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.↩
Outliers (13 augustus 2016). UvA Wiki Methodologiewinkel.↩
Uitbijters kunnen bepalend zijn voor de uitkomst van toetsen. Bekijk of de uitbijters valide uitbijters zijn en niet een meetfout of op een andere manier incorrect verkregen data. Het weghalen van uitbijters kan de uitkomst ook vertekenen, daarom is het belangrijk om verwijderde uitbijters te melden in een rapport.↩
Outliers (13 augustus 2016). UvA Wiki Methodologiewinkel.↩
Uitbijters kunnen bepalend zijn voor de uitkomst van toetsen. Bekijk of de uitbijters valide uitbijters zijn en niet een meetfout of op een andere manier incorrect verkregen data. Het weghalen van uitbijters kan de uitkomst ook vertekenen, daarom is het belangrijk om verwijderde uitbijters te melden in een rapport.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩