Gebruik de tekentoets om de medianen van twee gepaarde groepen te vergelijken.1 Deze toets wordt gebruikt als er niet aan de assumpties is voldaan bij sterkere toetsen zoals de gepaarde t-toets en de Wilcoxon signed rank toets. Als de verdeling van de steekproef bij benadering normaal verdeeld is, dan kan de gepaarde t-toets gebruikt worden om de gemiddelden te vergelijken. Als de verdeling symmetrisch is, kan de Wilcoxon signed rank toets gebruikt worden om de medianen te vergelijken.2 De Wilcoxon signed rank toets heeft in dat geval een hoger onderscheidend vermogen3.
De directeur van de Academie Mens & Maatschappij wil bekijken hoe het inkomen van zijn alumni zich ontwikkelt nadat zij zijn afgestudeerd. Hij is nieuwsgierig of het inkomen gedurende deze jaren groeit of juist stagneert voor deze alumni. Deze informatie is interessant om te gebruiken bij voorlichtingsactiviteiten van de Academie. Hij bekijkt het bruto jaarinkomen van de alumni één jaar na afstuderen en vergelijkt het met het bruto jaarinkomen vijf jaar na afstuderen.
Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.
H0: Er is geen verschil in de medianen van het bruto jaarinkomen van de alumni van de Academie Mens & Maatschappij één jaar na afstuderen en vijf jaar na afstuderen.
HA: Er is een verschil in de medianen van het bruto jaarinkomen van de alumni van de Academie Mens & Maatschappij één jaar na afstuderen en vijf jaar na afstuderen.
Het meetniveau van de variabelen is continu.4
Er is data ingeladen met het bruto jaarinkomen van alumni van de Academie Mens & Maatschappij genaamd Alumni_jaarinkomen. De directeur wil een vergelijking maken tussen het inkomen één jaar na afstuderen (meetmoment T1) en vijf jaar na afstuderen (meetmoment T2).
Gebruik head() en tail() om de structuur van de data te bekijken.
## Eerste 6 observaties
head(Alumni_jaarinkomens)
## Studentnummer Meetmoment Inkomen
## 1 3343469 T1 25127
## 2 3836434 T1 27217
## 3 3634330 T1 29363
## 4 3010816 T1 44690
## 5 3570949 T1 25839
## 6 3983531 T1 29467
## Laatste 6 observaties
tail(Alumni_jaarinkomens)
## Studentnummer Meetmoment Inkomen
## 53 3140183 T2 30786
## 54 3705137 T2 24621
## 55 3434481 T2 30241
## 56 3120294 T2 21424
## 57 3865043 T2 29047
## 58 3862839 T2 31131
Bekijk de grootte en de mediaan van de data met length() en median(). Maak hiervoor twee vectoren met daarin de jaarinkomens op T1 en T2.
Alumni_jaarinkomens_T1 <- Alumni_jaarinkomens$Inkomen[Alumni_jaarinkomens$Meetmoment == "T1"]
Alumni_jaarinkomens_T2 <- Alumni_jaarinkomens$Inkomen[Alumni_jaarinkomens$Meetmoment == "T2"]
length(Alumni_jaarinkomens_T1)
## [1] 29
median(Alumni_jaarinkomens_T1)
## [1] 29212
length(Alumni_jaarinkomens_T2)
## [1] 29
median(Alumni_jaarinkomens_T2)
## [1] 29453
Maak een histogram5 om de verdeling van de bruto jaarinkomens van de alumni één jaar en vijf jaar na afstuderen visueel weer te geven.
## Histogram met ggplot2
library(ggplot2)
ggplot(Alumni_jaarinkomens,
aes(x = Inkomen)) +
geom_histogram(color = "grey30",
fill = "#0089CF",
binwidth = 2000) +
facet_wrap(~ Meetmoment, labeller = labeller(Meetmoment = c(T1 = "Een jaar na afstudereren", T2 = "Vijf jaar na afstuderen"))) +
geom_density(alpha = .2, adjust = 1) +
ylab("Frequentiedichtheid") +
labs(title = "Bruto jaarinkomen alumni Mens & Maatschappij")
Op beide meetmomenten is te zien dat de meeste alumni tussen de 0 en €35.000 euro per jaar verdienen en dat een paar alumni hierboven zit. Beide verdelingen hebben één top, maar zijn niet symmetrisch. Bij de inkomens 1 jaar na afstuderen ligt de meerderheid van de observaties links van de top. Bij de inkomens 5 jaar na afstuderen ligt de meerderheid van de observaties juist rechts van de top. Beide verdeling lijken niet echt op elkaar qua vorm en spreiding.
Maak vervolgens een histogram6 van de verschilscores.
# Maak een dataset met de verschilscores
Alumni_verschilscores <- data.frame(Verschilscores = Alumni_jaarinkomens$Inkomen[Alumni_jaarinkomens$Meetmoment == "T2"] - Alumni_jaarinkomens$Inkomen[Alumni_jaarinkomens$Meetmoment == "T1"])
## Maak een histogram met ggplot2
library(ggplot2)
ggplot(Alumni_verschilscores,
aes(x = Verschilscores)) +
geom_histogram(color = "grey30",
fill = "#0089CF",
binwidth = 250) +
geom_density(alpha = .2, adjust = 1) +
ylab("Frequentiedichtheid") +
labs(title = "Verschilscores bruto jaarinkomen alumni Mens & Maatschappij")
De verdeling van de verschilscores bevat voornamelijk positieve waarden en een paar negatieve waarden; de meeste alumni zijn er dus in bruto jaarinkomen op vooruitgegaan. De verdeling lijkt niet geheel symmetrisch te zijn
Voer de tekentoets uit om de vraag te beantwoorden of de mediaan van de bruto jaarinkomens van alumni verschillend is voor de inkomens één jaar en vijf jaar na afstuderen. Gebruik om aan te geven dat de twee meetmomenten aan elkaar gepaard zijn het argument paired = TRUE. Toets tweezijdig door het argument alternative = "two.sided" te gebruiken. Gebruik een tweezijdige toets om ook de optie open te houden dat de inkomens 5 jaar na afstuderen lager zijn dan 1 jaar na afstuderen.
library(DescTools)
SignTest(Alumni_jaarinkomens_T2, Alumni_jaarinkomens_T1, alternative = "two.sided")
##
## Dependent-samples Sign-Test
##
## data: Alumni_jaarinkomens_T2 and Alumni_jaarinkomens_T1
## S = 26, number of differences = 29, p-value = 1.524e-05
## alternative hypothesis: true median difference is not equal to 0
## 97.6 percent confidence interval:
## 549 1469
## sample estimates:
## median of the differences
## 929
De tekentoets is uitgevoerd om te onderzoeken of er een verschil is tussen het mediane bruto jaarinkomen van de alumni van de Academie Mens & Maatschappij één jaar en vijf jaar na afstuderen. De resultaten van de toets laten zien dat er een significant verschil is tussen beide medianen, S = 26, N = 29, p < 0,0001. De geschatte mediaan van de verschilscores is €929 met bijbehorend 96%-betrouwbaarheidsinterval van €549 tot €1469. Van de 29 alumni verdienen 26 alumni meer vijf jaar na afstuderen. Deze resultaten duiden op een verschil in het mediane bruto jaarinkomen van de alumni van de Academie Mens & Maatschappij waarbij de inkomens vijf jaar na afstuderen hoger lijken te liggen.
Laerd Statistics (2018). Sign Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/sign-test-using-spss-statistics.php↩
Statistics How To (27 mei 2018). One Sample Median Test. Statistics How to.↩
Onderscheidend vermogen, in het Engels power genoemd, is de kans dat de nulhypothese verworpen wordt wanneer de alternatieve hypothese waar is.↩
Laerd Statistics (2018). Sign Test using SPSS Statistics. https://statistics.laerd.com/spss-tutorials/sign-test-using-spss-statistics.php↩
De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.↩
De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩
Met een deelnemer wordt het object bedoeld dat geobserveerd wordt, bijvoorbeeld een student, een inwoner van Nederland, een opleiding of een organisatie. Met een observatie wordt de waarde bedoeld die de deelnemer heeft voor een bepaalde variabele. Een deelnemer heeft dus meestal een observatie voor meerdere variabelen.↩
Omdat het betrouwbaarheidsinterval van de mediaan van verschilscores exact berekend wordt, kan het percentage van het betrouwbaarheidsinterval afwijken van 95%. In dit geval is het 96%.↩