Gebruik de tekentoets om de mediaan van een steekproef te vergelijken met een bekende mediaan of norm in een populatie.1 Deze toets is een alternatief voor de one sample t-toets wanneer de data niet normaal verdeeld is. De Wilcoxon signed rank toets kan ook gebruikt worden om de mediaan van een steekproef te vergelijken met een bekende mediaan. Deze toets heeft een hoger onderscheidend vermogen2, maar vereist dat de verdeling van de data symmetrisch is.3 De tekentoets kan ook gebruikt worden als de verdeling van de data niet symmetrisch is.
De opleidingsdirecteur van de school voor Journalistiek is benieuwd wat alumni verdienen ten opzichte van de gemiddelde Nederlander. Daarom wil zij de jaarinkomens van oud-studenten vergelijken met het mediane jaarinkomen van werknemers in Nederland van €35.200.4 Op deze manier vergaart zij meer informatie over het succes op de arbeidsmarkt na de opleiding Journalistiek.
Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.
H0: De mediaan van het jaarinkomen van alumni Journalistiek is gelijk aan €35.200, het mediane jaarinkomen in Nederland.
HA: De mediaan van het jaarinkomen van alumni Journalistiek is niet gelijk aan €35.200, het mediane jaarinkomen in Nederland.
Het meetniveau van de variabele is continu.5
Er is data ingeladen met jaarlijkse bruto inkomens van alumni van de school voor Journalistiek genaamd dfJaarlijks_inkomen. De directeur wil kijken hoe haar oud-studenten scoren ten opzichte van het modale inkomen in Nederland.
Gebruik <dataframe>.head() en <dataframe>.tail() om de structuur van de data te bekijken.
# Pandas library importeren
import pandas as pd
# Eerste 6 observaties
print(dfJaarlijks_inkomen.head(6))
## Studentnummer Inkomen
## 0 4466713 44047.0
## 1 4000958 66004.0
## 2 4136967 49442.0
## 3 4090719 42890.0
## 4 4414229 59478.0
## 5 4191784 61857.0
# Laatste 6 observaties
print(dfJaarlijks_inkomen.tail(6))
## Studentnummer Inkomen
## 23 4061987 34349.0
## 24 4401307 32022.0
## 25 4179848 66667.0
## 26 4392861 42721.0
## 27 4425075 43956.0
## 28 4016485 38288.0
Inspecteer de data met np.mean(), np.std(), np.median() en len() van het package numpy om meer inzicht te krijgen in de data.
import numpy as np
np.mean(dfJaarlijks_inkomen['Inkomen'])
## 50902.48275862069
np.std(dfJaarlijks_inkomen['Inkomen'])
## 14258.773066191601
np.median(dfJaarlijks_inkomen['Inkomen'])
## 49234.0
len(dfJaarlijks_inkomen['Inkomen'])
## 29
Het gemiddelde jaarinkomen van de alumni is €50902 met een standaardafwijking van €14258,77 (n = 29). De mediaan van het inkomen is €49234.
Visualiseer de data om een goed beeld van de jaarinkomens van de alumni te krijgen. Geef de verdeling van de data weer in een histogram6. Focus bij het analyseren van een histogram op de symmetrie van de verdeling, de hoeveelheid toppen (modaliteit) en mogelijke uitbijters.7, 8
## Histogram met matplotlib
import matplotlib.pyplot as plt
hist = plt.hist(dfJaarlijks_inkomen['Inkomen'], density = True, edgecolor = "black", bins = 9)
title = plt.title("Jaarinkomen alumni Journalistiek")
xlab = plt.xlabel("Jaarlijks inkomen")
ylab = plt.ylabel("Frequentiedichtheid")
plt.show()
De verdeling heeft één top en geen uitbijters. De histogram laat echter ook zien dat de verdeling een langere staart aan de rechterkant heeft en dus enigszins afwijkt van de (symmetrische) normaalverdeling. Aangezien de verdeling niet symmetrisch is, kan de Wilcoxon signed rank toets niet gebruikt worden om een hypothese over de mediaan te toetsen.
Voer een tweezijdige tekentoets uit om te bepalen of het mediane jaarinkomen van de alumni Journalistiek hoger ligt dan het modale inkomen van €36.000. Gebruik van het scipy.stats package de functie binom_test() met de argumenten x = Boven_mediaan dat het aantal alumni aangeeft dat meer dan normaal verdient, n = Aantal_observaties dat het totaal aantal alumni aangeeft, p = 0.5 om de nulhypothese aan te geven en alternative = 'two-sided' om een tweezijdige alternatieve hypothese te toetsen. De nulhypothese stelt dat er geen verschil is met de opgestelde mediaan van €36.000 wat betekent dat (ongeveer) de helft van de alumni meer dan dit bedrag en de helft van de alumni minder dan dit bedrag verdienen. Vandaar dat de nulhypothese aangegeven kan worden door de verwachte proportie p gelijk te stellen aan 0.5.
import scipy.stats as sps
# Bereken het aantal observaties met hbo vooropleiding
Boven_mediaan = sum(dfJaarlijks_inkomen['Inkomen'] > 36000)
# Bereken het totaal aantal observaties
Aantal_observaties = len(dfJaarlijks_inkomen['Inkomen'])
# Voer de binomiaaltoets uit
sps.binom_test(x = Boven_mediaan, n = Aantal_observaties, p = 0.5, alternative = 'two-sided')
# Bereken de proportie studenten met een hbo vooropleiding
## 0.00010371580719947815
Proportie_boven_mediaan = Boven_mediaan / Aantal_observaties
print(Proportie_boven_mediaan)
## 0.8620689655172413
De tekentoets is uitgevoerd om te toetsen of het mediane inkomen van alumni van de opleiding Journalistiek veschilt van het modale inkomen in Nederland van €36.000. Het mediane inkomen van alumni verschilt significant van €36.000 (p < 0,0001). De geschatte mediaan van de alumni-inkomens is €49234. Van de 29 alumni verdienen 25 alumni boven modaal. Deze resultaten duiden op een verschil tussen het mediane jaarinkomen van alumni van de opleiding Journalistiek en het mediane jaarinkomen van de gemiddelde Nederlander waarbij de inkomens van de alumni hoger lijken te liggen.
Van Geloven, N. (25 mei 2016). Tekentoets Wiki Statistiek Academisch Medisch Centrum.↩
Onderscheidend vermogen, in het Engels power genoemd, is de kans dat de nulhypothese verworpen wordt wanneer de alternatieve hypothese waar is.↩
Statistics How To (27 mei 2018). One Sample Median Test. Statistics How to.↩
Doorsnee inkomen werkenden al 10 jaar vrijwel constant (22 maart 2019). Centraal Bureau voor de Statistiek↩
Miller, I. & Miller, C. (2012). John E. Freund’s Mathematical Statistics with Applications. Pearson: eighth edition.↩
De breedte van de staven van het histogram wordt vaak automatisch bepaald, maar kan handmatig aangepast worden. Aangezien de breedte van de staven bepalend zijn voor de indruk die de visualisatie geeft, is het verstandig om hier goed op te letten.↩
Outliers (13 augustus 2016). UvA Wiki Methodologiewinkel.↩
Uitbijters kunnen bepalend zijn voor de uitkomst van toetsen. Bekijk of de uitbijters valide uitbijters zijn en niet een meetfout of op een andere manier incorrect verkregen data. Het weghalen van uitbijters kan de uitkomst ook vertekenen, daarom is het belangrijk om verwijderde uitbijters te melden in een rapport.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩