Gebruik de Chi-kwadraat toets voor goodness of fit om te onderzoeken of de geobserveerde frequenties van de categorieën van één categorische variabele overeenkomt met de verwachte frequenties van de categorische variabele.1,2 Met deze toets kan een geobserveerd percentage met een bekend of verwacht percentage vergeleken worden. Gebruik de exacte binomiaaltoets bij een laag aantal observaties, dit wordt bij de assumpties toegelicht.3
De controller van een universiteit is geïnteresseerd in de instroom van studenten met een hbo vooropleiding. Zij wil weten of haar universiteit relatief veel studenten met een vooropleiding in het hbo heeft in vergelijking met het landelijke gemiddelde. Op de website van de VSNU vindt ze dat studenten met een hbo vooropleiding 11,13% uitmaken van de totale instroom voor Bachelors en Masters in het wetenschappelijk onderwijs (wo) in 2018.4 Ze wil weten of er op haar instelling naar verhouding evenveel hbo-studenten zijn als het landelijk gemiddelde.
Dit onderzoek vertaalt zich in de volgende combinatie van hypothesen, waarbij de nulhypothese zo geformuleerd is dat er geen effect of verschil is en de alternatieve hypothese zo geformuleerd is dat er wel een effect of verschil is.
H0: De verdeling van de vooropleiding van de instromende studenten is gelijk aan de landelijke verdeling (11,13% met een hbo vooropleiding).
HA: De verdeling van de vooropleiding van de instromende studenten is niet gelijk aan de landelijke verdeling (11,13% met een hbo vooropleiding).
Om de Chi-kwadraat toets voor goodness of fit uit te voeren, moet de variabele nominaal5 of ordinaal6 zijn.7 De exacte binomiaaltoets vereist een binaire8 variabele. In deze casus is de categorische variabele binair.
De categorieën van de variabele mogen niet overlappen, wat wil zeggen dat elke observatie slechts in een van de categorieën past. Voor de Chi-kwadraat toets voor goodness of fit mag in niet meer dan 20% van de categorieën van de variabele de verwachte frequentie minder dan vijf zijn. Als dit wel het geval is, gebruik dan de binomiaaltoets.9
Er is een dataset ingeladen genaamd Instroom_2018_totaal. Dit is een dataframe met studentnummers en een binaire variabele die laat zien of de student wel of geen hbo vooropleiding heeft.
## Eerste 6 observaties
head(Instroom_2018_totaal)
## Studentnummer hbo_vooropleiding
## 1 5615890 nee
## 2 5922075 nee
## 3 5445121 nee
## 4 5981209 nee
## 5 5357767 nee
## 6 5473922 nee
## Laatste 6 observaties
tail(Instroom_2018_totaal)
## Studentnummer hbo_vooropleiding
## 7343 5880558 nee
## 7344 5837576 nee
## 7345 5894658 nee
## 7346 5222972 nee
## 7347 5640619 nee
## 7348 5333848 nee
Het is informatief om het percentage studenten met hbo vooropleiding in de data te bepalen.
100*prop.table(table(Instroom_2018_totaal$hbo_vooropleiding))
##
## ja nee
## 16.57594 83.42406
Het percentage studenten met hbo vooropleiding is 16,58. Dit percentage lijkt hoger te liggen dan het landelijk percentage van 11,13%. De Chi-kwadraat toets voor goodness of fit of de binomiaaltoets toetst of dit verschil significant is.
De verwachte frequentie mag niet kleiner dan vijf zijn in 20% van de categorieën van de categorische variabele. Aangezien er een binaire variabele getoetst wordt, mag geen van beide categorieën dus minder dan vijf als verwachte frequentie hebben. Bereken de verwachte frequentie met het argument chisq.test()$expected van de functie chisq.test(). De argumenten van de functie zijn de tabel met daarin de hoeveelheid studenten met en zonder hbo vooropleiding Tabel en een vector die aangeeft wat de verwachte proporties10 zijn voor het aantal studenten met en zonder hbo vooropleiding p = c(0.1113, 1 - 0.1113).
# Maak een tabel met daarin de aantallen studenten met en zonder hbo vooropleiding
Tabel <- table(Instroom_2018_totaal$hbo_vooropleiding)
# Bereken de verwachte frequenties
chisq.test(Tabel, p = c(0.1113, 1 - 0.1113))$expected
## ja nee
## 817.8324 6530.1676
Geen van de verwachte frequenties is kleiner dan vijf, dus de Chi-kwadraat toets voor goodness of fit kan worden uitgevoerd.
Voer de Chi-kwadraat toets voor goodness of fit uit om te onderzoeken of de verdeling van het aantal studenten met en zonder hbo vooropleiding overeenkomt met de landelijke verdeling waarbij het percentage studenten met hbo vooropleiding 11,13% is.
Gebruik de functie chisq.test() met als argumenten de tabel met daarin de hoeveelheid studenten met en zonder hbo vooropleiding Tabel en een vector die aangeeft wat de verwachte proporties zijn voor het aantal studenten met en zonder hbo vooropleiding p = c(0.1113, 1 - 0.1113). Let hierbij goed op dat de volgorde van de frequenties in de tabel overeenkomt met de volgorde van de proporties zodat de toets de goede vergelijking maakt.
# Maak een tabel met daarin de aantallen studenten met en zonder hbo vooropleiding
Tabel <- table(Instroom_2018_totaal$hbo_vooropleiding)
# Voer de toets uit
chisq.test(Tabel, p = c(0.1113, 1 - 0.1113))
##
## Chi-squared test for given probabilities
##
## data: Tabel
## X-squared = 220.33, df = 1, p-value < 2.2e-16
De Chi-kwadraat toets voor goodness of fit is uitgevoerd om te onderzoeken of de verdeling van het instromende aantal studenten van een universiteit met en zonder hbo vooropleiding verschilt van de landelijke verdeling waarbij het percentage studenten met een hbo vooropleiding 11,13% is. De verdeling van de instromende studenten van de universiteit is significant verschillend van de landelijke verdeling, χ21 = 220,33, p < 0,0001. Het percentage instromende studenten met een hbo vooropleiding is 16,58. Aan de hand van de resultaten kan geconcludeerd worden dat het percentage studenten met een hbo vooropleiding hoger ligt dan het landelijk gemiddelde van 11,13%.
Voer de binomiaaltoets uit om te onderzoeken of de verdeling van het aantal studenten met en zonder hbo vooropleiding overeenkomt met de landelijke verdeling waarbij het percentage studenten met hbo vooropleiding 11,13% is. Deze toets is een alternatief voor de Chi-kwadraat toets voor goodness of fit bij een laag aantal observaties. Er is een subset Instroom_2018_totaal_steekproef van de dataset Instroom_2018_totaal ingeladen met daarin een lager aantal observaties.
Maak een tabel van de variabele hbo_vooropleiding om het aantal observaties per categorie te tellen. Bereken daarnaast de verwachte frequenties per categorie met het argument chisq.test()$expected van de functie chisq.test() met als argumenten de tabel met daarin de hoeveelheid studenten met en zonder hbo vooropleiding Tabel en een vector die aangeeft wat de verwachte proporties zijn voor het aantal studenten met en zonder hbo vooropleiding p = c(0.1113, 1 - 0.1113).
# Maak een tabel met daarin de aantallen studenten met en zonder hbo vooropleiding
(Tabel <- table(Instroom_2018_totaal_steekproef$hbo_vooropleiding))
##
## ja nee
## 2 18
# Bereken de verwachte frequenties
chisq.test(Tabel, p = c(0.1113, 1 - 0.1113))$expected
## Warning in chisq.test(Tabel, p = c(0.1113, 1 - 0.1113)): Chi-squared
## approximation may be incorrect
## ja nee
## 2.226 17.774
Het aantal studenten met een hbo vooropleiding is 2 en het aantal zonder hbo vooropleiding 18. De verwachte frequentie studenten met een hbo vooropleiding is 2,23, 17,77 wat kleiner dan vijf is. Voer daarom de binomiaaltoets uit, aangezien meer dan 20% van de categorieën een verwachte frequentie van vijf of minder heeft.
Tel eerst het aantal studenten met een hbo vooropleiding in de dataset. Voer daarna de binomiaaltoets uit met de functie binom.test() en met argument x = Aantal_studenten_hbo_vooropleiding voor de hoeveelheid studenten met een hbo vooropleiding, n = length(Instroom_2018_totaal_steekproef$hbo_vooropleiding) voor de totale instroom van de universiteit, p = 0.1113 voor de referentieproportie, alternative = two.sided voor het soort toets (eenzijdig of tweezijdig) en conf.level = 0.95 om het significantieniveau aan te geven.
Aantal_studenten_hbo_vooropleiding <- length(Instroom_2018_totaal_steekproef$hbo_vooropleiding[Instroom_2018_totaal_steekproef$hbo_vooropleiding == "ja"])
binom.test(x = Aantal_studenten_hbo_vooropleiding,
n = length(Instroom_2018_totaal_steekproef$hbo_vooropleiding),
p = 0.1113, alternative = "two.sided", conf.level = 0.95)
##
## Exact binomial test
##
## data: Aantal_studenten_hbo_vooropleiding and length(Instroom_2018_totaal_steekproef$hbo_vooropleiding)
## number of successes = 2, number of trials = 20, p-value = 1
## alternative hypothesis: true probability of success is not equal to 0.1113
## 95 percent confidence interval:
## 0.01234853 0.31698271
## sample estimates:
## probability of success
## 0.1
De binomiaaltoets is uitgevoerd om te onderzoeken of de verdeling van het instromende aantal studenten van een universiteit met en zonder hbo vooropleiding voor een dataset met een laag aantal observaties verschilt van de landelijke verdeling waarbij het percentage studenten met een hbo vooropleiding 11,13% is. De verdeling van het aantal instromende studenten met en zonder hbo vooropleiding is niet significant verschillend van de landelijke verdeling (p = 1), dus de nulhypothese kan niet verworpen worden. De schatting van het percentage is 0,1% met een 95%-betrouwbaarheidsinterval van 0,01% tot 0,32% en is niet significant verschillend van het landelijk gemiddelde van 11,13%. De resultaten suggereren dat het percentage studenten met een hbo vooropleiding niet hoger ligt dan het landelijk gemiddelde van 11,13%.
Laerd Statistics (2018). Chi-Square Goodness-of-Fit Test in SPSS Statistics. https://statistics.laerd.com/spss-tutorials/chi-square-goodness-of-fit-test-in-spss-statistics.php↩
Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.↩
Agresti, A. (2003). Categorical data analysis. Vol. 482, John Wiley & Sons.↩
Het percentage is een berekening op basis van cijfers van de Vereniging van Universiteiten (VSNU). In 2018 zijn er 102.147 studenten ingestroomd in Universitaire Bachelors en Masters. In dat zelfde jaar stroomden bij de universiteiten 11.374 studenten met een hbo vooropleiding in. Deze studenten maken dus 11,13% uit van de totale instroom. Zie respectievelijk: Vereniging van Universiteiten (2019). Downloadbare tabellen Studenten. Opgehaald van de website van de VSNU: https://www.vsnu.nl/nl_NL/f_c_studenten_downloads.html. Vereniging van Universiteiten (2019). Factsheet - Nederlandse Universiteiten Zijn Toegankelijk. Opgehaald van de website van de VSNU: https://www.vsnu.nl/files/documenten/Nederlands%20universiteiten%20zijn%20toegankelijk%20-%20tbv%20AO%20Toegankelijkheid%20en%20Kansengelijkheid%20in%20het%20hoger%20onderwijs%20d.d.%2020-2-2019.pdf↩
Een nominale variabele is een categorische variabele waarbij de categorieën niet geordend kunnen worden. Een voorbeeld is de variabele windstreek (noord, oost, zuid, west) en geslacht (man of vrouw).↩
Een ordinale variabele is een categorische variabele waarbij de categorieën geordend kunnen worden. Een voorbeeld is de variabele beoordeling met de categorieën Onvoldoende, Voldoende, Goed en Uitstekend.↩
Laerd Statistics (2018). Chi-Square Goodness-of-Fit Test in SPSS Statistics. https://statistics.laerd.com/spss-tutorials/chi-square-goodness-of-fit-test-in-spss-statistics.php↩
Binaire variabelen: twee elkaar uitsluitende waarden, zoals ja of nee, 0 of 1, aan of uit.↩
Allen, P. & Bennett, K. (2012). SPSS A practical Guide version 20.0. Cengage Learning Australia Pty Limited.↩
Een proportie van een bepaalde categorie is de frequentie van de categorie gedeeld door het totaal aantal observaties. Het kan gezien worden als de kans van een bepaalde categorie en bevat een waarde tussen 0 en 1.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩
In dit voorbeeld wordt uitgegaan van een waarschijnlijkheid van 95% c.q. een p-waardegrens van 0,05. De grens is naar eigen inzicht aan te passen; houd hierbij rekening met type I en type II fouten.↩