CURSUS R statistic

 

 

Bereken Modus, mediaan, 1e en 3e kwartiel voor ordinale variabele.

Om te zien wat de modus, mediaan en kwartielen van een variabele zijn, maken we eerst een frequentietabel van de variabele waarvoor we deze willen uitrekenen. Dit kunnen we doen met het scriptbestand "Frequentietabel Ordinale variabele". Zie Frequentietabel ordinale verdeling.

Voor de variabele Reistijd krijgen we de volgende tabel:

Modus: de waarde die het meeste voorkomt is de reistijd van 61-90 min.

Mediaan: De middelste waarde ofwel 50%. In de kolom cumulatieve percentage kunnen we zien dat onder de 60 minuten 68% van de waarnemingen zit. 48% zit lager dan 40 min. Dus de mediaan is de klasse 4 van 41-60 minuten.

1e kwartiel: Zo kunnen we ook nagaan dat in de klasse 2 van 10-20 min. het 25% deel zit.
3e kwartiel: en in de klasse van 5 61-90 min. ofwel 75%.

Heeft R dan geen functie voor het berekenen van de modus, mediaan en kwartielen?

Voor het bereken van de modus is er inderdaad geen functie, maar deze waarde is altijd zo af te lezen uit de frequentietabel.

Voor een scale (ratio of interval) variabele kunnen de mediaan en de kwartielen berekend worden met de functie summary. Maar passen we summary toe op b.v. de variabele Reistijd dan krijgen we het volgende:

> summary(Reistijd)

Met een eenvoudige truc kunnen we het probleem oplossen. We maken een nieuwe variabele NUMReistijd, die het zelfde is als Reistijd, alleen definiƫren we die als numeriek en wel als volgt:

> NUMReistijd=as.numeric(Reistijd)

De variabel NUMReistijd gedraagt zich als numeriek, en de summary functie hierop levert op:

> summary(NUMReistijd)

We zien dat de mediaan 4 is (41-60 min.), het 1e kwartiel 2 (10-20min.) en het 3e kwartiel 5 (61-90 min.). De mean (het gemiddelde) heeft in dit geval geen betekenis, en moet je in een rapport ook zeker weglaten.