CURSUS R statistic

 

 

Inleiding.

De hoeveelheid data die opgeslagen wordt, groeit explosief. Dit komt doordat wij met z'n allen steeds meer data opslaan in de vorm van bestanden, foto's en films (bijvoorbeeld op Facebook of YouTube) maar ook doordat er steeds meer apparaten zelf data verzamelen, opslaan en uitwisselen. Het analyseren van data gaat hierdoor een steeds grotere rol spelen. Voor het analyseren van die data worden veelal statistische technieken gebruikt. Deze vergen veel rekenwerk, maar gelukkig hebben we daarvoor weer de computers die overigens zelf ook data genereren.

Er zijn verschillende pakketten die te gebruiken zijn voor de statistische analyses. Excel is wel het meest bekende. Het nadeel van Excel is dat Excel naast het gebruik van statistische analyses ook te gebruiken is voor heel veel andere toepassingen. Dat maakt het vinden van de juiste statistische techniek en hoe uit te voeren in Excel lastig. Naast Excel zijn er ook software pakketten speciaal gericht op statistische analyses. Het meest bekende is wel SPSS. Voor onderwijsdoelen erg geschikt, omdat relatief eenvoudig statistische analyses uitgevoerd kunnen worden. Al snel zijn grafieken en tabellen met SPSS te maken (al hoewel dit vaker door studenten anders gezien wordt). Een nadeel van SPSS is dat het voor veel bedrijven erg duur is, zeker voor MKB bedrijven en je het daarom bij organisaties niet zo vaak tegen komt.

Als alternatief voor SPSS wordt steeds vaker R en/of Rstudio gebruikt. Rstudio heeft enkele voordelen:

- Rstudio is gratis.
- Op internet zijn erg veel YouTube filmpjes te zien waarin uitgelegd wordt hoe je bepaalde dingen doet   in R.
- Rstudio is meer gericht op bedrijfsdata analyses en makkelijker te koppelen met externe   databases.SPSS kent die faciliteiten wel maar daar moet je wel veel meer moeite voor doen.


Wij werken in deze cursus met Rstudio. Een nadeel van Rstudio is dat het voor een groot deel commando gestuurd is en niet menu gestuurd. Vergelijk het verschil met de besturingssystemen MS-DOS en Windows. Maar wil je die uitdaging aangaan, dan kost het je in het begin misschien wat meer moeite, maar uiteindelijk levert je het op dat je met een modern pakket voor data analyse werkt, met heel veel mogelijkheden, en ook nog eens gratis.

Hoe te beginnen met deze cursus:

Basis vaardigheden van Rstudio leer je door YouTube filmpje onder "Getting started with R" te bekijken en uit te voeren. In deze YouTube filmpje leer je o.a hoe je R en Rstudio moet installeren, introductie op wat Rstudio is, importeren van data in Rstudio, en tabellen te maken. Nadat je deze filmpjes bekeken hebt, ga je het geleerde toepassen op een databestand (in dit geval een enquête omdat dat het meeste aansluit op de opdracht in het B-cluster, maar technieken zijn net zo goed toepasbaar op bestanden met bedrijfsgegevens). Hoe je wat moet doen staat onder "R Analyses". Uitganspunt is dat het meetniveau de statistische analyse techniek bepaalt. In schema's is weergegeven welke statistische analyse techniek je bij welk meet neiveau moet gebruiken. Door de link te volgen kom je terecht op de pagina waar uitleg over de techniek gegeven wordt. Wil je gebruik maken van grafieken, dan volg je als je er niet uitkomt een YouTube filmpje over de desbetreffende techniek.
Het meetniveau bepaalt ook welke toets je moet gebruiken. Onder het menu item "R toetsen" worden weer schema's aangegeven hoe je per meetniveau moet toetsen. Door de link te volgen wordt uitegelgd hoe je de desbetreffende toets kunt uitvoeren.
Soms wordt gebruik gemaakt van script bestanden (kleine programma's te vergelijken met macro's in Excel). D.m.v. die script bestanden krijg je tabellen en grafieken die qua lay-out vergelijkbaar zijn met de lay-out van SPSS en zo te importeren zijn in Word. Maar belangrijker is dat je inzicht krijgt in wat er gebeurt. Misschien wel je eerste stapjes op het gebied van programmeren.

 

Ik wens je veel succes toe met het doorlopen van deze cursus.