Introductie R & SPSS, gebruik het beste uit beide werelden

RStudio-Ballspss icon

R is de afgelopen jaren erg populair geworden bij statistici en data miners die R gebruiken om statistische software (verder) te ontwikkelen. Zelf ben ik sinds de begin jaren 90 een fervent gebruiker van SPSS. Een paar jaar geleden ben ik nieuwsgierig geworden en heb ik R geïnstalleerd en mij hierin verdiept. Er zitten een aantal features in die ik eerder niet met SPSS kon uitvoeren en die zeer bruikbaar zijn in mijn dienstverlening. Ik moest mij wel eerst de R programmeertaal eigen maken. Wat mij de nodige inspanning kostte. Toen kwam ik er achter dat er een R plug-in bestond voor SPSS.

Is de moeite om deze plug-in te installeren en te verkennen de winst in productiviteit waard?

Ja. Na een paar grondige tests kon ik dit zeker beamen.

Zijn er ook andere voordelen?

Ja zeker. Indien u verschillende software programma’s naast elkaar gebruikt, dan kan het vertalen van het ene dataformaat naar het andere soms foutgevoelig en tijdsintensief zijn. Indien u R gebruikt vanuit SPSS met behulp van de plug-in dan behoudt u de integriteit van de originele database. Een ander belangrijk voordeel is dat de plug-in reproduceerbare SPSS en R analyses mogelijk maakt. Met het originele databestand en het syntaxbestand kunt u elke stap in de analyse reproduceren. Zo kunt u maanden later het analyse project opnieuw uitvoeren.

Wat is R en waar is R goed in?

r-schermR is een open source programmeertaal voor statistische en grafische berekeningen. Als programmeertaal zijn de statistische programmeermogelijkheden vele malen groter dan in SPSS syntax en macro. R heeft meer dan 4.800 packages beschikbaar voor analyses.
R levert u een groot assortiment aan statistische en grafische analyse technieken, zoals lineaire en niet-lineaire regressie, statistische testen, classificatie technieken, cluster analyses en time-series analyses. U kunt op diverse manieren gebruik maken van R. Bijv. het gebruiken van bestaande R technieken in uw analysetraject. Het aanpassen van beschikbare statistische en grafische berekeningen naar uw eigen wensen. En het zelf programmeren van nieuwe statistische technieken in R. R is open source. U kunt R gratis gebruiken.

Waar is SPSS Statistics goed in?

scherm-spssSPSS Statistics is een zeer gebruiksvriendelijk geavanceerd analysepakket, die gebruikers zowel met als zonder zonder programmeerkennis in staat stelt statistische analyses uit te voeren. SPSS beschikt over een zeer toegankelijke grafische interface en de SPSS datamanagement faciliteiten zijn zeer professioneel. Zo ook de geavanceerde statistische en grafische analyse mogelijkheden. SPSS heeft verder een aantal krachtige aanvullende modules die verder gaan dan de huidige functionaliteiten in R. Denk bijvoorbeeld aan Custom Tables, Automated datapreparation, AMOS en missing value analysis.

Wat is de overeenkomst tussen SPSS en R?

Beide omgevingen overlappen elkaar in heel veel analysemogelijkheden. Denk bijvoorbeeld aan beschrijvende statistieken en statistische testen. Maar de overlap gaat nog veel verder, zoals bijvoorbeeld lineaire en niet-lineaire regressie, datareductie technieken, classificatie technieken, cluster analyses en time-series analyses.

Wie gebruikt doorgaans R en wie gebruikt SPSS?

R gebruikers zijn doorgaans onderzoekers, statistici en data miners die programmeerkennis hebben en R gebruiken om statistische software (verder) te ontwikkelen. De SPSS gebruikers bestaan uit een breder publiek, met en zonder programmeerkennis. Hierbij kunt u bijvoorbeeld denken aan: onderzoekers, marktonderzoekers, business analisten, statistici, database marketeers, data miners en software developers. Zij zijn doorgaans gewend te werken met dialoogschermen en/ of SPSS syntax.

Waar is R minder voor geschikt?

R heeft geen moderne grafische user interface. Dat maakt het voor data analisten die niet willen programmeren moeilijker om met R te werken. Daarbij is R niet eenvoudig te leren voor iedereen, niet iedereen is een programmeur. R maakt het delen van analysewerk binnen een analyseteam moeilijk, omdat niet iedereen een programmeur is. Verder kun je met R niet gemakkelijk een verbinding maken met een native database. Er kleven dus duidelijke voor- en nadelen aan zowel het solo gebruik van R als het solo gebruik van SPSS Statistics.
Door de eenduidige manier van werken (het gebruik van R in combinatie met SPSS Statistics plug-in) geeft SPSS Statistics extra kwaliteit.

Hoe kan R gebruikt worden in combinatie met SPSS?

U dient eerst de ‘R Integration Package for IBM® SPSS® Statistics’ te installeren. Deze plug-in levert de mogelijkheid om in R geprogrammeerde technieken te gebruiken via de dialoogschermen in IBM SPSS Statistics. Met deze plug-in kunt u dus SPSS gebruikers die onbekend zijn met R van deze functionaliteiten voorzien. Bijvoorbeeld data analisten die meer business analist zijn dan statistisch programmeur. De ‘R Integration Package for IBM® SPSS® Statistics’ bevat vele functies om een vlekkeloze transfer tussen SPSS en R mogelijk te maken. Zo heeft SPSS een grotere flexibiliteit voor het definiëren van missing values en data dictionary. De plug-in bevat functies voor het managen van missing values en de data dictionary zodat er niets verloren gaat in het over en weer doorgeven van data tussen SPSS en R.

Wat kun je allemaal doen als je deze plug-in geïnstalleerd hebt?

scherm-random forest spssEr zijn met deze plug-in zo’n 40 R analysetechnieken standaard beschikbaar in SPSS. Hierbij kunt u bijvoorbeeld denken aan:
Association rules (voor market basket analyses), estimate random forest (een decision tree analyse met een zeer goede performance), heterogeneous correlation (correlatie tussen nominale, ordinale en metrische variabelen), latent class analyse, support vector machine, et cetera. Er zijn er veel meer. Al deze technieken zijn beschikbaar in SPSS dialoogschermen in het menu ‘Analyze’. Het programmeerwerk achter de dialoogschermen is overigens toegankelijk, zodat u kunt leren hoe de schermen en analyse functionaliteiten gemaakt zijn. Ook kunt u dus deze dialoogschermen dus verder naar eigen wens aanpassen.

Mocht u interesse hebben om zelf analyses te programmeren in R en hiervan in SPSS dialoogschermen maken, dan kan dat ook. U kunt hiervoor van de volgende mogelijkheden gebruik maken in SPSS. Het ontwerpen van eigen SPSS schermen met Custom Dialogboxes. Vanuit een eigen dialoogscherm R bedienen met SPSS syntax. De actieve SPSS dataset laten inlezen door R. Door R laten uitvoeren van statistische en grafische analyses. R output en data output terugschrijven naar SPSS Statistics.

Wilt u uw mogelijkheden in SPSS verruimen? Wilt u R toegankelijk maken voor meer collega’s?

Installeer dan de ‘R Integration Package for IBM® SPSS® Statistics’. Afhankelijk van de SPSS versie dient u een bepaalde versie van R te installeren. Het beste is om van beide de nieuwste versie te installeren. SPSS Statistics 23 in combinatie met R 3.2.3. Bij het installeren van de R plug-in worden automatisch de benodigde packages gedownload en geinstalleerd.

Ik wens u veel analyse plezier!
Jan Schuurman, professional in Business Analytics, Analytics@Work.