Stappenplan analyse: Difference between revisions

From Control Systems Technology Group
Jump to navigation Jump to search
 
(27 intermediate revisions by 2 users not shown)
Line 1: Line 1:
een stappenplan voor de analyse is belangrijk omdat je anders het risco loopt dat data niet of niet goed geinterpreteerd wordt.
Een stappenplan voor de analyse is belangrijk omdat je anders het risco loopt dat data niet of niet goed geinterpreteerd wordt.


Het maken van een stappenplan zorgt er enerzijds voor dat er een van te voren vastgestelde manier is om de data te verwerken, dit kan voorkomen dat data verkeerd wordt geinterpreteerd omdat wij mensen nou eenmaal de neiging hebben om onze gevoelens achterna te lopen in plaats van objectief naar data te kijken. Anderszijds is het ook goed omdat op deze manier aan het licht komt of we misschien belangrijke vragen zijn vergeten te stellen.  
Het maken van een stappenplan zorgt er enerzijds voor dat er een van te voren vastgestelde manier is om de data te verwerken, dit kan voorkomen dat data verkeerd wordt geinterpreteerd omdat wij mensen nou eenmaal de neiging hebben om onze gevoelens achterna te lopen in plaats van objectief naar data te kijken. Anderszijds is het ook goed omdat op deze manier aan het licht komt of we misschien belangrijke vragen zijn vergeten te stellen.  


==waar moet je rekening mee houden voor je analyse?==
==Waar moet je rekening mee houden voor je analyse?==
===Data typen===
===Data typen===
<!-- binary, nominal or ordered categorical duidelijker verwerken-->
<!-- binary, nominal or ordered categorical duidelijker verwerken-->
er zijn verschillende typen data die elk op een eigen manier geanaliseerd kunnen worden. de typen data die wij onderscheiden zijn:
Er zijn verschillende typen data die elk op een eigen manier geanaliseerd kunnen worden. De typen data die wij onderscheiden zijn:


qualitatief
Kwalitatief:


deze data is niet nummeriek, en is niet duidelijk gedefineerd
Deze data is niet nummeriek, en is niet duidelijk gedefineerd
*geordend  
*geordend  
<blockquote>
<blockquote>
bijvoorbeelden: goed gemiddeld slecht
Bijvoorbeeld: goed gemiddeld slecht
</blockquote>
</blockquote>
<blockquote>
<blockquote>
er kan altijd een waarde aan deze data toegekend worden. er is een duidelijk volgorde, hierdoor is het onderandere mogelijk een gemiddelde te berekenen.
Er kan altijd een waarde aan deze data toegekend worden. Er is een duidelijke volgorde, hierdoor is het onderandere mogelijk een gemiddelde te berekenen.
</blockquote>
</blockquote>
*ongeordend
*ongeordend
<blockquote>
<blockquote>
bijvoorbeeld: Nederland Duitsland België  
Bijvoorbeeld: Nederland Duitsland België  
</blockquote>
</blockquote>
<blockquote>
<blockquote>
deze data is nooit nummeriek en er kan niet duidelijke een volgorde worden bepaald, ook is het niet mogelijk een gemiddelde te bepalen.
Deze data is nooit nummeriek en er kan niet duidelijke een volgorde worden bepaald, ook is het niet mogelijk een gemiddelde te bepalen.
</blockquote>
</blockquote>
<blockquote>
<blockquote>
wel is het mogelijk deze data op frequentie te sorteren of om de data te reduceren. een voorbeeld van reductie zou zijn Duitsland niet Duitsland.
Wel is het mogelijk deze data op frequentie te sorteren of om de data te reduceren. Een voorbeeld van reductie zou zijn Duitsland of niet Duitsland.
</blockquote>
</blockquote>
quantitatief
Kwantitatief


dit is numeriek data, de waarde van deze data is onweerlegbaar.
Dit is numerieke data, de waarde van deze data is onweerlegbaar.


het verwerken van quantitatieve data is makkelijker als die van qualitatieve data, omdat quantitatieve data een vaste waarde heeft.  
Het verwerken van kwantitatieve data is makkelijker dan die van kwalitatieve data, omdat kwantitatieve data een vaste waarde heeft.
 
in dit stappenplan zullen we ons daarom voornamelijk richten op het uitwerken van de analyse van de qualitatieve data


===Data structuur===
===Data structuur===
Line 51: Line 49:
Data kan ook in een hierarchische vorm binnen komen.
Data kan ook in een hierarchische vorm binnen komen.


een voorbeeld hiervan is vragen over een huishouden waarbij een aantal algemene vragen zijn en een aantal vragen voor iedere persoon uit het huishouden.
Een voorbeeld hiervan is vragen over een huishouden waarbij een aantal algemene vragen zijn en een aantal vragen voor iedere persoon uit het huishouden.


een mogelijkheid voor het analyseren van deze data is het opsplitsen van de data in meerdere platte structuren per level bijvoorbeeld een structuur met alle antwoorden van de kinderen. hierbij is het echter wel belangrijk dat de link met het huishouden blijft bestaan.
Een mogelijkheid voor het analyseren van deze data is het opsplitsen van de data in meerdere platte structuren per level bijvoorbeeld een structuur met alle antwoorden van de kinderen. Hierbij is het echter wel belangrijk dat de link met het huishouden blijft bestaan.


==stap 1: verkennende data-analyse==
==verkennende data-analyse==
bij verkennende data-analyse kijk je naar je databestanden mogelijk al voordat de data verzameld is. deze stap is bedoeld om een idee te krijgen van wat je kunt verwachten. het kan zijn data na de verkenning van de databestanden je tot de conclusie komt dat je nog bepaalde data mist of juist overbodig is, hierdoor is het mogelijk je vragenlijst nog aan te passen.
Bij verkennende data-analyse kijk je naar je databestanden mogelijk al voordat de data verzameld is. deze stap is bedoeld om een idee te krijgen van wat je kunt verwachten. Het kan zijn data na de verkenning van de databestanden je tot de conclusie komt dat je nog bepaalde data mist of juist overbodig is, hierdoor is het mogelijk je vragenlijst nog aan te passen.


na het verzamelen van je data kun je nog een keer de verkennende data-analyse uitvoeren, dit zorgt er voor dat je een schone dataset hebt. ook toont het de beperkingen van je data, bijvoorbeeld dat je niet voldoende data hebt van een bepaalde sub-groep.  
Na het verzamelen van je data kun je nog een keer de verkennende data-analyse uitvoeren, dit zorgt er voor dat je een schone dataset hebt. Ook toont het de beperkingen van je data, bijvoorbeeld dat je niet voldoende data hebt van een bepaalde sub-groep.


==stap 2: de hoofdbevindingen afleiden==
==De hoofdbevindingen afleiden==
Deze stap begint met een schone afgeslankte dataset na het uitvoeren van de verkennende data-analyse.
Deze stap begint met een schone afgeslankte dataset na het uitvoeren van de verkennende data-analyse.


hierdoor kunnen tegenstrijdigheden duidelijker uitgelegd worden. in deze stap is zoals de naam al zegt het voornaamste doel om de hoofdbevindingen af te leiden en deze duidelijk te verwoorden voor de samenvatting die we later gaan maken.
Hierdoor kunnen tegenstrijdigheden duidelijker uitgelegd worden. In deze stap is zoals de naam al zegt het voornaamste doel om de hoofdbevindingen af te leiden en deze duidelijk te verwoorden voor de samenvatting die we later gaan maken.


bij het afleiden van je bevindingen is het onder andere belangrijk dat je let op de omvang van je subgroepen.
Bij het afleiden van je bevindingen is het onder andere belangrijk dat je let op de omvang van je subgroepen.


het kan namelijk zijn dat de verhouding in responsie significant afwijkt van de daadwerkelijke verhouding. dit kan ook opzettelijk gedaan worden zodat ook van minderheden genoeg data beschikbaar is.
Het kan namelijk zijn dat de verhouding in responsie significant afwijkt van de daadwerkelijke verhouding. dit kan ook opzettelijk gedaan worden zodat ook van minderheden genoeg data beschikbaar is.
een manier om de verhoudingen te corrigeren is:
een manier om de verhoudingen te corrigeren is:


eerst de data op te splitsen vervolgens de data te schalen zodat de verhouding klopt en uiteindelijk de data weer samen te voegen.
Eerst de data op te splitsen vervolgens de data te schalen zodat de verhouding klopt en uiteindelijk de data weer samen te voegen.


een probleem met deze methode kan zijn dat er van een subgroep gewoonweg te weinig data is of dat het deel van de subgroep dat deelgenomen heeft niet representatief is voor de hele groep, omdat bijvoorbeeld de rest van de subgroep weigert mee te werken. in deze gevallen is het niet mogelijk de data te schalen. en zul je genoodzaakt zijn het onderzoek opnieuw uit te voeren of de subgroep weg te laten.
Een probleem met deze methode kan zijn dat er van een subgroep gewoonweg te weinig data is of dat het deel van de subgroep dat deelgenomen heeft niet representatief is voor de hele groep, omdat bijvoorbeeld de rest van de subgroep weigert mee te werken. In deze gevallen is het niet mogelijk de data te schalen. En zul je genoodzaakt zijn het onderzoek opnieuw uit te voeren of de subgroep weg te laten.




De daadwerkelijke afleiding van het doel van je vragenlijst.
De daadwerkelijke afleiding van het doel van je vragenlijst.


is je doel om een formele schatting te maken. dan ben je voornamelijk geïnteresseerd in een strict nummeriek antwoord terwijl een ander onderzoek juist een meer nijgt naar een meer informeel antwoord.
Is je doel om een formele schatting te maken? Dan ben je voornamelijk geïnteresseerd in een strikt numeriek antwoord terwijl een ander onderzoek juist een meer nijgt naar een meer informeel antwoord.


voor een strict nummeriek antwoord is het een kwestie van waarden optellen en delen. het is hierbij wel belangrijk dat er nauwkeurige gewichten aan bepaalde waarden wordt gegeven. hierbij moet wel opgelet worden dat niet te hoge gewichten worden toegekend aan kleine hoeveelheden data, dit zou de betrouwbaarheid verlagen.
Voor een strikt numeriek antwoord is het een kwestie van waarden optellen en delen. Het is hierbij wel belangrijk dat er nauwkeurige gewichten aan bepaalde waarden wordt gegeven. Hierbij moet wel opgelet worden dat niet te hoge gewichten worden toegekend aan kleine hoeveelheden data, dit zou de betrouwbaarheid verlagen.


een minder numerieke vragenlijst is een stuk lastiger om goed te analyseren.


een vraag waarbij de respondant de opties in een bepaalde volgorde zet is bijvoorlijk lastig te verwerken want als de ranking is 4 3 2 1 had dit op een schaal van 0 tot 10 ook 9,5 9 8,7 3 kunnen zijn dit is echter niet meer afleidbaar uit de ranking, dus vaak is het beter rankings te vervangen door scores.
Een minder numerieke vragenlijst is een stuk lastiger om goed te analyseren.


===data simplificatie===
Een vraag waarbij de respondant de opties in een bepaalde volgorde zet is bijvoorlijk lastig te verwerken want als de ranking is 4 3 2 1 had dit op een schaal van 0 tot 10 ook 9,5 9 8,7 3 kunnen zijn dit is echter niet meer afleidbaar uit de ranking, dus vaak is het beter rankings te vervangen door scores.
 
===Data simplificatie===
----
----
Omdat je vaak veel data moet analyseren is het belangrijk je data eerst te rankschikken.
Omdat je vaak veel data moet analyseren is het belangrijk je data eerst te rankschikken.
Line 92: Line 91:
*een richtingstabellen:
*een richtingstabellen:
<blockquote>
<blockquote>
de eenvoudigste manier van rankschikken is de data opsplitsen in eenrichtingstabellen. deze tabellen bevat elk de antwoorden op slechts een vraag. data die je hier uit af kunt leiden is bijvoorbeeld de frequentie van elk gekozen antwoord. het nadeel hiervan is dat combinaties van antwoorden verloren gaan.
De eenvoudigste manier van rankschikken is de data opsplitsen in eenrichtingstabellen. Deze tabellen bevatten elk de antwoorden op slechts een vraag. Data die je hier uit af kunt leiden is bijvoorbeeld de frequentie van elk gekozen antwoord. Het nadeel hiervan is dat combinaties van antwoorden verloren gaan.
</blockquote>
</blockquote>
*meerrichtings tabellen:
*meerrichtings tabellen:
<blockquote>
<blockquote>
meerrichtings tabellen zijn multidimensionale tabellen met in elke dimensie een vraag. bijvoorbeeld een tweerichtings tabel van 2 vragen met elk 5 antwoorden bevat 5 rijen en 5 kolommen dus 25 cellen. in cel(2,4) staat dan de frequentie van het aantal mensen dat zowel op de eerste vraag het 2e antwoord heeft gegeven en op de tweede vraag het 4e antwoordt.  
Meerrichtings tabellen zijn multidimensionale tabellen met in elke dimensie een vraag. Bijvoorbeeld een tweerichtings tabel van 2 vragen met elk 5 antwoorden bevat 5 rijen en 5 kolommen dus 25 cellen. In cel(2,4) staat dan de frequentie van het aantal mensen dat zowel op de eerste vraag het 2e antwoord heeft gegeven en op de tweede vraag het 4e antwoordt.  
</blockquote>
</blockquote>
<blockquote>
<blockquote>
Line 111: Line 110:
</blockquote>
</blockquote>
<blockquote>
<blockquote>
Verder kunnen er ook tabellen gemaakt worden van de data van een subgroep die aan een specifieke vraag voldoet, zo kan de data ingeperkt worden. hierbij moet wel rekening gehouden worden dat de subgroep voldoende groot is.
Verder kunnen er ook tabellen gemaakt worden van de data van een subgroep die aan een specifieke vraag voldoet, zo kan de data ingeperkt worden. Hierbij moet wel rekening gehouden worden dat de subgroep voldoende groot is.
</blockquote>
</blockquote>


bij vragen waar men meerdere antwoorden kan kiezen zijn er meerdere manieren om de data te verwerken afhankelijk van wat je wilt onderzoeken
Bij vragen waar men meerdere antwoorden kan kiezen zijn er meerdere manieren om de data te verwerken afhankelijk van wat je wilt onderzoeken
 
 
De eerste mogelijkheid is de vraag op te splitsen in het aantal mogelijkheden en voor elke mogelijk een wel/niet antwoord zetten.
 
Een tweede mogelijkheid is om te kijken naar het nummer van vinkjes dat een persoon gezet heeft.
 
Een andere mogelijkheid is het bedenken van kunstmatige variabelen die de invoer van verschillende vragen samenvoegt. En deze in een kruistabel te zetten.
 
 
Een ander manier van data simplificatie is het gebruik van een [[scatterplot matrix]], deze zorgt er voor dat we naar veel variabelen tegelijkertijd kunnen kijken terwijl we verschillende groepen onderscheiden.
 
===Bepaal samenhang van variabelen===
----
Een [[trellis plot]] is goede manier om een simpel beeld te krijgen van subdivisies van data. Hierdoor is het makkelijker een overzicht van de samenhang van variabelen te krijgen.
 
 
Voor kwalitatieve data kan de [[chi-square test]] gebruikt worden. Het nadeel hiervan is dat hij gelimiteerd is tot slechts 2 variabelen. Als men toch met meer variabelen wil werken kun je log-lineaire modellen gebruiken, deze gebruikt multidimensionale tabellen om de samenhang tussen variabelen te bepalen. Hierdoor kan er rekening gehouden worden met onderlingen relaties.
 
 
Als we al weten dat data samenhangt moeten we nog een manier hebben om deze tegelijkertijd te bestuderen. Dit kan door te kijken naar de onderlingen correlaties van de variabelen.




de eerste mogelijkheid is de vraag op te splitsen in het aantal mogelijkheden en voor elke mogelijk een wel/niet antwoord zetten.
Als blijkt dat vrijwel alle data gecorreleert is dan kan het zijn dat je veel minder data hebt dan dat je eigenlijk dacht. Om dit uit te vinden kun je de [[principal component analysis]] methode gebruiken.


een tweede mogelijkheid is om te kijken naar het nummer van vinkjes dat een persoon gezet heeft.
===het definiëren van subgroepen===
----
Het definiëren van subgroepen is een belangrijke stap in het analyse proces, deze stap geeft aan dat je je respondanten niet als een homogene massa beschouwd, maar ook daadwerkelijk een onderscheidt maakt in verschillende subgroepen.


een andere mogelijkheid is het bedenken van kunstmatige variabelen die de invoer van verschillende vragen samenvoegt. en deze in een krijstabel te zetten.
Een methode hiervoor is [[cluster analyse]].


===stap 2.2 - het definiëren van subgroepen===
===Modeleer technieken===
----
----
het definiëren van subgroepen is een belangrijke stap in het analyse proces, deze stap geeft aan dat je je respondanten niet als een homogene massa beschouwd, maar ook daadwerkelijk een onderscheidt maakt in verschillende subgroepen.
De techniek die je moet toepassen om je data te modelleren hangt af van de verkregen datatype zoals hierboven beschreven is.


een methode hiervoor is [[cluster analyse]].
Werk je met waarden data dan is het [[Poisson regression model]] de beste keus.


==stap 3: archiveren==
Als je met ja/nee data werkt kun je beter [[regression models]] gerbuiken.
bij het analyseren van data is het ook altijd belangrijk dat de analyse indien nodig herhaald kan worden. hiervoor moeten de volgende dingen bewaart worden:
 
Bij data die verdeeld is in categoriën zoals hoog midden laag is [[log-lineair modeleren]] het meest geschikt.
 
 
Al de bovengenoemde methoden vallen onder de categorie [[gegeneraliseerde lineaire modellen]]. Deze modellen kunnen allemaal met een computer geanalyseerd worden, namelijk met [[GLIM software]].
 
 
Als je met waarden of binaire(ja/nee) data werkt zal de verdeling altijd binnen de verwachte limieten vallen.
 
==Archiveren==
Bij het analyseren van data is het ook altijd belangrijk dat de analyse indien nodig herhaald kan worden. Hiervoor moeten de volgende dingen bewaard worden:
*data collectie methoden
*data collectie methoden
*onbewerkte data
*onbewerkte data
Line 138: Line 169:
*verslagen
*verslagen


verdere redenen voor de dataopslag kunnen zijn:
Verdere redenen voor de dataopslag kunnen zijn:
*het onderzoeksproces geordend houden
*het onderzoeksproces geordend houden
*voldoen aan de eisen van een opdrachtgever
*voldoen aan de eisen van een opdrachtgever
*her-analyse bij nieuwe inzichten
*her-analyse bij nieuwe inzichten
*data samenvoegen met andere data
*data samenvoegen met andere data
*authenticatie  
*authenticatie


----
==Bronnen:==  
bronnen:   


SSC 2001 – Approaches to the Analysis of Survey Data
The University of Reading Statistical Services Centre  2001 – Approaches to the Analysis of Survey Data
   
   
SSC Guidelines 2002 – Modern Methods of Analysis
The University of Reading Statistical Services Centre  2002 – Modern Methods of Analysis


J. A. Nelder and R. W. M. Wedderburn 2012 - Generalized Linear Models


terug [[PRE Groep5]]
Terug [[PRE Groep5]]

Latest revision as of 21:09, 8 October 2014

Een stappenplan voor de analyse is belangrijk omdat je anders het risco loopt dat data niet of niet goed geinterpreteerd wordt.

Het maken van een stappenplan zorgt er enerzijds voor dat er een van te voren vastgestelde manier is om de data te verwerken, dit kan voorkomen dat data verkeerd wordt geinterpreteerd omdat wij mensen nou eenmaal de neiging hebben om onze gevoelens achterna te lopen in plaats van objectief naar data te kijken. Anderszijds is het ook goed omdat op deze manier aan het licht komt of we misschien belangrijke vragen zijn vergeten te stellen.

Waar moet je rekening mee houden voor je analyse?

Data typen

Er zijn verschillende typen data die elk op een eigen manier geanaliseerd kunnen worden. De typen data die wij onderscheiden zijn:

Kwalitatief:

Deze data is niet nummeriek, en is niet duidelijk gedefineerd

  • geordend

Bijvoorbeeld: goed gemiddeld slecht

Er kan altijd een waarde aan deze data toegekend worden. Er is een duidelijke volgorde, hierdoor is het onderandere mogelijk een gemiddelde te berekenen.

  • ongeordend

Bijvoorbeeld: Nederland Duitsland België

Deze data is nooit nummeriek en er kan niet duidelijke een volgorde worden bepaald, ook is het niet mogelijk een gemiddelde te bepalen.

Wel is het mogelijk deze data op frequentie te sorteren of om de data te reduceren. Een voorbeeld van reductie zou zijn Duitsland of niet Duitsland.

Kwantitatief

Dit is numerieke data, de waarde van deze data is onweerlegbaar.

Het verwerken van kwantitatieve data is makkelijker dan die van kwalitatieve data, omdat kwantitatieve data een vaste waarde heeft.

Data structuur

Ook de vorm van je data heeft invloed op de verwerking ervan.


De simpelste vorm van data is een platte datastructuur, een tabel met een kolom per vraag en een rij per responsie.

Zelfs bij deze simpelste vorm kunnen zich al problemen voordoen.

Bij een vragenlijst kunnen ook vragen staan die alleen beantwoord moeten worden als een andere vraag positief beantwoordt is, dit lijdt tot open plekken in je data.

Ook kan het hierdoor zo zijn dat je bruikbare responsie voor een bepaalde vraag te laag om een sluitende conclusie te vormen.


Data kan ook in een hierarchische vorm binnen komen.

Een voorbeeld hiervan is vragen over een huishouden waarbij een aantal algemene vragen zijn en een aantal vragen voor iedere persoon uit het huishouden.

Een mogelijkheid voor het analyseren van deze data is het opsplitsen van de data in meerdere platte structuren per level bijvoorbeeld een structuur met alle antwoorden van de kinderen. Hierbij is het echter wel belangrijk dat de link met het huishouden blijft bestaan.

verkennende data-analyse

Bij verkennende data-analyse kijk je naar je databestanden mogelijk al voordat de data verzameld is. deze stap is bedoeld om een idee te krijgen van wat je kunt verwachten. Het kan zijn data na de verkenning van de databestanden je tot de conclusie komt dat je nog bepaalde data mist of juist overbodig is, hierdoor is het mogelijk je vragenlijst nog aan te passen.

Na het verzamelen van je data kun je nog een keer de verkennende data-analyse uitvoeren, dit zorgt er voor dat je een schone dataset hebt. Ook toont het de beperkingen van je data, bijvoorbeeld dat je niet voldoende data hebt van een bepaalde sub-groep.

De hoofdbevindingen afleiden

Deze stap begint met een schone afgeslankte dataset na het uitvoeren van de verkennende data-analyse.

Hierdoor kunnen tegenstrijdigheden duidelijker uitgelegd worden. In deze stap is zoals de naam al zegt het voornaamste doel om de hoofdbevindingen af te leiden en deze duidelijk te verwoorden voor de samenvatting die we later gaan maken.

Bij het afleiden van je bevindingen is het onder andere belangrijk dat je let op de omvang van je subgroepen.

Het kan namelijk zijn dat de verhouding in responsie significant afwijkt van de daadwerkelijke verhouding. dit kan ook opzettelijk gedaan worden zodat ook van minderheden genoeg data beschikbaar is. een manier om de verhoudingen te corrigeren is:

Eerst de data op te splitsen vervolgens de data te schalen zodat de verhouding klopt en uiteindelijk de data weer samen te voegen.

Een probleem met deze methode kan zijn dat er van een subgroep gewoonweg te weinig data is of dat het deel van de subgroep dat deelgenomen heeft niet representatief is voor de hele groep, omdat bijvoorbeeld de rest van de subgroep weigert mee te werken. In deze gevallen is het niet mogelijk de data te schalen. En zul je genoodzaakt zijn het onderzoek opnieuw uit te voeren of de subgroep weg te laten.


De daadwerkelijke afleiding van het doel van je vragenlijst.

Is je doel om een formele schatting te maken? Dan ben je voornamelijk geïnteresseerd in een strikt numeriek antwoord terwijl een ander onderzoek juist een meer nijgt naar een meer informeel antwoord.

Voor een strikt numeriek antwoord is het een kwestie van waarden optellen en delen. Het is hierbij wel belangrijk dat er nauwkeurige gewichten aan bepaalde waarden wordt gegeven. Hierbij moet wel opgelet worden dat niet te hoge gewichten worden toegekend aan kleine hoeveelheden data, dit zou de betrouwbaarheid verlagen.


Een minder numerieke vragenlijst is een stuk lastiger om goed te analyseren.

Een vraag waarbij de respondant de opties in een bepaalde volgorde zet is bijvoorlijk lastig te verwerken want als de ranking is 4 3 2 1 had dit op een schaal van 0 tot 10 ook 9,5 9 8,7 3 kunnen zijn dit is echter niet meer afleidbaar uit de ranking, dus vaak is het beter rankings te vervangen door scores.

Data simplificatie


Omdat je vaak veel data moet analyseren is het belangrijk je data eerst te rankschikken.

Dit kan op meerdere manieren:

  • een richtingstabellen:

De eenvoudigste manier van rankschikken is de data opsplitsen in eenrichtingstabellen. Deze tabellen bevatten elk de antwoorden op slechts een vraag. Data die je hier uit af kunt leiden is bijvoorbeeld de frequentie van elk gekozen antwoord. Het nadeel hiervan is dat combinaties van antwoorden verloren gaan.

  • meerrichtings tabellen:

Meerrichtings tabellen zijn multidimensionale tabellen met in elke dimensie een vraag. Bijvoorbeeld een tweerichtings tabel van 2 vragen met elk 5 antwoorden bevat 5 rijen en 5 kolommen dus 25 cellen. In cel(2,4) staat dan de frequentie van het aantal mensen dat zowel op de eerste vraag het 2e antwoord heeft gegeven en op de tweede vraag het 4e antwoordt.

Het voordeel hiervan ten opzichte van de eenrichtings tabel is dat combinaties van antwoorden behouden blijven, het nadeel is dat voor hogere dimensies de tabellen snel in omvang toenemen.

Het is daarom erg belangrijk om afweging te maken over welke vragen men combineert. Een meerrichtingstabel kan vereenvoudigt worden als blijkt dat 1 bepaalde dimensie geen invloed heeft.

naast frequenties kunnen ook genormaliseerde persentages.

Ook kunnen de resultaten van een meerrichtingstabel weer gebruikt worden in een andere meerrichtingstabel.

Verder kunnen er ook tabellen gemaakt worden van de data van een subgroep die aan een specifieke vraag voldoet, zo kan de data ingeperkt worden. Hierbij moet wel rekening gehouden worden dat de subgroep voldoende groot is.

Bij vragen waar men meerdere antwoorden kan kiezen zijn er meerdere manieren om de data te verwerken afhankelijk van wat je wilt onderzoeken


De eerste mogelijkheid is de vraag op te splitsen in het aantal mogelijkheden en voor elke mogelijk een wel/niet antwoord zetten.

Een tweede mogelijkheid is om te kijken naar het nummer van vinkjes dat een persoon gezet heeft.

Een andere mogelijkheid is het bedenken van kunstmatige variabelen die de invoer van verschillende vragen samenvoegt. En deze in een kruistabel te zetten.


Een ander manier van data simplificatie is het gebruik van een scatterplot matrix, deze zorgt er voor dat we naar veel variabelen tegelijkertijd kunnen kijken terwijl we verschillende groepen onderscheiden.

Bepaal samenhang van variabelen


Een trellis plot is goede manier om een simpel beeld te krijgen van subdivisies van data. Hierdoor is het makkelijker een overzicht van de samenhang van variabelen te krijgen.


Voor kwalitatieve data kan de chi-square test gebruikt worden. Het nadeel hiervan is dat hij gelimiteerd is tot slechts 2 variabelen. Als men toch met meer variabelen wil werken kun je log-lineaire modellen gebruiken, deze gebruikt multidimensionale tabellen om de samenhang tussen variabelen te bepalen. Hierdoor kan er rekening gehouden worden met onderlingen relaties.


Als we al weten dat data samenhangt moeten we nog een manier hebben om deze tegelijkertijd te bestuderen. Dit kan door te kijken naar de onderlingen correlaties van de variabelen.


Als blijkt dat vrijwel alle data gecorreleert is dan kan het zijn dat je veel minder data hebt dan dat je eigenlijk dacht. Om dit uit te vinden kun je de principal component analysis methode gebruiken.

het definiëren van subgroepen


Het definiëren van subgroepen is een belangrijke stap in het analyse proces, deze stap geeft aan dat je je respondanten niet als een homogene massa beschouwd, maar ook daadwerkelijk een onderscheidt maakt in verschillende subgroepen.

Een methode hiervoor is cluster analyse.

Modeleer technieken


De techniek die je moet toepassen om je data te modelleren hangt af van de verkregen datatype zoals hierboven beschreven is.

Werk je met waarden data dan is het Poisson regression model de beste keus.

Als je met ja/nee data werkt kun je beter regression models gerbuiken.

Bij data die verdeeld is in categoriën zoals hoog midden laag is log-lineair modeleren het meest geschikt.


Al de bovengenoemde methoden vallen onder de categorie gegeneraliseerde lineaire modellen. Deze modellen kunnen allemaal met een computer geanalyseerd worden, namelijk met GLIM software.


Als je met waarden of binaire(ja/nee) data werkt zal de verdeling altijd binnen de verwachte limieten vallen.

Archiveren

Bij het analyseren van data is het ook altijd belangrijk dat de analyse indien nodig herhaald kan worden. Hiervoor moeten de volgende dingen bewaard worden:

  • data collectie methoden
  • onbewerkte data
  • metadata
  • variabelen en hun interpretatie
  • logboeken van de analyse
  • verslagen

Verdere redenen voor de dataopslag kunnen zijn:

  • het onderzoeksproces geordend houden
  • voldoen aan de eisen van een opdrachtgever
  • her-analyse bij nieuwe inzichten
  • data samenvoegen met andere data
  • authenticatie

Bronnen:

The University of Reading Statistical Services Centre 2001 – Approaches to the Analysis of Survey Data

The University of Reading Statistical Services Centre 2002 – Modern Methods of Analysis

J. A. Nelder and R. W. M. Wedderburn 2012 - Generalized Linear Models

Terug PRE Groep5