Gråzone mellem ordinale- og intervalvariable
Hej
Blandt forskere lader det til at der er forskellige opfattelser i forhold til om det er metodisk forsvarligt at pointgive svarkategorier på ordinale variable og ligge tallene sammen til et indeks, som efterfølgende analyseres som en intervalvariabel. Jeg vil mene at der er indlysende grunde til at det ikke er forsvarligt, da afstande mellem ordinale svarkategorier pr. definition ikke lader sig kvantificeres. Hvilken mening har i om denne sag, og kan i henvise til litteratur som forsvarer de forskellige positioner. I tilknytning til dette vil jeg også spørge om en 11 punkts skala fra 0 - 10 kan opfattes og analyseres som en intervalvariabel?
Mikkel
Blandt forskere lader det til at der er forskellige opfattelser i forhold til om det er metodisk forsvarligt at pointgive svarkategorier på ordinale variable og ligge tallene sammen til et indeks, som efterfølgende analyseres som en intervalvariabel. Jeg vil mene at der er indlysende grunde til at det ikke er forsvarligt, da afstande mellem ordinale svarkategorier pr. definition ikke lader sig kvantificeres. Hvilken mening har i om denne sag, og kan i henvise til litteratur som forsvarer de forskellige positioner. I tilknytning til dette vil jeg også spørge om en 11 punkts skala fra 0 - 10 kan opfattes og analyseres som en intervalvariabel?
Mikkel
Hej Mikkel
Det kommer vel an på om du er pragmatiker eller puritaner. Hvis du er pragmatiker kan det godt forsvares at sammenlægge ordinale variable til et indeks (jeg antager a priori at de ordinale variable er forholdsvist stærkt korrelerede - ellers giver det ikke mening ...). Men du bør rapportere korrelationen mellem de forskellige variable i dit indeks og, hvis alt skal være ret og rimeligt, et mål for skalaens reliabilitet (fx Cronbachs Alpha selv om det også lidt er snyd). Som regel går det udmærket i praksis.
Den puritanske løsning er at estimere den latente variabel som du prover at approksimere med dit indeks. Her kan du jo bruge faktoranalyse eller en anden egnet analyseteknik. Hvis dine indikatorer er ordinale skal du benytte polychoriske korrelationer som inputinformation i din faktoranalyse i stedet for de almindelige korrelationer (det er rigtigt puritansk ...). På baggrund af faktormodellen kan du estimere hvert individs score på den latente variabel du er interesseret i.
Hvis du vil behandle ordinale skalaer som intervalskalaer skal du i hvert fald gøre dig klart at du antager ækvidistans. Men måske er det ikke noget stort problem i praksis fordi dine respondenter tænker på svarkategorierne som - mere eller mindre - ækvidistante. Fordelene ved at antage ækvidistans er at de statistiske modeller du skal bruge er meget nemmere at estimere og fortolke. I praksis vejer det ret tungt.
Mvh.
Mads
Det kommer vel an på om du er pragmatiker eller puritaner. Hvis du er pragmatiker kan det godt forsvares at sammenlægge ordinale variable til et indeks (jeg antager a priori at de ordinale variable er forholdsvist stærkt korrelerede - ellers giver det ikke mening ...). Men du bør rapportere korrelationen mellem de forskellige variable i dit indeks og, hvis alt skal være ret og rimeligt, et mål for skalaens reliabilitet (fx Cronbachs Alpha selv om det også lidt er snyd). Som regel går det udmærket i praksis.
Den puritanske løsning er at estimere den latente variabel som du prover at approksimere med dit indeks. Her kan du jo bruge faktoranalyse eller en anden egnet analyseteknik. Hvis dine indikatorer er ordinale skal du benytte polychoriske korrelationer som inputinformation i din faktoranalyse i stedet for de almindelige korrelationer (det er rigtigt puritansk ...). På baggrund af faktormodellen kan du estimere hvert individs score på den latente variabel du er interesseret i.
Hvis du vil behandle ordinale skalaer som intervalskalaer skal du i hvert fald gøre dig klart at du antager ækvidistans. Men måske er det ikke noget stort problem i praksis fordi dine respondenter tænker på svarkategorierne som - mere eller mindre - ækvidistante. Fordelene ved at antage ækvidistans er at de statistiske modeller du skal bruge er meget nemmere at estimere og fortolke. I praksis vejer det ret tungt.
Mvh.
Mads
Hej Mads
Uanset hvilken metode man bruger til at danne et indeks, antager man vel ækvidistant ved de ordinale variable man bruger til at danne indekset med? Så uanset hvor puritansk man bliver i dannelsen af et indeks, kommer man vel ikke uden om at indekset ikke er valid, hvis man ikke tror at de ordinale variable er ækvidistante?
Vh Mikkel
Uanset hvilken metode man bruger til at danne et indeks, antager man vel ækvidistant ved de ordinale variable man bruger til at danne indekset med? Så uanset hvor puritansk man bliver i dannelsen af et indeks, kommer man vel ikke uden om at indekset ikke er valid, hvis man ikke tror at de ordinale variable er ækvidistante?
Vh Mikkel
Mads har fat på en god pointe. Men det er ikke bare et spørgsmål om temperament. Bagved den statistiske diskussion ligger et videnskabsteoretisk problem. Når Mikkel taler om `validitet` henviser det til målingsvaliditet, og i positivistisk forstand er det kombinerede indeksmål ikke gyldigt. Mads lægger op til en pragmatisk tilgang. Den forudsætter at formålet med brugen af målingen kendes.Derfor må vi først vide, hvad du vil bruge dit indeks til. Hvis du vil lave signifikanstest på gennemsnittet bliver konklusionen sandsynligvis misvisende. Men hvis du benytter det til rangkorrelationsanalyse, er koefficienternes niveau ikke korrekt, men de stærkt signifikante samvariationer er sandsynligvis udtryk for en statistisk sammenhæng.
Præcisering: er koefficienternes størrelse ikke korrekt, men deres niveau er et rimeligt skøn, og stærkt signifikante samvariationer er sandsynligvis udtryk for en statistisk sammenhæng.
I tilknytning til denne tråd har jeg bl.a. spurgt Søren Risbjerg Thomsen professor ved institut for statskundskab Århus universitet om følgende:
"På mit arbejde har vi haft en del diskussion om problemer ved at anvende ordinale variable på intervalskalaniveau til fx konstruktion af indeks eller ordinær lineær regressionsanalyse. Blandt forskere lader det til at der er forskellige opfattelser i forhold til om det er metodisk forsvarligt at pointgive svarkategorier på ordinale variable og lægge tallene sammen til et indeks, som efterfølgende analyseres som en intervalvariabel. Eller fx anvende en 11 punkt skala fra 0-10 (med se-mantiske kategorier ved endepunkterne) som eksempelvis en afhængig intervalvariabel
Jeg har læst Svend Kreiners beskrivelse af problematikken (side 12-15 i "statistisk problemløs-ning - præmisser, teknik og analyse (1999)). Kreiner skriver at forudsætningen for at anvende ordinale variable på intervalskalaniveau er at man kan antage ækvidistans for de ordinale variable. Han skriver ligeledes at bevisbyrden for hvorvidt dette er rimeligt, er hos forskeren og ikke hos modtageren/læseren. Jeg synes det lyder som en meget fornuftig betragtning, men har samtidig haft meget svært ved at finde litteratur som diskuterer hvornår det er rimeligt at antage ækvidistans for ordinale variable. Jeg er meget interesseret i at høre din holdning til dette spørgsmål, altså - hvornår er det rimeligt at antage ækvidistans for en ordinal variabel og således anvende variablen på intervalskalaniveau".
Søren kom med følgende svar som han gav mig lov til at anbringe i dette forum:
"Det har jeg ganske rigtigt nogle klare synspunkter på. For det første mener jeg, at selvom der ikke er perfekt ækvidistance mellem de forskellige svarkategorier på de enkelte items vil dette ikke have den store betydning, når flere items adderes til et indeks, hvilket er almindelige praksis ved konstruktion af additive indeks (se for eks. Sage publikationen om skalering, herunde an-vendelsen af faktoranalye og af Cronbachs alfa som reliabnilitetsmål). Forudsætningen må væ-re, at de forskellige faktiske distancer varierer nogenlunde tilfældigt og uden den helt store vari-ans. At afstå fra at lave et sumindeks er efter min mening kun en unyttig måde at være hellig på.
Hvis der er perfekt ækvidistance vil en almindelig Rach model for items med flere svarkategoriet vise, at sum-indekset er sufficient estimator for den latente tilbøjelighed og i praksis vil estima-tionen af den latente værdi være en lineær funktion af summen.
I øvrigt er det faktisk muligt at måle afstandene mellem de enkelte svarkategorier ved hjælp af den multinomiale logit model, hvis man hare noge items som reflekterer den samme latente dimension. Der har jeg prøvet nogle gange og sjovt nok fandt jeg faktisk frem til at afstandene på de 5-punkts items jeg studerede var tæt på at være ævkidistante. Det første eksempel på et lignende fund er Erling B. Andersens doktorafhandling ( med Rasch som vejleder) hvor han estimerer disse afstande på en fire-punkts skala, unden mærkelig nok at gøre et stort nummer ud af at de faktisk er lige store.
Du er velkommen til at smide dette svar ind på det sociologiske forum."
Er meget interesseret i at høre andres syn på ovenstående - både spørgsmål og svar.
"På mit arbejde har vi haft en del diskussion om problemer ved at anvende ordinale variable på intervalskalaniveau til fx konstruktion af indeks eller ordinær lineær regressionsanalyse. Blandt forskere lader det til at der er forskellige opfattelser i forhold til om det er metodisk forsvarligt at pointgive svarkategorier på ordinale variable og lægge tallene sammen til et indeks, som efterfølgende analyseres som en intervalvariabel. Eller fx anvende en 11 punkt skala fra 0-10 (med se-mantiske kategorier ved endepunkterne) som eksempelvis en afhængig intervalvariabel
Jeg har læst Svend Kreiners beskrivelse af problematikken (side 12-15 i "statistisk problemløs-ning - præmisser, teknik og analyse (1999)). Kreiner skriver at forudsætningen for at anvende ordinale variable på intervalskalaniveau er at man kan antage ækvidistans for de ordinale variable. Han skriver ligeledes at bevisbyrden for hvorvidt dette er rimeligt, er hos forskeren og ikke hos modtageren/læseren. Jeg synes det lyder som en meget fornuftig betragtning, men har samtidig haft meget svært ved at finde litteratur som diskuterer hvornår det er rimeligt at antage ækvidistans for ordinale variable. Jeg er meget interesseret i at høre din holdning til dette spørgsmål, altså - hvornår er det rimeligt at antage ækvidistans for en ordinal variabel og således anvende variablen på intervalskalaniveau".
Søren kom med følgende svar som han gav mig lov til at anbringe i dette forum:
"Det har jeg ganske rigtigt nogle klare synspunkter på. For det første mener jeg, at selvom der ikke er perfekt ækvidistance mellem de forskellige svarkategorier på de enkelte items vil dette ikke have den store betydning, når flere items adderes til et indeks, hvilket er almindelige praksis ved konstruktion af additive indeks (se for eks. Sage publikationen om skalering, herunde an-vendelsen af faktoranalye og af Cronbachs alfa som reliabnilitetsmål). Forudsætningen må væ-re, at de forskellige faktiske distancer varierer nogenlunde tilfældigt og uden den helt store vari-ans. At afstå fra at lave et sumindeks er efter min mening kun en unyttig måde at være hellig på.
Hvis der er perfekt ækvidistance vil en almindelig Rach model for items med flere svarkategoriet vise, at sum-indekset er sufficient estimator for den latente tilbøjelighed og i praksis vil estima-tionen af den latente værdi være en lineær funktion af summen.
I øvrigt er det faktisk muligt at måle afstandene mellem de enkelte svarkategorier ved hjælp af den multinomiale logit model, hvis man hare noge items som reflekterer den samme latente dimension. Der har jeg prøvet nogle gange og sjovt nok fandt jeg faktisk frem til at afstandene på de 5-punkts items jeg studerede var tæt på at være ævkidistante. Det første eksempel på et lignende fund er Erling B. Andersens doktorafhandling ( med Rasch som vejleder) hvor han estimerer disse afstande på en fire-punkts skala, unden mærkelig nok at gøre et stort nummer ud af at de faktisk er lige store.
Du er velkommen til at smide dette svar ind på det sociologiske forum."
Er meget interesseret i at høre andres syn på ovenstående - både spørgsmål og svar.
Tak for et godt, klogt og klart svar fra Søren! Det er ret let at påvise, hvad der kan gå galt ved additiv skalakonstruktion fra ikke-ækvidistante målinger: Nemlig ved at recode sine items.
Der er imidlertid to spørgsmål, som nager: For det første afhæmnger svaret af, hvad skalaen skal bruges til. Hvis den skal bruges til hårfine signifikanstests, er det problematisk med uldne forudsætninger. Hvis det handler om et groft estimat af størrelsesordenen for en regressionseffekt, vil den næppe påvirkes væsentligt af, at der ikke er perfekt ækvidistans. For det andet tvivler jeg på, at Erling Andersens og Sørens empiriske fund kan generaliseres. Hvis respondenterne instrueres om at betragte svarkategorierne som ækvidistante skulle vi selvfølgelig helst finde at deres svar tyder på ækvidistans. Men man kan sagtens formulere svarrubrikkerne på en fem-punkt-skala så de ikke opfattes som ækvidistante - for eksempel for at trække grænsetilfælde frem på en dimension, hvor vi formoder at fordelingen er meget skæv. I så tilfælde er det meget tvivlsomt om en logit model vil vise ækvidistans.
Der er imidlertid to spørgsmål, som nager: For det første afhæmnger svaret af, hvad skalaen skal bruges til. Hvis den skal bruges til hårfine signifikanstests, er det problematisk med uldne forudsætninger. Hvis det handler om et groft estimat af størrelsesordenen for en regressionseffekt, vil den næppe påvirkes væsentligt af, at der ikke er perfekt ækvidistans. For det andet tvivler jeg på, at Erling Andersens og Sørens empiriske fund kan generaliseres. Hvis respondenterne instrueres om at betragte svarkategorierne som ækvidistante skulle vi selvfølgelig helst finde at deres svar tyder på ækvidistans. Men man kan sagtens formulere svarrubrikkerne på en fem-punkt-skala så de ikke opfattes som ækvidistante - for eksempel for at trække grænsetilfælde frem på en dimension, hvor vi formoder at fordelingen er meget skæv. I så tilfælde er det meget tvivlsomt om en logit model vil vise ækvidistans.
Andre læser også
- Perspektivering og konklusion
- Fænomenologisk metode/hermeneutisk fortolkning
- Definition af kontingens
- Svag paternalisme
- Abduktion
- Habermas` teori om system og livsverden
- Generaliserbarhed ved kvalitativ metode?
- Bourdieu - Foucault; Forskel eller lighed
- Magt og viden(foucault)
- Socialkonstruktionisme versus socialkonstruktivisme
- Socialkonstruktivistisk /hermeneutisk
- Metaperspektiv?
- Hvem kender til makro- meso- og mikro begreberne?
- Deduktiv vs. induktiv
- Foucault, subjektivering/objektivering
- Ordet "perspektivering" på engelsk?
- Foucaults diskursanalyse - i en simpel udgave?
- Har jeg forstået Luhmann korrekt???
- Socialkonstruktivisme
- Forskel på paradigme og diskurs
- Moral og etik - en begrebsafklaring.
- Kritisk realisme vs. realism
- HJÆLP!!! jeg fatter ikke felt og doxa
- Sammenhæng mellem kapital og habitus
- Governmentality
- Viden - ud fra en ontologisk og epistemologisk dimension