Logistik regression
Hej
Vi er rendt ind i et problem, som vi håber der er en venlig sjæl, der kan hjælpe os med.
I forbindelse med et projekt er vi stødt på følgende problem:
Krydstabuleringer i SPSS viser, at der er en sammenhæng mellem vores binære afhængige variable og flere uafhængige variable.
Når der så laves en logisktisk regression,fremkommer det direkte modsatte resultat af krydstabuleringerne. Dette burde vel ikke være muligt?
Vi har prøvet at ændre referencekategori, men dette ændrer ikke noget.
Er der nogen, der har en idé om, hvad der kan være galt, og hvad vi skal gøre.
Venlig hilsen Tommy
Vi er rendt ind i et problem, som vi håber der er en venlig sjæl, der kan hjælpe os med.
I forbindelse med et projekt er vi stødt på følgende problem:
Krydstabuleringer i SPSS viser, at der er en sammenhæng mellem vores binære afhængige variable og flere uafhængige variable.
Når der så laves en logisktisk regression,fremkommer det direkte modsatte resultat af krydstabuleringerne. Dette burde vel ikke være muligt?
Vi har prøvet at ændre referencekategori, men dette ændrer ikke noget.
Er der nogen, der har en idé om, hvad der kan være galt, og hvad vi skal gøre.
Venlig hilsen Tommy
Hej Tommy,
1) Sammenhængene fra jeres krydstabeller vurderes de med chi2-tests? Nogle gange kan der godt være sammenhænge i en krydstabel uden den har den form, som en lineær sammenhæng vil have i logistisk regression. Man kan i hvert fald forestille sig den situation. Prøv eventuelt - hvis det kan lade sig gøre - at lave en korrelationskoefficient af en art (fx en gamma-koefficient eller spearman`s rho). Den vil kunne give jer en retning på sammenhængen, som I så også vil forvente i den logistiske regression.
2) Ser I på sammenhængene i krydstabellerne med 2-vejstabeller? Nogle gange kan man - i regression - godt opleve, at hver enkel variabel har isoleret effekt på den afhængige variabel, men at når man kontrollerer for alle forhold i én regression, kan man ikke skelne mellem effekterne. Det kan være relateret til multikollinearitet.
Skriv i øvrigt gerne mere deltaljeret om resultaterne, så er det nemmere at hjælpe.
mvh Kristian
1) Sammenhængene fra jeres krydstabeller vurderes de med chi2-tests? Nogle gange kan der godt være sammenhænge i en krydstabel uden den har den form, som en lineær sammenhæng vil have i logistisk regression. Man kan i hvert fald forestille sig den situation. Prøv eventuelt - hvis det kan lade sig gøre - at lave en korrelationskoefficient af en art (fx en gamma-koefficient eller spearman`s rho). Den vil kunne give jer en retning på sammenhængen, som I så også vil forvente i den logistiske regression.
2) Ser I på sammenhængene i krydstabellerne med 2-vejstabeller? Nogle gange kan man - i regression - godt opleve, at hver enkel variabel har isoleret effekt på den afhængige variabel, men at når man kontrollerer for alle forhold i én regression, kan man ikke skelne mellem effekterne. Det kan være relateret til multikollinearitet.
Skriv i øvrigt gerne mere deltaljeret om resultaterne, så er det nemmere at hjælpe.
mvh Kristian
Hej Kristian
For at uddybe lidt nærmere omkring vores undersøgelse og problematikken, kan jeg fortælle, at vi kort sagt undersøger karakteristika for dårlige solvaner. Vores afhængige variabel er ”dårlige solvaner”, og dertil har vi 7 uafhængige variable.
Fx er alder en af de uafhængige variable (variablen har 3 udfaldsrum: Ung, moden, ældre). I en krydstabel mellem dårlige solvaner og alder, viser der sig en sammenhæng med, at de unge har dårligere solvaner end de andre aldersgrupper. Chi størrelsen viser 43,479 og gammatesten viser 0,334 med en p-værdi på 0,00. Altså som vi forstår, viser gammatesten en stærk positiv sammenhæng. Sagt på en anden måde, at jo yngre du er – jo dårlige solvaner har du. Eller er det helt forkert tolket?
Når vi så – vha- logistisk regression - laver en bivariate analyse af ukontrollerede effekter på alder med den ældre gruppe som referencekategori, får vi en logit værdi for de unge på -1,085 og en odds ratio værdi på 0,339. Og for den modne gruppe en logitværdi på -412 og en odds ratio på 0,662. Begge med p-værdi på 0,00.
Som vi tolker det her i den logistiske regression, har de unge nu mindre sandsynlighed for at have dårlige solvaner end referencekategorien, som er de ældre. Og ligeledes har de modne også mindre sandsynlighed for at have dårlige solvaner end de ældre. Krydstabellen viste os vel, at det er de unge, der oftere end de andre alderskategorier har dårlige solvaner. De ældre var dem, der havde mindst dårlige solvaner i krydstabellen.
Ved kontrol af effekter på andre variable i logistisk regression, er resultatet det samme.
Og problemet går igen med alle vores uafhængige variable køn, uddannelse mm. Teorien og krydstabellerne viser én retning, og i logistisk regression viser resultatet i en anden retning.
Er det os, det tolker forkert på resultaterne? Og kan vi evt gøre galt i fx SPSS funktionerne?
Håber det er til at forstå.
Hilsen Tommy
For at uddybe lidt nærmere omkring vores undersøgelse og problematikken, kan jeg fortælle, at vi kort sagt undersøger karakteristika for dårlige solvaner. Vores afhængige variabel er ”dårlige solvaner”, og dertil har vi 7 uafhængige variable.
Fx er alder en af de uafhængige variable (variablen har 3 udfaldsrum: Ung, moden, ældre). I en krydstabel mellem dårlige solvaner og alder, viser der sig en sammenhæng med, at de unge har dårligere solvaner end de andre aldersgrupper. Chi størrelsen viser 43,479 og gammatesten viser 0,334 med en p-værdi på 0,00. Altså som vi forstår, viser gammatesten en stærk positiv sammenhæng. Sagt på en anden måde, at jo yngre du er – jo dårlige solvaner har du. Eller er det helt forkert tolket?
Når vi så – vha- logistisk regression - laver en bivariate analyse af ukontrollerede effekter på alder med den ældre gruppe som referencekategori, får vi en logit værdi for de unge på -1,085 og en odds ratio værdi på 0,339. Og for den modne gruppe en logitværdi på -412 og en odds ratio på 0,662. Begge med p-værdi på 0,00.
Som vi tolker det her i den logistiske regression, har de unge nu mindre sandsynlighed for at have dårlige solvaner end referencekategorien, som er de ældre. Og ligeledes har de modne også mindre sandsynlighed for at have dårlige solvaner end de ældre. Krydstabellen viste os vel, at det er de unge, der oftere end de andre alderskategorier har dårlige solvaner. De ældre var dem, der havde mindst dårlige solvaner i krydstabellen.
Ved kontrol af effekter på andre variable i logistisk regression, er resultatet det samme.
Og problemet går igen med alle vores uafhængige variable køn, uddannelse mm. Teorien og krydstabellerne viser én retning, og i logistisk regression viser resultatet i en anden retning.
Er det os, det tolker forkert på resultaterne? Og kan vi evt gøre galt i fx SPSS funktionerne?
Håber det er til at forstå.
Hilsen Tommy
Hej Tommy,
Aaahh - nu kan se, hvad problemet er. Hvordan er den binære afhængige variabel kodet, dvs. hvilke tal-værdier har den? Så vidt jeg ved, har SPSS vist en tendens til at bytte rundt på den afhængige variabels udfald, hvis den ikke er kodet 0/1, dvs. hvor 0 er "gode vaner" og 1 er "dårlige vaner".
Prøv at kode variablen på den vis, så kan det være, at det virker. Hvis ikke, så er der noget helt galt, fordi den logistiske regression blot er en anden måde at skrive krydstabellen på. Derfor skulle I gerne finde frem til samme resultat.
vh Kristian
Aaahh - nu kan se, hvad problemet er. Hvordan er den binære afhængige variabel kodet, dvs. hvilke tal-værdier har den? Så vidt jeg ved, har SPSS vist en tendens til at bytte rundt på den afhængige variabels udfald, hvis den ikke er kodet 0/1, dvs. hvor 0 er "gode vaner" og 1 er "dårlige vaner".
Prøv at kode variablen på den vis, så kan det være, at det virker. Hvis ikke, så er der noget helt galt, fordi den logistiske regression blot er en anden måde at skrive krydstabellen på. Derfor skulle I gerne finde frem til samme resultat.
vh Kristian
Tusind tak Kristian. Det var jo lige det, der var problemet - at den afhængige binære variablel ikke var kodet til 0/1. Du har lige reddet os for flere grå hår.
Hilsen Tommy
Hilsen Tommy
Andre læser også
- Perspektivering og konklusion
- Fænomenologisk metode/hermeneutisk fortolkning
- Definition af kontingens
- Svag paternalisme
- Abduktion
- Habermas` teori om system og livsverden
- Generaliserbarhed ved kvalitativ metode?
- Bourdieu - Foucault; Forskel eller lighed
- Magt og viden(foucault)
- Socialkonstruktionisme versus socialkonstruktivisme
- Socialkonstruktivistisk /hermeneutisk
- Metaperspektiv?
- Hvem kender til makro- meso- og mikro begreberne?
- Deduktiv vs. induktiv
- Foucault, subjektivering/objektivering
- Ordet "perspektivering" på engelsk?
- Foucaults diskursanalyse - i en simpel udgave?
- Har jeg forstået Luhmann korrekt???
- Socialkonstruktivisme
- Forskel på paradigme og diskurs
- Moral og etik - en begrebsafklaring.
- Kritisk realisme vs. realism
- HJÆLP!!! jeg fatter ikke felt og doxa
- Sammenhæng mellem kapital og habitus
- Governmentality
- Viden - ud fra en ontologisk og epistemologisk dimension