Alder i anden i logistisk regression

Skrevet d. 06.01.2007 af Ingvill

Hej!
Vi undrer os over om det giver mening, og i så fald hvordan, at indsætte alder i anden i en logistisk regression. Og hvordan alder kan blive mere signifikant (eller faktisk gå fra at være insignifikant til at blive signifikant) når vi indsætter alder i anden i modellen. Sætter stor pris på hjælp!

HIlsen the fannypacks

Skrevet d. 07.01.2007 af KristianKarlson

Kære Ingvill,

1. ALDER I ANDEN
Når man sætter alder i anden, så mener du jo på en eller anden måde, at effekten er (eller bør være) polynomisk. Og hvad siger alder i anden egentligt? Det handler om, at de forskellige aldersgrupper får tillagt anderledes vægt (i forhold til forklaringen af variationen i din afh. variabel). Sagt anderledes: Forholdet mellem lad os sige 20-30-årige og 50-60-årige bliver pludselig "boostet". Fx 20^2 = 400, mens 50^2 = 2500. Dvs. forskellen var oprindeligt 50-20=30 år, og nu er den 2500-400=2100 "år". Oprindeligt er der altså en procentvis forskel på 150% - men i anden er den på 525%!!! Min pointe er altså, at med alder i anden tillægger du de forskellige aldersgruppe en anderledes betydning. OG pointen er endvidere, at netop denne vægt forklarer, hvad der foregår, når det kommer til at forklare variationen i den afh. variabel. Derfor er man nogle gange interesseret i at tage alder i anden med i sin model (eller man kan eksplorativt prøve at se, hvad der sker). Jeg håber det gav mening ;).

2. FRA INSIG. TIL SIG. I MODELLEN
Dette er jeg ikke helt sikker på. Men her kommer en forsøgsvis forklaring, som I lige selv må overveje om den lyder plausibel:
Normalt er det en dårlig idé at tolke for meget på de nestede variable. Pointen er jo netop, at interaktionen (og alder i anden er jo en interaktion) gerne skulle forklare mere variation end en isoleret effekt. Derfor: Hvis I vil tolke tolke på parameterestimater skal man som hovedregel tolke på "den højeste orden".
Argumentet er lidt, sådan som jeg ser det, at når man har "alder i anden" med i modellen, så vil man automatisk have "alder i første" med (der er en eller anden hierarkisk regel, som I sikkert husker meget bedre end jeg). Dvs. estimatet for "alder i første" vil have indflydelse i modellen - uanset om det er signifikant eller ej.
Alligevel er jeg i tvivl. Giv mig lige lidt tid til at tænke over den. Eller også er der andre, der kan springe til ;)

Mvh. Kristian

Skrevet d. 07.01.2007 af KristianKarlson

Hej igen,

Jeg kom lige i tanke om en ting mere, som måske kan "retfærdiggøre" brugen af "alder i anden". Jeg er dog ikke sikkert, så se det som et forsøgsvist forslag.

Hvis man nu deler sin aldersvariabel op i kategorier (6-7 stykker fx), så kan man se på fordelingen af sin afhængige binære variabel i de forskellige kategorier. Hvis der således er et tegn på en polynomisk effekt (fx i anden eller i fjerde eller...), så kan man sige, "at man med god grund tager alder i anden med i modellen". Her skal "tegn på" forstås bredt - ofte er det et skøn.

I SPSS vil det sige:
1. Du har din binære, afhængige variabel
2. Omkod din aldersvariabel til en 6-7 meningsfulde kategorier.
3. Anvend "Basic Tables"-funktionen (du finder den under Analyze>Tables).
4. I "Summaries" placerer du din afh. variabel.
5. I "Subgroups" placerer du den kategoriopdelte aldersvariabel (vælg across eller down - det kommer sig ikke så nøje).
6. Tryk på "Statistics"-knappen, og i det nye vindue overfører du "Mean" til "Cell statistics".
7. Og så kører bussen! Nu har du din fordeling. Du kan evt. smide den over i Excel og lave en lækker graf - så bliver det nemmere at spore en evt. polynomisk tendens.

Håber det gav mening.
Husk, at dette blot er et forslag. Jeg aner ikke, om det "virker". Har dog lige selv prøvet i SPSS - og jeg fandt et tegn på en polynomisk effekt. Eller sagt anderledes: Der var bestemt ikke tegn på en lineær effekt ;)

Mvh. Kristian

Skrevet d. 07.01.2007 af CHellersgaard

Hej Fannypacks

Jeg vil blot tilslutte mig Kristians forklaring, men dog opfordre jer til også (enten nu eller når I skal kontrolere modellen) at tænke over, om det ikke giver mere mening af se på alder kategorielt fremfor kontinuert. Altså at alderseffekter I ser skyldes forskelle mellem forskellige aldersgrupper, fx unge-endnu ikke etablerede på arbejdsmarkede, midalderende på arbejdsmarkedet og pensionister eller generationer før og efter 68 mm opgør m. traditionelle famileroller.
Bare for at minde jer om, at enhver statistisk operationalisering skal bygge på teoretiske argumenter...

Christoph

Skrevet d. 07.01.2007 af Mads_Jaeger

Hej Fannypacks

Et par kommentarer:

1. Hvis du tager alder i anden med i modellen specificerer du bare at sammenhængen mellem alder og den afhængige variabel (eller faktisk: sandsynligheden for at observere Y=1|x udtrykt i log-odds i den kumulative logistiske fordeling) er ikke-lineær. Det kan den jo sagtens; der kan endda være god teoretisk grund til at tro på det. Et "klassisk" eksempel er sammenhængen mellem indkomst og hvor lykkelig man er. Her viser stort set alle studier, at der er en positiv men aftagende effekt af indkomst på grad af subjektiv lykke. Dvs., den marginale nytte af indkomst er aftagende.

2. Fra insignifikant til signifikant. Det er ikke noget problem, at sammenhængen ikke er signifikant i den lineære specifikation, men bliver det i den ikke-lineære. Det viser bare, at den ikke-lineære specifikation bedre fanger den faktiske sammenhæng i data.

3. Kategorisering af alder. Jeg synes du bør være opmærksom på to ting. For det første implicerer en kategorisering af alder at du sandsynligvis fanger en kohorteeffekt og ikke en alderseffekt. Det er ikke det samme. Der er i øvrigt intet i vejen for at du sagtens kan have begge specifikationer med i modellen: En ikke-kategoriseret alderseffekt og en "kategoriseret" kohorteeffekt. For det andet betyder en kategorisering at du mister forklaringskraft fordi du aggregerer variablen. Men som Christoph rigtigt siger må specifikationen afhænge af det teoretiske problem.

Mvh.

Mads

Skrevet d. 08.01.2007 af CHellersgaard

Hej Mads

Jeg har forsøgt at lave netop en model, hvor jeg både undersøgte om en kohorte- eller en alderseffekt gjorde sig gældende (og nåede frem til, at det var kohorte effekten, der havde størst forkalringskraft). Men jeg spekulerer på, om der en matematisk/statisktisk funktion, der kan have sløret den ene variabel (udover at de naturligvis er samvariende), måske noget med "aggregeringen" af variablen (vi betragtede alder som en kontrolvariabel og tilføjede den til modellen uden at modellen blev signifikant bedre)?

Christoph

Skrevet d. 08.01.2007 af Mads_Jaeger

Hej Christoph

Aggregeringen af aldersvariablen gør naturligvis en forskel, for jo mindre du aggregerer desto mere vil kohortevariablen ligne aldersvariablen. I sagens natur er de to stærkt korrelrede og "stjæler" hinandens forklaringskraft. Hvis de to variable er stærkt korrelerede får du også biased estimater af dine regressionskoefficienter. Men, en nogenlunde fornuftig kodning af kohortevariablen (fx i 5- eller 10-årsintervaller eller hvad der nu giver mening) burde virke i stikprøver af afstændig størrelse (500+ observationer).

Mvh.

Mads

Alder i anden i logistisk regression

Andre læser også