Sociologiskforum.dk var aktivt fra 2004-2012, men eksisterer i dag kun som arkiv.
annonce

Korrespondanceanalyse i Stata

Skrevet d. 26.01.2011 af Ag
Hej

Vi er i gang med at lave en korrespondanceanalyse i Stata, men er stødt på nogle udfordringer.

1) Når vi laver kortene, bliver individer, der har missing i én variabel, sat til missing i alle variable. Det er et problem, da vi hurtigt mister for mange observationer. Hvordan kan vi medtage individer, selvom de har missing i én variabel?

2) I nogle variable er der modaliteter, der ikke indeholder særligt mange individer, men som ikke kan slås sammen med andre. Hvordan sætter vi en enkelt modalitet til passiv, så den ikke trækker kortet skævt?

Vi håber, der er nogle, der kan hjælpe.
Mange hilsner Malene og Ane
Skrevet d. 26.01.2011 af KristianKarlson
Hej,

Ad 1) Kod missing til en kategori i hver variabel. Det må være løsningen.

Ad 2) mca i Stata kan, mig bekendt, ikke sætte modaliteter til at være passive. Det relaterer sig også til missing-problemet ovenfor. Man kan ikke bare sætte missing-kategorien i variablene til passive. Man kan dog prøve at gøre følgende: kod alle variable til binære indikatorer som i Benzecris "indikator" matrice (frem for Greenacres burt matrice). Brug derefter supplementær optionen i mca til de kategorier, I ikke vil have med. I skal altså sætte indikatorvariablene for de kategorier ind der. Aner ikke om det virker, men I kan se, hvad der sker.

Sidst vil jeg nævne, at det med missing ikke er et trivielt problem. Det kræver antagelser om, hvordan missing-kategorierne fordeler sig. Man kan stille sig selv følgende selvkritiske spørgsmål: Hvordan ville de, der er i missing-kategorien, havde fordelt sig over de andre "observerede" kategorier i variablen, havde de ikke være missing? Det kan man af gode grunde ikke svare på (involverer kontrafaktiske udsagn), men man kan tænke forskelllige situationer igennem: hvad hvis de især ville placere sig særligt meget i en kategori frem for en anden - hvordan ville det ændre de endelige resultater? Anyways, det er ikke et krav, men bare en god ide at reflektere lidt over. Måske især med en teknik som korrespondanceanalyse, som er en deskriptiv, eksplorativ teknik.

Håber det hjælper!

mvh Kristian
Skrevet d. 27.01.2011 af Ag
Hej Kristian

Tak for svaret!

Vi benytter indikatormatricen når vi konstruerer kortet, men rigtig god ide at anvende dummykonstruktioner for kategoriale variable. Det vil vi prøve. Vi synes dog, at have hørt, at for mange dummyer kan ødelægge kortet, men der skal vi måske bare prøve os frem. Desuden er vi i tvivl om, om det da stadig vil være meningsfuldt at indtegne en forløbskurve for eksempelvis alder?

Sagen er at der netop er systematik i de observationer, der har missing, da det er knyttet til alder. Derfor vil vi gerne kunne sætte dem som passive, så de stadig er med, men ikke trækker for meget i kortet. Men du har nok ret i, at det ikke er muligt at sætte en modalitet som passiv, så løsningen må være dummyer og indsætte dem supplementært.

Vh Malene og Ane
Skrevet d. 28.01.2011 af JLunding
Hej Malene og Ane

Jeg har rodet med nogle af de samme problemstillinger på det seneste.
I forhold til jeres andet spørgsmål - vedrørende de "lav-frekvente" modaliteter:

Der synes at være forskellige bud på, hvad det betyder for analysen. Le Roux og Rouanet foreslår, som I også selv fremhæver, at kode dem sammen med andre modaliteter (hvis det giver mening), og ellers at behandle dem, som passive.
Artiklen: [i]Tying up the loose ends in simple, multiple, joint correspondence analysis[/i] (http://www.econ.upf.edu/~michael/work/LooseEndsCOMPSTAT.pdf) skriver Greenacre om netop denne problematik.
Afsnit 6 i artiklen omhandler det, han kalder "The myth of the influential outlier", og her er hans mening, at man tit lader sig narre af kortet. Det faktum, at en modalitet ligger langt ude på kortet betyder ikke nødvendigvis, at det har stor betydning for selve analysen.
Det er derfor nødvendigt at tage modalitetsbidragene i betragtning også - før man kan afgøre om de `små` modaliteter er et problem.
Små modaliteter, har jo også en lav (kolonne)masse og dermed mindre indflydelse..
Konstaterer man, ved inspektion af modalitetsbidragene, at de ikke er blandt de mest bidragende modaliteter, ja så er Greenacres pointe, at man i stedet skal overveje, hvordan man bedst repræsenterer analysen grafisk.
Skrevet d. 29.01.2011 af Agl
Hej Malene og Ane

I kan med fordel bruge specific correspondence analysis (smca). Det tillader at man sætter nogle bestemte modaliteter i en variabel som supplementære (reelt set fjerner den dem bare...). Det betyder at I kan beholde jeres individ, selvom der er missing eller andre junk kategorier på nogle enkelte variable. I skal selvfølgelig bruge det med omtanke og derfor ikke inkludere individer med for mange missings.
I denne artikel: Subset Correspondence Analysis: Visualizing Relationships Among a Selected Set of Response Categories From a Questionnaire Survey
Skriver Greenacre om subset analyse og den kan udføres i R med hans CA pakke. Christoph og jeg har lavet nogle forbedringer til ca pakken som gør den væsentligt mere brugbar. Du kan bare skrive til os så sender vi gerne koden. Du kan læse mere om pakken på hans hjemmeside:

http://www.carme-n.org/?sec=ca

Alternativt kan man bruge SPAD, der også kan lave smca. Men det er jo desværre ikke tilgængeligt alle steder. SPAD er noget mere fleksibelt end ca pakken - der er noget tilbagestående, men hvis I laver graferne i excel, så er den helt fin.

Mvh
Anton
Skrevet d. 29.01.2011 af Ag
Hej

Tak for jeres svar og links!

Jlunding - det er helt sikkert en god idé at se nærmere på de enkelte modaliteters bidrag og herfra vurdere, hvor centrale de er for anaysen.

Anton - vi vil se mere på smca. Vi er ikke helt klar til at forlade Stata og gå over til R endnu, det må lige få endnu et par forsøg.

Vh. Malene og Ane

Andre læser også

annonce
Sociologiskforum.dk benytter cookies til blandt andet statistik og marketing. Ved at benytte hjemmesiden accepterer du vores brug af cookies. Okay