Klyngeanalyse - dur det?

Niels M   citér
kl. 10:29:32 d. 06-02-2010
 
Jeg og nogle andre har arbejdet lidt med klyngeanalyse. Men vi er kommet i tvivl om klyngenalyse er en anerkendt teknik og om den producerer valide resultater.

Klyngeanlyse er en induktiv
Når du er logget ind kan du:
- Slå induktiv op i ordbogen
- Få vist et link til Wikipedias artikel om induktiv
- Søge på Google efter induktiv.
metode der samler cases`ene i et datasæt i et antal klynger udfra hvor langt de ligger fra hinanden på udvalgte variable, På den måde er det en ret common-sense-agtig tilgang.

Men risikerer man ikke en række fejlslutninger ved at bruge klyngeanalyse? Hvis man f.eks. prøver at organisere elever der falder fra på en uddannelse i klynger efter deres karakteristika, kan det f.eks, godt være at en klynge vil ivedsagligt vil være unge piger, en anden unge fra etniske minoriteter, en trédje unge fra den danske minoritetsbefolkninger. Men hvad nu hvis disse sammenhænge i virkeligheden er spuriøse og at frafald forklares af forældrenes uddannelsesbaggrund og det de tre overnævnte grupper har til fælles er at deres forældre ikke har nogen uddannelse? Mao. er der overhovedet nogen form for stat
Når du er logget ind kan du:
- Slå stat op i ordbogen
- Søge på Google efter stat.
istisk kontrol i klyngeanalyse? og hvis nej, er det så ikke bedre at gennemføre en regressionsanalyse?

Et lille bonus spørgsmål: Hvilket måleniveau skal varaiblene være på for at kunne indgå i en klyngeanalyse?

KristianKarlson   citér
kl. 10:57:15 d. 06-02-2010
 
Hej Niels,

For mig at er klyngeanalyse ren datamining, dvs. den prøver at rubricere individer defineret ved de variabler, du har med i analysen (og ikke ud fra den teoretiske viden, du har om verden). Om den producerer gyldige resultater er svært at svare på, fordi analysen ikke postulerer noget om verden, men blot beskriver den (ud fra de data du har med i analysen). Beskrivelsen kan være mere eller mindre pålidelig, men gyldig er svært at svare på entydigt. Pålideligheden må afhænge af, i hvor høj grad teknikken fanger tilfældig støj frem for system
Når du er logget ind kan du:
- Slå system op i ordbogen
- Søge på Google efter system.
atisk variation. Og det må afhænge af den måde, du måler afstande på.

Mit syn på det med spuriøsitet: Jo, det kan jo sagtens være, at de variabler, du har med i analysen, afspejler andre, mere grundlæggende karakteristika. DERFOR kan det være en god idé ikke at smide alle variable ind i en clusteranalyse, men måske hellere de variable, som du har interesse
Når du er logget ind kan du:
- Slå interesse op i ordbogen
- Søge på Google efter interesse.
i at "forklare" (fx frafaldsvariablene). Dernæst kan du fx krydse dine dannede klynger med de mere fundamentale baggrundsforhold. Hvis fx nogle etniciteter er overrepræsenteret i nogle klynger eller drenge og piger er skævt fordelt over klyngerne, så er der jo tegn på, at der er en sammenhæng. Dermed behøver klyngerne ikke være "spuriøse", selvom det selvfølgelig bliver sværere for dig at identificere, om de klynger, du har fundet, rent faktisk skyldes de observerede karakteristika (fx frafaldsforhold) eller mere fundamentale karakteristika som køn, etinicitet, forældres uddannelse osv. Men det er vel en diskussion, man må tage. Jeg vil under alle omstændigheder tale for, at du anvender klyngeanalysen på dine "afhængige" variable, mens du derefter prøver at se på sammenhænge med andre, mere fundamentale variable.

Ang. måleniveau: Der findes et hav af klyngeanalyseteknikker, og man kan måle afstand på endnu flere måder. Men intervalskalerede variable fungerer jo nok bedst - fordi afstandene bliver veldefinerede. Hvis du har diskrete data (nominal eller ordinal), så kan man bruge latentklasseanalyse, som modsat klyngeanalyse ikke er rent datamining, men baserer sig på en model for, hvordan data ser ud. Jeg vil til enhver tid anbefale latentklasseanalyse, men jeg har som sådan intet imod klyngeanalyse.

Håber det var svar nok ;)

Kristian
Niels M   citér
kl. 11:18:40 d. 06-02-2010
 
Mange tak. Fandme et imponerende svar!


Du skal være logget ind for at kunne deltage på sociologiskforum.dk

Log ind eller opret en bruger.