Sociologiskforum.dk

Klyngeanalyse - dur det?

Skrevet d. 06.02.2010 af Niels M
Jeg og nogle andre har arbejdet lidt med klyngeanalyse. Men vi er kommet i tvivl om klyngenalyse er en anerkendt teknik og om den producerer valide resultater.

Klyngeanlyse er en induktiv metode der samler cases`ene i et datasæt i et antal klynger udfra hvor langt de ligger fra hinanden på udvalgte variable, På den måde er det en ret common-sense-agtig tilgang.

Men risikerer man ikke en række fejlslutninger ved at bruge klyngeanalyse? Hvis man f.eks. prøver at organisere elever der falder fra på en uddannelse i klynger efter deres karakteristika, kan det f.eks, godt være at en klynge vil ivedsagligt vil være unge piger, en anden unge fra etniske minoriteter, en trédje unge fra den danske minoritetsbefolkninger. Men hvad nu hvis disse sammenhænge i virkeligheden er spuriøse og at frafald forklares af forældrenes uddannelsesbaggrund og det de tre overnævnte grupper har til fælles er at deres forældre ikke har nogen uddannelse? Mao. er der overhovedet nogen form for statistisk kontrol i klyngeanalyse? og hvis nej, er det så ikke bedre at gennemføre en regressionsanalyse?

Et lille bonus spørgsmål: Hvilket måleniveau skal varaiblene være på for at kunne indgå i en klyngeanalyse?

Skrevet d. 06.02.2010 af KristianKarlson
Hej Niels,

For mig at er klyngeanalyse ren datamining, dvs. den prøver at rubricere individer defineret ved de variabler, du har med i analysen (og ikke ud fra den teoretiske viden, du har om verden). Om den producerer gyldige resultater er svært at svare på, fordi analysen ikke postulerer noget om verden, men blot beskriver den (ud fra de data du har med i analysen). Beskrivelsen kan være mere eller mindre pålidelig, men gyldig er svært at svare på entydigt. Pålideligheden må afhænge af, i hvor høj grad teknikken fanger tilfældig støj frem for systematisk variation. Og det må afhænge af den måde, du måler afstande på.

Mit syn på det med spuriøsitet: Jo, det kan jo sagtens være, at de variabler, du har med i analysen, afspejler andre, mere grundlæggende karakteristika. DERFOR kan det være en god idé ikke at smide alle variable ind i en clusteranalyse, men måske hellere de variable, som du har interesse i at "forklare" (fx frafaldsvariablene). Dernæst kan du fx krydse dine dannede klynger med de mere fundamentale baggrundsforhold. Hvis fx nogle etniciteter er overrepræsenteret i nogle klynger eller drenge og piger er skævt fordelt over klyngerne, så er der jo tegn på, at der er en sammenhæng. Dermed behøver klyngerne ikke være "spuriøse", selvom det selvfølgelig bliver sværere for dig at identificere, om de klynger, du har fundet, rent faktisk skyldes de observerede karakteristika (fx frafaldsforhold) eller mere fundamentale karakteristika som køn, etinicitet, forældres uddannelse osv. Men det er vel en diskussion, man må tage. Jeg vil under alle omstændigheder tale for, at du anvender klyngeanalysen på dine "afhængige" variable, mens du derefter prøver at se på sammenhænge med andre, mere fundamentale variable.

Ang. måleniveau: Der findes et hav af klyngeanalyseteknikker, og man kan måle afstand på endnu flere måder. Men intervalskalerede variable fungerer jo nok bedst - fordi afstandene bliver veldefinerede. Hvis du har diskrete data (nominal eller ordinal), så kan man bruge latentklasseanalyse, som modsat klyngeanalyse ikke er rent datamining, men baserer sig på en model for, hvordan data ser ud. Jeg vil til enhver tid anbefale latentklasseanalyse, men jeg har som sådan intet imod klyngeanalyse.

Håber det var svar nok ;)

Kristian
Skrevet d. 06.02.2010 af Niels M
Mange tak. Fandme et imponerende svar!

Månedens bog

Se tidligere bøger