Hej Niels,
For mig at er klyngeanalyse ren datamining, dvs. den prøver at rubricere individer defineret ved de variabler, du har med i analysen (og ikke ud fra den teoretiske viden, du har om verden). Om den producerer gyldige resultater er svært at svare på, fordi analysen ikke postulerer noget om verden, men blot beskriver den (ud fra de data du har med i analysen). Beskrivelsen kan være mere eller mindre pålidelig, men gyldig er svært at svare på entydigt. Pålideligheden må afhænge af, i hvor høj grad teknikken fanger tilfældig støj frem for
systematisk variation. Og det må afhænge af den måde, du måler afstande på.
Mit syn på det med spuriøsitet: Jo, det kan jo sagtens være, at de variabler, du har med i analysen, afspejler andre, mere grundlæggende karakteristika. DERFOR kan det være en god idé ikke at smide alle variable ind i en clusteranalyse, men måske hellere de variable, som du har
interesse i at "forklare" (fx frafaldsvariablene). Dernæst kan du fx krydse dine dannede klynger med de mere fundamentale baggrundsforhold. Hvis fx nogle etniciteter er overrepræsenteret i nogle klynger eller drenge og piger er skævt fordelt over klyngerne, så er der jo tegn på, at der er en sammenhæng. Dermed behøver klyngerne ikke være "spuriøse", selvom det selvfølgelig bliver sværere for dig at identificere, om de klynger, du har fundet, rent faktisk skyldes de observerede karakteristika (fx frafaldsforhold) eller mere fundamentale karakteristika som køn, etinicitet, forældres uddannelse osv. Men det er vel en diskussion, man må tage. Jeg vil under alle omstændigheder tale for, at du anvender klyngeanalysen på dine "afhængige" variable, mens du derefter prøver at se på sammenhænge med andre, mere fundamentale variable.
Ang. måleniveau: Der findes et hav af klyngeanalyseteknikker, og man kan måle afstand på endnu flere måder. Men intervalskalerede variable fungerer jo nok bedst - fordi afstandene bliver veldefinerede. Hvis du har diskrete data (nominal eller ordinal), så kan man bruge latentklasseanalyse, som modsat klyngeanalyse ikke er rent datamining, men baserer sig på en model for, hvordan data ser ud. Jeg vil til enhver tid anbefale latentklasseanalyse, men jeg har som sådan intet imod klyngeanalyse.
Håber det var svar nok ;)
Kristian