Rispetto ai gruppi di forma sferica (Tab. 3.1 − 3.6), l'aumento del valore atteso dell'ARI al crescere di d sembra, apparentemente, in contrasto con quel fenomeno, noto come maledizione della dimensionalità, che consiste nel deterioramento dei risultati di una procedura statistica quando la dimensione dello spazio, e quindi la dispersione dei dati, aumentano. In realtà, per come sono stati deniti i vettori delle medie dei due gruppi, con la dimensione dello spazio da un lato cresce la dispersione tra i dati e dall'altro si genera uno spazio vuoto sempre meglio denito tra i due cluster, con l'eetto di isolarli e compensare i limiti altrimenti causati dalla maledizione della dimensionalità. Dunque, con gruppi ben separati si osserva un comportamento ottimale di entrambi i metodi rispetto ad ogni combinazione di n e di d, per (quasi) ogni scelta del vettore di lisciamento. Risalta infatti un unico caso anomalo, in due dimensioni, con Ms Cluster e Hlscv. L'ARI, molto basso, diminuisce al crescere di n; in particolare, il metodo trova nella maggior parte dei casi un solo gruppo e, in un'esigua minoranza, arriva a identicarne anche più di 40. Questa estrema variabilità rappresenta un limite del metodo della convalida incrociata dei minimi quadrati cui già si era accennato nel Paragrafo 1.2 e probabilmente dipende dalla stima leave-one-out della densità usata nel processo di stima della quantità da minimizzare (1.24). Infatti, se viene escluso dalla stima della densità un valore anomalo, allora questa può subire forti variazioni.
More...
Read more