Dendrogrammes et Hybrid Clustering

From: pommier (jpommier@armoise.saclay.cea.fr)
Date: Wed Jul 08 1998 - 12:48:33 MET DST

Next message: Jaak Truu: "use of Mantel test and co-inertia analysis in microbiology"
Previous message: Daniel Chessel: "Pourquoi_pas_deux_analyses?"
Next in thread: Jean Thioulouse: "Re: Dendrogrammes et Hybrid Clustering"
Maybe reply: Jean Thioulouse: "Re: Dendrogrammes et Hybrid Clustering"
Messages sorted by: [ date ] [ thread ] [ subject ] [ author ]

Bonjour,

Je suis confronté à un problème de classification de données issues
d'une analyse d'images.
Je cherche à construire un dendrogramme sur les variables. Les données
sont organisées dans
un tableau à 10 lignes (les individus) et à 92 colonnes (les variables);
pour chaque individu les
mesures sont centrées et réduites.
J'ai procédé de la manière suivante:

        1-FilesUtils:Transpose
        2-Cluster:Compute Distances (distance euclidienne)
         on a bien une matrice de distance de 92x92
        3-Cluster:Compute Hierarchy (methode de Ward ou CDH)
        4-Dendrograms

J'aimerais savoir si il y a une erreur quelque part, initiallement je
pensais calculer la matrice des distances
avec le module Distance:Table to Distance Matrix avec l'option calcul
sur les colonnes, mais Table to Distance Matrix
est introuvable dans le module "Distance" (?)

Les dendrogrammes obtenus après calcul d'une hierarchie par la methode
de Ward ou par CDH ne sont pas tout à fait
identiques mais ils montrent l'existence d'au moins deux groupes, de
plus le rang des variables,dans les dendrogrammes,
suit plus ou moins le rang des variables classées par leur valeur
medianne.
Peut-on dire alors qu'il existe deux groupes de variables qui prennent
des valeurs élevées et des valeurs faibles ?

Comme les classifications obtenues par CAH(Ward) et par CDH ne sont pas
identiques, sans doute parce que le nombre
d'observations est faible par rapport aux nombres de variables,
j'aimerais utiliser le module Cluters: Compute Partition
pour mettre en oeuvre la methode de classification mixte (Hybrid
Clustering) décrite dans "Statistique exploratoire multidimentionnelle
,section 2.3" . Dans cette methode il faut:

                      1-Rechercher des groupements stables par la
methodes des centres mobiles.
                      2-Faire une classification des groupements stables
par la methode de Ward
                      3a-Faire une coupure de l'arbre
                      3b-Opérer une consolidation par réaffectation à
l'aide des centres mobiles

1-Concernant la première étape:
A partir d'un tableau de données "TD", faut-il lancer le module
Clusters:Compute Partition n fois de manière à avoir n fichiers TD.mchc
?
Dans ce cas quel(s) module(s) de ADE-4 doit-on utiliser pour traiter ces
partitions pour définir un groupement stable ?
Combien de partitions faut-il générer?

2-Pour l'étape 2,comment utiliser le groupement stable avec le module
Clusters:Compute Hierarchy (le fichier contenant le groupement stable
devrait posseder
une extension ".dist")?

3a-Pour faire une coupure de l'arbre, faut-il utiliser les modules
Clusters:Prepare Convex Hull avec un fichier de hierarchie, suivi de
Read Categ File ?

3b-Pour la consolidation il faut à nouveau utiliser les centres mobiles
en utilisant le résultat de la coupure de l'arbre, il faut donc preciser
au module
"Clusters:Compute Partition " la partition qu'il doit utiliser pour
opérer la classification; s'agit-il d'un fichiers généré par
"Clusters:Prepare Convex Hull"
(avec une extension "-dend") ou bien d'un fichier généré par "Read Categ
File" (avec une extension ".cat") ?

Merci par avance

************************************
Jean-Patrick Pommier
Laboratoire de Radiobiologie et d'Oncologie
CEA
92265 Fontenay-aux-Roses
France

tel 01 46 54 87 53
jpommier@armoise.saclay.cea.fr
***********************************
PS
Le tableau de 10 lignes x92 colonnes en format binaire (Macintosh) est
joint

application/applefile attachment: stored

application/octet-stream attachment: DATAJP

Next message: Jaak Truu: "use of Mantel test and co-inertia analysis in microbiology"
Previous message: Daniel Chessel: "Pourquoi_pas_deux_analyses?"
Next in thread: Jean Thioulouse: "Re: Dendrogrammes et Hybrid Clustering"
Maybe reply: Jean Thioulouse: "Re: Dendrogrammes et Hybrid Clustering"
Messages sorted by: [ date ] [ thread ] [ subject ] [ author ]

This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:59 MET