Re: interclasse et distance entre classes

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Jan 22 1998 - 08:49:49 MET


Marc Deconchat pose plusieurs questions qui sont d'intérêt général.

1)
>J'observe, sans le vérifier, que la disposition de mes groupes sur l'axe 1 de
>l'AFC me donne un résultat similaire. Est-ce un cas particulier ou une relation
>logique?

Dans un problème d'analyse de données structurées on entre des observations X et de l'information supplémentaires Y qui sert à poser la question de ce qui dans X dépend de Y. Une analyse inter-classes est de ce type (les analyses inter-classes sont les plus simples des analyses sur variables instrumentales). Souvent on trouve dans l'analyse simple des résultats voisins de l'analyse sous-contrainte. Le cas rapporté est donc fréquent mais n'est pas automatique. Il est normal qu'il soit fréquent car si on cherche à voir un effet et qu'on s'est posé une bonne question les données ont des propriétés dépendantes de l'effet !

Il n'est pas automatique comme on peut le voir dans les illustrations des articles méthodologiques ! Les statisticiens s'arrangent en effet, dans les illustrations de leur méthode, pour prendre des données qui montre que la méthode est bonne (évidemment). On peut voir un cas dans Cazes, P., Chessel, D. & Doledec, S. (1988) L'analyse des correspondances internes d'un tableau partitionné : son usage en hydrobiologie. Revue de Statistique Appliquée : 36, 39-54. Pour bien montrer que l'intra-classes marche bien on a pris des données avec un effet temporel fort et un effet spatial moins fort. Comme ça, l'analyse simple a un plan 1-2 temporel (et un plan 3-4 spatial) et l'intra-classes a un plan 1-2 spatial qui est aussi différent que possible du précédent.

Dans le cas ou la structure des données (analyse simple) met en évidence ce qu'on cherche, il me semble plus convaincant de l'utiliser de préférence à l'analyse sous contrainte.

2)
>d'où je concluerai que l'effet "mise en lumière" intervient pour 2/3 dans
>l'effet total exploitation sur la composition botanique.
>Est-ce que ce raisonnement est valable?
C'est assez délicat car l'AFC, donc l'AFC inter, est très déterminée par les questions de poids et les contraintes de centrages. Dans l'exemple rapporté, il y a deux couches de poids, celui des relevés qui vient de leur composition floristique et celui des groupes qui vient du nombre de relevés. Dans le 2/3, il y a donc intervention directe de ces poids sans qu'on sache bien dans quelle proportion. La question est bien posée de même dans :

> Mes groupes sont trés déséquilibrés (N30=130, P2=70, N2=30), est-ce que cela
> des conséquences (apparemment oui puisque les ellipses sont d'autant plus
> grandes qu'il y a peu d'individus)? Faut-il tirer des sous-échantillons de
> taille identique?

Si on veut quantifier il faut se poser la question en terme de modèle y=lumière + perturbation/lumière dans une analyse de variance. Il n'y a alors aucune raison de ne pas utiliser toutes les données. La question est celle du y qui doit être univarié ou faiblement multivarié. Donc logiquement, il y a une partie analyse des données destinée à réduire le nombre de descriteurs et une partie analyse de variance destinée à quantifier l'effet des facteurs sur les descripteurs.

La question de l'AFC est alors posée. Elle génère des codes centrées pour des pondérations non uniformes, ce qui n'est vraiment pas une bonne chose sauf à faire l'impasse sur la question. La symétrie espèces-relevés est cassée par les facteurs notés sur les relevés et donc sa principale propriété (analyse canonique) est invalidée, enfin elle élimine les questions de richesse et d'abondance par double centrage ce qui est contradictoire avec l'objectif :
> Mon objectif est de pouvoir donner une quantification de l'effet de
> l'exploitation forestière sur la diversité végétale.
Si une ACP centrée par espèce présente un facteur taille, on a une mesure automatique avec la première coordonnée de la diversité (sorte de richesse pondérée). Si l'ACP donne des scores voisins de ceux de l'AFC, elle l'emporte aussi.
Tout dépend de ce qu'on appelle diversité (effet sur la richesse, la concentration, le contenu floristique ...).

Pour conclure, on peut dire que pour respecter les objectifs, on peut séparer la question richesse et la question contenu. La question richesse (éliminée par l'AFC) peut être traîtée par une ANOVA sur le nombre d'espèce et/ou un indice de diversité, la question contenu sur une ANOVA sur des scores d'une analyse multivariée à pondération uniforme et double centrage (comme une ACP doublement centrée). On peut enfin faire une ANOVA sur les scores d'une analyse sans centrage a priori comme une AFC non symétrique (COA : NSCA_Row_Profiles avec espèces en colonnes ou PCA centrée par taxon classique)

Cordialement

> Mon objectif est de pouvoir donner une quantification de l'effet de
> l'exploitation forestière sur la diversité végétale.
>Je décompose cet effet en 2 parties: une mise en lumière et des
>micro-perturbations du sol (circulation des engins). Je voudrais pouvoir
>séparer ces deux parties.
>Pour cela, j'ai un échantillon qui comporte des points non exploités depuis 30
>ans (pas de lumière) et non perturbés (N) ->N30, des points exploités il y a 2
>ans, sans perturbation (N2) et d'autres exploités il y a 2 ans et perturbés
>(P2). Donc 3 groupes de points.
>Pour chacun, j'ai une description botanique, avec le recouvrement par espèce.
>
>Dans un premier temps, j'ai effectué une AFC sur le tableau des
>présences/absences, puis je l'ai soumis à une analyse interclasses (Discrim:
>Between analysis), puisque, si j'ai bien compris, une analyse discriminante
>"classique" n'est pas du tout conseillée sur des tableaux floristiques du fait
>d'une instabilité due au grand nombre de variable-espèces.
>
>J'obtiens un résultat intéresant, où les 3 groupes sont assez bien séparés,
>avec un axe de trés forte valeur propre (:01 +3.4783E-01 +0.8597 +0.8597
> |02 +5.6785E-02 +0.1403 +1.0000 | 03 +0.0000E+00 +0.0000 +1.0000 ) et les
>3 groupes placés dans un ordre "logique" (N30 ->N2 ->P2).
>Je me suis dit que pour quantifier le changement de la composition botanique
>occasionné par le passage de N30 à N2 et de N2 à P2, je pouvais utiliser la
>distance entre les barycentres des groupes ou seulement leur projection sur
>l'axe 1 qui est le plus important. Cette valeur a été maximisée par l'analyse.
>La première colonne de *.beli me donne ces valeurs:
>N2: -0.13984
>P2: -0.54675
>N30: 0.7327
>d'où: N30->N2= 0.8 et N2->P2=0.4
>d'où je concluerai que l'effet "mise en lumière" intervient pour 2/3 dans
>l'effet total exploitation sur la composition botanique.
>
>Est-ce que ce raisonnement est valable?
>
>J'observe, sans le vérifier, que la disposition de mes groupes sur l'axe 1 de
>l'AFC me donne un résultat similaire. Est-ce un cas particulier ou une relation
>logique?
>
> Mes groupes sont trés déséquilibrés (N30=130, P2=70, N2=30), est-ce que cela
> des conséquences (apparemment oui puisque les ellipses sont d'autant plus
> grandes qu'il y a peu d'individus)? Faut-il tirer des sous-échantillons de
> taille identique?
>
>
>Merci,
>et bravo aux programmeurs pour les dernières améliorations que je viens de
>tester (multifenetres graphiques, répertoire par défaut, etc.).
>
>Marc Deconchat INRA-URSAD/SEBSO BP 27 F-31320 Castanet
>Tel:+ 33 (0) 5 61 28 52 55 Fax: +33 (0) 5 61 73 20 77
>Email: deconcha@telesad.toulouse.inra.fr

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:48 MET