Re: Comparaison AFC/ANSC

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Tue Aug 18 1998 - 18:57:41 MET DST


J'ai reçu de Frédéric GIRARD un message qui pose une question claire qui
donne à réfléchir.

> Je suis actuellement en stage à l'INRA-SAD de Toulouse avec
>Gerard Balent. Je me permets de vous ecrire directement sans passer par le
>forum, car mon stage se terminant le mois prochain, je n'ai pas trouve utile
>de souscrire a ADElist.

> Dans votre reponse a l'e-mail de Gerard Balent (ANSC et
>correlation canonique du 2 juillet 1998), vous donnez un moyen pour comparer
>la valeur propre de l'AFC et celle de l'ANSC :
...
>On compare non des correlations canoniques mais des rapports de correlations"
>
> J'ai realise ces trois analyses sur un tableau de
>contingence contenant 66 especes d'oiseaux (colonnes) et 397 releves
>(lignes). Les resultats des trois analyses sont les suivants:
>COA
>Num. Eigenval. R.Iner. R.Sum |Num. Eigenval. R.Iner. R.Sum |
>01 +5.4983E-01 +0.0853 +0.0853 |02 +2.5405E-01 +0.0394 +0.1247 |
>lambda1 = 0.5498 --> r12 = lambda1 = 0.550
>lambda2 = 0.25405 --> r22 = lambda2 = 0.254
>
>COA : NSCA_Col_Profiles donne :
>Num. Eigenval. R.Iner. R.Sum |Num. Eigenval. R.Iner. R.Sum |
>01 +1.4954E-03 +0.0881 +0.0881 |02 +6.5450E-04 +0.0386 +0.1267 |
>lambda1 = 0.001495 --> r12 = nlig*lambda1 = 0.001495*397 = 0.594
>lambda2 = 0.000655 --> r22 = nlig*lambda2 = 0.000655*397 = 0.260
>
>COA : NSCA_Row_Profiles donne :
>Num. Eigenval. R.Iner. R.Sum |Num. Eigenval. R.Iner. R.Sum |
>01 +2.0968E-02 +0.2047 +0.2047 |02 +9.5056E-03 +0.0928 +0.2976 |
>03 +6.0924E-03 +0.0595 +0.3570
>lambda1 = 0.02097 --> r12 = ncol*lambda1 = 0.02097*66 =1.384
>lambda2 = 0.00951 --> r22 = ncol*lambda1 = 0.00951*66 =0.628
>
> Dans le cadre de l'Analyse Non Symetrique des Profils
>Lignes, j'obtiens un r12>1. Par ailleurs, j'ai observe ce meme type de
>resultat dans d'autres analyses du meme style.
> 1- Est-il logique de trouver ce type de resultat?
> 2- Si oui, quelle est sa signification dans le cadre de la
>comparaison?
> 3- Si non, quelle est l'origine de l'erreur?

De deux choses l'une :

1 - ou bien il y a une ânerie dans l'un des deux programmes
2 - ou bien il y a une ânerie dans ma proposition

La première hypothèse est fausse car COA: NSCA_Row_Profiles donne
exactement les mêmes résultats que COA: NSCA_Col_Profiles sur le tableau
transposé. La difficulté est donc conceptuelle. Il suffira de raisonner sur
une seule des deux options, par exemple COA: NSCA_Row_Profiles. Parlons
pour simplifier d'un tableau relevés en lignes/espèces en colonnes.

Avec l'AFC, on sait, c'est passé dans les m¦urs, que les coordonnées de
variance 1 des colonnes (.fcc1) sont des codes numériques des espèces
centrés (moyenne = 0 pour les poids f.j), normés (variance = 1 pour les
poids f.j), non corrélés (covariance = 0 pour les poids f.j) qui maximisent
successivement la variance (pour les poids fi. = vpAFC) des positions des
relevés obtenus par averaging.

Avec l'ANSC, les coordonnées des colonnes (.zrc1) sont des codes numériques
des espèces centrés (moyenne = 0 pour les poids 1/col), normés à 1/col
(variance = 1/col pour les poids 1/col), non corrélés (covariance = 0 pour
les poids 1/col) qui maximisent successivement la variance (pour les poids
fi. = vpANSC) des positions des relevés obtenus par averaging.

D'où, naïvement la proposition de comparer

vpAFC = variance des relevés = variance des relevés/1 = variance des
relevés/variance des espèces = pourcentage de variance inter = rapport de
corrélation

avec

col*vpANSC = variance des relevés/(1/col) = variance des relevés/variance
des espèces = pourcentage de variance inter = rapport de corrélation

Ce raisonnement sous-entend qu'on ne dépasse pas 1 (c'est un pourcentage).
Or Frédéric GIRARD observe des valeurs plus grande que 1, donc ceci
sous-entend qu'il y a un os. Est-il possible par averaging d'augmenter la
variance ? La réponse est immédiatement oui. Il suffit de prendre un
exemple simplet à 3 espèces codées -1, 0 et 1 et trois relevés dont les
profils sont

200
010
002

moyenne de départ avec les pondérations uniformes (1/3) = 0
Variance de départ avec les pondérations uniformes (1/3) = 2/3

position des relevés par averaging -1, 0 et 1
moyenne d'arrivée avec les pondérations fi. (2/5, 1/5, 2/5) = 0
variance d'arrivée avec les pondérations fi. (2/5, 1/5, 2/5) = 4/5

variance relevés/variance espèces = (4/5)/(2/3) = 1.2 > 1

Ce n'est jamais possible dans une AFC (valeurs propres <1). D'où la réponse
OUI à la première question : Est-il logique de trouver ce type de resultat?
(en fait, ce n'était pas logique du tout, tellement les propriétés de l'AFC
sont omniprésentes, mais ça l'est devenu rapidement).

Il faut donc répondre à la seconde : Si oui, quelle est sa signification
dans le cadre de la comparaison? On peut faire plusieurs remarques

1 - Si les trois valeurs sont voisines, l'AFC est une double ANSC et est
parfaitement incontournable. Est-ce que ça existe ? sur quel type de
données ? La question est ouverte.

2 - Les deux valeurs issues des deux ANSC sont directement comparables,
elles sont calculées par le même principe. Elles ne sont pas bornées par 1.
La différence avec 1 n'est pas une variance intra (diversité alpha des
relevés / amplitude des espèces). Si elles sont différentes c'est une
propriété particulière du tableau. Est-ce toujours vrai pour un tableau
floro-faunistique ? La plus grande des deux valeurs est-elle toujours du
même côté ? Est-ce simplement une question de dimensions du tableau ? La
question est ouverte.

3 - On doit modifier profondément l'idée qu'on a d'une AFC sur un tableau
floro-faunistique. Pour maximiser la variance des relevés à partir de la
variance des espèces on peut toujours faire mieux que l'AFC. Il suffit de
diminuer les contraintes. Pour maximiser la variance des espèces à partir
de la variance des relevés on peut toujours faire mieux que l'AFC (idem).
Seule l'AFC fera les deux d'un seul coup, c'est une analyse canonique, très
symétrique, sans équivalent. L'AFC ne fait pas que maximiser une variance
par averaging, elle le fait dans les deux sens, elle est seule à le faire,
elle ne peut se comparer à rien d'autre (un athlète de décathlon ne se
compare qu'à un autre, pas à un spécialiste !).

4 - Fondamentalement, l'AFC manipule des correspondances, c'est-à-dire des
occurrences d'espèces. L'individu dans une AFC est la case du tableau (le
taxon 28 est noté 2 dans le relevé 12). Les points de vue profils lignes et
profils colonnes sont des sous-produits. L'ANSC est une ACP avec ses
individus (les profils) et ses variables (ce qui définit les profils). On
cherche une typologie d'objets (profils) à l'aide d'un moyen (variables).
La comparaison numérique de deux points de vue si éloignés n'est peut-être
pas une priorité. Par contre deux analyse non symétriques très différentes
(thema 2.8 p.26-28) donne à voir dans un tableau floro-faunistique un objet
complexe dont on ne fait pas le tour facilement.

Merci à Frédéric GIRARD (heureusement que son stage est court)

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:00 MET