CCA: correlations et coefficients

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Aug 27 1998 - 16:09:54 MET DST


Merci à Marc Deconchat et Frederic Girard pour leur message très instructif
sur la CCA
Les questions posées dans ce message sont profondes.

1) sur la collinéarité

En analyse de données, je ne pense pas qu'il y ait une solution à la
question de la séparation des effets de variables corrélées dans un axe
d'ordination plurispécifique. C'est à peu près certain car c'est déjà une
question très délicate dans un problème de régression multiple à une seule
variable à prédire (problème y=f(X)). Il faut aborder la question sur une
espèce avec des outils de statistique inférentielle qui diront clairement
quand c'est impossible de séparer des effets.

2) sur la question corrélations ou poids

C'est une question très générale pour toutes les méthodes qui fabrique des
variables de synthèse de variance unité (code canonique) et qui est apparue
d'abord en analyse discriminante. L'AD cherche une combinaison linéaire de
variance unité qui maximise la variance inter-classe et l'ACC cherche une
combinaison linéaire de variance unité qui maximise la variance des
positions moyennes des espèces. Dans les deux cas on peut interpréter les
codes canoniques par les coefficients qui permettent de les calculer (poids
des variables ou loadings) ou par les corrélations entre code et variables.
La même discussion a eu lieu en analyse canonique (chercher une combinaison
des variables de X et une combinaison des variables de Y de variance unité
maximisant la corrélation) avec deux séries de poids et les corrélations
entre variables de X, codes de X, variables de Y et codes de Y (intersets
ou intrasets).

La question est délicate et les statisticiens ne sont pas d'accord. Un
remarquable article de Ter Braak discute de la chose (Ter Braak, C.J.F.
(1990) Interpreting canonical correlation analysis through biplots of
structure correlations and weights. Psychometrika : 55, 519-531). L'opinion
la plus répandue est qu'en cas de contradictions entre poids et
corrélations la situation est pourrie. Tous les problèmes disparaissent
avec des explicatives indépendantes. Le plus sain est de préparer les
explicatives avant l'analyse pour éliminer le problème (par exemple, les
coordonnées interprétables de l'ACP de X sont meilleures que X). De ce
point du vue la coinertie est très influencée par les corrélation
d'explicatives et utilise seulement la redondance pour définier les axes,
la CCA élimine la redondance et a tendance à prendre ses axes dans les
variables non interprétables. Les deux analyses sont communes si il n'y a
pas de redondance.

3) sur la question CCA et CCA

Elle pose tout le problème des relations entre théorèmes mathématiques,
méthodes statistiques et logiciels pour l'expérimentateur.

        - La CCA d'ADE-4 qu'on peut appeler AFCVI (analyse des
correspondances sur variables instrumentales) et la CCA de Ter Braak ont un
principe commun : trouver les combinaisons de variables de milieu qui
maximisent la variance des moyennes par espèces. La valeur des scores des
relevés, la position moyenne des espèces et la variance (valeurs propres)
sont communs. Si on dit : on cherche les combinaisons de variables de
milieu optimisant la variance des moyennes par espèces et qu'on représente
les relevés et les espèces, le nom du logiciel importe peu.

        - Ce principe est inséré dans deux environnement différents. La CCA
de CANOCO dérive de la structure de DECORANA et fait un calcul en boucle
qui autorise le detrending. exemple : "The standardization of site scores
in S6 (p. 1169) is convenient in the algorithm, but it has more meaning
ecologically to rescale the solution according to Eq. A8 of the appendix,
as proposed by Hill (1979) (Hill, M.O. (1979) DECORANA-a FORTRAN program
for detrended correspondence analysis and reciprocal averaging. Software
documentation. Cornell University, Ithaca, New-York, USA.)".
L'environnement de calcul est bien décrit dans Palmer, M. (1993) Putting
things in even better order: the advantages of canonical correspondence
analysis. Ecology : 74, 2215-2230. Algorithmes p. 2217. Palmer dit "Indeed,
Chessel et al. 1987 present a more efficient eigenanalysis solution for
CCA. Nevertheless, the weighted averaging algorithm is sufficiently rapid
and accurate for pratical use, and is discussed herer because if its
historical importance and intuitive appeal."

        - L'AFCVI est insérée dans le modèle général du schéma de dualité
(Escoufier, Y. (1987) The duality diagramm : a means of better practical
applications. In : Development in numerical ecology. Legendre, P. &
Legendre, L. (Eds.) NATO advanced Institute , Serie G .Springer Verlag,
Berlin. 139-156.) et utilise directement une diagonalisation de matrice.
Les aides à l'interprétation sont liées à ces points de vue. Si on peut
entrer la CCA dans la famille des méthodes à schéma de dualité, ce n'est
pas pour aller plus vite ou être plus précis (argument numérique utilisé
par Palmer) mais pour trouver d'autres aides à l'interprétation associées
aux mêmes calculs. C'est clair dans Thema37 p. 32 où on voit les espèces
positionnées par des scores de variance 1, les relevés à la moyenne des
espèces qu'ils contiennent et la prédiction des positions des relevés par
les variables de milieu. La figure optimise la prédicabilité avec les
variables de milieu des positions des relevés obtenus par averaging espèces
-> relevés. Cette figure est aussi un produit du module CCA d'ADE-4 qui
n'est pas explicite dans CANOCO, mais une conséquence du principe CCA vu
dans le modèle général.

Donc à partir d'un principe clair énoncé par Ter Braak (1986) on peut
développer deux stratégies suivant l'environnement dans lequel on
travaille. Celui de CANOCO permet l'insertion de dérivation dans
l'algorithme et conduit à la populaire DCCA (Detrended canonical
correspondence analysis) et celui d'ADE-4 conduit à donner à la même
diagonalisation de matrice une autre signification écologique. Il y a donc
un théorème CCA (il existe des codes canoniques issus des variables de
milieu optimisant les variances des moyennes par espèces), une CCA-CANOCO
qui les calcule dans une boucle et des extensions de la CCA qui donne
CANOCO, une CCA-ADE qui les calcule par diagonalisation et des extensions
d'interprétation associées au schéma de dualité.

On pourrait dire qu'il y a des questions de vocabulaire. Certes ! On garde
en général le nom qui est associé à la plus grande généralité mathématique.
Pearson (Pearson, K. (1901) On lines and planes of closest fit to systems
of points in space. Philosophical Magazine : 2, 559-572) diagonalise le
premier une matrice de covariances, Hotelling (Hotelling, H. (1933)
Analysis of a complex of statistical variables into principal components.
Journal of Educational Psychology : 24, 417-441 , 498-520) diagonalise une
matrice de corrélation. On appelle les deux "analyses en composantes
principales" (PCA) et on appelle ACP le principe commun à ces deux
procédures (à partir des année 50) et tout ce qui en découle. Une ACP est
la recherche des axes d'inertie d'un nuage de points, la recherche des
composantes principales d'un ensemble de variables, la recherche des axes
principaux d'une distribution gaussienne multivariée, la décomposition
d'une matrice en matrices de rang 1, ... toutes opérations très différentes
en pratique associée à un même principe mathématique.

Mais ne citez pas Pearson 1901 si vous faites une ACP, (ou Hirschfeld, H.O.
(1935) A connection between correlation and contingency. Proceedings of the
Cambridge Philosophical Society, Mathematical and Physical Sciences : 31,
520-524 si vous faîtes une AFC) le lecteur croira que vous vous payez sa
tête. Et pourtant ...

>Dans la rubrique "on le sait mais on le fait quand meme, pour voir", nous
>avons realise une CCA (630 lignes) avec 5 variables explicatives tres
>correlees entre elles, bien qu'il soit connu que ces situations conduisent
>a des resultats peu fiables. Et effectivement le resultat etait
>demonstratif puisque les coefficients des variables explicatives etaient
>tres differents les uns des autres, sans qu'il soit possible de leur donner
>un sens ecologique particulier. Notre "explication" de ce phenomene est que
>ce sont les differences tres petites entre les valeurs des variables qui
>ont servi a les distinguer les unes des autres pour leur affecter des
>coefficients. L'analyse n'est donc pas fiable si ces petites differences
>sont negligeables ou si elles sont plus petites que l'erreur de mesure.
>Mais qu'en est-il si ces petites differences sont justement ce qui nous
>interesse, c'est a dire si l'on souhaite choisir la "meilleure" variable
>predictive parmis un ensemble deja bon? Sans doute d'autres methodes sont
>plus adaptees?
>
>Dans la rubrique "une question en cache une autre", pour fonder notre
>interpretation, nous avons relu l'article de Ter Braak de 1987 (Vegetatio,
>The analysis of vegetation-environment relationships by cca) et on a ete
>etonne par les phrases suivantes:
> "Loosely speaking, the arrow for an environmental variable points in the
>direction of maximum change of that environmental variable across the
>diagram, and its lenght is proportional to the rate of change in this
>direction. Environmental variables with long arrows are more strongly
>correlated with the ordination axes than those with short arrows, and so
>more closely related to the pattern of community variation shown in the
>ordination diagram."
>
>Il nous semble que la longueur des fleches, c'est a dire le coefficient des
>variables environnementales d'apres la premiere phrase, ne correspond pas a
>la correlation de ces variables avec les axes. D'ailleurs, dans ADE, il
>s'agit de deux graphiques bien distincts. Cette interpretation a ete
>reprise dans un cours d'ENSA a partir de l'article cite...
>S'agit-il d'une specificite francaise de la CCA d'ADE ou bien, plus
>vraisemblablement, d'une aide a l'interpretation abusive?
>
>A propos de "CCA a la francaise" comparee a une "CCA du reste du monde",
>abordee dans le message de Daniel Chessel (Re: acc sur variables
>qualitatives), nous n'avons pas bien compris s'il s'agit
>-de deux conceptions differentes aboutissant a deux techniques de calcul
>pour un meme resultat,
>-de deux methodes legerement differentes donnant des resultats differents
>ou, ce qui me semble,
>-de deux conceptions pouvant deboucher sur deux techniques de calculs
>donnant des resultats differents mais compatibles que ADE 4 fourni en
>sortie du module (*.ivfa, *.ivc1 et *.ivli d'une part et *.ivfa, *.ivco et
>*.ivl1 d'autre part).
>
>Merci et bonne rentree a ceux qui rentrent.
>
>Marc Deconchat et Frederic Girard
>Marc Deconchat INRA-URSAD/SEBSO BP 27 F-31320 Castanet
>Tel:+ 33 (0) 5 61 28 52 55 Fax: +33 (0) 5 61 73 20 77
>Email: deconcha@telesad.toulouse.inra.fr

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:00 MET