ACP/AFC et gÈnÈtique

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Thu Nov 05 1998 - 09:02:04 MET


Santos Alonso pose deux questions très différentes

La première nécessite une mise au point :
>could somebody enlighten me about the use and interpretation of the
>statistical support given by "rows:inertia analysis" and "columns: inertia
>analysis" (absolute and relative contributions)? I use allele frequency
>data for a series of populations, and I would like to know which is the
>relationship between these values and the bootstrap values normally used
>when building population trees (Neighbor-Joining or whatever).

On peut dire pour simplifier : Qu'est-ce qu'une Analyse en Composantes Principales ?
1) C'est une procédure de calcul
X est un tableau avec n lignes et p colonnes. X0 est le tableau centré (moyenne 0 par colonne). C=(1/n)*t(X0)*X0 est la matrice des covariances (ou bien C=(1/(n-1))*t(X0)*X0 suivant les logiciels). Dans S-PLUS le paramètre unbiased = T ou unbiased = F permet les deux, dans ADE-4 on a seulement le premier). La matrice C est diagonalisée et on garde les valeurs propres l(k), les vecteurs propres U et les scores XU.

Tout le monde est d'accord sur le calcul mais pas du tout sur sa signification. Il y a deux points de vue principaux.

2) le point de vue Gaussien. Les lignes de X sont un échantillon aléatoire simple d'une distribution multivariée gaussienne de moyennes mu (estimée par les moyennes empiriques) et de matrice de covariances sigma2 (estimée par C avec 1/(n-1)). U est une estimation des vecteurs propres de sigma2, l(k) est une estimation de la valeur propre lambda(k) de C. Les méthodes de resampling (bootstrap ou jackknife) sont destinées à avoir une idée de la précision des estimations. Il est idiot de faire une ACP avec n<p puisqu'on veut estimer plus de paramètres qu'il y a de données.

3) le point de vue géométrique. Le tableau X0 contient les lignes (n points de Rp) et les colonnes (p points de Rn). Les lignes et les colonnes forment des nuages de points dans des espaces euclidiens dont on cherche les axes principaux qui donnent les plans principaux sur lesquels on projette les nuages pour les voir. n<p et p<n sont deux cas aussi valide l'un que l'autre.
Les contributions sont des statistiques descriptives qui permettent de savoir si les points projetés sont près des plans de projection ou si leur image vient "de loin" dans l'espace.Explications dans :
Lebart, L., Morineau, A. & Piron, M. (1995) Statistique exploratoire multidimensionnelle. Dunod, Paris. 1-439.
p. 56 contributions absolues en ACP
p. 95-96 formules explicites des contributions absolues et relatives en AFC
Rouanet, H. & Le Roux, B. (1993) Analyse des données multidimensionnelles. Dunod, paris. 1-310.
p. 143-144 formules explicites de toutes les contributions
Volle, M. (1981) Analyse des données. Economica, Paris. 1-181.
p. 89-90 et 118
Tenenhaus, M. (1994) Méthodes statistiques en gestion. Dunod, Paris. 1-373. p. 160,161, 166, 204
Greenacre, M. (1984) Theory and applications of correspondence analysis. Academic Press, London. 1-364. p. 67,69, 91
Lebart, L., Morineau, A. & Tabart, N. . (1977) Techniques de la description statistique, méthodes et logiciels pour la description des grands tableaux. Dunod, Paris. 1-351. p. 61, 62 et la version en anglais Lebart, L., Morineau, L. & Warwick, K.M. (1984) Multivariate descriptive analysis: correspondence and related techniques for large matrices. John Wiley and Sons, New York. 1-231.

Il y a d'autres points de vue qui justifie encore ce calcul de l'ACP et qui sont différents des deux cités.

4) La même difficulté est encore plus étendue en AFC (COA). Tout le monde est d'accord sur le calcul de base et ce calcul a plusieurs significations très différentes (vraiment très !).
        *** Dans Kendall, D.G. & Stuart, A. (1961) The advanced theory of statistics. Vol 2: Inference and relationships. Cha. 33 : Categorized data. Griffin, London. 536-591, l'AFC est une méthode d'estimation des centres des classes d'une statistique bivariée groupée
        *** Dans Fisher, R.A. (1940) The precision of discriminant functions. Annals of Eugenics : 10, 422-438, c'est une anlyse discriminante sur une variable qualitative
        *** Dans Williams, E.J. (1952) Use of scores for the analysis of association in contingency tables. Biometrika : 39, 274-289 c'est un descripteur de la corrélation de deux variables qualitatives
        *** Dans Ter Braak, C.J.F. (1985) Correspondence analysis of incidence and abundance data : properties in terms of a unimodal reponse model. Biometrics : 41, 859-873, c'est une méthode d'approximation des courbes de réponses sur les gradients
        *** Dans Benzecri, J.P. & Coll. (1973) L'analyse des données. II L'analyse des correspondances. Bordas, Paris. 1-620, c'est une approche géométrique de deux nuages de points avec les métrique du Khi2. Les contributions sont définies uniquement dans ce point de vue.
...

Une assertion peut être très vraie dans un point de vue et complètement stupide dans un autre. On peut faire utilement une AFC sur un tableau 5 lignes et 4 colonnes ou une AFC sur un tableau à 500 lignes et 400 colonnes. Evidemment il y a alors une seule procédure et deux idées pour s'en servir.

Ceci explique les opinions contradictoires. Quand on ajoute à cela les questions biologiques (nature des données et objectifs des analyses) c'est vite la confusion.

>On the other hand,I've been receiving contradictory opinions on which
>method (Correspondence analysis or Principal Components) are more
>informative for this kind of data (rows:populations, columns: allele
>frequency data). Could anybody be so generous to share with me the virtues
>and/or inconveniences of one and the other for these purposes?

L'ACP et l'AFC sont deux cousines qui ont des comportements voisins. Il faut poser le problème sur les tableaux individus-allèles découpés en bloc de lignes par populations. La différence entre ACP et AFC est alors peu de chose. En ACP deux individus qui ont deux allèles différents pour un même gène sont différents de la même manière que ces allèles soient fréquents ou rare. En AFC cette différence entre deux individus augmentent avec la rareté de ces allèles. Consulter Jerome GOUDET (Lausanne, Suisse) qui a des idées très sérieuses sur la question (jerome.goudet@izea.unil.ch)

Cordialement

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:02 MET