K-tableaux en gÈnÈtique

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon Sep 28 1998 - 16:28:23 MET DST


Alain Bellido et Olivier Raymond ont ouvert un débat du plus grand intérêt.
D'une certaine façon, en important dans ADE-4 les méthodes STATIS, AFM,
ACOM et ACG, c'est à peu près exactement à cette discussion que je voulais
arriver.

Dans la question des K-tableaux, il y a deux composantes, l'une
expérimentale, l'autre statistique qui rendent la confrontation assez
complexe. Le débat en cours en rend parfaitement compte.

Actuellement, dans les données écologiques, les K-tableaux sont
omniprésents et les méthodes pour les traîter quasiment absentes. En
statistique, c'est exactement l'inverse. La littérature sur les analyses
multi-tableaux est particulièrement sommaire sur la nécessité qui les
justifient.

La question posée en génétique sur les tableaux de fréquences alléliques
est symétrique du problème posé en écologie sur les tableaux de traits
biologiques. Faut-il considérer l'ensemble de l'information comme un
descriptif global (ensemble gènes/allèles pour une population, ensemble
traits-modalités pour une espèce, conception A) ou faut-il considérer des
sous-tableaux de un ou plusieurs gènes (de un ou plusieurs traits) comme
des composantes indépendantes de l'information (conception B) ? Dès qu'on
veut mélanger cette information à une autre (génotypique/phénotypique,
biologique/écologique) le choix préalable est vraiment important.

Les méthodes K-tableaux sont capables de répondre à cette question
préalable. Il faut bien comprendre que faire l'ACM floue d'un tableau de
fréquences alléliques ou de traits biologiques c'est décider directement
que la conception A est la bonne sans la justifier (il se peut que ce soit
effectivement la bonne mais on ne l'a pas prouvé). C'est aussi vrai si on
emploie une distance génétique (voir les messages d'Olivier Raymond pour
Eric laloum) : on affirme que tout le tableau définit de manière cohérente
une distance entre chaque population, alors qu'il se pourrait que plusieurs
sous-ensemble de gènes définissent plusieurs configurations très
différentes entre elles. La fiche Thema81 aborde cette question. Il existe
des tableaux de traits biologiques très cohérents dont une partie
essentielle est un descriptif de l'axe r-K et prendre tout le tableau est
adapté. Il existe des tableaux de traits écologiques très cohérents dont
une partie essentielle est un descriptif de l'axe lentique-lotique et
prendre tout le tableau est adapté. Il existe maintenant des tableaux de
traits biologiques très diversifié et pratiquement sans redondance dont
chaque composante (repiration, alimentation, reproduction, mobilité, ...)
définit une typologie originale et prendre les traits un par un dans un
K-tableau est justifié. Le module Canonical apporte des outils sérieux pour
examiner la question.

En bref, la question préalable relève des méthodes K-tableaux. Quelque soit
le résultat la seconde question formulée par Alain Bellido "existe-t-il un
moyen de traiter un tableau d'ACM (groupant plusieurs variables
qualitatives) comme un seul tableau dans une analyse K-tableaux ?" se pose
ensuite.

La réponse est oui et mérite des détails. La structure du logiciel permet
de construire un K-tableau à sa convenance.

Considérons, par exemple, qu'on veuille confronter deux tableaux d'ACM, un
tableau de variables floues, une ACP normée et une ACP doublement centrée.
On a alors 5 triplets A.cmta (MCA: Multiple Correspondence Analysis),
B.cmta, C.flta (MCA: Fuzzy Correspondence Analysis), D.cnta
(PCA: Correlation matrix PCA) et E.ccta (HTA: Double centring additive).
Faire attention dans chaque analyse de départ à ce que le poids total des
colonnes fasse 1 et que le poids des lignes soit toujours le même : c'est
pour cela que le module très standard PCA: Correlation matrix PCA permet
d'introduire un poids des variables de 1/p, ce qui n'est utile que dans de
rares cas comme ici. Même option de poids des colonnes 1/p dans HTA: Double
centring additive. MCA: Fuzzy Correspondence Analysis assure toujours une
pondération des colonnes non uniforme mais de somme totale 1 comme
MCA: Multiple Correspondence Analysis.

1) Assembler les cinq tableaux en un seul X (FilesUtil: PasteFiles-SameRow)
2) Transposer X en Y (FilesUtil: Transpose) : les lignes du K-tableaux sont
les colonnes de chaque tableau
3) Faire l'indicateur de bloc IB (en binaire sur une colonne na, nb, nc, nd
et ne les nombres de colonnes de chacune des composantes)
4) Initialiser une structure de K-tableaux (KTabUtil: InitKTab avec le
tableau Y et l'indicateur des blocs de lignes IB). Titre de sortie Z. On
obtient Z.ktp et les utilitaires associés.
5) Assempler les cinq pondérations des colonnes des analyses de départ
A.cmpc, B.flpc, C.flpc, D.cnpc, E.ccpc dans un seul fichier Provi
unicolonne (FilesUtil: PasteFiles-SameCol)
6) Centrer le K-tableau pour associer toute l'information avec l'option
KTabUtil: CentringKtab et les choix
        1) ---.ktp input file : Z.ktp
        2) Matrix input file : Y
        3) Row weight : Provi
        4) Column weight : un des cinq fichiers tous identiques A.cmpl,
B.flpl, C.flpl, D.cnpl, E.ccpl
        5) Centring option : 5 = no centring
        6) Output file name A
7) Vérifier que A.ktta contient exactement les cinq tableaux --.##ta de
départ, que A.ktpl contient exactement les cinq pondérations des colonnes
de départ, que A.ktpc contient la pondération unique des lignes de départ
et que KTA-MFA: Separate analyses refait les 5 analyses de départ d'un seul
coup.

Une alternative globale consiste à faire une analyse canonique généralisée
(Canonical: Generalized Canonical Analysis) sur les coordonnées
interprétées des cinq analyses (2 ou 3 par tableaux) assemblées dans un
seul tableau. ACOM, AFM et STATIS sont alors disponibles.

Si la question se pose à plusieurs utilisateurs je pourrai écrire une
option qui automatise la procédure. Le débat mérite d'être suivi.

Cordialement

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:02 MET