Noms_de_fichiers

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon Jul 06 1998 - 12:01:04 MET DST


Bonjour,

Marc Déconchat fait la liste des fichiers sortant des modules CCA: CCA et CoInertia: Coinertia analysis. Les questions qui s'en suivent sont caractéristiques du débat méthode-programme-usage et méritent quelques précisions.

Toutes les méthodes implantées dans ADE-4 sont euclidiennes (basées sur l'algèbre linéaire en dimension finie) et à ce titre ont des éléments en commun. D'un certain point de vue elles sont comparables, soit du point de vue du fond, soit du point de vue de l'usage. L'illustration de ce fait est intéressante dans le couple Coinertia-CCA. Du point de vue de l'usage elle se ressemble assez, avec des contraintes différentes, mais cela concerne un point de vue d'utilisation.

Du point de vue du fond, elles se ressemblent aussi, mais cela vient du fait qu'on trouve dans les deux un triplet statistique qui subit une une analyse standard et c'est pourquoi on a :

d'une part :
>ivta :projected variable file
>ivpc :columns weights
>ivpl :rows weights
>ivvp :eigen value and inertia
>ivco column scores (dependant variables) with lambda norm Taxon
>ivli predicted row scores (dependant variables after projection) Releves

d'autre part :
>iita :crossed table YtDnx
>iipc weight of each column
>iipl weight of each row
>iivp eigen value and inertia
>iico colums scores milieu
>iili row scores taxon

Un ensemble ta (tableau), pc (poids des colonnes), pl (poids des lignes), vp (valeurs propres), li (coordonnées des lignes et co (coordonnées des colonnes) désigne un triplet statistique (ou schéma de dualité) diagonalisé. L'intérêt est que
DDUtil: Rows/Inertia analysis
DDUtil: Columns/Inertia analysis
DDUtil: Columns/Inertia analysis
DDUtil: Residuals
DDUtil: Column projections
DDUtil: Row projections
Distances: Triplet To Distance
...
sont des fonctions disponibles sur ce produit.

La définition de ces deux triplets centraux sont par contre fondamentalement différentes puisque le premier est du type
(PX(Y),Dq,Dn)
tableau Y estimé par régression sur X
poids des colonnes de Y
poids des lignes de X ou Y

et le second du type (YtDnX, Dp, Dq)
tableau croisé
poids des colonnes de X
poids des colonnes de Y

Les noms sont définis par le statut théorique des objets et non par le statut expérimental. C'est un très ancien problème qui a fait couler beaucoup d'encre. Si on change le noms des objets, on ne change pas leur statut. Par exemple un généticien qui a un tableau dont les lignes sont des échantillons de populations et les colonnes des loci et des allèles peut utiliser la même méthode qu'un écologue dont les lignes sont des espèces et les colonnes des modalités et des traits biologiques. Le programme (MCA: Fuzzy Correspondence Analysis) est écrit pour les deux avec des lignes des colonnes et des blocs. Des objets différents ont le même statut théorique alors que dans le cas CCA-coinertia les mêmes objets peuvent avoir des statuts différents.

La mémorisation se rapporte à la position théorique et jamais à la position expérimentale parce que le degré de généralité est du côté mathématique.

fa comme dans ivfa désigne des poids de variables donnant des combinaisons linéaires de variance 1 comme en analyse discriminante (difa).
l1 ou c1 comme dans ivl1/ivc1 se rapporte à la normalisation des co ou li comme dans DDUtil: Add normed scores.
ls (ligne supplémentaires) se rapporte à un li quand on projette sur le même axe des objets supplémentaires. C'est assez bizarre dans Discrimin: Between analysis/Run ou beli sont les centres des classes (le triplet central est celui du tableau des centres de gravité) et bels sont les lignes des tableaux (projeté sur les axes définis par les centres). Ici ivls est la position du point de départ sur les axes qui ont donné ivli (le triplet central contient le tableau estimé et le tableau initial donne des lignes supplémentaires).

Une difficulté est survenue quand on utilise l1 et l2 pour deux tableaux (iil1 et iil2) alors que on utilise l1 (ivl1 associé à ivli par la règle précédente). J'ai pensé que les couples l1-l2, m1-m2 et a1-a2 permettait de faire la différence.

En bref, un nom de fichier se comprend toujours par sa position théorique. C'est une difficulté réelle qui a un avantage certain que Marc est le premier à utiliser en se disant "Je vais realiser une analyse de co-inertie avec comme fichier d'entree le
resultat de NSCA_row_profil". Il est le premier à utiliser une co-inertie avec une AFC non symétrique. La doc de Coinertia (p. 30) dit qu'il y a plus de 200 combinaisons possibles et la plupart d'entre elles n'ont jamais été décrites. Donc, c'est plus pénible mais ça a des avantages. Quand on fait cela, la responsabilité du programmeur est-elle engagée ?

C'est une question assez délicate.
On peut dire oui puisque c'est disponible. La question est que ADE-4 est programmé pour faire de la recherche et qu'en plus c'est diffusé parce que c'est utile. C'est la partie graphique qui justifie cette attitude. On suppose que l'usage d'un jeu de paramètres original impose l'examen théorique de ce qui se passe alors qu'on observe que le programme devient un objet d'expérimentation ce qui n'est pas prévu.

On peut dire non puisque l'expérimentation sur un programme est un mode d'usage indépendant de l'objectif initial. L'assertion "La Co-inertie me donne alors un message d'erreur (poids inegaux) dont je ne comprend pas la raison fondamentale" montre que certaines contraintes sont quand même en place. Fondamentalement le couplage (X,Dp,Dn) et (Y,q,Dn) suppose la même pondération des lignes des deux tableaux.

Un COA: NSCA_Row_Profiles donne des poids des lignes par la pondération marginale du tableau et un COA: NSCA_Col_Profiles donne des poids des lignes tous égaux à 1. Ces deux analyses ne peuvent pas être utilisées dans un même couplage car l'une des deux sera forcément incompatible avec la pondération du tableau en face.

Dernier point pour aujourd'hui :

le programme donne la totalité des produits standards disponible mais en général ils ne sont pas tous utiles dans chaque cas. Il n'est donc pas génant de laisser de côté un paquet de fichiers de sortie dont on ne sait que faire.
Ce qui est le plus important c'est qu'une figure a une fonction et un caractère optimal qu'il faut identifier. C'est toujours une fonction mathématique qui prend une signification concrète qui varie d'un cas à l'autre.

Que la vie est dure ...

>J'utilise actuellement les analyses de co-inertie et j'ai quelques
>questions.
>Si j'ai bien compris, l'analyse de co-inertie est "voisine" de la CCA, sauf
>que ce ne sont pas les memes parametres qui sont maximises (correlation
>dans l'un, covariance dans l'autre) et qu'il n'y a pas d'ordre d'entree des
>tableaux dans la co-inertie, alors que ce n'est pas le cas avec CCA.
>J'ai mis un certain temps a comprendre que l'ordre de saisie des fichiers
>dans la co-inertie est sans effet sur l'ordre de notation dans les fichiers
>de sortie, puisque le tableau le plus petit est toujours mis en premier, ce
>qui fait qu'en saisissant les fichiers dans l'ordre taxon puis milieu (de
>facon comparable a CCA), j'obtiens des resultats dans l'ordre inverse
>puisque ma table milieu est plus petite.
>Il me semble que les fichiers de sortie sont "similaires" dans leur contenu
>entre les 2 analyses, mais il est difficile d'utiliser les suffixes comme
>moyen de memoriser les elements similaires. La liste des suffixes est la
>suivante:
>
>CCA:
>ivta :projected variable file
>ivpc :columns weights
>ivpl :rows weights
>ivvp :eigen value and inertia
>ivfa :weights coef of lin. comb. of explanatory variable with unit
>norm Milieu
>ivl1 canonical row scores linear combination of explanatory variable with
>unit norm releves
>ivco column scores (dependant variables) with lambda norm Taxon
>ivc1 column scores (dependant variables) with unit norm Taxon
>ivls row scores (dependant variables before projection) releves
>ivli predicted row scores (dependant variables after projection) Releves
>
>Co-inertie:
>iita :crossed table YtDnx
>iipc weight of each column
>iipl weight of each row
>iivp eigen value and inertia
>iico colums scores milieu
>iili row scores taxon
>iiw1 canonical weights of variables of table 1 milieu
>iiw2 idem table 2 taxon
>iil1 coordinates of the rows (table1) releves
>iil2 coordinates of the rows (table2) releves
>iim1 normalized coordinates (table1) releves
>iim2 normalized coordinates (table2) releves
>iia1 coordinates of the projections of inertia axes onto co-inertia axes
>(table1)
>iia2 idem table2
>
>Apparement, des suffixes similaires (xxli par exemple) ne designent pas des
>elements similaires, dans la VI, ce sont les coordonnees des releves, dans
>la co-inertie, ce sont les coordonnees des varaibles du tableau le plus
>grand (taxon dans l'exemple).
>
>Dans l'AFCVI, ivfa, ivl1 et ivco "allow a convenient interpretation", il me
>semble que dans la co-inertie, les 3 fichiers similaires sont: iiw1, iim2
>et iiw2 (a moins que ce ne soit iico, iim2 et iili ?), le groupe iiw1,
>iim2,iiw2 permettant une interpretation differente, du point de vue des
>variables de milieu. Est-ce bien le cas ou n'y a t-il aucune similarite
>entre les analyses?
>
>Le graphique associant iim1 et iim2 semble important pour l'interpretation,
>mais comment l'interpreter? Est-ce que plus les fleches sont courtes, plus
>les 2 tableaux ont une structure similaire?
>
>J'ai realise une analyse de co-inertie avec comme fichier d'entree le
>resultatde NSCA_row_profil, avec des resultats interessants. Par
>"curiosite", j'ai tente la meme analyse avec NSCA_Col_profil, en prenant
>soin de faire l'ACP avec les poids de cette analyse. La Co-inertie me donne
>alors un message d'erreur (poids inegaux) dont je ne comprend pas la raison
>fondamentale.
>
>La co-inertie donne deux point de vue sur les donnees, selon les taxons ou
>selon les variables de milieu (iim1 ou iim2). Mon objectif est plutot de
>chercher des relations du type taxon=f(milieu), pour predire une diversite
>en fonction de choix forestiers. Il me semble donc que mon interpretation
>doit surtout se porter sur l'espace des especes (iil2 ou iim2).
>
>
>J'ai remarque que la qualite des graphiques changeait avec les bornes des
>axes. Ainsi, j'ai eu la surprise de voir un vecteur de correlation sortir
>du cercle unite avec des bornes 1,-1,1,-1, y entrer avec les bornes 1,5;
>-1,5; 1,5; -1,5 et etre en bordure avec des bornes 1,5; -1; 1,5; -1. Si ces
>variations de positionnement sont sans consequence pour la majorite des
>graphiques factoriels de scatters, c'est un peu genant avec les vecteurs de
>correlation.
>
>Bonne journee (sans foot) a tous.
>
>Marc Deconchat INRA-URSAD/SEBSO BP 27 F-31320 Castanet
>Tel:+ 33 (0) 5 61 28 52 55 Fax: +33 (0) 5 61 73 20 77
>Email: deconcha@telesad.toulouse.inra.fr

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:59 MET