Re: ACP-VI

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Fri Dec 18 1998 - 09:46:57 MET


La question de Thierry Belouard permet de réfléchir sur la notion de redondance.

Il y a une redondance purement artefactuelle pour les variables qualitatives et les variables floues. Si une variable qualitative a m modalités, on la transforme en m variables quantitatives (les indicatrices des classes 1 dans la classe et 0 ailleurs, il s'agit des tableaux disjonctifs complets). Après centrage ces m variables quantitatives sont globalement liées (leur somme est nulle). Ceci génère des difficultés techniques que les programmes gère au mieux. C'est pourquoi, dans une ACM on a v-1 valeurs propres nulles, dans les sous-espaces de projections on perd des dimensions, que le khi2 est à (I-1)(J-1) ddl, etc

Il y a une redondance propre aux données qui est de nature très différente et qui fait que les variables sont correlées. De ce point de vue une ACP normée ou une ACM est la mise en évidence de la redondance entre les variables, qui disent en partie la même chose. C'est pourquoi ce qui se dit sur la sélection des facteurs est souvent un tissu d'âneries. Si le premier facteur d'une ACP dit que le calcium, le magnesium, la conductivité, ... sont corrélées, ça n'a pas grand intérêt. ça fait une belle valeur propre et peu d'information. Si le troisième facteur dit que l'oxygène n'est lié à aucune des autres variables, ça fait une valeur propre inférieure à 1, que de bonnes âmes disent de mettre à la poubelle alors que c'est un renseignement biologique essentiel (recommandé la plaisanterie de Ramsey, F.L. (1986) A fable of PCA. The American Statistician : 40, 4, 323-324)

De manière très générale la redondance dans les variables explicatives est une calamité incontournable.

Il faut savoir que l'ACPVI est également appelée analyse des redondances :

Wollenberg, A.L. (1977) Redundancy analysis, an alternative for canonical analysis. Psychometrika : 42, 2, 207-219.
Israels, A.Z. (1984) Redundancy analysis for qualitative variables. Psychometrika : 49, 661-346.
Johansson, J.K. (1981) An extension of Wollenberg's redundancy analysis. Psychometrika : 46, 93-103.
Muller, K.E. (1981) Relationships between redundancy analysis, canonical correlation, and multivariate regression. Psychometrika : 46, 139-142.
Cf Ter Braak, C.J.F. (1987) CANOCO - a FORTRAN program for Canonical commnity ordination by [partial][detrended][canonical] correspondence analysis and redundancy analysis.
...

Quand il y a deux tableaux, X explicatives et Y expliquées, il y a deux possibilité pour la redondance. DANS X, MOINS IL Y EN A MIEUX CA VAUT. Si elle est artefactuelle, elle sera éliminée par nécessité mathématique (toute la théorie des contrastes en analyse de variances a cette source). Si elle est expérimentale, elle génère de l'instabilité numérique, des combinaisons ininterprétables, un wagon d'ennuis divers et il vaut mieux préparer son élimination avent toute chose (régression sur composantes, base orthonormée de sous-espace, ...). La redondance ne se cherche que dans Y et plus précisemment dans les modèles des variables de Y modélisées par X. L'ACPVI est la recherche de la part de redondance entre variables de Y due à l'influence commune des explicatives (c'est pourquoi ter Braak a mis l'ACPVI avec la CCA : si on cherche une combinaison de variables qui augmentent simulatanément l'abondance de toutes les espèces, on fait de l'ACPVI, si on cherche une combinaison de variables qui sépare au mieux les p
ositions moyennes des espèces on fait une CCA). Remarque Niche: OMI Analysis fait les deux en fonction des données mais c'est une autre histoire.

Donc vouloir garder "de force" la redondance artefactuelle des explicatives est impossible. C'est comme demander de faire de l'AFC avec des valeurs négatives. Les méthodes de base décrivent la redondance et sont faites pour ça. On peut s'en servir pour la voir ou pour s'en débarasser. C'est selon les objectifs de chacun. Dans les explicatives moins on en garde mieux ça vaut. Dans les expliquées c'est pareil. On peut chercher à mettre en évidence la source commune dans les explicatives (Projectors: PCA on Instrumental Variables) ou au contraire s'en débarasser pour chercher la redondance qui reste au delà de cette source commune (Projectors: Orthogonal PCAIV).

Comme quoi, le client est roi
Cordialement

>Je souhaite expliquer des variables quantitatives a l'aide de variables
>qualitatives. J'ai donc entrepris de realiser une ACP-VI ou j'utilise le
>tableau des indicatrices des modalites de mes variables qualitatives (sauf
>erreur de ma part, il s'agit du tableau de Burt). Bien sur ce tableau
>comporte des redondances, notamment la derniere indicatrice de chaque
>variable qualitative. Si j'ai bien compris, le module ACP-VI d'Ade4
>supprime les variables redondantes apres avoir cree une base orthonormee de
>l'espace des variables explicatives. Aussi, voici mes questions :
>1 : puis-je tout de meme effectuer une ACP-VI en conservant toutes les
>variables y compris les variables redondantes ? En effet, il se peut que ce
>soit les variables redondantes qui soient les plus explicatives.
>2 : existe-t-il une methode qui permette de deceler des variables
>qualitatives ou les modalites de ces variables qui sont redondantes
>c'est-a-dire une sorte d' " analayse de redondance " ?
>
>D'avance merci.
>
>Thierry Belouard
>Inventaire forestier national
>Cellule Evaluation de la Ressource
>Place des Arcades - BP 1001
>34971 Lattes cedex

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:22:04 MET