Re: AFM sur tableaux mixtes qualitatifs/quantitatifs

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Mon Mar 09 1998 - 16:38:19 MET


La question d'Olivier Raymond permet de rappeler que l'AFM est une approche
de données sur les mêmes individus dont les variables forment des paquets
cohérents. Dans les travaux d'Escofier et Pagès, il est bon de distinguer
ce qui concerne le champ théorique et ce qui concerne le champ de
l'utilisation.

La première remarque est purement théorique. L'AFM est une des
généralisation de l'ACM quand on considère qu'un paquet de variables est
formé des indicatrices des classes d'une variable qualitative. C'est
évidemment un cas d'école et un débat du type maths. Du point de vue des
maths on dit que
1) l'analyse canonique généralisée est un cas particulier de l'analyse
discriminante (Casin, Ph. & Turlot, J.C. (1986) Une présentation de
l'analyse canonique généralisée dans l'espace des individus. Revue de
Statistique Appliquée : XXXV, 3, 65-75.)
2) l'analyse canonique discriminante est un cas particulier de l'analyse
canonique simple.
On pourrait en conclure que l'analyse canonique généralisée est un cas
particulier de l'analyse canonique simple (glups!) mais ceci est un
paradoxe apparent qui se comprend dans la théorie et n'a pas de sens
pratique.

La deuxième remarque est au contraire très pratique et généralise la
dernière question de Slim Masmoudi. Dans l'AFM on optimise la somme
pondérée des inerties projetées des nuages de variables. S'il y a un gros
tableau et des petits la direction retenue préfèrera n'utiliser que le gros
plutôt qu'un compromis avec les petits. C'est ce qui se passe dans une ACP
centrée avec une variable à très forte variance mélangée avec des autres à
faibles variances. La composante principale sera plutôt la grosse variable
qu'un compromis avec les petites. On normalise pour éviter cette chose (on
pondère par l'inverse des écarts-types, il se peut alors qu'on écrase alors
trop la grosse au profits des très petites qui n'en méritent pas tant).
D'où la nécessité de pondérer. On a effectivement le choix entre 1, 1/It et
1/lambda1. Je n'ai exclu aucun des cas à cause de la plasticité des
problèmes écologiques. Il doit y avoir des cas où chacun des cas s'impose,
d'autres où ils sont équivalents et d'autres, enfin, où on ne sait pas.
Exclure l'un d'entre eux reviendrait à forcer tout le monde à faire une ACP
normée par exemple, ce qui est indéfendable. La première chose à faire est
de dépouiller les analyses séparées et comparer leurs inerties totales et
leurs structures (ce qui n'a pas de sens dans le cas particulier théorique
cité plus haut). Si on a mélangé des tableaux à fortes structures et à
faibles structures 1/It favorise les premiers, 1/lambda favorise les
seconds. Quand on mélange des variables on mélange des variances : on peut
laisser faire (centrée) ou réduire à la même échelle de variabilité
(normée). Quand on mélange des tableaux on mélange des inerties en valeurs
mais aussi en mode de concentration dans les valeurs propres. On peut
laisser faire (poids 1), mettre les inerties à 1 (poids 1/It), mettre les
premieres valeurs propres à 1 (poids 1/lambda).

Seules des expériences nouvelles permettront de se faire une idée. Pour ces
méthodes encore peu utilisées, des fiches thématiques à mettre sur le forum
sont bienvenues.

La dernière question est encore plus générale. Il se peut qu'on mélange des
qualitatives et des quantitatives, chaque variable comptant pour 1.
Utiliser alors MCA : Hill & Smith Analysis, qui est une sorte d'AFM avec
une variable par groupe mais pas de représentations par variables. Il se
peut qu'on mélange des tableaux entiers de quantitatives, de qualitatives,
voire des tableaux entiers mixtes. Ne pas confondre le problème des
mélanges de type avec celui du mélange des tableaux. A la limite on
pourrait mélanger dans une AFM plusieurs analyse du type Hill & Smith,
chacune mélangeant des ACP et des ACM (ceux qui ont mal à la tête jettent
le message) ! Les cas particuliers sont en nombre indéterminé. Il faut
alors construire ses propres aides à l'interprétation et cela suppose
presque de l'innovation en statistique. Il est vrai que globalement l'AFM
est la seule à proposer de représenter chaque point lignes par autant de
points qu'il y a de tableaux dans une logique d'inter-classes individus
(séparer les paquets de représentations multiples de chaque point). Mais le
retour de la représentation des modalités des qualitatives comme
barycentres n'est plus assurée car on n'a pas cherché à séparer les
modalités des qualitatives mais les représentations multiples des points.
Cela n'empèche pas de se servir de cette technique (ScatterClass : Stars)
pour essayer de comprendre comment c'est fait. Ces questions sont très
ouvertes.

Cordialement

>Escofier et Pagès montrent qu'il est équivalent de réaliser une ACM sur un
>tableau de variables qualitatives et une AFM sur le tableau disjonctif
>complet, si l'on applique à chaque modalité le poids (I-Ik)/I. Un groupe
>est alors constitué par l'ensemble des indicatrices correspondant à une
>variable.
>Cela autorise le traitement par AFM d'un tableau combinant des groupes de
>variables qualitatives et des groupes de variables quantitatives.
>Toutefois, la surpondération proposée par Escofier et Pagès (1/lambda1 de
>chaque analyse) ne me paraît pas convenir : en effet, cela conduit à ne pas
>modifier les pondérations des modalités des variables qualitatives alors
>que celles des variables quantitatives sont changées. Des variables
>qualitatives possédant un grand nombre de modalités se voient ainsi
>accorder un poids important, tandis que certains tableaux quantitatifs de
>faible dimension se voient accorder un faible poids.
>Il est alors peut être préférable de surpondérer les variables de chaque
>groupes par l'inverse de l'inertie totale. Pourtant, les auteurs de l'AFM
>déconseillent cette pratique, alors qu'elle est autorisée par ADE-4 ?
>Quelles sont les précautions à prendre et les différences par rapport à
>l'AFM avec la surpondération classique ?
>
>D'autre part, lorsque l'AFM concerne un tel tableau mixte, les
>représentations simultanées des individus pour les groupes de variables
>qualitatives coincident-elles avec les représentations sur le plan du
>compromis des modalités placées aux barycentres des individus qui les
>possèdent (à une homothétie près) ?

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:52 MET