Re: PLS2-gen

From: Daniel Chessel (chessel@biomserv.univ-lyon1.fr)
Date: Sat Feb 28 1998 - 09:56:25 MET


Bonjour,

Les intéressantes questions de Eric Laloum peuvent être abordées au plan
technique et au plan conceptuel. Techniquement :

1) le nombre de facteurs est bridé à 4 artificiellement et on peut
recompiler une version étendue à 8 comme c'était le cas de la version
initiale écrite par Luc Monimeau. Aucun exemple n'avait affiché 4 facteurs
significatifs et c'est pourquoi on avait réduit le temps de calcul.

2) le reprise d'une PLS2 sur les résidus n'est pas possible. En effet si on
cherche à chaque pas à régresser le tableau des expliquées donc des résidus
(au pas 5 on reprend bien les résidus de la prédiction des 4 premiers) la
prédiction se fait avec un régresseur qui dépend lui aussi de ce qui
précède et au pas 5 on reprend un prédicteur qui est orthogonal aux 4
précédents. Il faudrait donc repartir avec un tableau des explicatives
fortement modifié.

Sur le fond :

L'utilisation préliminaire d'ACP réduisant les données interagit fortement
avec la régression elle-même. Cette interaction est compliquée par la
double ACP et le fait qu'elles soient non centrées. La PLS est écrite avec
une normalisation automatique des donées X et Y qui mélange donc le
centrage multiplication implicite de l'ACP non centrée et le centrage
additif imposé d'entrée dans la PLS.

Ce qui peut intéresser tout le monde : la version élémentaire de la PLS est
la régression (MLR) sur composantes (PCR). On fait l'ACP normée de X et on
régresse y sur les coordonnées de l'ACP de X. La version équivalente de la
PLS2 est l'ACPVI sur le sous-espace engendré par les premières composantes
principales de X. La MLR de y sur les composantes principales normées de X
(sur le .cnl1 issu de DDUtil : Add normed scores) est strictement identique
à la PLS de y sur les mêmes composantes principales normées de X.

Ce qui caractérise le problème de Eric Laloum : les données sont des
combinaisons linéaires de profils élémentaires inconnus.

                A = P.R + E
                B = P.I + F

A 309-390, P 309-7, R 7-390, E=erreur 309-390
B 309-416, P 309-7, R 7-416, F=erreur 309-416
Contraintes P.1[7]=1[309] P[i][j]„0

Chaque ligne de A dans R390 est le centre de gravité d'une distribution de
poids sur 7 points de R390 et les problèmes de centrage sont très
importants. Mélanger les options un peu au hasard ne me semble pas une
solution bien assurée. En tout cas, il y a une contradiction forte entre
les qualités intrinsèques de ces données et les programmes standards. Il
vaudrait mieux consulter un spécialiste.

Cordialement

>J'utilise PLS-2gen pour prédire des données spectrales (IR) à partir
>d'autres données spectrales (Raman). J'ai deux tableaux A(309-390) et
>B(309-416) contenant mes spectres effectues sur les meme 309 echantillons ;
>les spectres IR etant numerises sur 416 points et les spectres Raman sur
>416. Ces deux tableaux sont fortement lies car les spectre IR et Raman
>obeissent a un modele lineaire :
>spectre d'un melange = Combinaison lineaire des spectres des corps purs
>(les coefficients des combinaisons correspondant aux proportions des corps
>purs dans les echantillons analyses).
>Comme ces tableaux sont un peu gros et que les spectres sont bruites, je les
>auto-modelise d'abord par une ACP non centree en gardant 20 facteurs pour
>chacun (c'est plus qu'il n'en faut mais cela ne change rien au probleme).
>Je cherche donc a predire le tableau B.ncli (309-20) par le tableau A.ncli
>(309-20). Le probleme est que PLS-2gen n'utilise au maximum que 4 facteurs
>or la structure sous-jacente commune à mes deux tableaux est au moins de 7
>(nombre de corps purs presents dans les melanges analyses). Les resultats
>obtenus sont corrects mais pas fameux et c'est la que viennent mes deux
>questions (apres cette introduction un peu lourde) :
>1. Y a t-il moyen d'augmenter le nb de facteurs de PLS2gen ?
>2. Est-ce qu'il est numeriquement reccomandable de refaire une PLS2gen sur
>le tableau des residus pour predire davantage et d'additionner les resultats ?
>
>Merci

Daniel Chessel
----------------------------------------------------------------
Universite Lyon 1 - Bat 401C - 69622 Villeurbanne CEDEX - France
Tel : 04 72 44 82 77 Fax : 04 72 43 11 41
----------------------------------------------------------------



This archive was generated by hypermail 2b30 : Sat Feb 10 2001 - 10:21:51 MET