Bayesian Sparse Factor Regression Trees (original) (raw)
In this thesis, we focus on sparse principal component analysis (PCA) and nonlinear re- gression problems. We investigate several sparse PCA models and nonlinear regression techniques. We also explore the advantages of applying them sequentially and training them as an integral unit. First, we experiment with three sparse PCA models, which are optimal sparse PCA algorithms (OSPCA), Generalized Power algorithms (GP) and doubly sparse PCA algo- rithm (DSPCA). All the algorithms are compared using information loss and explained variance metrics, and we investigate their performance with both artificial and real data sets. OSPCA has the best control of the sparsity. GP and DSPCA both perform well on the synthetic and real data sets. The sparse factors identified by DSPCA have for the real datasets are the most interpretable. Second, we report the results of experiments designed to test the performance of several nonlinear regression models (Bayesian additive regression trees (BART), random forests, neural networks, Extreme Gradient Boosting) in different scenarios with artificial and real data sets. When the number of predictors is smaller than that of data examples, no model outperforms the others consistently. However, when the data dimension increases, especially when the number of predictors exceeds that of data examples, the ensemble tree models, BART and random forest, are still able to handle the regression problem, whereas neural networks no longer provide a reasonable fit to the data because of the rapid increase in the number of model parameters and a lack of data. Finally, we investigate whether the prediction task can benefit from first applying sparse PCA to data to identify underlying sparse factor patterns and then applying the regression algorithms using the sparse representation of the data. We observe performance improve- ment for synthetic data. We also modified the inference algorithms of Bayesian DSPCA and BART to train these two models as an integral unit, so that prediction performance can inform the sparse PCA algorithms, guiding them to construct better representations of the data. i  Sommaire Cette th`ese se concentre sur des probl`emes danalyses en composantes principales (ACP) incompl`etes et de r ́egression non lin ́eaire. Nous ́etudions plusieurs mod`eles dans ces deux cat ́egories. De plus, nous explorons les avantages dappliquer ces deux techniques s ́equentiellement et de les entraner comme une unit ́e int ́egrale. Premi`erement, nous avons choisi trois mod`eles dACP incompl`etes, ceux sont les al- gorithmes dACP incompl`etes optimales (ACPIO), les algorithmes de puissance g ́en ́erale (PG) et les algorithmes dACP doublement incompl`etes (ACPDI). Les algorithmes dans notre ́etude sont compar ́es en utilisant la perte dinformation et la variance expliqu ́ee. Ces algorithmes sont test ́es avec des donn ́ees synth ́etiques et r ́eelles. Nous avons d ́ecouvert que les algorithmes ACPIO ont le meilleur controˆle sur lincompl ́etude. De plus, PG et ACPDI ont des bons r ́esultats sur les bases de donn ́ees synth ́etiques et r ́eelles. Les facteurs incomplets identifi ́e par ACPDI pour les bases de donn ́ees r ́eelles sont les plus interpr ́etable. Deuxi`emement, nous rapportons les r ́esultats des tests de performance de quelques mod`eles de r ́egressions non lin ́eaire (arbres de r ́egression additive bay ́esienne (ARAB), forˆet darbres d ́ecisionnels, r ́eseau neuronal, amplification de gradient extrˆeme) dans diff ́erents cadres et avec des bases de donn ́ees synth ́etiques et r ́eelles. Quand le nombre de pr ́edicteurs est plus petit que le nombre dexemple dans la base de donn ́ees, aucune m ́ethode est toujours plus performante. Par contre, quand la dimensionnalit ́e augmente, pr ́ecis ́ement quand le nombres de pr ́edicteur exc`ede le nombre de donn ́ees, les algorithmes darbres de d ́ecisions, ARAB et forˆet darbres d ́ecisionnels performent mieux que les autres. Ceci est caus ́e par laugmentation rapide du nombre de param`etres `e adapt ́e au mod`ele et le manque de donn ́ees disponibles. Finalement, nous enquˆetons le b ́en ́efice davoir premi`erement appliqu ́e une m ́ethode dACP incompl`etes et puis dappliquer un algorithme de r ́egression s ́equentiellement. Nous avons observ ́e une hausse de performance pour les donn ́ees synth ́etiques. Nous avons modifi ́e les algorithmes dACP doublement incompl`etes et darbres de r ́egression additive bay ́esienne (ARAB) pour que la performance des pr ́edictions puisse guider la repr ́esentation ACP incompl`ete. Ceci peut mener a de meilleures repr ́esentations des donn ́ees et de pr ́edictions plus pr ́ecisent.